中國有 6000 萬人名字裡有生僻字,數字化時代的便利,卻是他們的噩夢。
作者 | 李曉蕾編輯| 鄭玄
貝貝調侃自己是一個「生僻字患者」。她的名字左邊一個王,右邊一個瑩,意為「光潔像玉的石頭」。在數字世界,這卻是一個無法被計算機語言識別的生僻字,常常被顯示為一個問號或者白色方塊「⿰」,有時只能改用拼音「yíng」。
麻煩從未停止過。在買一根大蔥都能掃碼支付的時代,名字有生僻字的她,無法完成實名認證,是一個被線上支付隔絕在外的人。微信搶紅包的熱鬧,支付寶、微信支付的便捷,在 2022 年 1 月 28 日之前,她都未曾體驗過。
這樣的權利是通過反覆多次,長時間地溝通才重新找回的。貝貝一邊找支付寶、微信客服反饋,一邊找人民銀行監管投訴尋找解決方案。最後通過綁定 3 個賬戶姓名一致銀行卡的辦法,才終於「變成了正常人」。
她把經歷發在社群網路,2 年裡,陸陸續續有相似經歷的人和她互動。有相同困擾的人不在少數,據統計,名字中有生僻字的人大概有 6000 萬。背後的原因是:在電子設備上可以無障礙使用的常用漢字大概在 3 萬左右,也意味著,有超過 70% 的漢字被排除在數字世界之外。
這些生僻字往往暗藏著最初起名時,對人希望的寄託。被最多人提到的「由頁」是美好,「華韋」是光亮,龑意為「飛龍在天」。但在數字化越是深入的地方,這些寓意美好的生僻字帶來的困擾就會越多。
從出生前在醫院建檔案,到上戶口,辦理身份證,銀行卡,醫院掛號,再到保研時資訊錄入學信網、玩遊戲時的實名認證、乘飛機線上選座……有一個有生僻名的名字,生活中的困難幾乎會伴隨一生。一些人被迫改名、換姓。
在數字化時代,生僻字困擾的不止是人,還有地。有生僻字的地名,因為無法正常輸入、顯示而徹底消失在電子地圖上。山東省濰坊市奎文區,在元明更替之際就已經存在的「貝亅 (zhī)」爾莊,就因為生僻字問題,兩度更名,一開始叫則爾莊,後又在 2019 年更名為芝爾莊。存在 600 餘年的「貝亅」就這樣消失了。
中國從 1974 年,開始源源不斷地幫助漢字「上網」,最先在計算機語言中通行的,是只有 26 個字母的英文,但漢字是表意文字,只有將字、形狀、編碼,三者一一對應,一個漢字才可能出現在數字世界。當編碼或者字形不被系統所支持時,就成了數字世界的「門外漢」,被歸類為生僻字。
除了讓漢字有統一的編碼之外,它仰賴輸入法、手機廠商、APP 製造商的一套完整且成規模化的體系。生僻字帶來的問題,很難依靠市場的商業選擇而解決,「很少人會為了輸入或者顯示輸入法而買單」。
50 年時間過去,變化正在發生。越來越多漢字擁有了數字世界的「身份證」,2022 年 7 月 19 日,國家市場監管總局批准發佈《資訊技術中文編碼字符集》(GB 18030-2022 國標),收錄的漢字已經達到 88115 萬個。這其中,最重要的更新就是收錄了公安人口資訊專用字型檔新增的 614 個漢字。
今年 8 月開始,這將會作為強制性國家標準,政府服務和公共服務的資訊產品都必須執行這一標準。而在這之前,這是一個很難衡量得失的產品改進,在做任何選擇都要更考慮投入產出比的今天,一群人正在努力拉回這些被落下的名字。
01
一個名字帶來的難題
雲南麗江永勝縣的一個傈僳族村子裡,一群姓「鴨」的人最懂得生僻字為生活帶來的苦楚。
在更換第二代身份證時,原本姓「nia」,字為「上鳥下甲」姓的村民們,集體將姓氏換成了鴨。
傈僳族有氏族文化,「nia」在他們的語言中,是鳥的意思。但曾經靠手寫傳承的氏族之名,在電腦系統中無法輸入,讓他們遭遇了辦證件、出行、求學的困難。全村 700 多人,集體改名,姓「鴨」。
從那之後,這個有氏族文化的民族,姓氏就從天上飛的鳥,變成了地上跑的鴨。人們甚至找不到這個姓氏更改的由來,誰做的決定,誰定下了「鴨」這個字。在數字化升級的過程中,他們的名字被落下了。
一位村民提到了他們對此仍有避諱,不願意讓孩子繼續姓「鴨」。
在越是資訊化、數字化的時代,生僻字帶來的難處就更加明顯。
一位從英國回國的女生,因為名字中有生僻字無法輸入,申請不到健康碼,反覆給大使館打電話希望能特殊處理。回國後,無法實名做核酸檢測也成了問題,最後跑了上海的四五家醫院,才通過手填的方式才做上了當時隨便在小區樓下就能做上的核酸檢測。這次的困擾之後,她果斷改掉了名字。
一部分人選擇死磕。貝貝不願意改名,但名字無法輸入的問題必須要解決。
知道症狀出現在哪裡,貝貝就成了這個名字的專業「醫生」。她幾乎可以反射性地告訴同樣因為這個名字而困擾的人,在各個場合輸入「ying」字的訣竅:身份證 U+E362、安卓 U+2C386、搜狗輸入法 U+E052。
這是她長期通過各種渠道反饋,才終於贏回來的名字。甚至在哪些銀行,這個名字能通過什麼方法辦下銀行卡,她葉門兒清。名字同樣有「王瑩」的一位女生,至今都只能綁定父母的資訊,才能正常使用微信。
侯先生名字有「㙟」字,他能使用的銀行卡只有兩張,一張靠拆字,一張靠拼音,「只能祈禱別出什麼么蛾子。」
也有人未能掌握要領,打不出自己的名字。只能在網際網路上求救。用最原始的辦法,讓別人先用可以輸入的鍵盤打回來,再進行復制。而在多數需要臉部辨識的場合,他們多數情況會被攔住,向各種工作人員一遍遍解釋。
蔣燡出生於 70 年代,在越來越多手機 APP 都需要實名認證的今天,生僻字帶來的麻煩越來越大。
她曾遇到過在醫院看病,門診收費處可以打出名字,但醫生的問診系統卻沒有的情況。交得了錢卻看不了病,得不到檢查報告。這背後的問題是,即便是在同一個體系,使用的程序有差別,生僻字也照樣會帶來問題。
「數字化都已經很發達了,打出這個字不應該是一個很複雜的問題,畢竟科技在發展,生僻字不應該成為一個難題。」蔣燡說。
02
生僻字到底難在哪裡?
讓生僻字能被輸入和顯示,無障礙地穿梭於數字世界,需要依賴多方的意識與決心,也是一場不能以商業收益衡量的共謀。
一個生僻字變成「正常字」,從被找到,到考證、賦碼、擴容國標、字形設計、再到最終的推廣應用,中間是漫長的過程。只有從工信部電子工業標準化研究院、字型檔廠商、輸入法、手機廠商,APP 製作方等軟硬體廠商,中間各方徹底地打通,才有正常輸入、顯示生僻字的可能。
有時,生僻字只是被阻攔在賦碼環節,都會折損大量的時間。
工信部電子工業標準化研究院中文資訊研究室主任黃姍姍長期在跟漢字打交道,她說,一個字的編碼依賴於國際標準化組織 ISO/IEC 10646 的工作,他們會對全世界各國提交的所有漢字進行統一編碼,涉及不同國家之間的漢字細微差異和連接認同與查證,因此,生僻字賦碼的過程非常複雜且漫長。
每年中國提交的漢字都在 1000 字左右,而負責給漢字編碼的國際標準化組織,每年工作組只開兩次會,「這次無法解決的問題就留到下次」。這就導致,一個漢字從提交到最終獲得國際標準化組織認定的編碼,基本都需要 4 至 5 年的時間。
生僻字編碼的過程是漫長的,但用字的需求隨著數字化的到來卻更加緊迫。
搜狗輸入法生僻字項目負責人辜海玻記得,他們撥通蔣燡電話時,她在電話的那頭哽咽了,她覺得自己的需求受到了重視,問題有了被解決的可能性。
去年 11 月,搜狗輸入法中新增了「生僻字徵集」功能,希望徵集在 8 萬字新字型檔基礎上,仍然無法打出來的生僻字。蔣燡迫切地希望新的公共字型檔中,能增加自己的名字,分別在第 1457、5528、7327 次重複提交了這個字。
她遇到的問題中,最顯著的就是跨系統使用的障礙。儘管在公安、社保系統中,蔣燡的名字已經能顯示,但在其他場合,例如銀行、醫院,這仍然是一個生僻字,無法通用。有一家銀行曾經多次給她打電話說,銀行已經能打出她的名字,但她不敢用,也不敢改,因為她擔心這會打破現在的平衡,反而讓要給她匯款轉賬的人無法繼續正常使用。
受限於這樣的機制,標準化研究院也在考慮,通過自主性更強的國家標準,先收錄漢字解決未來的問題。
本質上,兩者技術上工作並無大的差別。但新提交的生僻字有了一個更快速的響應流程,涉及到急用的人名、地名等,通過資料考察和有實際應用需求的漢字就會更早通過國家標準先流通起來。時間也能縮短到 2-3 年,甚至更短。
根本上,生僻字的問題要徹底解決,跨系統的顯示才是棘手的問題。一部分機構為了解決使用者的困擾,會通過不同的編碼來登記名字,但這帶來的問題是,一旦涉及到聯網環節,又會造成一個接一個的差池。
從今年 8 月開始,隨著將會強制執行新標準,過去各方落下的功課,也需要快速補足。建立統一的標準只是解決生僻字問題的第一環。
據不完全統計,漢字的總數約為 10 萬個,其中仍有許多生僻字尚未被編碼,但具有實用價值。數字世界的漢字從 3 萬到 8 萬,花了 50 年,而之所以從規則人要求把生僻字重新撿起來,大擴容,本身也在為了避免過去被忽視的生僻字會從「罕用」變成「不用」。
03
商業公司並不商業的選擇
「適配需要成本,大家都不動,這件事就沒有實現的可能」,搜狗輸入法 2022 年去尋找廠商合作時,吃到了不少的閉門羹,「這不是我們 KPI 裡最重要的事」。
儘管生僻字影響著 6000 萬人的生活,但解決生僻字問題,卻幾乎帶不來任何的商業利益。在網際網路公司都在「降本增效」時,生僻字的改造很難被劃在優先級更高的位置。
而此時,生僻字在搜狗輸入法內部,已經與無障礙化的改造劃上了等號。搜狗輸入法 CEO 魯劍告訴極客公園,從 2023 年開始,公司的 OKR 裡面除了使用者增長和商業價值之外,多了一項「社會價值」。
事實上,搜狗輸入法至今一直處在虧損狀態。「在騰訊內部做一個虧損產品,確實是有壓力的」,魯劍說。但好在,過去搜狗輸入法做的通過眼睛控制輸入的眼動儀,2022 年搜狗輸入法重投入的「眾聲無障礙計劃」,在社會價值層面都有其回報,也契合近幾年騰訊力求的,投入更多錢做更多有社會價值的貢獻。
這些支撐搜狗輸入法去做市場上第一家快速響應投入到解決生僻字問題的商業公司。而隨著新中文編碼字符集將在今年 8 月 1 日開始強制執行,生僻字的解決開始變成一件「不得不」解決的問題。
從解決編碼到讓各個場景都支持,這是一條走了很久的路。
一群以商業銀行、相關政府機構、微信支付寶相關人士,受生僻字所困擾的普通網友共同創建了的「生僻字交流群」。群從 1 個擴散到兩個,如今已經超過 700 人,他們在群裡提供儘可能的幫助,從各個平臺如何解決生僻字認證,到具體的生僻字編碼,在處理各類公共事務時可以採取的方法,在這裡,可以圍觀到「一個普通人因為生僻字導致的充滿麻煩的一生」。
事實上,系統對字符的支持分為資料庫和客戶端,能輸入卻未必能顯示。騰訊搜狗輸入法早在 2021 年 11 月就上線了「生僻字鍵盤」,這個特殊的輸入法擁有筆畫、拼音、「拼音+筆畫」三種輸入方式,幫助生僻字都能被打出來。但在不同的手機系統、電腦系統,甚至不同的 APP 中,顯示仍然是一種麻煩。
讓生僻字顯示,手機廠商起至關重要的作用。魯劍舉了一個例子,集成生僻字雖然不會影響手機的運行,但假設字型檔分別搭載在各個手機軟體中,一個 10M,100 個手機 APP 就會用掉 1 個 G,字型檔佔據的記憶體就會指數級增加;但假設是廠商接入,那各個產品就可以直接調用廠商字型檔,「廠商一旦適配,下面的各個應用的適配就水到渠成,產生多米諾骨牌的效應。」
但問題仍未被完全解決。在未能有統一的國家標準時,「一字多碼」的狀況層出不窮。在不同系統之間,統一生僻字的程式碼一旦不相同,仍然會出現無法顯示的問題。「王瑩」在搜狗輸入法使用的 PUA 碼與戶籍系統仍不相同,PUA 碼(Private Use Areas)是解決未被 Unicode 標準收錄文字,在某些特定場景使用文字的一種方法,搜狗輸入法、乃至戶籍管理系統中,都存在這樣的 PUA 碼。這樣的狀況同樣需要時間去一一解決。
另外,8 萬字的新標準還未能囊括全部的漢字。2023 年 4 月 20 日,騰訊聯合工信部電子工業標準化研究院等發起的生僻字徵集小程序,第一天就收到使用者提交生僻字 1404 個。提交次數最多的是陝西知名的 biangbiang 面,有些人用手寫,有些靠拍照,更多人參與進來試圖讓更多漢字留在中文數字世界。
這些都是問題正在被解決的信號——很多人也都不再需要主動或者被動地換掉名字。曾頔初中升高中時,正值全國統一更換戶口本。工作人員找不到「頔」,就打成了「碩」,直到中考前夕這個錯誤才被發現,「差點耽誤了高中升學」。折騰許久,換回來後,她的戶口本上就多了一個她從未用過的曾用名:曾碩。
工作時她也有一個「替代名」,單位打卡機上也找不到頔,她只好選取別的漢字代替,胡亂選了「曾翟」,這個名字陪她打了四年卡。8 月新標準強制實施後,意味著生僻字問題有了第一條休止線,在數字化的世界中,像曾頔一樣的人找到自己的名字未來就不再是問題,也不應該是問題。
*頭圖來源:視覺中國