因為這個主題超大,本文章會簡單介紹一下中文的編碼與辨識、轉換問題,請透過內文的連結進一步理解編碼的方式,與辨識、轉換的作法。
中文的編碼 (Encoding)
目前的中文大致上可分為繁體中文和簡體中文。
繁體中文常採用 Big5 編碼,其歷史以及衍生編碼、缺字問題,可以參考:大五碼 - 維基百科、Big5 - 字嗨!,其編碼空間圖解可參考:認識中文字元碼。
而簡體中文常採用 GB2312,其由來可以參考:GB 2312 - 維基百科,並藉由 GB18030 或 GBK 編碼收錄數萬個文字,中間的差異請參考 一图弄懂ASCII、GB2312、GBK、GB18030编码-腾讯云开发者社区。
目前的主流編碼是 UTF-8,可同時顯示繁體、簡體中文,以及其它國家的文字。
相關的歷史,請參考 簡體字 - 維基百科 和 繁體字 - 維基百科。
簡繁體辨識
繁體中文的編碼 (如 Big5) 內,有繁體字和一部分簡化的字 (例如臺、台);簡體中文的編碼 (如 GB2312) 內,也包含繁體字和一部分臺灣常用文字。由於 Big5 和 GB2312 等編碼有互相重疊的地方,因此文件沒有說明使用的編碼或語言十,要如何辨識編碼、顯示正確內容,也成為一大問題。
而主流的 UTF-8 並沒有依據簡、繁體分類編碼中文字,雖然能正確顯示中文字,但不易透過字碼判斷目前顯示或輸入的是簡體還是繁體中文。
相關的檢查議題如下,目前仍沒有合適的解決方案:
- C#判断实现区别汉字简体中文还是繁体中文
- 判断字符是否为简体字或繁体字 - Dvel’s Blog
- [C#] 字串 Unicode 字碼辨識與繁簡字碼轉換心得筆記 - 記憶裂縫 - 點部落
- 裡面有很多 GB2312 和 BIG5 的知識,以及如何辨識的討論:PowerShell 小工具 - 簡易檔案編碼識別-黑暗執行緒
簡繁體轉換
一般來說,由於一個簡體字可以對應到多個繁體字,因此簡體轉繁體比較麻煩,而繁體轉簡體較為簡單,相關議題可參考:正簡轉換 - 維基百科。
想要將簡體中文轉換為繁體中文,最好可以先判斷來源文字是哪種中文,避免將繁體中文重複轉換,導致潛在的問題 (例如「斗六」誤翻成「鬥六」)。
工具箱
- 簡易的簡體、繁體轉換:繁簡轉換 - 簡繁轉換 - 繁轉簡 - 簡轉繁
- 檢查輸入的文字會被辨識為繁體還是簡體:Chinese Tools - Simplified or traditional?
- 檢查 UTF-8 文字的編碼:Utf-8 Converter, Utf-8 Encoding and Decoder - CheckSERP
- 檢查中文字在資料庫內的變體:Unihan Database Lookup (變體的相關說明可以參考:回應 Ptt Perl 版「Unihan 查詢」文章兩則)