精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人

作者: BinaryStarXin

軟件開發人員經常遇到“中文亂碼”、“軟件不能顯示日文”等類似問題。真相只有一個——對字符集編碼沒有一個系統的認知。

常見字符集編碼有GB2312、GBK、BIG5、UTF-8、UTF-16，甚至有些從事MFC開發的人可能還會說字符集有ANSI和UNICODE。真的是這樣嗎？直接上干貨。

字符集分類

1. ANSI

American National Standards Institute 美國國家標準學會，由這個標準學會制訂的一種編碼規則。

采用多字節系統 (MBCS) 的變長編碼，每個字符可以是單個字節、雙字節，也可以是多字節的；

兼容單字節字符集 (SBCS) 和雙字節字符集 (DBCS)；

兼容 EUC/EUC-CN 雙字節編碼。由于兼容了這個編碼，那么 ANSI 的雙字節編碼也是大端存儲 (Big Endian) 的了；

不同的國家和地區可以使用不同的編碼規則，這些編碼對應到這些國家和地區的代碼頁 (Code Page) 上。

1.1. ASCII編碼

ASCII編碼即美國信息交換標準代碼（American Standard Code for Information Interchange）是一套共有128個字符的編碼，它基于阿拉丁字母，主要作用是用來表示英語和西歐語言字符。ASCII規范編碼第一次公布于1967年，ascii碼在1986年完成最后一次更新。ASCII碼對照表等同于國際標準 ISO/IEC 646，ASCII碼對照表是世界最通用的信息交換標準。

ASCII編碼

1.2. GB2312編碼

GB2312簡體中文編碼，一個漢字占用2個字節，在大陸是主要的編碼方式，兼容ASCII編碼。

為了支持繁體字，于是推出了GBK編碼，GBK是國標擴展（Guo Biao Kuozhan）編碼的縮寫，兼容GB2312。

為了支持少數名民族的文字，于是推出了GB1803，解決了中文、日文、朝鮮語等的編碼，兼容GBK。

2. UNICODE編碼

Unicode又稱為統一碼、萬國碼、單一碼，是國際組織制定的旨在容納全球所有字符的編碼方案，包括字符集、編碼方案等，它為每種語言中的每個字符設定了統一且唯一的二進制編碼，以滿足跨語言、跨平臺的要求。

Unicode字符集被劃分為 17 個平面(即，17個區，編號為 0-16 )，且具有以下特點：

每個平面有216 = 65536個代碼點，因此，整個Unicode字符集共有17 × 65536 = 111 4112 個碼點。

整個Unicode字符集的碼點空間為U+000000 ~ U+10FFFF

每個平面的碼點范圍可表示為U+xx0000 ~ U+xxFFFF，其中xx表示16進制的0x00到0x10，比如，平面0的碼點范圍為U+000000 ~ U+00FFFF，平面2的碼點范圍為U+020000 ~ U+02FFFF，平面15的碼點范圍為U+0F0000 ~ U+0FFFFF

再次注意：并不是每個碼點就一定對應有一個字符，因為，目前Unicode字符集中有很多碼點都還未被使用。

Unicode 17 層平面

2.1. UTF-16編碼

UTF-16編碼源于UCS-2，是Unicode最早的編碼方式。

UCS-2編碼僅覆蓋了基本平面(即BMP，第0平面)中的碼點，使用固定的兩字節將字符編號(類似于Unicode中的碼點值)直接映射為字符編碼，中間未經過任何的編碼算法轉換。

很明顯，16位的二進制位(范圍為0x0000 ~ 0xFFFF)無法表示Unicdoe引入的增補平面中的碼點(平面1 ~ 16，碼點范圍為0x10000~0x10FFFF)，為此，Unicode在UTF-16編碼中使用“代理(代替)機制”來解決這個問題，代理機制使用4個字節來表示增補平面中的碼點，從而使UTF-16成為一種變長編碼方式。

因此，若軟件僅支持UCS-2編碼，則意味著僅支持UCS字符集或Unicode字符集基本平面中的字符，而不支持增補平面中的字符。

UTF-16編碼后的碼元序列在映射為物理意義上的字節序列時，又分為UTF-16BE (大端序)，UTF-16LE (小端序)兩種情況，大端序和小端序又分為帶有字節序標記(with BOM)和不帶字節序標記(without BOM)兩種情形。比如，“ABC”這三個字符的UTF-16編碼(碼元序列)為：00 41 00 42 00 43；其對應的各種字節序列如下表所示：

”abc”的各種UTF-16編碼

2.2. UTF-32編碼

UTF-32是一種將Unicode字符編碼的協定，對每一個Unicode碼位使用恰好32位元。其它的Unicode transformation formats則使用不定長度編碼。因為UTF-32對每個字符都使用4字節，就空間而言，是非常沒有效率的。特別地，非基本多文種平面的字符在大部分文件中通常很罕見，以致于它們通常被認為不存在占用空間大小的討論，使得UTF-32通常會是其它編碼的二到四倍。雖然每一個碼位使用固定長定的字節看似方便，它并不如其它Unicode編碼使用得廣泛。

與UTF-16一樣，也存在大端和小端存儲。

2.3. UTF-8編碼

UTF-8編碼是Unicode編碼的一種編碼形式。由1-6個字節表示一個字符，兼容ASCII編碼。