精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從5個方面來解析計算機中的字符編碼概念

馬哥Linux運維 ? 2018-01-16 09:08 ? 次閱讀

字符編碼是計算機編程中不可回避的問題,不管你用 Python2 還是 Python3,亦或是 C++, Java 等,我都覺得非常有必要厘清計算機中的字符編碼概念。本文主要分以下幾個部分介紹:

基本概念

常見字符編碼簡介

Python 的默認編碼

Python2 中的字符類型

UnicodeEncodeError & UnicodeDecodeError 根源

基本概念

字符(Character)

電腦和電信領域中,字符是一個信息單位,它是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。比如,一個漢字,一個英文字母,一個標點符號等都是一個字符。

字符集(Character set)

字符集是字符的集合。字符集的種類較多,每個字符集包含的字符個數也不同。比如,常見的字符集有 ASCII 字符集、GB2312 字符集、Unicode 字符集等,其中,ASCII 字符集共有 128 個字符,包含可顯示字符(比如英文大小寫字符、阿拉伯數字)和控制字符(比如空格鍵、回車鍵);GB2312 字符集是中國國家標準的簡體中文字符集,包含簡化漢字、一般符號、數字等;Unicode 字符集則包含了世界各國語言中使用到的所有字符,

字符編碼(Character encoding)

字符編碼,是指對于字符集中的字符,將其編碼為特定的二進制數,以便計算機處理。常見的字符編碼有 ASCII 編碼,UTF-8 編碼,GBK 編碼等。一般而言,字符集和字符編碼往往被認為是同義的概念,比如,對于字符集 ASCII,它除了有「字符的集合」這層含義外,同時也包含了「編碼」的含義,也就是說,ASCII 既表示了字符集也表示了對應的字符編碼。

下面我們用一個表格做下總結:

從5個方面來解析計算機中的字符編碼概念

常見字符編碼簡介

常見的字符編碼有 ASCII 編碼,GBK 編碼,Unicode 編碼和 UTF-8 編碼等等。這里,我們主要介紹 ASCII、Unicode 和 UTF-8。

ASCII

計算機是在美國誕生的,人家用的是英語,而在英語的世界里,不過就是英文字母,數字和一些普通符號的組合而已。

在 20 世紀 60 年代,美國制定了一套字符編碼方案,規定了英文字母,數字和一些普通符號跟二進制的轉換關系,被稱為 ASCII (American Standard Code for Information Interchange,美國信息互換標準編碼) 碼。

比如,大寫英文字母 A 的二進制表示是 01000001(十進制 65),小寫英文字母 a 的二進制表示是 01100001 (十進制 97),空格 SPACE 的二進制表示是 00100000(十進制 32)。

Unicode

ASCII 碼只規定了 128 個字符的編碼,這在美國是夠用的。可是,計算機后來傳到了歐洲,亞洲,乃至世界各地,而世界各國的語言幾乎是完全不一樣的,用 ASCII 碼來表示其他語言是遠遠不夠的,所以,不同的國家和地區又制定了自己的編碼方案,比如中國大陸的 GB2312 編碼 和 GBK 編碼等,日本的 Shift_JIS 編碼等等。

雖然各個國家和地區可以制定自己的編碼方案,但不同國家和地區的計算機在數據傳輸的過程中就會出現各種各樣的亂碼(mojibake),這無疑是個災難。

怎么辦?想法也很簡單,就是將全世界所有的語言統一成一套編碼方案,這套編碼方案就叫 Unicode,它為每種語言的每個字符設定了獨一無二的二進制編碼,這樣就可以跨語言,跨平臺進行文本處理了,是不是很棒!

Unicode 1.0 版誕生于 1991 年 10 月,至今它仍在不斷增修,每個新版本都會加入更多新的字符,目前最新的版本為 2016 年 6 月 21 日公布的 9.0.0。

Unicode 標準使用十六進制數字,而且在數字前面加上前綴 U+,比如,大寫字母「A」的 unicode 編碼為 U+0041,漢字「嚴」的 unicode 編碼為 U+4E25。更多的符號對應表,可以查詢 unicode.org,或者專門的漢字對應表。

UTF-8

Unicode 看起來已經很完美了,實現了大一統。但是,Unicode 卻存在一個很大的問題:資源浪費。

為什么這么說呢?原來,Unicode 為了能表示世界各國所有文字,一開始用兩個字節,后來發現兩個字節不夠用,又用了四個字節。比如,漢字「嚴」的 unicode 編碼是十六進制數 4E25,轉換成二進制有十五位,即 100111000100101,因此至少需要兩個字節才能表示這個漢字,但是對于其他的字符,就可能需要三個或四個字節,甚至更多。

這時,問題就來了,如果以前的 ASCII 字符集也用這種方式來表示,那豈不是很浪費存儲空間。比如,大寫字母「A」的二進制編碼為 01000001,它只需要一個字節就夠了,如果 unicode 統一使用三個字節或四個字節來表示字符,那「A」的二進制編碼的前面幾個字節就都是 0,這是很浪費存儲空間的。

為了解決這個問題,在 Unicode 的基礎上,人們實現了 UTF-16, UTF-32 和 UTF-8。下面只說一下 UTF-8。

UTF-8 (8-bit Unicode Transformation Format) 是一種針對 Unicode 的可變長度字符編碼,它使用一到四個字節來表示字符,例如,ASCII 字符繼續使用一個字節編碼,阿拉伯文、希臘文等使用兩個字節編碼,常用漢字使用三個字節編碼,等等。

因此,我們說,UTF-8 是 Unicode 的實現方式之一,其他實現方式還包括 UTF-16(字符用兩個或四個字節表示)和 UTF-32(字符用四個字節表示)。

Python 的默認編碼

Python2 的默認編碼是 ascii,Python3 的默認編碼是 utf-8,可以通過下面的方式獲取:

Python2

Python2.7.11(default,Feb242016,10:48:05)

[GCC4.2.1Compatible AppleLLVM7.0.2(clang-700.1.81)]on darwin

Type"help","copyright","credits"or"license"formoreinformation.

>>>importsys

>>>sys.getdefaultencoding()

'ascii'

Python3

Python3.5.2(default,Jun292016,13:43:58)

[GCC4.2.1Compatible AppleLLVM7.3.0(clang-703.0.31)]on darwin

Type"help","copyright","credits"or"license"formoreinformation.

>>>importsys

>>>sys.getdefaultencoding()

'utf-8'

Python2 中的字符類型

Python2 中有兩種和字符串相關的類型:str 和 unicode,它們的父類是 basestring。其中,str 類型的字符串有多種編碼方式,默認是 ascii,還有 gbk,utf-8 等,unicode 類型的字符串使用 u'...' 的形式來表示,下面的圖展示了 str 和 unicode 之間的關系:

兩種字符串的相互轉換概括如下:

把 UTF-8 編碼表示的字符串 ‘xxx’ 轉換為 Unicode 字符串 u’xxx’ 用 decode('utf-8') 方法:

>>>'中文'.decode('utf-8')

u'中文'

把 u’xxx’ 轉換為 UTF-8 編碼的 ‘xxx’ 用 encode('utf-8') 方法:

>>>u'中文'.encode('utf-8')

'??-???'

UnicodeEncodeError & UnicodeDecodeError 根源

用 Python2 編寫程序的時候經常會遇到 UnicodeEncodeError 和 UnicodeDecodeError,它們出現的根源就是如果代碼里面混合使用了 str 類型和 unicode 類型的字符串,Python 會默認使用 ascii 編碼嘗試對 unicode 類型的字符串編碼 (encode),或對 str 類型的字符串解碼 (decode),這時就很可能出現上述錯誤。

下面有兩個常見的場景,我們最好牢牢記住:

在進行同時包含 str 類型和 unicode 類型的字符串操作時,Python2 一律都把 str 解碼(decode)成 unicode 再運算,這時就很容易出現 UnicodeDecodeError。

讓我們看看例子:

>>>s='你好'# str 類型, utf-8 編碼

>>>u=u'世界'# unicode 類型

>>>s+u# 會進行隱式轉換,即 s.decode('ascii') + u

Traceback(most recent calllast):

File"",line1,in

UnicodeDecodeError:'ascii'codeccan'tdecodebyte0xe4inposition0:ordinalnotinrange(128)

為了避免出錯,我們就需要顯示指定使用 ‘utf-8’ 進行解碼,如下:

>>>s='你好'# str 類型,utf-8 編碼

>>>u=u'世界'

>>>

>>>s.decode('utf-8')+u# 顯示指定 'utf-8' 進行轉換

u'你好世界'# 注意這不是錯誤,這是 unicode 字符串

如果函數或類等對象接收的是 str 類型的字符串,但你傳的是 unicode,Python2 會默認使用 ascii 將其編碼成 str 類型再運算,這時就很容易出現 UnicodeEncodeError。

讓我們看看例子:

>>>u_str=u'你好'

>>>str(u_str)

Traceback(most recent calllast):

File"",line1,in

UnicodeEncodeError:'ascii'codeccan'tencode charactersinposition0-1:ordinalnotinrange(128)

在上面的代碼中,u_str 是一個 unicode 類型的字符串,由于 str() 的參數只能是 str 類型,此時 Python 會試圖使用 ascii 將其編碼成 ascii,也就是:

u_str.encode('ascii') // u_str 是 unicode 字符串

上面將 unicode 類型的中文使用 ascii 編碼轉,肯定會出錯。

再看一個使用 raw_input 的例子,注意 raw_input 只接收 str 類型的字符串:

>>>name=raw_input('input your name: ')

inputyourname:ethan

>>>name

'ethan'

>>>name=raw_input('輸入你的姓名:')

輸入你的姓名:小明

>>>name

'?°????'

>>>type(name)

>>>name=raw_input(u'輸入你的姓名: ')# 會試圖使用 u'輸入你的姓名'.encode('ascii')

Traceback(most recent calllast):

File"",line1,in

UnicodeEncodeError:'ascii'codeccan't encode characters in position 0-5: ordinal not in range(128)

>>> name = raw_input(u'輸入你的姓名:'.encode('utf-8')) #可以,但此時 name 不是 unicode 類型

輸入你的姓名: 小明

>>> name

'xe5xb0x8fxe6x98x8e'

>>> type(name)

>>> name = raw_input(u'輸入你的姓名:'.encode('utf-8')).decode('utf-8') # 推薦

輸入你的姓名:小明

>>> name

u'u5c0fu660e'

>>> type(name)

再看一個重定向的例子:

hello=u'你好'

printhello

將上面的代碼保存到文件 hello.py,在終端執行 python hello.py 可以正常打印,但是如果將其重定向到文件 python hello.py > result 會發現 UnicodeEncodeError。

這是因為:輸出到控制臺時,print 使用的是控制臺的默認編碼,而重定向到文件時,print 就不知道使用什么編碼了,于是就使用了默認編碼 ascii 導致出現編碼錯誤。

應該改成如下:

hello=u'你好'

printhello.encode('utf-8')

這樣執行 python hello.py > result 就沒有問題。

小結

UTF-8 是一種針對 Unicode 的可變長度字符編碼,它是 Unicode 的實現方式之一。

Unicode 字符集有多種編碼標準,比如 UTF-8, UTF-7, UTF-16。

在進行同時包含 str 類型和 unicode 類型的字符串操作時,Python2 一律都把 str 解碼(decode)成 unicode 再運算。

如果函數或類等對象接收的是 str 類型的字符串,但你傳的是 unicode,Python2 會默認使用 ascii 將其編碼成 str 類型再運算。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7418

    瀏覽量

    87712
  • 編碼
    +關注

    關注

    6

    文章

    935

    瀏覽量

    54760
  • 字符
    +關注

    關注

    0

    文章

    232

    瀏覽量

    25173
  • python
    +關注

    關注

    56

    文章

    4782

    瀏覽量

    84449

原文標題:Python字符編碼全解析

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    計算機中的電磁兼容情況

    電磁兼容的英文名稱為Electromagnetic Compatibility ,簡稱EMC。電磁兼容技術涉及的頻率范圍寬達0-400GHz,研究對象除傳統設施外,涉及芯片級,直到各型艦船、航天飛機、洲際導彈,甚至整個地球的電磁環境。本文章主要介紹計算機中的電磁兼容情況。
    發表于 05-31 08:22

    8086微型計算機常用字符編碼

    ?8086微型計算機常用字符編碼,深圳大學2016博士研究生招生微機原理考試大綱命題學院/部門(蓋章):光電工程學院考試科目代碼及名稱:2225微機原理一、考試基本要求《微機原理》是理工科計算
    發表于 07-16 08:28

    什么是計算機系統、計算機硬件和計算機軟件?

    第一章 計算機系統概論1. 什么是計算機系統、計算機硬件和計算機軟件?硬件和軟件哪個更重要?解:P3計算機系統:由
    發表于 07-22 09:06

    計算機中不同硬件對Hz的定義相同嗎

    Hz(赫茲)通常的定義是波形每秒鐘變化或振動的次數,在計算機中不同硬件對Hz的定義各不相同。CPU:Hz用來表示時鐘頻率。目前的CPU通常以MHz和GHz作為計量單位。顯示器:在顯示器中有三頻率
    發表于 09-08 06:10

    微型計算機中采用的邏輯元件是什么

    第7部分 計算機硬件 單選(1) .[B]計算機向使用者傳送計算、處理結果的設備稱為______。(A) 輸入設備(B) 輸出設備(C) 存儲設備(D) 微處理器(2) .[C]目前微型計算機
    發表于 09-15 07:43

    基于嵌入式實時軟件在計算機中的應用研究

    以及應用前景四方面探究了它在計算機中的有效應用,針對應用內容進行了詳細探討。關鍵詞:嵌入式實時軟件計算機引言新時代,計算機普及應用于各個領域,同時成為了人們日常生活不可或缺的重要工具。
    發表于 11-09 07:05

    個人計算機中的串行端

    【LabVIEW入門到精通】4.1.5 個人計算機中的串行端口
    發表于 01-08 15:43 ?0次下載

    計算機的數制及其轉換_微控制器原理及應用

    計算機的最基本功能是進行數據的計算和處理加工。計算機中的數是以器件的兩不同物理狀態表示的,一
    發表于 05-12 14:25 ?0次下載

    量子計算機的優點_量子計算機的應用_量子計算機的未來應用

    量子計算機是一類遵循量子力學規律進行高速數學和邏輯運算、存儲及處理量子信息的物理裝置。當某個裝置處理和計算的是量子信息,運行的是量子算法時,它就是量子計算機。量子計算機
    發表于 11-28 18:10 ?1.2w次閱讀

    計算機中的圖像(Image)和圖形(Graphic)

    計算機中的圖形(Graphic)和圖像(Image) demi 在 周三, 03/27/2019 - 11:39 提交 在計算機中處理的圖像是經過”數字化”后的視覺圖像,稱為數字化圖像 圖像
    的頭像 發表于 03-25 10:03 ?2.8w次閱讀
    <b class='flag-5'>計算機中</b>的圖像(Image)和圖形(Graphic)

    計算機編碼解析

    你是不是工作了很多年了,一直沒搞清楚計算機中的各種編碼規則,雖然平時都會使用,但是內部機制原理一直都是之其然而不知其所以然,開發也會經常涉及到這塊內容,但都沒有太多重視,這可能會讓有吃一些虧(出項目bug了),本著追本溯源的精
    的頭像 發表于 03-30 10:28 ?1145次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>編碼</b>全<b class='flag-5'>解析</b>(<b class='flag-5'>中</b>)

    cmos技術在計算機中的應用

    降低,速度提高,傳輸距離延長,從而在計算機領域有著廣泛的應用。本文將詳細介紹CMOS技術在計算機中的應用。 1. CPU CPU是計算機中最重要的核心部件。CMOS技術在CPU上的應用,使得CPU的性能得到了巨大的提升。CMOS
    的頭像 發表于 09-05 17:39 ?1765次閱讀

    DRAM在計算機中的應用

    DRAM(Dynamic Random Access Memory,動態隨機存取存儲器)在計算機系統扮演著至關重要的角色。它是一種半導體存儲器,用于存儲和快速訪問數據,是計算機主內存的主要組成部分。以下是對DRAM在
    的頭像 發表于 07-24 17:04 ?919次閱讀

    邊沿觸發器在計算機中的應用

    邊沿觸發器在計算機中的應用極為廣泛,它們作為數字電路的基本單元,對于實現計算機內部的時序控制、數據存儲與傳輸、以及復雜邏輯功能等方面起著至關重要的作用。以下將從邊沿觸發器的定義、特點
    的頭像 發表于 08-12 14:20 ?371次閱讀

    計算機中總線的作用是什么

    計算機中,總線(Bus)扮演著極其重要的角色,它是計算機內部各功能部件之間傳送信息的公共通信干線。總線不僅連接了計算機的各個核心組件,還確保了數據、指令和控制信號的高效、準確傳輸。
    的頭像 發表于 08-26 15:57 ?845次閱讀