哈希是密碼學的基礎,理解哈希是理解數字簽名和加密通信等技術的必要前提。
哈希,英文是 hash ,本來意思是”切碎并攪拌“,有一種食物就叫 Hash ,就是把食材切碎并攪拌一下做成的。哈希函數的運算結果就是哈希值,通常簡稱為哈希。哈希函數有時候也翻譯做散列函數。
根據維基百科的定義,哈希函數要做的事情是給一個任意大小的數據生成出一個固定長度的數據,作為它的映射,所謂映射就是一一對應。
一個可靠的哈希算法要滿足三點
第一是安全,給定數據 M 容易算出哈希值 X ,而給定 X 不能算出 M ,或者說哈希算法應該是一個單向算法。
第二是獨一無二,兩個不同的數據,要擁有不相同的哈希。
第三是長度固定,給定一種哈希算法,不管輸入是多大的數據,輸出長度都是固定的。
但是仔細想一下,如果哈希的長度是固定的,也就是取值范圍是有限的,而輸入數據的取值范圍是無限的,所以總會找到兩個不同的輸入擁有相同的哈希,所以,哈希函數的安全性肯定是個相對概念。
如果出現了兩個不同輸入有相同輸出的情況,就叫碰撞,collision 。不同的哈希算法,哈希位數越多,也就基本意味著安全級別越高,或者說它的”抗碰撞性“就越好。
哈希算法的作用
再來說說哈希函數的主要作用,哈希的獨一無二性,保證了如果數據在存儲或者傳輸過程中有絲毫損壞,那么它的哈希就會變。哈希函數的最常見的一個作用就是進行完整性校驗( Integrity Check ),完整的意思是數據無損壞。
哈希有很多不同的稱呼,有時候叫Digest(摘要),有時候叫Checksum(校驗值),有時候叫Fingerprint(指紋),其實說的意思差不多,也就是說哈希可以用來代表數據本身。
例如朋友給我傳遞一份數據,傳完之后,我有一份,他手里也有一份,如果兩份數據的哈希值是一樣的,那么這兩份數據的內容就是一樣的,或者說可以認為傳遞過程中數據沒有損壞,我手里拿到的數據是完整的。
所以說,哈希函數的基本作用就是給大數據算出一個摘要性的長度固定的字符串,也就是所謂的哈希。
哈希算法的分類
哈希算法有很多種,例如md5、SHA256等等,但是它們總體上可以分為兩大類,一類是普通哈希,另外一類是加密哈希(cryptographic hash function)。
業界可以找到的哈希算法是有很多種的。我們可以大致按照輸出的哈希的長度來聊,雖然哈希算法的安全性也不單單是跟哈希長度有關,但是一般哈希值越長也就是越安全。
例如CRC-32的輸出是32 bit,也就是32位的二進制數,表示成十六進制就是8位。MD5算法的哈希是32位16進制數,比較常見;SHA-256是256個Bit ,十六進制表示就是64位。
這些算法可以分成普通哈希和加密哈希算法,兩種算法之間沒有特別明顯的區別。例如本來MD5就是設計出來做加密哈希的,但是后來由于計算機的發展MD5出現碰撞的可能性就很大了,所以目前MD5只能當普通哈希用,用來做數據校驗。
加密哈希跟普通哈希的區別就是安全性,一般原則是只要一種哈希算法出現過碰撞,就會不被推薦成為加密哈希了,只有安全度高的哈希算法才能用作加密哈希。
同時加密哈希其實也能當普通哈希來用,Git版本控制工具就是用SHA-1這個加密哈希算法來做完整性校驗的。一般來講越安全的哈希算法,處理速度也就越慢,所以并不是所有的場合都適合用加密哈希來替代普通哈希。
哈希算法和加密算法
在密碼學領域,有兩個算法都是把數據做輸入,而輸出是一段誰也看不懂的數據。其中一個就是哈希算法,另外一個是加密算法。注意,哈希算法和加密算法是完全不同的。
哈希算法的輸出長度是固定的,而加密算法的輸出長度是跟數據本身長度直接相關的。
哈希是不可以逆向運算出數據的,而加密算法的輸出是要能夠逆向運算出數據的。
這里主要是強調加密哈希算法只是被用在加密過程中,但是它本身不是加密算法。
總之,哈希算法有很多種,長度越長的算法基本認為越安全。安全度低的哈希算法被認為是普通哈希算法,主要用來做完整性校驗。安全度高的被稱為加密哈希算法,會被用在加密算法中。
所謂的高低都是相對概念,例如MD5曾經屬于加密哈希,但是目前只能用來做安全校驗了。而從2017年開始,SHA-1算法生成的加密證書也會被各大瀏覽器拒絕了。目前最流行的加密算法是SHA-2,但是跟SHA-1不同,SHA-2 不是一種算法,而是一系列算法的統稱,其中就包括咱們之前提過的SHA-256。
實用例子
首先一個場景是網站注冊。當我們提交用戶名密碼的時候,用戶名被會直接保存到網站的數據庫中,但是密碼卻不是直接保存的,而是先把密碼轉換成哈希,保存到數據庫中的其實是哈希。所以,即使是公司后臺管理人員,也拿不到用戶的密碼。這樣,如果萬一公司數據庫泄露了,用戶的密碼依然是安全的。而當用戶自己登錄網站的時候,輸入密碼提交到服務器,服務器上進行相同的哈希運算,因為輸入數據沒變,所以哈希也不會變,登錄也就成功了。
另外一個場景是區塊鏈和加密貨幣中。比特幣地址生成的時候,就用到了 SHA-256 算法,POW 也就是工作量證明,用的也是這個算法。
基本上凡是涉及到密碼學的地方,都會或多或少的用到哈希函數。
總結
哈希的基本作用就是提供一個數據的摘要或者指紋,通常的使用場景就是完整性校驗。哈希算法有很多種,一般來講哈希越長的算法,安全性也就越高,安全度足夠高的哈希,或者說沒有任何人能夠成功實現碰撞的哈希,才有資格被考慮用在加密場合,而這類的哈希算法也被叫做加密哈希算法。
實際中常見的哈希算法有MD5、SHA-1和SHA-256等等,其中MD5通常用來進行數據校驗,SHA-1曾經是加密哈希算法,但是目前已經被除名,也只能做為一種安全度更高的校驗算法了。SHA-256依然是廣泛使用的加密哈希算法,在比特幣生成地址以及POW工作量證明算法中都會用到。
-
算法
+關注
關注
23文章
4601瀏覽量
92671 -
區塊鏈
+關注
關注
110文章
15560瀏覽量
105806 -
比特幣
+關注
關注
57文章
7002瀏覽量
140363
原文標題:理解數字簽名、加密通信的關鍵:哈希算法
文章出處:【微信號:mcu168,微信公眾號:硬件攻城獅】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論