壓縮并不是一個新概念,但隨著存儲需求的增長,它正成為數據中心中更重要的工具。目標當然是使用比原始數據更少的位對信息進行編碼,從而減小數據的大小。計算效率優勢還體現在需要移動的數據更少。
有兩種不同類型的壓縮:
1. 有損,最適合 mp3、jpeg - 通常用于音頻或視頻流應用
2. 無損,例如在 zip 文件中使用 - 其中所有數據必須可供應用程序使用
對于這兩種類型,都有多種壓縮技術可用。一些最常見的包括:
? 匹配查找:在這種技術中,算法在數據集中查找冗余,如重復的字節串,并存儲冗余數據的單個副本。通過將數據字符串的其他匹配項替換為對要讀取的存儲副本位置的引用來減少數據量。
?熵編碼:該技術在看似任意的數據序列中查找模式,并分配一個符號或編碼一個值來表示隨機數據集中的重復模式。通過將重復模式替換為單個值來減小數據的大小。
? 模型壓縮:這種先進的技術針對需要巨大計算能力和昂貴的高速 GPU 才能運行的機器學習模型和 AI 應用程序。為了在小型嵌入式系統上傳輸和處理復雜的神經網絡算法,通過刪除冗余的神經網絡連接或將神經網絡權重和偏差捆綁到集群中來壓縮機器學習模型,從而減少要存儲的數據的總大小。
重復數據刪除或重復數據刪除(與匹配查找壓縮技術一樣)會刪除重復的數據副本,以便僅存儲一個副本。它通常用于存儲設備的上下文或數據中心的系統級別,您可以在其中找到存儲的共享文件的單個副本,并且每次由其他用戶使用該文件時,對該副本的引用數量都會遞增。dedup 的優點是它可以對大型數據集(例如整個存儲集群)使用相同的匹配查找壓縮算法,并減少存儲需求。
許多存儲系統同時支持壓縮和重復數據刪除,以最大化存儲容量。除了節省存儲容量外,壓縮還可以提高系統性能。最基本的原則是通過寫入更少的數據,數據總線利用率增加,從而提高寫入帶寬和性能。
壓縮率是未壓縮數據的大小除以壓縮數據的大小。未壓縮數據的壓縮率為 1。壓縮比越高,數據的壓縮程度就越高。這在使用昂貴閃存的SSD應用中非常重要,因為寫入數據所涉及的架構必須擦除閃存單元才能重新編程,以及可用的程序和擦除周期數有限的介質的性質。在 Flash 操作中,擦除只能在塊級別進行,而編程是在頁面級別完成的,導致擦除和重寫的閃存部分比任何新數據所需的要大。閃存中不需要更新但正在擦除以允許傳入頁面寫入操作的部分必須存儲在其他位置,并且必須更新對此數據的所有引用以供將來訪問。SSD 上對閃存存儲的所有寫入的這種乘數效應增加了實際閃存寫入操作與來自主機的傳入數據寫入請求的比率。此比率最小值為 1,寫入放大比率越高,啟動的程序和擦除周期就越多,從而耗盡 SSD 的整體耐用性。通過壓縮數據的原始大小,可以將較小大小的數據集存儲在閃存中,寫入放大因子小于1,從而減少編程和擦除周期,并延長SSD的使用壽命。
基準壓縮率和性能的最常見的壓縮測試機構或語料庫是卡爾加里語料庫,坎特伯雷語料庫和西里西亞語料庫。西里西亞是最新的,它利用涵蓋當今用例的更新數據集。附表說明了PCIe Gen-4 Flashtec NVMe3016企業級NVMe SSD控制器在測試下的性能。
壓縮比是通過專用壓縮引擎實現的,該引擎符合無損算法的 Deflate 壓縮數據格式規范 (RFC-1951),具有簡化的內部格式 (zlib)。
? 數據格式基于塊,如果未對齊,則進行填充
? 壓縮和未壓縮的數據塊大小可配置為 32B-8KB,使用 SGL 時最高配置為 64KB
結合 SHA-256 哈希引擎、高 CPU 處理能力以及 NVMe3106 控制器的高級靈活可編程架構,用戶可以自定義其 SSD 固件,以使用各種硬件旋鈕實現最有效的壓縮方案,以滿足其應用需求。
作為企業級NVMe SSD控制器市場的行業領先支持解決方案,Flashtec NVMe3016 NVMe SSD控制器支持創新的存儲解決方案,基于高度靈活和可編程的控制器平臺,提供高性能,低成本和電源效率。硬件壓縮只是使 Flashtec? 產品成為未來數據中心企業級 NVMe SSD 的正確解決方案的眾多功能之一。
審核編輯:郭婷
-
控制器
+關注
關注
112文章
16214瀏覽量
177479 -
SSD
+關注
關注
20文章
2851瀏覽量
117247 -
數據中心
+關注
關注
16文章
4700瀏覽量
71970
發布評論請先 登錄
相關推薦
評論