全球正在進(jìn)入數(shù)字經(jīng)濟(jì)時(shí)代,中國的“十四五”規(guī)劃也重點(diǎn)提到發(fā)展數(shù)字經(jīng)濟(jì),作為第五種生產(chǎn)要素的數(shù)據(jù)已經(jīng)逐漸轉(zhuǎn)變?yōu)橐I(lǐng)經(jīng)濟(jì)發(fā)展的核心,各種大、中、小型數(shù)據(jù)中心業(yè)已成為數(shù)字經(jīng)濟(jì)的基礎(chǔ)設(shè)施。在這項(xiàng)龐大的新基建工程中,數(shù)據(jù)存儲技術(shù)將不可避免的成為基石技術(shù)。
企業(yè)級SSD市場高速增長
伴隨5G、大數(shù)據(jù)、 AI及云計(jì)算技術(shù)的發(fā)展,大量的新商業(yè)應(yīng)用將催生出對邊緣計(jì)算和數(shù)據(jù)中心的海量需求。據(jù)IDC預(yù)測,全球數(shù)據(jù)總量預(yù)計(jì)2020年達(dá)到44ZB,5年年均復(fù)合增長率高達(dá)41.0%,其中超過50%的數(shù)據(jù)存儲在數(shù)據(jù)中心;2025年,全球數(shù)據(jù)量將達(dá)到175ZB,5年年均復(fù)合增長率31.8%,而數(shù)據(jù)中心存儲量占比將超過70%。作為數(shù)據(jù)中心越來越重要的存儲介質(zhì),企業(yè)級SSD在2020年出貨量將達(dá)到3560萬個(gè),平均容量達(dá)到2.7TB,出貨總?cè)萘枯^2019年增長近30%。
下圖是中國閃存市場發(fā)布的企業(yè)級SSD平均容量和出貨量增長趨勢。疫情帶來的在線辦公和網(wǎng)課加速了數(shù)據(jù)中心SSD的需求增長,所以實(shí)際增長要高于預(yù)期。
隨著存儲需求的快速增長,QLC等大容量、高密度的新型閃存芯片逐漸投入應(yīng)用。但與此同時(shí),QLC等新型閃存芯片的錯(cuò)誤率更高,在企業(yè)級SSD對數(shù)據(jù)安全性和可靠性要求更高的情況下,SSD主控芯片的ECC(糾錯(cuò)碼Error Correcting Code)技術(shù)越來越成為企業(yè)級SSD的核心技術(shù)和性能保障。最近,阿呆訪談了全球領(lǐng)先的企業(yè)級SSD主控芯片公司英韌科技副總裁陳杰,針對企業(yè)級SSD對ECC的新要求做些分享。
QLC SSD在數(shù)據(jù)中心的應(yīng)用趨勢
在控制成本的前提下,提升數(shù)據(jù)中心的容量、性能尤其是實(shí)時(shí)性是目前數(shù)據(jù)中心的主要需求。受需求驅(qū)動,數(shù)據(jù)中心使用QLC是遲早的事情。首先,相較于傳統(tǒng)HDD,QLC SSD具有更明顯的性能優(yōu)勢,尤其體現(xiàn)在更高的隨機(jī)讀性能。使用QLC SSD將為服務(wù)器和數(shù)據(jù)中心帶來更低的讀延遲,使其更適用于實(shí)時(shí)性要求更高的數(shù)據(jù)讀取密集型應(yīng)用,如AI計(jì)算、機(jī)器學(xué)習(xí)、金融數(shù)據(jù)實(shí)時(shí)分析和各種在線大數(shù)據(jù)信息挖掘等。其次,相較于SLCMLCTLC,陳杰認(rèn)為QLC最有可能在數(shù)據(jù)中心有更大的應(yīng)用場景,因其具有巨大的成本優(yōu)勢,尤其在海量數(shù)據(jù)的應(yīng)用場景中。QLC本身容量大、成本低,因此使用了QLC SSD之后,存儲密度更高,服務(wù)器集成度更高,這會極大地節(jié)省數(shù)據(jù)中心面積,進(jìn)而節(jié)省運(yùn)營成本。
與此同時(shí),世界各大主流NAND FLASH廠商,如美光、Intel、鎧俠和長江存儲積極致力于QLC的研發(fā),并相繼發(fā)布了各自的QLC產(chǎn)品。隨著技術(shù)的不斷進(jìn)步,人們普遍擔(dān)心的QLC擦寫壽命少正逐漸被改善和提高,比如從早期的500次擦寫提高到近年來的2000次擦寫。未來的NAND會有更多層,以及即將推出的PLC(i.e., 5-bit per cell), 都會使得成本被進(jìn)一步降低,同時(shí)也將加速Q(mào)LC的應(yīng)用進(jìn)程。
當(dāng)然QLC也有缺點(diǎn),它的寫延遲是12ms,非常長,目前的擦寫次數(shù)通常只能達(dá)到2000,另一個(gè)應(yīng)用中的較大問題是Data Retention,這些都需要通過主控技術(shù)進(jìn)行補(bǔ)償。
作為全球技術(shù)領(lǐng)先的SSD主控設(shè)計(jì)公司,英韌科技從2016年成立之初,就和美光、鎧俠在QLC方面開展合作。基于特有的專利編解碼技術(shù),英韌科技于2018年成功研發(fā)并全面啟用4K LDPC(低密度奇偶校驗(yàn)Low-Density Parity-Check)糾錯(cuò)技術(shù),并廣泛應(yīng)用于自主研發(fā)的消費(fèi)級和企業(yè)級主控芯片中(如Shasta+ 和 Rainier),極大地降低了系統(tǒng)UBER(不可糾錯(cuò)誤碼率Uncorrectable Bit Error Rate),引領(lǐng)了糾錯(cuò)編解碼技術(shù)在行業(yè)的技術(shù)創(chuàng)新發(fā)展。目前英韌的PCIe SSD各類主控芯片Shasta+及Rainier系列均支持4K LDPC,糾錯(cuò)能力可以完全覆蓋QLC NAND。
4K LDPC牛在哪兒?
隨著NAND Flash的制程越來越先進(jìn)、單個(gè)Cell里面的bit數(shù)量不斷增加,數(shù)據(jù)錯(cuò)誤率也隨之增長,因此市場對SSD主控的糾錯(cuò)能力要求越來越高,糾錯(cuò)技術(shù)已經(jīng)成為SSD主控廠商的核心技術(shù)能力。
目前的SSD主控芯片大都采用LDPC編碼來做ECC糾錯(cuò),但是受限于芯片面積等因素,主流量產(chǎn)的主控芯片主要采用2K LDPC編碼。英韌科技2018年推出了4K LDPC并在2019年實(shí)現(xiàn)量產(chǎn)出貨。在同樣的碼率下(糾錯(cuò)碼使用bit數(shù)量一樣),實(shí)測4K LDPC糾錯(cuò)比2K方案降低UBER至少兩個(gè)數(shù)量級以上,大大提高糾錯(cuò)性能。除此以外,英韌主控采用自主研發(fā)的LDPC專利算法,在解碼算法迭代的時(shí)候,實(shí)時(shí)動態(tài)更新并優(yōu)化解碼規(guī)則,因此糾錯(cuò)能力比同類競爭對手方案提高30%。
不過在芯片中實(shí)現(xiàn)4K LDPC的難度還是很大的,如果不做優(yōu)化,相當(dāng)于至少2個(gè)2K LDPC,因此對面積、功耗都有極大的挑戰(zhàn)和要求。英韌科技從芯片架構(gòu)設(shè)計(jì)開始,就考慮到了這些問題,比如針對不同的功耗,復(fù)雜度和吞吐率等需求,研發(fā)了多種不同性能的LDPC解碼專利算法,同時(shí)利用機(jī)器學(xué)習(xí)和人工智能技術(shù)對各種解碼算法進(jìn)行結(jié)構(gòu)和參數(shù)優(yōu)化,使得這些算法硬件復(fù)雜度和在滿足各自的需求方面都達(dá)到最優(yōu)。最終實(shí)現(xiàn)功耗和面積達(dá)到現(xiàn)有條件下的極致優(yōu)化,遠(yuǎn)遠(yuǎn)小于2K LDPC的2倍。
現(xiàn)在和未來的SSD主控芯片廠商必須要有糾錯(cuò)算法的自研能力才能在主控設(shè)計(jì)中游刃有余。
英韌科技的LDPC糾錯(cuò)碼核心完全自主可控,其糾錯(cuò)技術(shù)優(yōu)勢主要體現(xiàn)在兩方面的研發(fā)、設(shè)計(jì)能力。一方面是研發(fā)設(shè)計(jì)LDPC糾錯(cuò)碼。如何設(shè)計(jì)以及構(gòu)造性能優(yōu)異的LDPC校驗(yàn)矩陣是至關(guān)重要的一步,這是因?yàn)長DPC校驗(yàn)矩陣的設(shè)計(jì)構(gòu)造往往決定了LDPC糾錯(cuò)碼的糾錯(cuò)性能和編解碼算法的實(shí)現(xiàn)復(fù)雜度,如果校驗(yàn)矩陣設(shè)計(jì)考慮不周到或設(shè)計(jì)不好,僅僅靠解碼算法很難將錯(cuò)誤平層(Error Floor)降低到不影響系統(tǒng)性能的水平,而且會增加LDPC編解碼算法的實(shí)現(xiàn)復(fù)雜度,帶來芯片功耗的增加和成本的上升以及系統(tǒng)性能的下降。
另一方面是解碼算法,閃存顆粒隨著讀寫次數(shù)增加,錯(cuò)誤率會逐漸上升。英韌科技的解碼算法可以自適應(yīng)調(diào)整解碼算法的流程,在最低功耗、最低延時(shí)的情況下做到解碼成功。
基于以上兩方面的技術(shù)優(yōu)勢,英韌主控的糾錯(cuò)于設(shè)計(jì)之初就從底層原理出發(fā),對矩陣構(gòu)造和編解碼算法都有許多精妙的優(yōu)化,實(shí)現(xiàn)了很多突破。最終糾錯(cuò)能力極強(qiáng),發(fā)生糾錯(cuò)失敗從而觸發(fā)重讀的概率很小,同時(shí)糾錯(cuò)算法消耗的數(shù)據(jù)讀取延遲短、功耗低。比如從主機(jī)發(fā)讀命令到讀取數(shù)據(jù),主控的時(shí)延只需要10微秒!
目前市場上有多家閃存廠商,每家也有很多型號的閃存芯片,每年也推出最新的產(chǎn)品,這就對ECC糾錯(cuò)提出了一個(gè)更高難度的任務(wù):能否支持各種各樣閃存芯片和未來可能出現(xiàn)的新閃存芯片?如果對閃存芯片支持不好,就將給客戶在選擇采購閃存芯片時(shí)造成了很多限制。
英韌主控的ECC引擎做成了指令集的形式,可以通過軟件程序動態(tài)配置,更通用化,能夠靈活適配各種閃存顆粒。同樣的NAND在不同生命周期的時(shí)候,還可以使用不同的LDPC糾錯(cuò)碼。比如可以根據(jù)壽命改變碼長,早期放少一些,后期放多一些。這樣使得SSD系統(tǒng)在犧牲少許容量的情況下延長使用壽命。這種能力為更高效的使用SSD系統(tǒng)提供了一個(gè)可能,讓接近使用壽命的SSD系統(tǒng)繼續(xù)發(fā)揮余熱,為使用SSD系統(tǒng)的客戶提供了一種新的降低成本避免資源浪費(fèi)的解決方案。
英韌科技一直在持續(xù)不斷的對LDPC糾錯(cuò)碼進(jìn)行研究,對現(xiàn)有的SSD控制器中的LDPC編解碼模塊,設(shè)計(jì)了用于未來升級的接口協(xié)議。當(dāng)一個(gè)新的性能更好的LDPC碼產(chǎn)生出來,可以通過該升級接口協(xié)議對現(xiàn)有的SSD控制器的LDPC編解碼模塊進(jìn)行升級,使得用戶能夠及時(shí)享受到英韌的最新研究成果,延長客戶產(chǎn)品的使用周期和壽命。
每一個(gè)ECC引擎都相當(dāng)于一個(gè)小CPU,幾個(gè)ECC引擎就相當(dāng)于多核并行處理器系統(tǒng)。ECC引擎的擴(kuò)展性非常重要,因?yàn)镾SD主控的性能不斷提升,要求每個(gè)ECC核心的性能很強(qiáng),同時(shí)支持多核擴(kuò)展。英韌ECC單核糾錯(cuò)速度可以到32Gbps。即使是PCIe Gen 5的主控,也只需要增加ECC核心,而不用太大改動,芯片研發(fā)速度因此可以大大加快。
但是ECC引擎多了之后,功耗也會隨之升高。以英韌科技的PCIe Gen4主控Rainier為例,主要通過以下幾種方式,實(shí)現(xiàn)目前市場上PCIe主控芯片的最強(qiáng)性能和最低功耗:
采用先進(jìn)的12nm工藝,相較于市場上采用28nm工藝的PCIe Gen4的SSD主控,良好控制溫度,提高用戶體驗(yàn);
在不工作的時(shí)候降低或者關(guān)閉時(shí)鐘頻率;
LDPC會有大量的片內(nèi)存儲器訪問,導(dǎo)致功耗高。英韌主控的內(nèi)部數(shù)據(jù)搬移非常少,大幅降低功耗。
LLR Table的選擇也是做了很多優(yōu)化,不刻意追求高精度。
閃存芯片未來會怎么演進(jìn)?
如下圖,SSD性能這么高的秘密就在于有很多個(gè)閃存芯片可以并行讀寫,雖然單個(gè)芯片帶寬沒那么高,但是集體的力量大,很多芯片并行起來就可以實(shí)現(xiàn)非常高的性能。
但隨著QLC的逐漸普及,未來閃存芯片單顆容量會很大,一個(gè)SSD里面的閃存顆粒數(shù)量不需要那么多,這就會產(chǎn)生一個(gè)嚴(yán)重的問題,一旦SSD內(nèi)部沒有這么多的閃存顆粒,并行度就會下降,導(dǎo)致性能上不去,這該怎么辦?
目前閃存廠商在想辦法讓NAND Flash內(nèi)部提升并行度。主要做法是Plane數(shù)目會增加,同時(shí)Page Size變小(目前常規(guī)是16KB或者8KB)。Page變小之后,可以做更多的plane,相較于目前最多4個(gè)plane,未來有可能會有8個(gè)甚至16個(gè)plane。這些功能的改變都需要強(qiáng)大的主控支持,而英韌最新主控支持多達(dá)16個(gè)plane!
閃存芯片的接口速度也在日新月異,2016年是667 MT/s,現(xiàn)在是1600MT/s,國際閃存原廠下一代閃存芯片接口將達(dá)到2400MT/s甚至更高。現(xiàn)在非常值得我們驕傲的是,我國自主的長江存儲采用先進(jìn)的Xstacking技術(shù),在一個(gè)芯片里面把NAND存儲單元和IO接口分開獨(dú)立設(shè)計(jì)與加工,于2020年4月成功推出128層TLC和QLC兩款產(chǎn)品,其接口速度達(dá)到1600MT/s,標(biāo)志著我國閃存芯片的設(shè)計(jì)能力已達(dá)到世界先進(jìn)水平。隨著對技術(shù)創(chuàng)新的不斷投入,我們相信國產(chǎn)自主的閃存芯片廠商會逐漸確立并引領(lǐng)世界技術(shù)創(chuàng)新方向,而英韌科技也已經(jīng)做好了提前一步支持未來的高速接口的準(zhǔn)備。
數(shù)字經(jīng)濟(jì)在蓬勃發(fā)展,作為信息基礎(chǔ)設(shè)施的數(shù)據(jù)中心必然在未來的幾年內(nèi)不斷對存儲技術(shù)和產(chǎn)品提出挑戰(zhàn),隨著QLC顆粒的應(yīng)用,以及閃存芯片的不斷演進(jìn),作為國際領(lǐng)先的SSD主控芯片廠商的英韌科技,也將繼續(xù)推進(jìn)技術(shù)創(chuàng)新,以更高性能的產(chǎn)品和更豐富的產(chǎn)品類型,滿足更廣泛的市場需求。
原文標(biāo)題:從英韌企業(yè)級主控看數(shù)據(jù)中心SSD的未來技術(shù)
文章出處:【微信公眾號:ssdfans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
SSD
+關(guān)注
關(guān)注
20文章
2851瀏覽量
117253 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8864瀏覽量
137310
原文標(biāo)題:從英韌企業(yè)級主控看數(shù)據(jù)中心SSD的未來技術(shù)
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論