這些年來,記憶體領(lǐng)域出現(xiàn)了各種動(dòng)態(tài)隨機(jī)存取記憶體(DRAM)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)也都各自進(jìn)一步發(fā)展出不同世代的版本。本文將回顧不同DRAM架構(gòu)的特色,點(diǎn)出這些架構(gòu)的共同趨勢(shì)與瓶頸,并會(huì)提出IMEC為了將DRAM性能推至極限而采取的相關(guān)發(fā)展途徑。
動(dòng)態(tài)隨機(jī)存取記憶體(dynamic random access memory;DRAM)主要被用來當(dāng)作電腦的主要記憶體,中央處理器(CPU)便是從該記憶體讀取指令。這些年來也出現(xiàn)了不同的DRAM標(biāo)準(zhǔn),以滿足不同需求與應(yīng)用。為了回應(yīng)對(duì)頻寬越來越高的要求,這些標(biāo)準(zhǔn)都各自進(jìn)一步發(fā)展出不同世代的版本。
IMEC系統(tǒng)記憶體架構(gòu)師Timon Evenblij與計(jì)畫主持人Gouri Sankar Kar將于本文回顧不同DRAM架構(gòu)的特色,并點(diǎn)出這些架構(gòu)共同面對(duì)的趨勢(shì)與瓶頸。他們也會(huì)提出IMEC采取的相關(guān)發(fā)展途徑,以將DRAM性能推升至最終極限。
DRAM的基本概念
位元格(bit cell)
在開始探討不同的DRAM架構(gòu)之前,我們先來了解DRAM的基本概念吧!以下說明以卡內(nèi)基.梅隆大學(xué)Onur Mutlu教授的課程為基礎(chǔ)。
所有的記憶體都以位元格(bit cell)構(gòu)成,它是恰好儲(chǔ)存1位元的半導(dǎo)體架構(gòu),因而得其名。對(duì)DRAM來說,其位元格包含了一個(gè)電容(capacitor)和一個(gè)晶體管(transistor);電容被用來儲(chǔ)存電荷,而晶體管則用以存取電容,不論是去讀取已儲(chǔ)存的電荷量,或是去儲(chǔ)存新的電荷。
字元線(wordline)一直與晶體管的閘極相連,以控制往電容的通道;位元線則與晶體管的源極相連,以讀取位元格內(nèi)儲(chǔ)存的電荷,或是在寫入新的數(shù)值時(shí)提供位元格所需的電壓。這個(gè)基本架構(gòu)很簡(jiǎn)單且體積小,所以制造商可以在單一芯片上非常大量制造DRAM的位元格。
但其缺點(diǎn)是,單一晶體管不容易在其狹小的電容中保存電荷,電流會(huì)泄漏至電容或從電容中流出,導(dǎo)致晶體管漸漸失去定義完善的電荷狀態(tài)。但是這個(gè)問題可以透過定期更新(periodically refresh)DRAM記憶體來避免,也就是讀取DRAM記憶體的內(nèi)容后再重新寫入。
有在專心閱讀的讀者可能已經(jīng)發(fā)現(xiàn)問題了,當(dāng)電荷自電容中讀取出來時(shí),電荷就消失了。但是在讀取DRAM位元格的數(shù)值后,該數(shù)值應(yīng)該要再重新寫入,這也是為何DRAM取名含有「動(dòng)態(tài)」一詞。
圖一: DRAM位元格的示意圖
進(jìn)入位元格陣列
多個(gè)位元格可以整合成如矩陣般的大型架構(gòu)。多條字元線和位元線相互交叉,而每個(gè)交叉點(diǎn)都有一個(gè)位元格在處理資料。而對(duì)某字元線施加電壓就能選出所有相應(yīng)的位元格,這些位元格則會(huì)將電流傳至各自的位元線。這些電流將微幅改變每條位元線的電壓,這個(gè)小改變會(huì)由感測(cè)放大器(sense amplifier)偵測(cè)出來。
感測(cè)放大器這種結(jié)構(gòu)會(huì)將小幅增加的電壓放大成高電壓(代表邏輯1),并把微幅降低的電壓放大成零電壓(代表邏輯0)。它也會(huì)將各個(gè)邏輯數(shù)值儲(chǔ)存至一個(gè)多閂(latches)結(jié)構(gòu),也就是所謂的列緩沖區(qū)(row buffer)。列緩沖區(qū)的功能就像是快取記憶體,因?yàn)槲辉駜?nèi)的數(shù)值在讀取時(shí)會(huì)消失,所以在讀取某條字元線上的數(shù)個(gè)位元格時(shí),列緩沖區(qū)就會(huì)保存讀取而來的數(shù)值。
感測(cè)這個(gè)步驟本身就是緩慢的過程,而電容越小、位元線越長(zhǎng)時(shí),感測(cè)時(shí)間就會(huì)延長(zhǎng)。這段感測(cè)時(shí)間也決定了DRAM的存取時(shí)間,而在過去幾十年間,DRAM的感測(cè)時(shí)間一直維持不變。每一代DRAM的可用頻寬增長(zhǎng),皆是透過在DRAM芯片上運(yùn)用更多平行處理能力來實(shí)現(xiàn),而不是由縮短存取時(shí)間達(dá)成。
但在深入探討這個(gè)議題前,我們先來看看如何運(yùn)用這些位元格來建構(gòu)記憶體系統(tǒng)。這里談到的架構(gòu)通常用于采用記憶體模組(memory module)的桌機(jī)系統(tǒng)。至于其他DRAM架構(gòu),它們并未采用模組的概念,但大多都能以相同的術(shù)語來描述其運(yùn)作模式。
DRAM架構(gòu)
在處理器上,有部份的邏輯電路是專門設(shè)計(jì)給記憶體控制器(memory controller)來使用,這些電路負(fù)責(zé)管理所有從CPU到主要記憶體的通道。
處理器可能有多個(gè)記憶體控制器,而記憶體控制器具備一個(gè)或多個(gè)記憶體通道(memory channel),每個(gè)通道包含一個(gè)指令或位址匯流排,以及一個(gè)資料匯流排(預(yù)設(shè)狀態(tài)下寬度為64位元)。
在該通道上,我們可以連接一個(gè)或多個(gè)記憶體模組,而每個(gè)記憶體模組包含一個(gè)或兩個(gè)秩(rank)。一個(gè)秩包含幾個(gè)DRAM芯片,這些芯片整合在一起就能在每個(gè)周期提供足夠的位元來填充資料匯流排。
在一般情況下,也就是資料匯流排為64位元寬且每芯片提供8位元的儲(chǔ)存空間(所謂的x8芯片),一個(gè)秩包含8個(gè)芯片。如果模組配有超過一個(gè)秩,這些秩會(huì)多工傳輸至同一個(gè)匯流排,所以不同秩不能同時(shí)向該匯流排傳輸資料。
每秩上的各芯片以相同速度同步運(yùn)行,也就是說它們會(huì)一直執(zhí)行完全相同的指令,且不能分開定址。這對(duì)接下來要說明的概念來說很重要:每個(gè)芯片包含數(shù)個(gè)記憶體庫(memory bank)—記憶體庫就是數(shù)個(gè)位元格所組成的大型矩陣,而位元格,如上所述,具備字元線、位元線、一個(gè)感測(cè)放大器以及列緩沖區(qū)。由于同一秩內(nèi)的芯片會(huì)同步運(yùn)行,所以記憶體庫一詞也可以指同一秩內(nèi)的8個(gè)芯片上的8個(gè)記憶體庫。
在第一個(gè)案例,我們會(huì)使用「實(shí)體記憶庫」一詞,而在第二個(gè)案例,則偏好使用「邏輯記憶庫」一詞,但其實(shí)文獻(xiàn)資料并不總是清楚界定這些術(shù)語。
在介紹這些術(shù)語后,我們現(xiàn)在就可以來談?wù)劜煌腄RAM架構(gòu)和世代,以及它們?nèi)绾蔚旎诒舜说募軜?gòu)上進(jìn)行改良。我們一樣會(huì)先從個(gè)人電腦(PC)的常規(guī)DRAM模組談起。
DRAM標(biāo)準(zhǔn)
常規(guī)DDR
DRAM記憶體已經(jīng)存在許久,但我們不會(huì)在此上一堂完整的歷史課。我們只會(huì)在開始討論雙倍數(shù)據(jù)傳輸率(double data rate;DDR)世代之前,先快速帶過單倍數(shù)據(jù)傳輸率(single date rate;SDR)記憶體。我們要了解SDR的重點(diǎn),是其介面與資料匯流排的I/O時(shí)脈(IO clock)與記憶體的內(nèi)存時(shí)脈(internal clock)頻率相同。這種記憶體受限于其內(nèi)部記憶體的存取速度。
第一代DDR的目標(biāo)是在每I/O時(shí)脈周期傳輸兩個(gè)資料字組(data word),一組在時(shí)脈升緣時(shí)傳輸,另一組則在降緣時(shí)傳輸。此傳輸模式的設(shè)計(jì)者采用了預(yù)取(prefetching)這個(gè)概念來實(shí)現(xiàn)將傳輸速率翻倍。一個(gè)被稱為「預(yù)取緩沖區(qū)(prefetch buffer)」的結(jié)構(gòu)被插置在DRAM記憶體庫和輸出電路之間,這個(gè)小型緩沖區(qū)在每時(shí)脈周期、同一條匯流排上能夠儲(chǔ)存的位元數(shù)量,是原本SDR設(shè)計(jì)的兩倍。
就x8芯片而言,其預(yù)取緩沖區(qū)為16位元。我們將此稱作「2n」預(yù)取緩沖區(qū)。以讀取一整列DRAM的內(nèi)存讀取周期來說,例如讀取一列包含2000行的數(shù)據(jù),就會(huì)有很多資料能來填充該預(yù)取緩沖區(qū)。該緩沖區(qū)內(nèi)也會(huì)有足夠的資料來填充匯流排,在時(shí)脈的升降兩緣分別傳遞一組字組。
這個(gè)預(yù)取概念也適用于DDR2架構(gòu),只是其預(yù)取緩沖區(qū)變成「4n」。如此,設(shè)計(jì)者就能將I/O時(shí)脈提升至內(nèi)存時(shí)脈的兩倍,且在每周期內(nèi)都能將資料匯流排填滿資料。以此類推,DDR3同樣將預(yù)取緩沖區(qū)的位元數(shù)翻倍(亦即「8n」),而其I/O時(shí)脈現(xiàn)在增至內(nèi)存時(shí)脈的四倍。
圖二: DDR的預(yù)取機(jī)制(source:synopsys)
但是,如此類推還是有個(gè)極限。將預(yù)取緩沖區(qū)的傳輸位元數(shù)再度翻倍以達(dá)到「16n」,意味著每個(gè)讀取指令中會(huì)有64個(gè)位元被傳遞至處理器16次,此資料量是一般快取行( cache line)的兩倍(快取行是處理器快取資料的基本單位)。如果只有一條快取行包含有用資料,那么再去傳遞第二條快取行就會(huì)浪費(fèi)很多時(shí)間和能耗。
因此,DDR4并未將預(yù)取的位元數(shù)翻倍,而采用了另一項(xiàng)技術(shù),叫做記憶體分組(bank grouping)。該技術(shù)引進(jìn)多組記憶體庫,每組都有各自的8n預(yù)取緩沖區(qū),另有一個(gè)多工器負(fù)責(zé)從適切的分組里選取輸出資料。如果控制器的記憶體請(qǐng)求能以交錯(cuò)的方式發(fā)出,以連續(xù)請(qǐng)求來存取不同分組的資料的話,I/O速度一樣能成長(zhǎng)一倍,變成內(nèi)存時(shí)脈的八倍。
圖三: 記憶體分組機(jī)制的示意圖。(source:synopsys)
那么接下來的DDR5會(huì)如何發(fā)展?其目標(biāo)也是要將I/O速度翻倍。DDR5呢,計(jì)畫是引用一項(xiàng)已應(yīng)用在LPDDR4的技術(shù),我們稱之為通道分裂(channel splitting)。
該技術(shù)將64位元的匯流排分成兩個(gè)獨(dú)立的32位元通道。因?yàn)楝F(xiàn)在每通道只提供32位元的資料空間,我們就能將預(yù)取增加至16n,這就能將存取粒度提升至64位元組,剛好等于一般快取行的資料大小。如此增加預(yù)取的資料量就能再次提升I/O時(shí)脈速度。
當(dāng)然,提升I/O時(shí)脈速度并不只是在每周期內(nèi)以充足的可用資料填充匯流排那樣簡(jiǎn)單,還要面對(duì)多種與高頻率訊號(hào)相關(guān)的挑戰(zhàn),像是訊號(hào)完整性、雜訊與功耗使用的問題。這些挑戰(zhàn)可以運(yùn)用幾項(xiàng)技術(shù)解決,例如芯片內(nèi)建終端架構(gòu)(on-die termination)、差分時(shí)脈(differential clocking),以及將記憶體與處理器進(jìn)行更密切的整合。這些技術(shù)大多源自其他DRAM架構(gòu),也就是LPDDR和GDDR,但我們將更聚焦在一個(gè)整合的概念上。
圖四: 各代DDR記憶體的規(guī)格比較。
LPDDR
LPDDR指的是低功耗雙倍數(shù)據(jù)傳輸率(low power DDR)。該標(biāo)準(zhǔn)的主要概念,一如其名,就是降低記憶體的功耗,而要實(shí)現(xiàn)這個(gè)目標(biāo)有很多種方法。
LPDDR和普通記憶體的第一個(gè)差異,在于它和處理器的連接方式。LPDDR記憶體與處理器緊密整合,不論是被焊接在主機(jī)板上,與CPU緊鄰,或是采用越來越普及的作法—以封裝層疊技術(shù)(package-on-package;PoP)直接堆疊在處理器上方(通常是SoC)。更加緊密的整合能讓連接記憶體和處理器間的導(dǎo)線電阻更小,進(jìn)而降低功耗。
圖五: 以封裝層疊技術(shù)進(jìn)行整合的示意圖。(source:wikipedia)
第二個(gè)差異則是通道寬度。LPDDR記憶體沒有固定的匯流排寬度,雖然一般來說最常見的是32位元。這個(gè)規(guī)格與普通記憶體相比算是較小,因而能節(jié)省能耗。
此外,LPDDR記憶體以較低的電壓運(yùn)作,這也會(huì)大大影響功耗。最后一點(diǎn),LPDDR藉由多種辦法優(yōu)化記憶體更新這個(gè)步驟,像是依據(jù)溫度調(diào)適更新、局部陣列自行更新(partial array self-refresh;PASR)、深度省電狀態(tài)(deep power-down state)等,將LPDDR的備用功耗(standby power)大幅降低了。
我們現(xiàn)在不會(huì)深入探討這些技術(shù),但基本上它們都必須犧牲部份的反應(yīng)時(shí)間,以換取更低的備用功耗,因?yàn)橛洃涹w在能夠回應(yīng)請(qǐng)求前,需要一些時(shí)間從省電模式中「醒來」。
如上所述,不同代的LPDDR記憶體也采用了預(yù)取技術(shù)來增進(jìn)性能。然而,LPDDR4是第一個(gè)引進(jìn)16n緩沖區(qū)與通道分裂技術(shù)的標(biāo)準(zhǔn),而LPDDR5預(yù)計(jì)會(huì)是第一個(gè)推出記憶體分組功能的標(biāo)準(zhǔn)。
圖六: 各代LPDDR記憶體的規(guī)格變化。
GDDR
GDDR亦即繪圖用雙倍數(shù)據(jù)傳輸率(graphics DDR),其命名暗指該標(biāo)準(zhǔn)適用于繪圖芯片專用的記憶體。如今,這類記憶體在任何具備高頻寬需求的應(yīng)用上都相當(dāng)備受矚目,因?yàn)楦哳l寬就是其焦點(diǎn)所在。
GDDR記憶體也與處理器—也就是圖形處理器,密切地整合在一起,方法是將之焊接在PCB上。但GDDR記憶體并非直接放在GPU上方,因?yàn)檫@樣很難達(dá)到預(yù)定的電容,且在此情況下會(huì)很難降溫。
與傳統(tǒng)DDR芯片(例如32位元)相比,GDDR芯片的頻寬更寬,且每個(gè)芯片都直接連接至GPU,不須在一個(gè)固定64位元的匯流排上進(jìn)行多工處理。也就是說,繪圖芯片上會(huì)有更多GDDR芯片,也就會(huì)有更寬頻的匯流排。
此外,由于這些芯片的接線不須進(jìn)行多工處理,接線的頻率也提高了,就能進(jìn)一步提升GDDR記憶體的I/O時(shí)脈頻率。透過使用更小的陣列與更大的周邊電路,記憶體內(nèi)部的讀取速度變快了,I/O時(shí)脈速度因而提升,同時(shí)降低GDDR芯片的記憶體密度。
而更緊密結(jié)合記憶體與處理器也代表著,繪圖芯片的最終電容更加受限,畢竟與大尺寸GPU緊密整合的GDDR芯片數(shù)量最多只有12個(gè)。
為了提升記憶體頻寬,各代GDDR架構(gòu)也采用與開發(fā)DDR時(shí)一樣的技術(shù)。第一代GDDR標(biāo)準(zhǔn)是GDDR2,該標(biāo)準(zhǔn)基于DDR;而GDDR3基于DDR2;接下來是GDDR4,因?yàn)檫@代幾乎不存在,所以略過不談;GDDR5則以DDR3為基礎(chǔ),且一直到現(xiàn)在還是非常流行,GDDR5采用差分時(shí)脈,還能立即開啟兩個(gè)記憶體分頁(memory page)。
GDDR5X則是增進(jìn)GDDR5性能的過渡版本,采用了具備16n緩沖區(qū)的四倍數(shù)據(jù)傳輸率(quad data rate;QDR)模式,但缺點(diǎn)是存取粒度變大了,但這對(duì)GPU來說不是大問題;GDDR6則將通道分裂開來,就像LPDDR4,這樣就能在同一匯流排上提供兩個(gè)更小的獨(dú)立通道,把存取粒度變小,實(shí)現(xiàn)具備16n緩沖區(qū)的QDR模式;沒錯(cuò),如此說來,GDDR6應(yīng)該更適合叫做GQDR6。
圖七: 各代GDDR記憶體的規(guī)格比較。
3D革命
HBM
HBM和GDDR多有雷同,它也與GPU緊密整合,而且也不放在GPU上方,畢竟我們還需要大量電容并將芯片降溫。那么HBM差在哪?
首先,HBM在PCB板的位置并不在GPU旁邊,而是在連接GPU與芯片的中介層(interposer)上。目前,通常使用的是被動(dòng)式硅中介層,亦即一大片不含任何主動(dòng)元件的硅芯片,只有內(nèi)連導(dǎo)線。
這種中介層的優(yōu)點(diǎn)是能在上面布建更多平行導(dǎo)線,而不會(huì)耗費(fèi)大量功率。因此,一個(gè)極寬的匯流排誕生了,以往這在PCB上是不可能實(shí)現(xiàn)的。然而,雖然這種中介層相當(dāng)容易制造,但畢竟還是一大塊硅芯片,因此成本也較高。
再者,記憶體芯片可以相互堆疊,使得芯片在垂直面上能實(shí)現(xiàn)小面積仍具備高電容。這些芯片具有大量的硅穿孔,連結(jié)記憶體堆內(nèi)的各個(gè)芯片,以及其底部的邏輯芯片。而該邏輯芯片也會(huì)連結(jié)到中介層上的寬匯流排,使得記憶體芯片和GPU之間具備高頻寬。事實(shí)上,該匯流排寬度充足,所以記憶體芯片的I/O時(shí)脈可以降至低頻。而降頻加上連接至GPU的導(dǎo)線長(zhǎng)度極短,這兩個(gè)特點(diǎn)就能在使用HBM時(shí)將每位元的能耗大幅降低(大約三倍)。
圖一: GDDR5和HBM的比較。(source:graphicscardhub.com)
圖二: HBM的芯片垂直面示意圖(source:widipedia.org)
下表顯示了不同代HBM的重點(diǎn)規(guī)格。目前來說,HBM2仍在供應(yīng)中。有趣的是,三星去(2019)年發(fā)布了新款HBM2e記憶體,該產(chǎn)品跳脫常見規(guī)格,單位芯片具備更高電容(16Gb),并進(jìn)一步提高資料傳輸率至每堆疊410GB/s。
圖三: 各代HBM的規(guī)格比較表。
HMC
盡管美光不再努力開發(fā)HMC標(biāo)準(zhǔn),我們還是想要稍微介紹一下。HMC是常規(guī)DDR記憶體的3D版,特別鎖定用在未來的伺服器上,雖然這個(gè)看法以往在業(yè)界并不總是很明確。HBM聚焦在頻寬上,因此需要進(jìn)行高度整合,犧牲電容和芯片擴(kuò)展性。這就是所謂的「近記憶體(near memory)」。
HMC的重點(diǎn)則在電容,以及將更多記憶體堆輕松整合至伺服器內(nèi),就像運(yùn)用閑置插槽來將更多DDR記憶體安裝至主機(jī)板一樣。這種方式能提供松弛整合,滿足整體系統(tǒng)記憶體要實(shí)現(xiàn)高電容的需求。而這通常被稱作「遠(yuǎn)記憶體(far memory)」。
圖四: 近記憶體與遠(yuǎn)記憶體的比較。(source:eejournal.com)
除了這點(diǎn)雷同之外,HMC是與DDR最不相同的記憶體標(biāo)準(zhǔn),差異比其他任何在本文提到的標(biāo)準(zhǔn)都還大。HMC不使用DDR的匯流排傳輸方式,而是使用記憶體封包,這些封包以高速SerDes鏈接在處理器與記憶體立方體之間傳遞。如此就可能形成菊鏈立方體,以有限的內(nèi)連導(dǎo)線達(dá)到更高電容。
此外,記憶體控制器完全整合在每個(gè)立方體的底座芯片,而不像DDR把控制器放在CPU芯片上,也不像HBM那樣分置在GPU和記憶體堆上。
圖五: 比較HMC與HBM結(jié)構(gòu)的示意圖(source:eejournal.com)
Wide I/O
Wide I/O是LPDDR記憶體的3D對(duì)應(yīng)版本,優(yōu)先采用極端的整合方式來實(shí)現(xiàn)可能的最低功耗。這類記憶體應(yīng)該要直接整合在SoC上方,透過硅穿孔直接連至CPU芯片。如此就能將內(nèi)連導(dǎo)線變得極短,其所需功耗是所有標(biāo)準(zhǔn)中最低的。
此外,Wide I/O還可能具備極寬的匯流排,端視硅穿孔的密度與尺寸而定。然而,這種極端的整合也要求在SoC內(nèi)導(dǎo)入硅穿孔,這就會(huì)占去大片寶貴的邏輯芯片面積,因此成本極為高昂。這大概也是為什么我們還未見過任何采用該技術(shù)的商用產(chǎn)品。或許有趣的是,第一代Wide I/O標(biāo)準(zhǔn)采用了軟體定義無線電(SDR)介面,但第二代標(biāo)準(zhǔn)改用DDR介面。
總結(jié)各類DRAM的特點(diǎn)
我們已經(jīng)呈現(xiàn)了不同DRAM類型在設(shè)計(jì)本質(zhì)上曾做出或?qū)頃?huì)做出的一些必要取舍。每種標(biāo)準(zhǔn)最終都采用相同的概念來改善每一代版本的頻寬,相關(guān)技術(shù)例如包含更大的預(yù)取緩沖區(qū)、記憶體分組、通道分裂、差分時(shí)脈、指令匯流排優(yōu)化,以及更新優(yōu)化( refresh optimization)。
不同標(biāo)準(zhǔn)不過是擁有各自的發(fā)展重點(diǎn),不論是聚焦電容和彈性整合(DDR和HMC),或最低功耗(LPDDR和Wide I/O),還是最高頻寬(GDDR和HBM)。看到3D技術(shù)帶給這幾個(gè)目標(biāo)市場(chǎng)的優(yōu)勢(shì),其實(shí)頗富趣味。
將記憶體進(jìn)行緊密的3D整合,是能提升頻寬的有效方式,但基本上還是會(huì)限制電容。首先,放在靠近運(yùn)算單元的記憶體堆是有數(shù)量限制的,再者,每一堆疊能容納的記憶體芯片數(shù)量也有限。
未來我們也將會(huì)明白,單一DRAM芯片的儲(chǔ)存格數(shù)已經(jīng)逼近極限了。隨著各式應(yīng)用對(duì)資料量的需求增長(zhǎng),在面對(duì)記憶體與處理器之間出現(xiàn)頻寬落差的「記憶體墻(memory wall)」問題時(shí),記憶體密度也成為一個(gè)更重要的考量點(diǎn)。
DRAM的未來展望:IMEC觀點(diǎn)
為了將DRAM技術(shù)推升至其最終極限,并解決記憶體墻的技術(shù)問題,IMEC探索了兩條可能的發(fā)展道路。這兩條發(fā)展途徑采用了完全迥異的技術(shù),將需要全新的架構(gòu)標(biāo)準(zhǔn)來促使下一代DRAM記憶體的誕生。
第一條發(fā)展途徑是提升DRAM位元格的動(dòng)態(tài)性(dynamic nature)。如本文開頭所述,儲(chǔ)存在DRAM位元格電容內(nèi)的電荷會(huì)緩慢流失。因此,DRAM需要被更新。每列通常64毫秒更新一次。這會(huì)增加性能與功耗的常態(tài)性負(fù)擔(dān)(overhead)。
采用鐵電材料的電容設(shè)計(jì)(ferro capacitor)就是一個(gè)頗富潛力的辦法,它能讓DRAM位元格儲(chǔ)存電荷的時(shí)間延長(zhǎng),這也有助于減緩選擇晶體管(select transistor)對(duì)關(guān)閉電流的嚴(yán)苛要求。此外,鐵電電容能改善DRAM的資料保存時(shí)間(retention time),這也帶來諸多益處,例如可忽略更新的負(fù)擔(dān)、快速開啟或關(guān)閉低功耗模式、實(shí)現(xiàn)更低的備用功耗,以及進(jìn)一步推動(dòng)DRAM的規(guī)模化。
在IMEC的鐵電研究計(jì)劃中,他們正在開發(fā)以鐵電材料為基礎(chǔ)的金屬—絕緣體—金屬(metal-insulator-metal;MIM)電容器,以探索提升DRAM動(dòng)態(tài)性的途徑。為了有效發(fā)揮這項(xiàng)技術(shù)以達(dá)到最低功耗,就需要一套聚焦在這些非揮發(fā)特性的全新DRAM架構(gòu)標(biāo)準(zhǔn)。
然而,要延續(xù)DRAM的規(guī)模化藍(lán)圖以開發(fā)出更多代的版本,上述的發(fā)展途徑可能并不是最佳選項(xiàng)。因?yàn)橐?guī)模化的問題,芯片密度已開始在約8~16GB的范圍達(dá)到飽和,要將DRAM芯片的電容擴(kuò)充至32GB以上變得相當(dāng)困難。如果我們想要繼續(xù)邁向規(guī)模化,將需要更具破壞性的創(chuàng)新技術(shù)。
其中一個(gè)辦法是以低漏電流沉積的薄膜晶體管(thin-film transistor;TFT),像是氧化銦鎵鋅(indium-gallium-zinc-oxide;IGZO),來取代DRAM位元格內(nèi)的硅基晶體管。這種材料的寬能隙能確保DRAM具備低關(guān)閉電流—這是DRAM儲(chǔ)存單元晶體管的必要特性。由于我們不再需要材料硅來制造儲(chǔ)存單元晶體管,現(xiàn)在就可以將DRAM儲(chǔ)存單元的周邊電路移至DRAM陣列下方。如此,儲(chǔ)存單元的面積就能大幅降低。
下一步我們會(huì)考慮堆疊DRAM儲(chǔ)存單元。儲(chǔ)存電荷所需的電容已經(jīng)達(dá)到規(guī)模化的極限,但要是我們能用極小的電容來儲(chǔ)存電荷呢?甚至完全不用電容,又會(huì)怎樣呢?
IGZO晶體管具備的超低漏電流就有可能開啟一條全新道路,能夠建立不須電容的DRAM儲(chǔ)存單元。由于電容不再,加上IGZO晶體管所用之材料能與后段制程相容,甚至有機(jī)會(huì)采用可規(guī)模化的制程,將不同儲(chǔ)存單元垂直堆疊。這帶來許多好處,但也帶給不同抽象層各式挑戰(zhàn),例如制程、技術(shù)、位元格設(shè)計(jì)、記憶電路設(shè)計(jì)與系統(tǒng)架構(gòu)。
為了解決這些挑戰(zhàn),IMEC正在思考可能的跨層解決方案,用于未來的高性能DRAM標(biāo)準(zhǔn),可能提供方法將DRAM記憶體進(jìn)一步規(guī)模化,遠(yuǎn)遠(yuǎn)超過目前所預(yù)期的極限。
責(zé)任編輯人:CC
評(píng)論
查看更多