LPDDR4是用于移動應用的最新雙數據率同步DRAM,它是當今高端便攜產品中常見的DRAM類型,應用于如Samsung Galaxy S6智能手機,Apple iPhone 6S [1],以及數種最新發布的設備。除了移動應用之外,預計LPDDR4會像其前任LPDDR3那樣應用于平板電腦、輕薄筆記本電腦中,會采用“底層存儲器”配置,亦即,DRAM以物理方式焊接在主板上。
LPDDR4在很小的PCB面積和體積上提供了巨大的帶寬;在3200Mbps的數據率下,當兩片Die封裝在一起時,單個15毫米x15毫米LPDDR4封裝包可提供25.6 GByte/s的帶寬。LPDDR4建立在LPDDR2和LPDDR3的成功基礎之上,增加了新的特性并引入了主要的結構變化。
本白皮書中闡明了LPDDR4與以前所有JEDEC DRAM規格的差異之處。討論了下述方面:
設計人員為何選擇LPDDR4
LPDDR4體系結構的亮點
如何最好地配置LPDDR4通道
如何處理具有多通道連接的2片和4片封裝
通過系統級芯片(SOC)分割共享通道的優點
如何優化通道以實現最低功耗
為什么是LPDDR4?
LPDDR4包含多項特性,這使得SOC設計團隊能夠降低分離DRAM的功耗。對于諸如PC和服務器等桌面設備,通常將使用安裝在雙列直插內存模塊(DIMM)上的DDR器件,所述DIMM位于64位寬總線上。這類板級解決方案能夠就地升級DRAM容量,但需要長且負載較重的連接線,與較短的走線相比,它消耗的功率更高。對于使用LPDDR2、LPDDR3和LPDDR4的系統,每條總線上的內存器件通常數量更少,連接線也更短,因而消耗的功率比DDR2、DDR3和DDR4器件更低。
設計團隊能夠調用LPDDR4 DRAM內的節能選項。這些特性包括更低的電壓和I/O電容;更小寬度的多路復用命令和地址總線;消除了on-DRAM DLL;更快進出的低功耗待機模式;更快、更加簡單的變頻。
最后,LPDDR4 DRAM具有溫度感知刷新特性,這有助于使DRAM的刷新率與DRAM的位單元本身的要求匹配,尤其是在低功率自刷新待機模式下更是如此。在待機模式下可自動啟用該特性,類似地,在主動模式下可讀取溫度指示,使得LPDDR4控制器能夠調節其自刷新率,從而與LPDDR4器件的熱狀態相符。
LPDDR4采用了針對移動裝置的模型
在實際應用中,移動用戶僅在較少的時間段內才會用到LPDDR4的最高工作頻率。此時,用戶或是采集或顯示高清晰(4K)視頻,或是玩具有高圖形要求的游戲,或是處理圖形,或是引導或加載新的軟件。
在部分時間段內,內存會降至LPDDR3速度級別。這一性能水平足以支持文本、呼叫、網頁瀏覽、照片、簡單游戲:所有這些功能對CPU或GPU沒過高要求。
在大部分時間段內,移動設備并不使用,它或是在口袋內、或是在床邊,此時DRAM斷電或處于低速模式下。僅一個內存通道處于活動狀態下,用于執行“始終在線、始終連接”任務。在該模式下,設備執行后臺任務,如保持電池接觸,接收消息,接收/顯示推送通知,郵件同步,以及時間顯示。
然而,正是由于最高使用時間的設備性能,很多移動用戶升級了其設備,這正是該使用模式下優秀用戶體驗十分重要的原因之所在(圖1)。
?
圖1:最高使用時間是移動用戶升級循環的驅動因素
LPDDR4體系結構變化
與前代相比,LPDDR4規范中確定了多種性能和特性改進。最為重要的是,LPDDR4對體系結構進行了重大改變:LPDDR4器件采用了每一裸片上2個獨立通道的布局方案。
DDR2、DDR3和DDR4器件的每一封裝包提供了一套命令地址輸入總線和一套數據總線,最為常見的是每一封裝包一個裸片。LPDDR2和LPDDR3的每一封裝包可提供1~4個裸片。對于LPDDR4、LPDDR3和LPDDR2,在雙裸片和4裸片封裝包情形下,通常提供了2套獨立的命令地址輸入和數據總線(通道)。換句話講,LPDDR2和LPDDR3器件實施了部分多通道,其中,每一封裝包提供了2個獨立通道。LPDDR4將該特性發揮到極致,這是因為每一裸片都有兩個獨立通道,大多數封裝包都有4個通道。
連接多個通道
LPDDR4體系結構天然具有2個通道(圖2),每一裸片有2套命令地址輸入和2套數據總線。LPDDR4的2裸片封裝包提供了4個獨立通道。為了更有效地使用LPDDR4,設計人員必須理解LPDDR4體系結構變化對SoC體系結構的影響。
?
圖2:LPDDR4雙通道體系結構
對于具有1個通道(如LPDDR3的單裸片封裝包)的單個DRAM器件,只能做單向連接,即SOC上的命令/地址總線接到位于DRAM上的命令/地址總線,SOC數據總線接到DRAM數據總線(圖3)。片選(CS)可在需要時使能DRAM。
?
圖3:連接單個DRAM裝置的標準方式
2個DRAM器件,或具有2個獨立接口的單個DRAM器件(如LPDDR4)可支持4種可能配置:
并行(前后緊接)
串行(多級)
多通道
共享命令/地址
并行(前后緊接)連接
對于在DDR2/DDR3/DDR4方面具有豐富經驗的設計人員,最熟悉的選擇是并行或前后緊接配置。并行配置(圖4)對于2個或多個DRAM裸片是恰當的,對于與同一命令/地址總線相連的LPDDR4的2個通道也是恰當的。它們采用了相同的片選,但每一數據總線具有獨立的數據通道。在這類并行連接中,所有的DRAM器件接收相同的命令和地址,但會通過不同的字節線發送其數據。由于可同時訪問所有器件,因此兩個DRAM始終處于相同狀態。它們打開相同的內存頁面,并訪問相同的數據列,但保存在每一 DRAM中的數據不同。
?
圖4:并行(前后緊接)連接
串行(多級)連接
第二種選擇是采用串行或多級配置將器件連接在一起(圖5)。這等效于將多個DIMM置于PC上的同一通道內。命令/地址和數據總線均連接在兩個DRAM器件上,但根據命令循環選中的2個不同的片選,以對兩個DRAM器件的訪問進行獨立控制。這兩個器件可處于不同狀態,具有不同的活動內存頁面。典型情況下,SOC負責控制共享數據總線,確保DRAM不會同時進行數據傳輸。
?
圖5:串行(多級)連接
多通道連接
多通道連接(圖6)為DRAM的每一通道或每一DRAM器件提供了與SOC的獨立連接,其中,每一器件或通道具有自己的命令/地址總線,數據總線和片選。由于采用了這一靈活配置,每一DRAM器件(或器件組)能夠彼此完全獨立地工作。它們可能處于不同狀態,接收不同命令和不同地址,當一器件執行寫入操作時,另一器件可執行讀取操作。
多通道連接還允許DRAM工作在不同功耗狀態下。例如,某一塊內存可能處于待機自刷新模式,而另一內存處于完全激活狀態。
?
圖6:多通道連接
共享命令/地址(CA)連接
最后一種配置選擇更常應用在非低功耗DDR器件中,這是一種具有共享命令/地址(CA)或共享AC(圖7)的多通道配置。在該配置下,兩個DRAM裝置接收相同的命令和地址,與串行連接類似,片選決定了哪個DRAM器件負責監聽特定的時鐘周期,因而每一器件可能處于不同狀態下。兩個通道之間的DRAM命令仲裁在SoC內部完成,但每一DRAM能夠獨立傳輸數據。
?
圖7:共享CA連接
雙通道連接的各種配置選項的比較
這些配置選項中的每一個各有其優缺點(圖8)。例如,并行實施僅有8個可用庫(bank),任一時刻在32位數據總線上可突發塊取的最小數據量為64字節。并行方法不太適合于使用堆疊封裝(POP)的設計。
?
圖8:LPDDR4的雙通道(1個晶片)連接選項比較
串行連接也不太適合于POP實現。它的確能節省一些DQ引腳,但由于DRAM器件共享了數據總線,它所提供的帶寬只有其他解決方案的一半,該方法的吸引力較低。
共享CA適合于DDR系統,多通道連接使得設計團隊能夠從LPDDR4中獲取最大好處。
管理具有多通道連接的2裸片和4裸片封裝包
在LPDDR4的實施中,最常見的方式是在單個封裝包中使用2個LPDDR4裸片,該包提供了4個16位通道,可實現8種不同拓撲方案。在將LPDDR4器件連接至SOC的8種可能方式中,有三種特別有用的實施方案:
“真正”的4通道,雙通道加雙并行,完全并行
對于希望在其LPDDR4裝置中實現最大帶寬的設計團隊,尤其是在使用較小的數據塊傳輸時,可能會考慮真正的4通道實施方案(圖9)。與其他實施方案相比,它具有最大的bank數目,以及最小的塊提取尺寸。它要求在SOC上具有24個CA引腳,可與SOC上的4個單獨的內存控制器以及PHY一起實施。
?
圖9:真正的4通道實施
雙通道加雙并行實施在全并行實施和4通道實施之間實現了良好折衷。對于LPDDR3-LPDDR4組合(圖10),它尤其有用。在使用LPDDR4的早期商用SOC中,大部分都采用了該配置。
雙通道加雙并行
?
圖10:雙通道和并行實施
全并行實施僅采用了6個CA引腳,具有最大的DQ數(64)。然而該系統中僅提供了8個Bank。最小尺寸塊提取尺寸為128字節,這將會限制其在某些應用中的實用性。由于總線負載或芯片級時序收斂方面的原因,可能還需要復制CA總線。
圖11顯示了雙裸片4通道LPDDR4多通道實施(左側)和4裸片實施(右側)的示例。LPDDR4封裝包具有4個連接的裸片,每一物理通道具有與其相連的2排(rank)內存存儲體。對于該配置,要求設計團隊在包的4個通道的每一通道的串行方向上擴展連接。不幸的是,4裸片包未提供8通道連通性;在4裸片包上只有4個通道。
?
圖11:雙裸片和4裸片實施。4裸片LPDDR4多通道和串行實施增加了DRAM容量。該解決方案與2裸片封裝包兼容
概括而言,推薦的雙裸片LPDDR4實施為:
雙通道加并行,這是LPDDR3用戶最熟悉的方案,也是可以實現LPDDR3/LPDDR4組合的實現方式;
4通道,這是最靈活并具有潛在最高性能的方案。
關于共享通道的設計推薦,通過多Bank改善LPDDR4的性能
類似地,LPDDR4繼承了DRAM的很多特性,其存儲結構由Bank構成,每一Bank具有多行(Row),每一行具有用于存儲數據的多個列(Column)。訪問位于相同行內保存在列中的數據很快,訪問位于不同Bank內不同的行也很快,但訪問位于相同Bank內的不同行則會很慢。
獨立訪問其他器件的每一通道意味著,每一通道上的每一Bank可以具有不同的活動行。對于像視頻和網絡包等在內存中隨機分布的小尺寸的數據傳輸類型而言,擁有更多的Bank能夠避免一些固有的、會限制性能的內存時序參數。在盡可能多的Bank上傳輸數據能夠改善性能是因為它能降低遇到一些內存時序參數的概率。
在系統中有更多的Bank,并延長在每一Bank上完成命令所需的時間這一方法能夠改善性能,是由于降低了因tRRD、tFAW和tRC內存時序參數所導致延遲的概率::
tRC:內存的行周期時間。這是觸發同一Bank中不同行所需的最小時間。
tRRD:行-行延遲。這是觸發不同Bank中不同行所需的最小時間。
tFAW:4激活窗口。該時序參數的含義是,在一個tFAW窗口內,不能發出4個以上的激活(active)命令。LPDDR4標準將其設為tRRD的4倍,因此,對于LPDDR4,它們實際上是相同的定時約束,對于其他內存,可能會采用tRRD和tFAW之間的不同關系。
tRC定時會導致很多問題,尤其是在更快的器件中更是如此。在LPDDR4的最高速度下,tRC時間超過100時鐘周期。當在LPDDR4的最高速度下工作時,觸發Bank中的某一行后,至少在100時鐘周期內,tRC會阻止訪問該Bank中的其他行,這樣,就會在相當長的時間內禁止再次使用該Bank。如果具有更多的可用Bank,會降低訪問因tRC時間而鎖定的Bank中新行的訪問概率。
tRRD和tFAW會限制頻繁更換存儲體Bank的能力,設計團隊可能希望這樣做,以避開tRC定時參數。
圖12顯示了1個器件示例,它具有4個激活窗口tFAW,具有4倍的行行延遲tRRD。在LPDDR4-3200中,tRRD時間可達16個時鐘周期。
?
圖12:tFAW和tRRD時序
在圖13中,顯示了在并行實施方案下執行的連續傳輸序列。符號AC/BA0是Bank0觸發命令的代稱。與其相鄰的命令RD/BA4指的是對Bank4的讀取命令(假定Bank4已在較早時間觸發)。每一命令標記代表4時鐘周期,原因在于LPDDR4器件的4相尋址特性。在實際應用中,該序列會需要延長,這是因為在激活(Active)之后會接著讀取、激活、讀取、激活、讀取、激活、讀取。數據返回,完全占用DQ總線,總線處于滿狀態。并行訪問模式會利用100%的內存帶寬,但僅在800MHZ(DDR1600)下訪問器件時才能實現該點。
?
圖13:在BL16和800MHz/DDR1600上使用至旋轉地址的連續64字節讀取的并行實施
圖14中顯示了一種雙通道實施,其中執行了相同的序列,獨立使用每一命令地址通道。每一命令地址總線的訪問模式略有差異:激活、讀取、無操作、讀取、激活、讀取、無操作、讀取。命令通道中的空隙可用于其他方面,如設定的預充或按bank刷新,或簡單地留作空閑時鐘周期。圖中數據總線已被完全占用。
?
圖14:在BL16和800MHz/DDR1600上使用至循環地址的連續64字節讀取、獨立使用命令地址的雙通道實施
將頻率加倍至1600 MHz(DDR 3200操作)(圖15)時,tRRD時間會限制SOC的能力,允許在并行實施的上方示例中發送激活命令至LPDDR4器件。序列為:激活、讀取、無操作、無操作、激活、讀取、無操作、無操作。無操作周期可用于預充或刷新,但內存的激活速度不足以就每一傳輸向新rank發送連續的64-bank傳輸。
?
圖15:頻率加倍至1600MHZ/DDR3200
當沒有發向同一內存頁的另一64字節傳輸時,SOC必須等待,直至tRRD期滿并能再次在內存中觸發新頁為止。如果傳輸的時間不足以在移動至新bank之前對每一bank進行兩次讀取,該工作模式會將器件的最大性能限制在50%帶寬下。
與之相比,對于圖15下方的雙通道實施,由于“激活、讀取、無操作、讀取”模式,允許每一通道滿足tRRD的要求。即使在DDR 3200數據率下,總線帶寬也能工作在滿負荷下。
找出最小的塊提取大小
塊提取大小指的是可在一個DRAM事務(一次突發傳輸)中傳輸的最小字節數。由于LPDDR4的最小突發長度為16,采用LPDDR4的并行連接可能使SoC具有不優化的塊提取大小。
最佳方式是使提取大小與SOC匹配,不僅體現在通過總線傳輸的傳輸大小方面,也體現在器件的總帶寬方面。
對于很多SOC和CPU的緩存線,首選塊取大小是32字節。在偶爾情況下,一些較大的64位CPU使用64字節緩沖線。視頻和網絡傳輸通常需要32字節或更小的短字節傳輸。在理想情況下,多通道體系結構應與系統的提取大小匹配,以便將系統優化至系統所能使用的提取大小。
在圖16顯示的并行實施方案中,LPPDDR4最小突發長度為16,有64個的并行DQ引腳,塊提取大小為128字節,它實際上僅適合于至連續地址的長數據傳輸。對于每次以128字節為單位的訪問,并行實施方案能夠工作,然而,如果數據訪問小于128字節且需訪問隨機地址,那么并行實施方案的效率不高。
?
圖16:并行實施
對于64位并行實施方案,另一問題是SOC和DRAM裸片之間的物理連接。LPDDR4 PoP封裝的管腳分配是每一角一個通道,使得封裝包上有4個通道以容納2或4個裸片。每一通道位于器件的每一角。在理想情況下,SOC內存控制器和PHY布局應與LPDDR4的管腳分配匹配。采用該布局,允許將通道A映射到通道A,通道B映射到通道B,C到C,D到D,使得LPDDR4 PoP封裝內的路徑盡可能短,無交叉。該封裝布局還有助于并行4通道LPDDR4接口的物理實現。
用戶還應注意傳輸是否訪問內存中的不同頁,tRRD可能會限制較高頻率下的有效帶寬,如同前述部分中介紹的那樣。
正是由于這些原因,與4通道實施相比,設計者更傾向于選擇LPDDR4的多通道實施。
命令/地址總線
LPDDR4具有很窄的命令/地址總線(每通道僅6位寬,DDR4為20位或以上),因此,使用多個命令/地址通道的開銷低于使用其他DDR類型的開銷。在LPDDR4封裝包上獨立使用所有4個命令/地址總線,能夠提供最大的靈活性,可能還會為整個系統提供最高性能。
LPDDR4 PoP的SOC分割
有多種適用于LPDDR4的SOC分割方式。圖17顯示了最簡單的一種方式。這是一種同構CPU體系結構,它具有4個CPU和4個通道。每一CPU具有自己的方式以訪問自己的獨立通道。該體系結構具有下述優點:CPU不會彼此屏蔽,SOC總線更短。可關閉未使用通道以便節省功耗。
?
圖17:LPDDR4.PoP的最簡單SOC分割
然而,該體系結構不夠靈活。如果通道A需使用通道C中的一些數據,它無法將內存當作郵箱使用。必須通過SOC以某種方式傳輸數據。這還會使得CPU更難于執行與負載平衡相關的共享任務。
另一方法是使每一CPU共享每一內存(圖18)。這樣就能實現更加靈活的分割。對于異構處理,它的工作表現更好,CPU能夠對共享數據進行處理,但需要更多和更長的片上布線資源,這可能需要用到復雜的片上互聯系統。這樣就能更準確地反映實際芯片的工作方式,尤其是對具有不同CPU、GPU和其他處理單元的異構體系結構而言。
?
圖18:共享通道,所有CPU共享所有內存
邏輯至物理地址映射
多通道體系結構提供了多種控制邏輯至物理地址映射的選擇。考慮如圖19所示的雙通道體系結構。存在多種控制邏輯至物理地址映射的方式。最簡單的方式是,雙通道存儲器映射到不同的SoC地址空間(圖19)。
?
圖19:使用分區內存映射的邏輯至物理地址映射
例如,通道A可能會存放操作系統,并保持始終在線、始終連通的功能。通道B可能包含應用數據,視頻緩沖和類似數據。這兩個不同的地址空間獨立且分離。這有助于功耗控制,原因在于,通道B可在不使用時關閉。
另一方式是,采用較小的連續邏輯地址區訪問內存的不同通道(圖20),對內存映射進行交織處理。例如,通道A為字節0~63,通道B為字節64~127,以此類推,直至遍及整個內存空間。在整個內存上對邏輯空間進行交錯處理。該方法有助于在2個不同通道上實現負載平衡,可實現良好性能。然而,由于始終需要兩個通道,無法關閉任一通道以降低功耗。
?
圖20:交錯式內存映射
更進一步的實施方案是使用混合內存映射(圖21),其中,每一通道中的不同區可提供交織式訪問或非交織訪問。該混合方法可能包含一個始終在線、始終連接的內存區,以便獲得最高性能而在2個通道之間交織的內存區,以及用于程序存儲的高地址內存區,這類程序與高帶寬相關。
?
圖21:混合內存映射
針對高性能、低功耗移動SOC的Synopsys LPDDR4 IP解決方案
Synopsys完整的LPDDR4 IP解決方案包括1個內嵌I/O的LPDDR4 multiPHY,增強型通用DDR內存控制器(uMCTL2)和協議控制器(uPCTL2),驗證IP,建模工具,以及IP硬化和信號完整性分析服務。IP完全支持LPDDR4標準,并可靈活配置,以發揮上文所述的多通道體系結構的優點。
Synopsys DDR內存控制器包含uMCTL2內存控制器,它提供了與SOC的多端口或單端口連接。可用總線包括1~16端口的AXI3、AXI4或AHB。對于需要在內存控制器之外做內存傳輸調度的系統,我們提供了單端口協議控制器uPCTL2。
uMCTL2具有低延遲、高帶寬和強大的QOS特性,包括QOS驅動的仲裁和高性能內存調度算法。內存控制中的低功耗功能具有自動的特點,允許設計團隊將重心放在系統設計方面。他能夠支持包括DDR2、DDR3、DDR4、LPDDR2、LPDDR3和LPDDR4等多種內存標準。對于車載應用和其他高可靠性系統,IP提供了多種可靠性、可用性、可服務性(RAS)特性。
面向LPDDR4的uMCTL2內存控制器提供了一種基于CAM的調度架構,尤其針對2667-4266的數據率進行了優化,并支持多種地址映射機制,為不同使用模式和多內存類型的系統提供了高度靈活性。它具有自動斷電功能,自刷新功能以及快速頻率轉換功能,支持自動溫度監測和刷新率調節。
結論
LPDDR4多通道規范為新穎的系統設計提供了新的機會,尤其是多通道體系結構可以改善系統性能。設計團隊需要綜合考慮性能、功耗和設計復雜度來部署實施LPDDR4架構。
評論
查看更多