作者:沈忱
一、前言
DDR SDRAM,是一種雙數據速率(DDR)同步動態隨機存取存儲器(SDRAM)。作為現代數字系統里最重要的核心部件之一,應用十分廣泛。從消費類電子到商業工業類設備,從終端產品到數據中心,用于CPU進行數據處理運算的緩存。近20多年來,經歷了從SDRAM發展到DDR RAM,又從DDR發展到目前的DDR5,每一代 DDR 技術在帶寬、性能和功耗等各個方面都實現了顯著的進步,極大地推動了計算性能的提升。
二、DDR標準發展和DDR5簡介
圖1展示的是RAM(Random Access Memory)20多年來的發展歷程和信號特點。在SRAM時代,由于較低的信號速率,我們更多關心的是信號的扇出以及走線所帶來的容性負載。在DDR1/2/3時代,信號速率的不斷提升,傳統的使用集總參數方式來進行電路分析已越發顯得不足,我們更關心的是信號的建立保持時間,以及信號線之間的延遲skew。來到DDR4時代,有限帶寬的PCB、連接器等傳輸通道,把原始信號里的高頻分量削弱或者完全去掉,使得信號在時域波形上的表現為邊沿變緩、出現振鈴或者過沖。我們要像分析傳統串行數據那樣去更加關心數據的眼圖,接收端模板和誤碼率。隨著AI、機器學習以及5G的發展,以往的DDR4技術,開始顯得力不從心。如今DDR5的第5代高速I/O數據傳輸開始大規模走向市場化。
圖1 DDR標準發展和信號特點演進
2.1 DDR5的新特性
如下表所示,DDR5相比DDR4而言,帶來了一系列關鍵的性能提升,同時也帶來了新的設計挑戰。
表1 DDR4和DDR5比較(源自Rambus)
2.1.1 速率的提升
近年來,內存與CPU性能發展之間的剪刀差越來越大,對內存帶寬的需求日益迫切。DDR4在1.6GHz的時鐘頻率下最高可達 3.2 GT/s的傳輸速率,最初的 DDR5則將帶寬提高了 50%,達到 4.8 GT/s傳輸速率。DDR5 內存的數據傳輸速率最終將會達到 8.4 GT/s。
2.1.2 電壓的降低
降低工作電壓(VDD),有助于抵消高速運行帶來的功耗增加。在 DDR5 DRAM 中,寄存時鐘驅動器 (RCD) 電壓從 1.2 V 降至 1.1 V。命令/地址 (CA) 信號從 SSTL 變為 PODL,其優點是當引腳處于高電平狀態時不會消耗靜態功率。
2.1.3 DIMM 新電源架構
使用 DDR5 DIMM 時,電源管理將從主板轉移到 DIMM 本身。DDR5 DIMM 將在 DIMM 上安裝一個 12 V 電源管理集成電路(PMIC),使系統電源負載的顆粒度更細。PMIC 分配1.1 V VDD 電源,通過更好地在 DIMM 上控制電源,有助于改善信號完整性和噪音。
2.1.4 DIMM通道架構
DDR4 DIMM 具有 72 位總線,由 64 個數據位和 8 個 ECC 位組成。在 DDR5 中,每個 DIMM 都有兩個通道。每個通道寬 40 位,32 個數據位和 8 個 ECC 位。雖然數據寬度相同(共 64 位),但兩個較小的獨立通道提高了內存訪問效率。因此,使用 DDR5 不僅能提高速度,還能通過更高的效率放大更高的傳輸速率。
2.1.5 更長的突發長度
DDR4 的突發長度為4或者8。對于 DDR5,突發長度將擴展到8和16,以增加突發有效載荷。突發長度為16(BL16),允許單個突發訪問 64 字節的數據,這是典型的 CPU 高速緩存行大小。它只需使用兩個獨立通道中的一個通道即可實現這一功能。這極大地提高了并發性,并且通過兩個通道提高了內存效率。
2.1.6 更大容量的 DRAM
DDR4 在單芯片封裝(SDP)中的最大容量為16 Gb DRAM。而DDR5的單芯片封裝最大容量可達64 Gb,組建的DIMM 容量則翻了兩番,達到驚人的 256 GB。
2.2 DDR5 設計面臨的挑戰
2.2.1 采用分離式全速率時鐘,對應6400M T/s頻率的時鐘速率高達3.2GHz(未來會支持到8400M T/s)。
DDR5 DQS控制DQ讀寫時序
時鐘控制命令信號,選通信號控制數據。對時鐘信號抖動的要求更加嚴格,對各種命令信號與數據和地址信號的時序要求也更高。
2.2.2 雙向復用的數據總線,讀寫數據分時復用鏈路。
由于有限的鏈路通道和布板空間等資源讀寫操作繼續采用共享總線,因此需要分時操作。從驗證測試角度來看也需要分別對讀和寫信號進行分離以檢查其是否滿足規范。
DDR5讀寫共享總線
2.2.3 突發DQS和DQ信號在更高速率的背景下在有限帶寬的鏈路傳輸時帶來更多ISI效應問題。
在DQS讀寫前導位,突發的第一個bit等等均有不同的效應和表現。此外考慮到存儲電路在設計上不同于串行電路存在較多的阻抗不匹配,因此反射問題或干擾帶來的ISI也會更嚴重。
DDR5在接收端采用更多的類似高速串行總線的信號處理
因此在接收側速率大于3600MT/s時采用類似高速串行電路和標準總線中已經成熟的DFE均衡技術,可變增益放大(VGA)則通過MR寄存器配置,以補償在更高速率傳輸時鏈路上的損耗。DDR4標準采用的CTLE作為常用的線性均衡放大,雖然簡單易實現但是其放大噪聲的副產品也更為常見,考慮到DDR5總線里的反射噪聲比沒有采用。另外考慮到并行總線的串擾和反射等各信號抖動的定義和分析也會隨之變化。
從測試角度來看,示波器是無法得到TP2點即均衡后的信號的,而僅能得到TP1點的信號,然后通過集成在示波器上的分析軟件里的均衡算法對信號進行均衡處理以得到張開的眼圖。眼圖分析的參考時鐘則來自基于時鐘信號的DQS信號。另外眼圖測試也從以往僅對DQ進行擴展到包括CMD/ADDR總線。
三、DDR5的測試新方法
3.1 發送端TX測試挑戰
3.1.1 讀寫分離
由于規范規定DDR5,不再像傳統的DDR一樣,讀寫在pin腳處有嚴格的相位差別。所以使用DQS-DQ 相位差和前置信號模式的傳統方法可能不再適用,需要采用新方法進行讀寫數據分離。
根據真值表可以看出,CA4在讀寫操作過程中有不同的邏輯電平,所以可以根據CA4的狀態來結合讀寫延遲來進行讀寫分離。
3.1.2新增的測試參數
由于速率的提高,可能需要新的測試參數來鑒定關鍵信號。抖動成為關鍵信號的重要組成部分。規范定義了全新的UI抖動定義。
以及針對該UI的測量算法。
UI的測量項將覆蓋CLK(input)、DQS(tx)和DQ(tx) 信號,且要求非常嚴格。
根據下表的計算,按照DDR5 4800的速率為例,要求測量出來的Rj最大值為0.0037UI,也就是769.6fs。
如此高要求的測量結果,也對儀表本身的性能提出了非常高的要求。儀表的抖動測量本底計算公式如下,可以看出示波器的本底噪聲以及本底抖動,對抖動測量起了非常大的影響。
是德科技UXR旗艦級實時示波器,具有25fs的極低本底抖動,165μV(rms)(16G帶寬下)?的本底噪聲。可以提供可靠的DDR5的相關抖動測試。
3.1.3 測試方法
DDR的TX測量手法,一直是我們所關心的內容。在DDR4以前,規范規定的測試點,均在DRAM的ball處。DDR5里,除了眼圖測試以外,其他測試點沒有做額外更新。
我們推薦使用interposer的方式來進行測量,如下圖所示。
測量完成后,通過S參數的數學計算,實現從實測點到理論測試點的波形轉換。
而針對于DDR5的眼圖測試,如果打開了DFE功能,示波器可以在去嵌的基礎上,進一步完成均衡的操作,最后得到需要的波形。
當然,是德科技已經提供自動化的測試App,方便的給用戶提供可視化的一鍵測試方案。
3.1.4 控制器測試新場景
由于信號速率的不斷提升,控制器、鏈路、芯片,紛紛加入了測試大軍。下圖展示了針對于控制器、PCB互聯鏈路的TX測試場景,通過示波器,配合夾具的使用,來實現發送端的信號質量測試。
3.2 接收端RX測試挑戰
3.2.1 接收端新技術
以往的高速串行鏈路設計中,我們知道隨著速率的不斷提升,鏈路的損耗,以及ISI,對高頻分量的影響越來越大,所以在PCIE Gen3的時候,引入了接收端均衡的概念,用于彌補高頻分量的損失。
具體來看,有下面幾點。①是接收端的信號會先經過CTLE(連續時間線性均衡)均衡,圖上展示的是具有7個DC gain的CTLE曲線。然后信號會一分為二,一部分給到CDR②,CDR中的核心PLL的OJTF函數是一個類似左邊的高通濾波器。信號的另一部分信號會給到③具有一個tap的DFE(判決反饋均衡)。
我們特別注意一下圖里標識的2個測試點,一個是TP2,一個是TP2`。通常TP2是使用示波器真實捕獲到的信號,而TP2`則是使用標準的參考接收機模型,來去復原芯片真實看到的波形。那這種均衡技術對DDR5是否有參考借鑒的意義呢?
首先看一下DDR5相對于傳統serdes技術有什么特殊的地方。
a)
全速率時鐘
接收端沒有PLL
b)
單端信號
數量眾多,不僅要考慮損耗帶來的影響,更多的還需要考慮串擾帶來的影響
c)
分布式
多顆粒應用場景,每片顆粒獨立的訓練和均衡
了解了DDR5和傳統Serdes的幾個特別之處外,參考在PCIE上使用的均衡技術,進行了部分調整后如下。
首先是CDR,由于系統里有了顯示時鐘,可以使用不具有頻率跟蹤能力的DLL模塊,來代替原先復雜的CDR模塊。第二個是CTLE,雖然CTLE實現簡單,但是考慮到單端的DDR5總線里的反射和串擾等,對信噪比惡化嚴重,所以使用了VGA可變增益放大器來代替CTLE。第三個是借鑒了成熟的DFE均衡技術。最后一個,沿用了DDR以往的write leveling和read leveling機制。把原先在接收端實現的去加重功能放在了控制器端來實現。
3.2.2 接收端測試的新挑戰
傳統的Serdes接收端測試(以PCIe為例),目的是確定DUT能否在芯片封裝的ball處(或者CEM規范的金手指處)可靠接收帶有指定受損的信號,達到要求的誤碼率要求。
針對DDR的單端并行總線系統,非相關抖動、電平干擾、ISI、串擾、反射,對于系統的可靠運行至關重要。DDR5的接收端測試,不僅包括了壓力眼測試,也就是在給定的壓力眼信號下,達到特定的誤碼率要求,還包括了幅度電壓方面和水平抖動方面的靈敏度測試。
而被測DUT,可以是控制器、DRAM、緩沖器/寄存器、DIMM 等。
3.2.3 接收端測試的新方法
規范定義了接收端測試里的所有測試點要求,以及波形在均衡器之后的指標要求。測試前,需要按照規范的要求進行校準。
校準之前,考慮到DDR總線的特殊性。ODT 會用于優化發送端到接收端的信號質量,由于其允許不同的阻抗設置,接收端測試過程中,建議使用 48 歐姆進行校準,以盡量減少與標準測試設備之間的不匹配。在此假設下,通過電平和抖動的 BERT 設置來調整信號的形狀,實現壓力信號的產生。
是德科技提供以M8000系列誤碼儀為基礎的DDR5接收端測試方案,支持控制器、DRAM、緩沖器/寄存器、DIMM的測試。
3.2.4 接收端測試的校準
下圖是DDR在系統產品中實際應用的拓撲結構。依次從DDR控制器,經過PCB路徑,來到DIMM上的DRAM顆粒。
做校準的時候,也是參考上圖的拓撲來完成整個路徑的模擬。針對DIMM或者顆粒而言,信號由BERT發出,經過CTC2 Board和replicate card,最終由示波器接收,組成完整的端到端鏈路。
這里要特別說明的是,針對不同的產品測試,有對應的夾具來進行配合。主要的夾具有如下幾種。分別是下圖中的C2C test card,System Motherboard Test Fixture,Device Validation Fixture。
其中,CTC2 test card提供DIMM插座,同時將DIMM上所有信號包括CA/CMD、DQS,DQ通過SMP連接器的形式引出。用于DIMM、RCD測試夾具、Data Buffer測試夾具、DRAM測試夾具等的校準和測試。
CTC2 test?card
System Motherboard Test Fixture也同樣把CA/CMD、DQS,DQ的信號通過SMP的方式引出,用于控制器的發送端測試,以及控制器的接收端測試校準和測試,同時還支持系統主板的通道特性驗證。
System Motherboard Test Fixture
Device Validation Fixture包括了RCD的測試夾具,Data Buffer的測試夾具,DRAM的測試夾具,以及Combo測試夾具等。主要用于單個器件產品的校準與測試,以及多器件的校準與測試。測試時插在CTC2的test card上。
Device Validation Fixture
下圖展示的是基于CTC2 test card進行的校準操作。連接方式如圖所示。
使用M80885RCA自動化軟件,根據向導,完成測試環境參數的setup,并對DUT進行初始化。
一步一步,實現DQS&DQ和CK&CA的各參數自動化校準。完成自動化校準后,可以查看每個校準項目的測試結果,如下圖所示。
3.2.5 接收端測試
接收端測試包括兩大部分測試內容,Sensitivity測試和Stressed Eye測試。其中Sensitivity測試又包含Voltage Sensitivity和Jitter Sensitivity。
DQS和DQ的Voltage Sensitivity測試中,測試DQS的時候保持DQ的信號不變,測試DQ的時候保持DQS的信號不變。不斷調整另外一個參數的變量,遍歷整個參數的范圍后,統計誤碼率。
DQS的Jitter Sensitivity測試中,首先輸出clean的clk和dq。在此基礎上,遍歷DQS和DQ的相位,計算出本底jitter的Sensitivity測試。然后依次改變DCD和Rj以及DCD和Rj的組合,遍歷DQS和DQ的相位,完成各種場景下的jitter Sensitivity測試。
Stressed Eye測試中,使用校準過程中的壓力信號(如下圖),來進行環回誤碼率測試。
測試完成后,M80885一致性軟件會給出上圖右側的測試結果與測試報告。
四、總結
是德科技可以給大家帶來完整的端到端解決方案。包括設計前期的仿真,涵蓋了memory designer的建模和ADS的前后仿真。發送端測試中,我們提供業內旗艦級性能指標的UXR實時示波器和高性能的RC模型探頭,有效降低測試負載。接收端測試中,我們提供all-in-box的M8000系列誤碼儀,支持控制器、DRAM、Data Buffer、RCD、DIMM的接收端校準與測試。協議分析儀方面,U4164A系列,支持完整的DDR、LPDDR的協議解碼測試。
審核編輯:黃飛
評論
查看更多