高性能計算(HPC)和超大規模存儲不僅讓我們得以在超級互聯和人工智能的幫助下,動動手指就能輕松獲取各種信息;更是我們如今數字生活中不可或缺的一部分。從數學模型到氣象預測,超級計算機正在協助我們改善各個領域的計算結果,而云數據中心則是確保數字生活正常運行的基礎支柱。在當今時代,數據不僅在數量上遠超以往,還面臨著需要進行遠距離高速傳輸的挑戰。隨著芯片制程節點不斷微縮,逐漸逼近制造領域的極限,Multi-Die系統應運而生,為性能提升開辟了新的可能性。
隨著電子系統變得愈加復雜,靜默數據損壞(SDC)等錯誤時有發生,芯片老化、熱挑戰和功耗挑戰等問題也同樣存在。這些問題非常棘手,如果處理不當,就會導致災難性后果,尤其是在大規模處理此類問題的情況下。
除此之外,對于SoC開發者來說,由于復雜性的提高,他們迫切需要采用芯片生命周期管理(SLM)策略,以確保芯片的可靠性、可用性和可服務性(RAS)。了解最終產品的內部情況并認識長期的RAS影響,對于設計的成功至關重要。
芯片生命周期管理策略是什么?
如今,我們不僅需要在生產和發貨時確保芯片能夠正常運行,還需要在整個生命周期內對芯片工作狀態進行監控和測試,盡可能在問題甚至故障出現之前提前進行預警甚至修復。對于SoC 和 Multi-Die產品,這一點攸關重要。為了做到這一點,開發者需要掌控和訪問芯片內部元件,以調試和讀取數據,并進行適當的分析來確定是否存在問題。借助這些信息,開發者能夠及時維護系統,避免問題變得無法挽回。
SLM平臺所提供的解決方案及策略可以幫助開發者采取針對性措施,在芯片的整個生命周期內確保RAS:
示例:對策略建模,從而改善熱和電源管理
在SoC系統中,管理熱復雜性和優化功耗是重中之重。而且,當一個系統中包含多個晶片時,管理難度會呈指數級增長,特別是在系統不斷老化的情況下。要想緩解熱問題和電壓問題并在HPC和數據中心中保障芯片長期可靠運行,在設計中整合適當的監控功能是必不可少的。
多年來,在芯片內部的片上電壓和電源管理一直使用工藝、電壓和溫度(PVT)監測器,也稱為動態電壓頻率調整(DVFS)技術。有些場景下,這些監視器用于監測溫度,當溫度可能造成災難性結果時,就會關閉系統。事實上,幾乎所有16納米及以下制程的芯片設計和所有的數據中心芯片,都使用PVT監測器。
在晶圓分選測試期間,開發者將從這些監測器獲得測試數據結果,并立即將這些數據投入使用。在這個時候,開發者將了解晶片的熱特性,并可以應用更多測試序列來監測晶片各處的電壓值。此外,開發者可以根據測試、PVT和PMMIP數據來執行分析,然后返回設計環境,了解測試中得出的芯片實際裕量,并將其與模型相關聯。隨著模型的改進,開發者可以降低裕量,以提高性能或降低功耗,而又不會犧牲RAS。
為了更好地預測故障的出現,開發者可以設置閾值。對于溫度監測器,閾值代表開發者將在什么情況下開始介入來降低溫度。究其緣由,大部分熱響應的速度都相對緩慢。設定的閾值越嚴格,就可以越早地采取措施。類似地,也可以使用電壓監測器,只是監測對象有所不同。
早期研發階段,通常只會生產很少量的芯片,只有確保芯片能夠正常運行并確認可以達到目標良率后,才會進行大規模生產。開發者會從晶圓廠的早期測試和診斷結果中收集數據,另外還會在整個產品制造過程中收集數據。在這個期間,開發者可能會發現系統性問題并予以解決。當芯片在現場部署之后,則需要使用最新的策略,了解芯片在使用過程中的運行情況以及隨著芯片老化會發生哪些變化。為此,一些新功能應運而生,包括使用英特爾Sapphire Rapids進行現場掃描。開發者還可以將SLM軟件代理嵌入到芯片系統本地,從而持續地進行邊緣分析并緩解問題。在現場芯片管理領域中,各類創新層出不窮,各種新的功能也會在近期內不斷推出。
如何綜合考慮各種數據 — 全面的SLM策略
HPC和數據中心工作負載要求在整個芯片生命周期內對芯片進行測試、監測和維修。因此,我們需要了解芯片內部發生的情況。與此同時,由于需要處理大量數據,例如設計數據、晶圓廠數據、診斷數據、產品制造測試數據(包括重要的監測數據)等等,開發者迫切需要全面系統的方法來分析數據并生成可行見解,同時確保提升工作效率。
新思科技提供全面完整的SLM解決方案,這是一個包含多種工具的集成平臺,能夠為從設計到生產的整個SoC生命周期提供支持。另外,還有功能強大的現場解決方案即將推出!我們可以幫助開發者做好各項準備,確保產品在當前及整個生命周期內都能正常運行。新思科技的SLM產品系列包括PVT監測器、路徑裕度監測器(PMM)和實時高速訪問和測試(HSAT)IP。它們為開發者提供了所需的片上傳感器,讓開發者能夠監測數據、運行制造和進行現場測試。借助新思科技的HSAT IP,芯片可以使用USB和PCI Express(PCIe)接口等功能I/O,因此開發者無需使用大量的測試和接口引腳,就可以在芯片部署使用時繼續執行掃描和診斷。
除了IP監測器,新思科技SLM還將關于各類芯片健康數據的分析和預警集中在同一位置。這一完整解決方案能夠在設計階段為開發者提供支持,幫助開發者識別需要監測的候選路徑。在實施監控IP之后,開發者可以使用新思科技的TestMax產品系列等測試基礎設施產品來將芯片連接到測試基礎設施,生成監測器掃描序列,然后輸入和輸出數據,以便進一步診斷潛在的問題。借助新思科技SLM,開發者可以深入了解自己的SoC,即使在大規模生產中,也可以保持芯片的RAS。
我們將在9月14日召開的線上研討會中揭示如何在IC設計中嵌入分布式PVT IP,通過實時收集參數和PVT controller分析,優化性能,提高可靠性。了解更多關于SLM PVT IP信息,請掃碼報名線上研討會:
原文標題:SLM:守護高性能計算與數據中心SoC的每一步
文章出處:【微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
-
新思科技
+關注
關注
5文章
789瀏覽量
50309
原文標題:SLM:守護高性能計算與數據中心SoC的每一步
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論