工具上的差距和方法上的不確定性可能會導致意想不到的問題。
越來越多的行業正在關注安全問題,但目前還沒有標準和方法來確保電子系統隨著時間的推移達到規定的安全水平。這一任務很大程度上落到了芯片行業肩上,因為它提供了基礎技術,也發出了還能做些什么來提高安全性的問題。
最近引入了一種粗略的分類法,用于驗證和測試安全性(見下文圖1)。許多問題跨越了整個矩陣。例如,自動駕駛汽車必須在產品的整個生命周期內擁有安全可靠的硬件和軟件,但即使在出現硬件故障的情況下,它也必須保持安全可靠。不幸的是,沒有工具可以確定這個抽象目標是否已經實現。相反,工具和方法傾向于覆蓋其中的一兩個盒子,而這些盒子的整合在某種程度上是臨時的。這反過來又讓一些潛在的問題被遺漏了。此外,所使用的指標與現實的關聯也很松散。
圖1:與安全和安保相關的問題矩陣。來源:Semiconductor Engineering
更糟糕的是,今天并非所有的問題都得到了充分處理,部分原因是人們認為它們的優先級較低,部分原因是成本太高。例如,硬件安全就是由多個領域的標準處理的。軟件安全也涵蓋在不同的標準中,但沒有任何內容定義硬件和軟件組合的安全性或談及整個系統的安全性。最接近的方法是考慮顯示軟件檢測到的硬件錯誤百分比的故障活動。此外,針對已定義的工作負荷和場景優化的硬件越多,軟件或未來的軟件更新就越有可能導致硬件以最初未考慮的方式運行。這反過來又會造成硬件過早老化,或使其處于產生意外漏洞的狀態。
錯誤模型
測量任何東西都需要一個實用的度量標準,即某物必須是可處理和有效的,但不一定要基于現實。故障模型(如故障卡住模型)已經存在了很長時間,并被證明可以有效地表示硬件故障——盡管硬件可能會發生故障的方式有很多,例如開路,短路或運行緩慢。瞬態故障也很重要,因為它們代表了輻射可能引起的位翻轉。
“有一系列規范適用于多個行業的功能安全,”Cadence產品管理集團總監Pete Hardee說。“有一個通用的IEC標準,IEC 61508,這是一種元標準。ISO 26262是其衍生產品,更具體地針對汽車市場。對于鐵路、醫療設備、工廠自動化、核能等等,同樣的元標準還有其他衍生物,有適用于航空航天工業的DO-254。越來越多的人進入這些領域的供應鏈,因此不得不考慮滿足一些功能安全規范。”
然后,我們可以推進這些規范。“ISO 26262,特別是第5部分和第11部分,是半導體的指南,”西門子數字工業軟件功能安全和自主解決方案經理Jake Wiltgen表示。“這些標準要求特定的指標,即覆蓋率指標。ISO中使用的術語是診斷覆蓋率,但本質上是檢測到的故障率超過總故障率。”
需要建立流程。“對安全性的高度信任依賴于定義良好的流程以及對流程的嚴格遵守。” Fraunhofer IIS自適應系統工程部設計方法負責人Roland Jancke說。“最好的方法之一是需求工程(RE)。它從適當定義的安全目標開始,接著建立各自的需求,并將它們轉換為測試用例。一個基本要素是在整個過程中建立需求跟蹤,以便在發生任何變化時僅針對受影響的部件進入重新設計循環。”
對汽車來說,系統需要的安全程度取決于自動駕駛的程度。“這實際上取決于人們的目標ASIL水平,”Cadence的Hardee說。“ASIL A并沒有真正改變,但'我必須讓我的流程獲得認證'。在某些情況下,ASIL B的影響也很小。但是,當涉及到滿足ASIL C和ASIL D水平時,它可能變得非常具有挑戰性。這與人們為功能驗證所做的工作非常一致,因為驗證和滿足規范的基本方法是查看一臺好的機器,并通過功能驗證實現良好的覆蓋率。”
如何做到這一點是留給設計師的。Imperas Software創始人兼首席執行官Simon Davidmann表示:“這取決于設計人員提出的架構、技術或解決方案,以證明他們能夠滿足這些質量目標。挑戰在于他們如何評估自己所做工作的質量。他們可能想要運行模擬,注入故障,以查看他們的軟件和硬件對這些故障有多大彈性。我們在故障模型上做了很多工作,以表示現實世界中發生的這些不同事情。”
這就是實用性發揮作用的地方。“如果你采用1億個門的設計,看看不同故障機制的數量,任何一種方法都無法涵蓋這一點,”Synopsys的EDA集團工程副總裁Manish Pandey說。“從形式的角度看,獲取所有錯誤并嘗試傳播它在計算上是不可行的。我們需要更好的采樣方法,有不同的內部故障模式,確定安全和不安全的區域,等等。這種安全方法需要構建適當的故障運動途徑,并且必須以非常有意識的方式完成。對微架構的認識至關重要。”
隨時間推移的安全性
在理想的硬件上做到這一點是不夠的。“另一個類別是保證整個生命周期的預期功能,” Fraunhofer的Jancke說。“可靠性仿真可以確保這一點,而可靠性仿真又依賴于已知老化機制的適當退化模型和全面的壽命外推能力。”
老化起著至關重要的作用。西門子EDA的Veloce、DFT和功能安全產品經理Robert Serphillips表示:“如果你看一下制造測試,他們通常會測試超過絕對規格的20%,無論是時鐘頻率、功率還是溫度。硅會隨著時間推移而降解,溫度是非常關鍵的。在高溫下,設備的物理速度會變慢。像快速路徑和慢路徑這樣的東西現在開始變得有問題了。從安全角度來看,設備在周圍環境中的行為方式對于設備如何降級、故障如何開始出現以及電路如何開始失效至關重要。所有這些都必須納入考量,而不僅僅是從外太空射出的隨機光子。這款設備能否在其額定使用壽命內保持不變?”
“當我們考慮老化時,電路的閾值可能發生改變,” Hardee說。“電路可能更容易受到這些東西的影響,設備可能會直接失效,這通常會造成卡住一類的故障。”但并非總是如此。“當你采用5nm或3nm的節點時,這些芯片會以許多奇怪的方式老化和失效,”Synopsys的Pandey說。“在電線中,有電子遷移,這可能會產生開路。有些機制我們甚至都不知道。另一件有趣的事情是你如何檢測故障,以及設計中的嵌入式傳感器如何監控這些芯片的行為,它們是如何退化的。是否有潛在的故障蔓延?我們將不得不通過額外的芯片監控和芯片智能來補充傳統的故障預警方法。”
片內監控是對其他BiST技術的補充。“先進的SLM監測器通過分析升級,可以作為應對間歇性和降級故障的安全機制,”Synopsys戰略系統工程可靠性核心團隊負責人Dan Alexandrescu表示。“多階段方法使用來自高級傳感器的信息,這些傳感器緊密嵌入關鍵設計模塊中。路徑裕量監控、錯誤前檢測、內存訪問時間測量、ECC和BiST事件被統一評估為相關的、及時的安全和質量指標。然后向系統執行器發布可操作的見解,以及時糾正安全性和可靠性威脅。芯片內數據被發送到邊緣和云平臺,以進行車隊級監控。所有階段的高級分析都可以快速準確地了解非常罕見的事件和現象,幫助安全使用已部署的產品,并為未來的設計提供更高的質量。”
遠程分析對功能驗證提出了要求。Synopsys系統設計集團產品線管理高級總監Johannes Stahl說:“原始設備制造商希望對具有特定VIN號的特定汽車進行生命周期監控,并向他們報告故障。”“從驗證的角度來看,在硅前階段,你必須確保這些機制有效,并提供正確的信息。” 擴展到人工智能
自動駕駛汽車越來越多地使用人工智能,這給驗證和確認帶來了一系列新的挑戰。其中許多今天還無法完全理解。圖2(下圖)定義了AI系統驗證與傳統軟件的不同之處。
圖2:從V&V的角度對比傳統算法和機器學習算法。來源:《PolyVerif:自動駕駛汽車驗證和驗證研究加速的開源環境》
如何檢測AI系統是否出現故障?“人工智能是一個統計系統,它會在某個時間點失敗,” Pandey說。“我們如何確保這些系統繼續表現良好?有一類工作正在興起,就是正式驗證這些人工智能系統并確保它們在限制范圍內。同樣,有研究正在進行,以包含這些系統。但是,如果我們用額外的傳感器和其他故障安全機制來補充傳統系統,就需要一些東西來驗證并確保系統真正做它們應該做的事情。”
在未來,它會變得更加復雜。人工智能系統本質上是一個學習系統,”Synopsys的Stah表示。“軟件是由人編寫的,可能包含錯誤。那么人工智能是否比軟件有更高的風險?它是一個可以學習的人工智能系統嗎?” 限制故障空間
硬件的故障空間是巨大的,即使有高度受限的故障模型也是如此。所以必須使用其他技術來限制實際需要考慮的故障數量。
“故障模式效應和診斷分析(FMEDA)考慮到了你正在處理的電路的可靠性數據,”Hardee說。“你正在研究失敗的模式和這些模式的影響。因此,我們實際上只關注故障的子集,這些故障可能發生在傳播到可能造成傷害的功能輸出的地方。”
沒有最好的方法來做到這一點。“通過故障模擬,你可以將故障輸入到設計中,看看它們是否能被檢測到或觀察到,”西門子的Wiltgen說。“但這不是唯一的方法。還可以部署其他分析方法來獲得這些指標。它需要在靜態空間、形式空間和模擬空間中結合不同的工具與方法,以盡可能快速有效地達到這些指標。”
現場測試和數字孿生可以補充現有工具。“有人撥弄了一下變光開關,說我在這里插入了一個錯誤,”Arteris營銷副總裁Frank Schirrmeister說。“想檢查測試是否真的發現了這個錯誤。就像是在進行一場安全活動,只不過是在系統中進行。會有更多這樣的工具插入安全和安保項中嗎?也許,并且會擴展到虛擬化中。有了電子數字孿生,就可以插入一些東西,看看虛擬表示是否與真實硬件相匹配。” 結論
經驗證據表明,簡化的故障模型——合理地應用于系統的硬件方面,再加上軟件和內置傳感器來進行檢測,有時也糾正錯誤行為——可以充分確保硬件在其使用壽命內是安全的。它依靠一些專家來監督這個過程,以確保根據它所處的環境和可以提供的安全程度給予充分考慮。
然而,該過程是臨時的和不完整的,因為它沒有考慮整個系統的安全性。這應該成為我們的目標。
-
芯片系統
+關注
關注
0文章
15瀏覽量
15826 -
工業軟件
+關注
關注
2文章
182瀏覽量
15996 -
自動駕駛
+關注
關注
783文章
13687瀏覽量
166153
原文標題:為什么保證芯片系統長期安全如此困難
文章出處:【微信號:ICViews,微信公眾號:半導體產業縱橫】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論