工業、汽車、通信、航空航天和安防市場對關鍵任務(Mission-critical)應用的需求越來越大。如今,萊迪思NexusTM技術平臺為用于關鍵任務(Mission-critical)應用的FPGA提供了絕對的優勢。
引言(MPU vs.FPGA)
如今的關鍵任務系統可能要求相當大的算力。一種計算解決方案就是采用微處理器單元(MPU),例如PC和工作站。盡管這種處理器看似很強大,但實際上它們只執行簡單的任務,例如將兩個數字相加或者比較兩個數字的大小。同樣,它們看似很快,是因為系統時鐘以2.4 GHz或者更高頻率運行。
問題的關鍵在于,盡管MPU可以很好地處理決策任務,在執行很多數據處理任務時就不那么高效了。因此, MPU在執行此類任務時往往功耗更大,產生熱量更多。
在嵌入式應用中實現信號和數據處理的更有效方法是采用現場可編程門陣列(FPGA)。FPGA受益于自身的并行架構,能以低延遲并行執行數據處理操作。正如專欄文章《FPGA基礎知識:FPGA是什么?為什么需要FPGA?》所述:“任何FPGA的核心都在于其可編程架構,它以可編程邏輯模塊陣列的形式出現。每個邏輯模塊都包含多個要素:一個查找表(LUT)、一個多路開關和一個寄存器,所有這些都可以配置(編程)執行用戶所需的功能?!?/p>
圖1. 通用FPGA可編程架構(圖片來源:Max Maxfield)
一種更為形象的描述方法是將可編程邏輯視為可編程互連這片“海洋”中的“島嶼”??删幊踢壿嬆K組可以經過配置執行所需的邏輯功能,而可編程互連則將邏輯模塊相互連接,并且連接到主要的通用輸入/輸出接口(GPIO)。
需要注意的是,以上描述只是極端簡化的情況。除了可編程架構之外,FPGA還可以包含相當于數兆RAM的存儲模塊以及大量數字信號處理(DSP)單元。同樣,除了通用I/O外,FPGA還可以包括支持千兆位串行接口的高速SERDES模塊以及與外部存儲器連接的高速接口。
FPGA廣為人知的一個主要原因是其可編程邏輯可以配置為以大規模并行方式執行相應的數據處理算法,這不僅比MPU快幾個數量級,而且功耗很低。此外,與算法“凍結在芯片中”的SoC不同,FPGA的設計可以隨時重新配置。此外,由于用戶IP由終端用戶自行編程, FPGA在制造時不包含任何用戶IP,這使得FPGA能夠在不受保護的供應鏈中運輸,而不會造成用戶IP被盜竊或篡改。這一點也和SOC及ASIC不同。因此,FPGA是包括工業機器人和通信基礎設施設備在內的關鍵任務系統的理想選擇。
輻射的挑戰
為了拓展容量、提高性能、降低功耗和成本,每一代新芯片的晶體管都變得越來越小。如今芯片中制造的結構大小僅為幾十納米(nm)(一納米等于一米的十億分之一)。這些結構非常微小,可能會受到地球上輻射的影響。
此外,關鍵任務應用的系統一般都部署在持續高水平輻射的環境中,包括高緯度地區甚至太空。
對這類應用而言,有兩種輻射效應影響最為嚴重:單粒子效應(SEE)和電離總劑量效應(TID)。
SEE是指由單個電離粒子(電子、質子、離子、光子等)在集成電路中引起的即時效應。處理SEE需要在輻射發生時能夠快速恢復。相比之下,由于長期暴露在輻射下不斷累積,TID最終會導致半導體晶格老化。典型的TID效應包括晶體管開關閾值偏移、漏電流增加、性能下降以及最終導致功能故障。因此,解決TID需要長時間抵御輻射并能從中恢復。
單粒子翻轉(SEU)是SEE的一種情形,指高能粒子撞擊微電路中的敏感節點并引起狀態變化。例如,SEU可能導致寄存器單元或存儲單元從邏輯0翻轉為邏輯1或由到0。與TID引起的問題不同,SEU被定義為“軟錯誤”,因為它可以被校正。
圖2. 時序邏輯中的單粒子翻轉(SEU)(圖片來源:Max Maxfield)
不幸的是,制程越來越先進會導致多單元翻轉(MCU)的趨勢愈發嚴重。這意味著,由于芯片中的結構排列非常緊密,SEU實際上可能會使多個存儲元件發生邏輯翻轉。此外,多位翻轉(MBU)是指一種在同一數據字或幀內出現的MCU,可能會對系統的糾錯能力產生負面影響。
SEE的另一種形式是單粒子瞬態(SET),它是指輻射粒子影響一部分組合邏輯而形成脈沖(也稱為毛刺或尖峰)。
圖3. 組合邏輯中的單粒子瞬態(SET)(圖片來源:Max Maxfield)
SET本身并不會造成太大問題,因為通常在系統其他部分檢測到之前,它就已經消失了。話雖如此,如果SET恰好發生在錯誤的時間,則可能在時鐘信號控制下進入寄存器元件或存儲單元中,這時它就會變為SEU。
另一個潛在的問題是單粒子鎖定(SEL),SEE會可能導致CMOS電路的電源和接地軌之間產生低阻抗通路(實際是短路)。如果發生這種情況,則需要立即對設備重啟(關閉電源然后再打開),防止對其造成嚴重損壞。不言而喻,在許多情況下重啟關鍵任務設備的電源可能會造成很多問題。
對于FPGA還需要進一步考慮。FPGA除了寄存器元件和RAM單元之外,還包括用于配置可編程邏輯塊的配置單元、可編程互連和可編程通用I/O。并且不同的FPGA采用的配置單元技術也不盡相同。
萊迪思提供基于SRAM的全新器件,該器件采用萊迪思Nexus FPGA技術平臺開發,為實現用于執行關鍵任務應用的先進系統提供了絕對的優勢。
Nexus技術平臺
萊迪思的Nexus技術平臺基于28納米FD-SOI工藝,為FPGA市場提供了巨大的差異化優勢。
FD-SOI工藝直接帶來兩大重要優勢。首先,由于采用全耗盡型工藝,因此芯片本身具有很強的抗輻射能力。FD-SOI本質上不受單粒子鎖定的影響,這意味著在關鍵任務應用下無需停機,而通常則需要重啟電源才能解除這種狀態。
第二個值得注意的優勢是靈活性。通過改變基底的偏壓,用戶可以選擇采用高性能(HP)還是低功耗(LP)模式運行。此外,可以通過程序控制讓系統在兩個模式下實時切換。
例如我們之前已經討論過,當輻射以高能粒子的形式穿過寄存器元件或存儲器單元時,就會出現單粒子翻轉,使半導體材料電離(產生電荷),形成短暫的電流脈沖。這種脈沖可能足以干擾到存儲的數據。
觀察如圖4(a)所示的bulk CMOS工藝。輻射(紅色箭頭)穿過芯片生成一條電離路徑,隨之留下正負電荷。這些電荷隨后在入射點處聚集(藍色箭頭)。
圖4. SEU對Bulk CMOS工藝(a)和FD-SOI工藝(b)的影響比較
相比之下,我們再來觀察如圖4(b)所示的FD-SOI工藝。在此情況下,由于氧化物層(黃色)下方的任何電荷都無法在敏感節點處聚集,因此,該氧化物層可以將生成的電荷隔離開來。較少的電荷意味著瞬態電流脈沖也較弱,也就不太可能使寄存器元件或存儲單元發生故障。
之前提到的另一個潛在問題就是MCU和MBU,這兩種情況下單個粒子可能破壞多個存儲元件。在如圖5(a)所示的Bulk CMOS工藝下,輻射(紅色箭頭)穿過芯片生成一條電離路徑,隨之留下正負電荷。除了在入射節點處聚集(藍色箭頭)外,這些電荷還可能在相鄰節點處聚集(紫色箭頭),從而導致MCU或MBU。
圖5. Bulk CMOS工藝(a)容易受到MCU和MBU的影響,而FD-SOI工藝(b)可以防止這些干擾
相比之下,我們來考察一下圖5(b)所示的FD-SOI工藝。除了將入射節點與大部分生成的電荷隔離開外,掩埋的氧化物層(黃色)還極大地縮小了每個單元的敏感區域,讓單個粒子軌跡很難影響到多個數據位,從而大幅減少了MCU和MBU的發生。
關鍵任務系統和安全系統的設計人員通常使用FIT(故障率)的概念。器件的FIT是指器件在十億(109)個小時的運行中可以預期的故障次數(例如,一個器件運行十億小時,1000個器件每個運行100萬小時,一百萬個器件每個運行1000小時,以此類推)。
就28納米技術節點下采用Bulk CMOS工藝的FPGA而言,其FIT約為100。相比之下,同樣是28納米制程,采用Nexus平臺FD-SOI工藝的萊迪思FPGA其FIT僅為1。這意味著Nexus平臺就將FIT降低了兩個數量級?;贜exus平臺的FPGA(例如Lattice CrossLink?-NX)提供了詳細的SEU描述報告,可用于估算輻射效應導致的故障率。
Nexus平臺憑借自身優勢,讓基于該技術的FPGA真正脫穎而出,更好地服務于醫療、汽車、安防等領域。然而這僅僅是開始,因為萊迪思的使命是將FIT降低到幾乎為零,這可以通過強化FD-SOI工藝以及下面討論的技術實現。
萊迪思Nexus FPGA
糾錯碼(ECC)存儲器是一種數據存儲方式,它可以檢測和校正任何內部數據損壞,例如由輻射引起的數據損壞。由于SEU被稱為“軟錯誤”,從而有了軟錯誤檢測(SED)和軟錯誤校正(SEC)的概念。
同時,內存刷洗(Memory Scrubbing)是指從每個存儲位置讀取數據,使用糾錯碼校正位錯誤(如果有),然后將校正后的數據寫回到同一位置。內存刷洗通常用于關鍵任務和安全系統以及易受高輻射環境影響的系統。
設計人員通常必須自己來實現內存刷洗功能,但這會消耗寶貴的可編程邏輯資源。相比之下,Nexus FPGA已經包括了專用的IP模塊,能夠在后臺自動執行基于ECC的內存刷洗功能。
此外,Nexus FPGA在配置存儲器中還內置了SED/SEC模塊,從而在不需要外部電路的情況下逐幀進行快速檢測和錯誤校正。盡管此類錯誤很少見,但理論上仍是有可能的。如果輻射以某種方式導致配置單元狀態翻轉,此專用IP會將其翻轉回去。
因此在萊迪思Nexus FPGA中尚未觀察到不可糾正的SEU。底層工藝將理論FIT降低為1,這意味著仍有可能會遇到數位發生錯誤的情形,但受到影響的數位幾乎會立即恢復正常。
雖然如此,但依然可能出現內部SED/SEC引擎可能無法糾正錯誤的情況。第一種情況是出現多個單獨的SEU,其中兩個或多個粒子隨機擾亂同一數據幀內的多個數位。第二情況是出現MBU,單個粒子使同一數據幀內的兩個或多個數位出現異常。
在分析Nexus平臺抵御MCU和MBU輻射影響時,要特別注意觀察這些效應。這些測試證實了上述技術優勢,表明單個粒子很少會影響到多個單元。此外,由于萊迪思的存儲器陣列設計,所有觀察到的MCU都出現在不同的數據幀中,從而可以通過SED/SEC引擎進行校正。
除了使用真實輻射源測試Nexus FPGA外,這些器件還提供能讓系統開發人員自行注入模擬輻射的機制。實際上,開發人員可以同步或異步輸入單位和多位錯誤。通過這些機制,開發人員可以驗證內存刷洗功能和SED/SEC引擎的運作,以及器件是否正常運行并生成正確的數據,這樣可以確保器件和設計即便處于輻射密集的惡劣環境中也能夠按預期工作。
結論
與所有電子元件一樣,FPGA可能會受到輻射的負面影響,隨著芯片中結構的不斷縮小,這種影響也變得更加明顯。萊迪思Nexus技術平臺基于28納米FD-SOI工藝,能讓用戶選擇高性能或低功耗模式運行,并通過程序控制實時做出更改。此外,由于FD-SOI工藝本身具有抗輻射性,因此其故障率FIT僅為1,與同一技術節點下的標準CMOS FPGA相比,提高了兩個數量級。
出于以上原因,萊迪思Nexus FPGA非常適合用于商業、工業、通信、安防和汽車等領域的關鍵任務和安全應用。
評論
查看更多