容錯是一個依賴于系統內元素失效的系統。它也可以稱為失效安全設計。例如,在其中一個電源發生失效后,容錯系統可能會繼續正常運行。或者它可能在減少或退化的狀態下運行。其他系統可能具有“跛行回家”狀態,允許系統保存關鍵數據或允許您開車到安全的地方更換漏氣的輪胎。在某些情況下,徹底的系統失效是不可接受的。
通信、銀行、空中交通管制、運輸和許多其他領域都有系統,一旦發生失效,可能會導致災難性的后果。創建一個可能會遇到組件、子系統或軟件失效的系統,并且該系統能夠以通常非常需要的某種能力繼續運行。
容錯系統的基本特征
容錯系統可能具有以下一個或多個特征:
無單點失效
這意味著如果電容器、軟件代碼塊、電機或任何單個項目發生失效,則系統不會發生失效。例如,許多醫院都有備用電源系統,以防電網出現失效,從而使醫院內的關鍵系統保持運行。
關鍵系統可能有多個冗余方案來保持高水平的容錯和彈性。
沒有單點修復會導致系統宕機
例如,擴展單點失效的想法,實現失效組件的修復不需要關閉系統。
這也意味著系統在維修期間保持在線和運行。這可能會給系統的設計和維護帶來挑戰。熱插拔電源是修復操作的一個示例,它可以在更換失效電源的同時保持系統運行。
失效隔離或識別
該系統能夠識別系統內何時發生失效,并且不允許失效元件對功能產生不利影響(即丟失數據或在銀行系統中產生邏輯錯誤)。識別并隔離失效元件。
系統的某些部分可能具有檢測失效的唯一目的,內置自測試(BIST)就是一個例子。
失效遏制
當發生失效時,可能會損壞系統內的其他元件,從而造成第二個或第三個失效和系統失效。
例如,如果模擬電路發生失效,則可能會增加系統中的電流,從而損壞無法承受高電流條件的邏輯電路。失效遏制的想法是避免或盡量減少由單點失效引起的附帶損害。
魯棒性或變異性控制
當系統遇到單點失效時,系統就會發生變化。
更改可能會導致暫時或永久的更改,從而影響系統的工作元素如何響應和運行。變化會發生,當發生失效時,變化通常會增加。
例如,當兩個電源中的一個發生失效時,其余電源將承擔全部電力需求。這種轉變應該在不影響系統性能的情況下發生。設計和制造穩健系統的能力可能涉及六西格瑪設計、實驗優化設計和其他工具,以創建能夠在發生失效時運行的系統。
恢復狀態操作(回退或跛行)
當發生失效時,系統可以通過多種方式改變其性能,從而使系統能夠以某種方式繼續運行。
例如,如果計算機的部分冷卻系統出現失效,中央處理器(CPU)可能會降低其速度或命令執行率,從而有效地減少CPU產生的熱量。fail失效會導致冷卻能力損失,CPU會進行調整以適應并避免過熱和失效。其他還原方案可能包括回滾到先前的工作狀態,或切換到先前或安全模式軟件集。
在某些情況下,系統可能能夠在沒有或只有最小功能損失的情況下操作員,或者恢復操作將系統操作顯著限制在關鍵的幾個功能上。
概括
盡管系統內任何單個元件發生失效,系統仍能繼續運行的能力意味著該系統不在串聯配置中。
有一組冗余或一組替代方法可以繼續運行。系統可以使用多個冗余元素,或者對系統配置的變化具有彈性。
創建容錯系統的適當解決方案通常需要仔細規劃,了解元素如何發生失效以及失效周圍元素的影響。
編輯:黃飛
-
模擬電路
+關注
關注
125文章
1554瀏覽量
102679 -
容錯系統
+關注
關注
0文章
4瀏覽量
1383
原文標題:容錯基礎知識
文章出處:【微信號:QCDZYJ,微信公眾號:汽車電子工程知識體系】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論