本文來自“數據中心服務器智能故障診斷系統”,從云和數據中心的發展趨勢、產業互聯網時代的智能化運營需求和TIFDS故障診斷系統進行分析。
隨著云技術的普及,尤其是“新基建”,“數字化轉型”等需求驅動著數字經濟的高速發展,服務器在CDC數據中心的部署規模也呈指數級增長。隨之而來的運維管理復雜度和難度也越來越大,而傳統的海量服務器數據中心的故障運營也面臨著更大的挑戰和更高昂的成本,從最初的腳本運維、工具運維到平臺運維演進至今,人力已接近極限,越來越無法滿足快速修復故障和恢復業務運行的要求。
大規模數據中心運維存在如下的痛點問題:
1. 機器故障后,重要的日志信息不全,無法自動準確進行故障部件定位;
2. 故障診斷效能較低,服務器出現問題后主要基于人工分析和經驗判斷結果,自動化與智能化程度不高。
3. 成本高時效性差,人工經驗分析依賴大量運維人力投入并導致較長的運維時間(MTTR),影響業務的快速恢復。
4. 由于診斷結果的明確化率低,引起二次故障維修比例較高,導致額外數據遷移成本和業務影響。
TIFDS (Tencent&Inspur Fault Diagnosis System) 故障診斷系統是服務器健康監管技術及故障預警診斷技術的總稱,旨在實現運維工作任務由人工離線分析向自動智能在線識別的方向發展,建立一套以帶外BMC為中心的自動化故障診斷系統,提升服務器故障預警能力、故障診斷明確率、以及停機維護效率,減少非計劃停機時間,提升服務器全生命周期的健壯的RAS特性(可靠性,可用性及可維護性)。
該系統依托騰訊超過100萬臺服務器的維護數據,深度定制了服務器事件日志,通過AI技術對服務器運營數據進行實時的分析,從而實現了對CPU,內存、硬盤,PCIe等設備的自動化預警,將服務器故障診斷自動明確化率提升至95%以上。
宕機類故障診斷
TIFDS可以覆蓋由于IERR(Internal Error)和非IERR造成的系統宕機故障,并精準地定位出故障部件,如CPU,內存,主板,PCIe外插卡,存儲等設備。服務器運行過程中一旦發生異常,TIFDS系統會立刻響應并準確診斷出故障的部件,將故障問題原因、故障部件具體位置、部件型號信息、維修建議等信息及時上報至運維管理系統。運維管理系統可自動生成維修工單,運維人員根據維修建議,需要更換部件信息,快捷更換故障部件或者依據TIFDS指導排除故障,迅速使機器恢復健康狀態。傳統的以小時計算維修時間級別壓縮至分鐘級別。極大提升運維效率,實現云業務快速恢復。
非宕機類故障診斷
TIFDS系統通過BMC實時監控服務器系統上遍布各處的電壓、電流、溫度傳感器信息,實時監控電源、風扇、以及各部件的工作狀態和工作負荷情況;根據可在線更新的告警閾值、預警閾值和故障判定規則,可實現對服務器中存在風險的位置進行故障預警、故障告警或故障判定,并時刻上報智能運維系統。
故障預警與隔離
TIFDS可以對服務器內所有部件進行全生命周期的壽命和運行狀態進行跟蹤,通過機器學習的算法對高風險的部件提前進行預警,降低服務器在高負荷運行狀態下的突然失效。另外對已發生故障的部件,TIFDS可以按部件類別做出相應的隔離措施處理,避免單一非必要部件故障影響整機系統的運行。
TIFDS是騰訊云運維監控系統中的重要組成部分,是服務器帶外數據的主要來源,在內存,CPU,PCIe等部件的故障監控,失效預測,大規模告警上有極大貢獻。通過定制化的日志自動適配騰訊云備件系統,給騰訊云健康管理系統增加參考維度,并基于帶內帶外日志開發出線上診斷系統,深度的定制化模式和簡單易用的維護工具使整個運維系統能更加智能,高效。
編輯:黃飛
-
服務器
+關注
關注
12文章
9029瀏覽量
85207 -
數據中心
+關注
關注
16文章
4700瀏覽量
71970
原文標題:數據中心服務器智能故障診斷系統
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論