精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據中心服務器運維存在哪些痛點

智能計算芯世界 ? 來源:智能計算芯世界 ? 作者:智能計算芯世界 ? 2022-07-25 16:22 ? 次閱讀

本文來自“數據中心服務器智能故障診斷系統”,從云和數據中心的發展趨勢、產業互聯網時代的智能化運營需求和TIFDS故障診斷系統進行分析。

f4b4f944-06f5-11ed-ba43-dac502259ad0.png

隨著云技術的普及,尤其是“新基建”,“數字化轉型”等需求驅動著數字經濟的高速發展,服務器在CDC數據中心的部署規模也呈指數級增長。隨之而來的運維管理復雜度和難度也越來越大,而傳統的海量服務器數據中心的故障運營也面臨著更大的挑戰和更高昂的成本,從最初的腳本運維、工具運維到平臺運維演進至今,人力已接近極限,越來越無法滿足快速修復故障和恢復業務運行的要求。

大規模數據中心運維存在如下的痛點問題:

1. 機器故障后,重要的日志信息不全,無法自動準確進行故障部件定位;

2. 故障診斷效能較低,服務器出現問題后主要基于人工分析和經驗判斷結果,自動化與智能化程度不高。

3. 成本高時效性差,人工經驗分析依賴大量運維人力投入并導致較長的運維時間(MTTR),影響業務的快速恢復。

4. 由于診斷結果的明確化率低,引起二次故障維修比例較高,導致額外數據遷移成本和業務影響。

TIFDS (Tencent&Inspur Fault Diagnosis System) 故障診斷系統是服務器健康監管技術及故障預警診斷技術的總稱,旨在實現運維工作任務由人工離線分析向自動智能在線識別的方向發展,建立一套以帶外BMC為中心的自動化故障診斷系統,提升服務器故障預警能力、故障診斷明確率、以及停機維護效率,減少非計劃停機時間,提升服務器全生命周期的健壯的RAS特性(可靠性,可用性及可維護性)。

該系統依托騰訊超過100萬臺服務器的維護數據,深度定制了服務器事件日志,通過AI技術對服務器運營數據進行實時的分析,從而實現了對CPU,內存、硬盤,PCIe等設備的自動化預警,將服務器故障診斷自動明確化率提升至95%以上。

f4d7a5d4-06f5-11ed-ba43-dac502259ad0.png

宕機類故障診斷

TIFDS可以覆蓋由于IERR(Internal Error)和非IERR造成的系統宕機故障,并精準地定位出故障部件,如CPU,內存,主板,PCIe外插卡,存儲等設備。服務器運行過程中一旦發生異常,TIFDS系統會立刻響應并準確診斷出故障的部件,將故障問題原因、故障部件具體位置、部件型號信息、維修建議等信息及時上報至運維管理系統。運維管理系統可自動生成維修工單,運維人員根據維修建議,需要更換部件信息,快捷更換故障部件或者依據TIFDS指導排除故障,迅速使機器恢復健康狀態。傳統的以小時計算維修時間級別壓縮至分鐘級別。極大提升運維效率,實現云業務快速恢復。

f4f4e98c-06f5-11ed-ba43-dac502259ad0.png

非宕機類故障診斷

TIFDS系統通過BMC實時監控服務器系統上遍布各處的電壓、電流溫度傳感器信息,實時監控電源、風扇、以及各部件的工作狀態和工作負荷情況;根據可在線更新的告警閾值、預警閾值和故障判定規則,可實現對服務器中存在風險的位置進行故障預警、故障告警或故障判定,并時刻上報智能運維系統。

f505cd88-06f5-11ed-ba43-dac502259ad0.png

故障預警與隔離

TIFDS可以對服務器內所有部件進行全生命周期的壽命和運行狀態進行跟蹤,通過機器學習算法對高風險的部件提前進行預警,降低服務器在高負荷運行狀態下的突然失效。另外對已發生故障的部件,TIFDS可以按部件類別做出相應的隔離措施處理,避免單一非必要部件故障影響整機系統的運行。

f5271786-06f5-11ed-ba43-dac502259ad0.png

TIFDS是騰訊云運維監控系統中的重要組成部分,是服務器帶外數據的主要來源,在內存,CPU,PCIe等部件的故障監控,失效預測,大規模告警上有極大貢獻。通過定制化的日志自動適配騰訊云備件系統,給騰訊云健康管理系統增加參考維度,并基于帶內帶外日志開發出線上診斷系統,深度的定制化模式和簡單易用的維護工具使整個運維系統能更加智能,高效。

編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    9029

    瀏覽量

    85207
  • 數據中心
    +關注

    關注

    16

    文章

    4700

    瀏覽量

    71970

原文標題:數據中心服務器智能故障診斷系統

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    銳捷助互聯網數據中心網絡自動化、可視化

    數據,目前我國規劃在建數據中心達到246個,總設計機架數約為103萬個,總設計服務器規模約1326萬臺。在用超大型、大型數據中心達37個,總設計機架數約為20萬個,總設計
    發表于 01-25 09:42

    基于數據中心服務器的新接口測試設計

    本文檔中介紹了基于數據中心服務器的新接口測試設計,包含了系統框圖及電路圖。
    發表于 09-12 11:10 ?5次下載
    基于<b class='flag-5'>數據中心服務器</b>的新接口測試設計

    基于大數據的高能效數據中心服務器研究

    分析ARM服務器的發展以及應用現狀,結合數據中心的特點,設計基于ARMv8架構的高能效數據中心服務器,選取目前工業界具有代表性的ARMv8服務器參數,使用典型的
    發表于 01-29 13:56 ?0次下載
    基于大<b class='flag-5'>數據</b>的高能效<b class='flag-5'>數據中心服務器</b>研究

    自動化重要里程碑,騰訊數據中心服務臺的正式啟用

    騰訊數據中心服務臺是騰訊數據中心基礎設施管理的“大腦”——基礎設施中心,集呈現“全球園區與網絡資源視圖”、“機架、機位、
    發表于 07-27 17:16 ?1975次閱讀

    數據中心服務器接口測試方案

    本文檔內容介紹了基于數據中心服務器接口測試方案,供參考
    發表于 03-16 16:26 ?3次下載

    如何才能提高數據中心服務器的效率

    研究表明,雖然數據中心的能耗成本高昂,但服務器效率也越來越高。每個數據中心都擁有運行各種工作負載的大量服務器。無論是企業數據中心、托管
    發表于 06-01 08:00 ?1次下載
    如何才能提高<b class='flag-5'>數據中心服務器</b>的效率

    數據中心正從云時代向AI時代進化

    隨著數據中心服務器規模的不斷增加,以及計算網絡、存儲網絡、數據網絡的三網融合,數據中心人員也迎來了更大的問題,這也讓傳統的人工運
    的頭像 發表于 07-09 11:48 ?1989次閱讀

    傳統香港服務器數據中心正在面臨哪些挑戰

    數據中心維護管理重要工種之一,IT出現的問題也映射了傳統數據中心正面臨的問題。 今天,恒訊科技小編就給大家分析一下傳統香港服務器
    的頭像 發表于 04-12 15:13 ?1419次閱讀

    數據中心服務器安全白皮書

    電子發燒友網站提供《數據中心服務器安全白皮書.pdf》資料免費下載
    發表于 08-23 09:25 ?0次下載
    <b class='flag-5'>數據中心服務器</b>安全白皮書

    超聚變獲TüV南德全球首個數據中心服務器智能認證標志

    數據中心服務器智能化 深圳2024年1月15日?/美通社/ --?1月15日,TüV南德意志集團(以下簡稱"TüV南德")為超聚變數字技術有限公司(以下簡稱"超聚變")的數據中心液冷整機柜服務器產品
    的頭像 發表于 01-15 20:58 ?492次閱讀
    超聚變獲TüV南德全球首個<b class='flag-5'>數據中心服務器</b>智能認證標志

    數據中心服務器功率一般多大 數據中心服務器操作系統三大類包括

    數據中心服務器功率一般多大: 數據中心服務器的功率大小可以根據具體的需求和規模而定。一般來說,數據中心服務器的功率會相對較大,以應對大量數據處理和存儲的需求。根據統計
    的頭像 發表于 01-25 10:10 ?2425次閱讀

    數據中心機房建設的:投資與之間的博弈

    在數字化浪潮的推動下,數據中心機房建設成為企業發展不可或缺的一環。然而,這一過程中存在一系列的,其中投資與
    的頭像 發表于 02-03 09:54 ?686次閱讀

    韓國大帶寬服務器數據中心位置

    很多用戶會選擇韓國大寬帶服務器,那么韓國大帶寬服務器數據中心位置在哪,rak小編為您整理發布韓國大帶寬服務器
    的頭像 發表于 03-15 10:47 ?394次閱讀

    分布式管理平臺解決大型數據中心難題的案例

    。因此,某大型數據中心決定引入分布式管理平臺,以解決過程中的諸多難題。 來百度APP暢享高清圖片 二、平臺實施與功能 資源整合與統一
    的頭像 發表于 03-26 16:10 ?424次閱讀
    分布式<b class='flag-5'>運</b><b class='flag-5'>維</b>管理平臺解決大型<b class='flag-5'>數據中心</b><b class='flag-5'>運</b><b class='flag-5'>維</b>難題的案例

    如何選擇數據中心服務

    在選擇數據中心服務時,需要考慮多個關鍵因素以確保選擇的服務能夠滿足業務需求并確保數據的安全、可靠性和性能。以下是一些關鍵步驟和考慮因素: 一、明確業務需求 首先,需要明確自己的業務需求,包括
    的頭像 發表于 10-24 16:14 ?167次閱讀