精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

實現故障自愈要攻克的3個問題以及開箱即用的方案

馬哥Linux運維 ? 來源:未知 ? 作者:易水寒 ? 2018-05-19 10:59 ? 次閱讀

產品設計理念剖析企業建設故障自動化處理方案的思路

人工處理告警,一直是運維心中的痛。大年初一拜年、結婚、和老婆孩子外出過周末等美好時光,作為運維的你,好像一直心系IT系統,保持與筆記本的安全距離。

為什么這么多年過去了,還是這么苦逼,不是說運維行業轉 AIOps了,我竟然還在手工處理告警,我該怎么辦?

今天就和大家聊聊實現故障自愈要攻克的3個問題,以及獻上開箱即用的方案。

1. 故障自愈的基本流程

自動化的要點是什么?把人的經驗抽象、固化為程序處理,工業(第3次工業革命)或互聯網都是如此。

舉個例子,磁盤出現告警,運維首先想到的是登陸服務器清理磁盤。

實現故障自愈要攻克的3個問題以及開箱即用的方案

(人工處理告警的流程)

接下來,我們拆解背后的邏輯。

1.1 抽象告警處理流程

1)拉取磁盤告警

2) 編寫磁盤清理的腳本或作業任務

3) 設計模塊:把拉取到的磁盤告警,與調用腳本的模塊串起來

實現故障自愈要攻克的3個問題以及開箱即用的方案

(故障自愈流程 簡化版V1)

1.2 通過CMDB做資源清洗

不同模塊的磁盤清理方案不一樣,如何解決呢?

這時需要引入CMDB(設備、人、業務的映射關系),通過CMDB把IP清洗為模塊,這樣就解決了接入層 和 邏輯層、存儲層的告警使用對應的磁盤清理方案。

實現故障自愈要攻克的3個問題以及開箱即用的方案

(故障自愈流程 簡化版V2)

1.3 對接企業內部網關

故障自愈可能會處理失敗,這時需要通知用戶。故障自愈的處理方式除了調用作業外,還可能需要調用企業內部的網關,比如服務器重啟、申請服務器等。

使用PaaS層的ESB是一種解決思路,通過ESB封裝企業內部網關,解決權限校驗、頻率控制、訪問統計、路由分發以及自助接入等功能,不要直接調用裸接口了。

實現故障自愈要攻克的3個問題以及開箱即用的方案

(故障自愈的通知方案)

經過這一輪的探索,故障自愈的架構就是下面這個樣子。

實現故障自愈要攻克的3個問題以及開箱即用的方案

(故障自愈的流程)

1.4 對接企業內部監控產品

等等,好像還沒說如何對接企業內部的監控產品,以Zabbix、Open-Falcon為例。

1.4.1 對接Zabbix

《當Zabbix遇見故障自愈》介紹了拉取Zabbix告警的方案,通過 ActionScript 調用腳本,把 Zabbix 告警推送至自愈的告警拉取模塊。

推送(或叫回調)可以保證告警拉取的實時性。

實現故障自愈要攻克的3個問題以及開箱即用的方案

(Zabbix推送告警示例)

實現故障自愈要攻克的3個問題以及開箱即用的方案

(Zabbix調用推送告警的腳本)

對接Zabbix 的落地案例可以參考陳亮撰寫的那些年我們想做的無人值守。

除Zabbix外,Open-Falcon在國內的社區熱度也不錯,所以也介紹拉取其告警的方案。

1.4.2 對接Open-falcon

方案類似Zabbix,不過Open-falcon 直接提供了callback功能,簡化了流程。

實現故障自愈要攻克的3個問題以及開箱即用的方案

(Open-Falcon配置Callback地址)

收到了Open-Falcon 推送的告警后,解析對應的字段即可。

如果企業內部的CMDB以IP來標識主機,需要再做一層轉換,因為Open-Falcon 的資源標識endpoint默認是主機名,那么就需要使用CMDB的自動發現功能自動上報主機名,同時提供把主機名清洗為IP的功能。

下面是Nginx模塊磁盤告警的自愈示例,匹配Nginx模塊的磁盤清理套餐,清理Nginx模塊的日志文件,整個過程不到30秒。

實現故障自愈要攻克的3個問題以及開箱即用的方案

(磁盤告警的自愈示例)

2. 故障自愈的兩面性

故障自動處理就像一把刀,有其兩面性。

因為要確保告警的真實性,一旦把假告警也自動處理了,就很悲催了…

舉個例子。網絡波動,批量出現PING告警。實際上服務器運行正常,這時你把服務器都重啟了,那就GG了。

如何解決呢?分析事物的規律。

批量出現告警,那可以在告警拉取模塊后面,增加一個收斂模塊。

比如,在X時間內出現Y個告警,打電話給運維審批。

X時間內同一主機出現使用相同套餐的告警,則收斂時間窗口中后面的告警則跳過,比如同時收到進程告警 和 端口告警,就不用拉2次進程了。

還有就是,原有監控系統沒有收斂能力,那么可以借用這個功能來做告警匯總,因為收斂邏輯一樣,只是收斂的處理方式有差異。

實現故障自愈要攻克的3個問題以及開箱即用的方案

3. 復雜告警的處理方案 - 組合套餐

上面提到的技術方案是用來處理邏輯簡單的告警,那么故障替換這種復雜的場景如何解決呢?

舉個例子,A模塊是重要模塊,出現PING不可達告警,首先要校驗A模塊是否真的故障,如果真的故障,接下來是從資源池中獲取備機 … 故障替換等等,期間每個環節都有可能出錯,那就要考慮異常分支的場景。

樹結構可以解決該問題,二叉樹足以滿足大部分場景(成功、失敗兩種分支)。

實現故障自愈要攻克的3個問題以及開箱即用的方案

( 組合套餐的示例)

上面這張圖,是一個自愈處理方案,可以稱之為組合套餐。

這里同時引入了原子的概念,通過組裝原子來滿足各種需求場景, 和資源編排說的是同一個理兒。

注:如果你想使用三叉樹,其實可以把組合套餐也作為一個原子套餐(節點)。

4. 故障自愈的技術架構

經過前面對故障自愈的基本流程、故障自愈的兩面性、復雜的故障處理方案的層層梳理,我們有了一張故障自愈的技術架構圖。

實現故障自愈要攻克的3個問題以及開箱即用的方案

相信這次以經行業驗證的故障自愈做技術剖析,能對大家建設企業內部的故障自動處理方案提供參考思路。

5. 收尾

當 AIOps大行其道的時候,我們需要克制,優先解決主要矛盾,而不是構建高大上的空中樓閣。

如同產品路線圖,優先解決可用性,接下來是體驗,最后才是可擴展性和生態,依次落地。

實現故障自愈要攻克的3個問題以及開箱即用的方案

最后,希望廣大的運維兄弟姐妹能盡早脫離原始運維的苦海,抓住行業發展趨勢,掌握核心技術,在變革中實現自身價值!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 故障處理
    +關注

    關注

    2

    文章

    21

    瀏覽量

    9485
  • CMDB
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6738

原文標題:故障自愈:解決運維的主要矛盾才能AIOps

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    快速開箱即用體驗 AMD / Xilinx Kria? KD240驅動器入門套件

    快速開箱即用體驗 AMD / Xilinx Kria? KD240驅動器入門套件
    的頭像 發表于 06-22 10:26 ?8015次閱讀
    快速<b class='flag-5'>開箱</b><b class='flag-5'>即用</b>體驗 AMD / Xilinx Kria? KD240驅動器入門套件

    簡單便捷、開箱即用的IoT連接方案——意法半導體STM32蜂窩-云端探索套件經銷商到貨

    套件開箱即用,簡單便捷,包含可按照個人應用需求靈活自定義的示例腳本。腳本運行在Espruino JavaScript引擎環境中(已移植到STM32微控制器上)。為了幫助簡化向純C代碼編程過渡,實現最佳
    發表于 07-09 10:17

    自愈式電容器的使用誤區總結

    次諧波等,在實際選型時必須根據諧波類型選擇相應的電容電抗。  3. 沒有鼓包漏油就是無故障  不少客戶認為自愈式電容器沒有鼓包、漏油就是沒有故障,這種認知是不準確的。鼓肚、滲漏油屬于電
    發表于 03-09 11:49

    計算機網絡E1鏈路接口自愈保護解決方案

    根據商用等專用網絡存在的問題,提出一種智能網絡自愈解決方案,在不改變現有網絡結構的情況下,通過在內外網之間加入自行研發的智能網絡自愈裝置實現網絡故障
    發表于 04-17 09:10 ?14次下載

    SDH自愈環比較

    5種自愈環的比較 自愈環的應用
    發表于 08-25 16:25 ?0次下載

    當智能配電網發生故障時是如何進行自愈控制的?

    實現對智能配電網的自愈控制,單單靠電力技術本身是無法完成的,必須研究和運用各種技術手段來支撐自愈控制技術,使其組成一強大的智能化體系框架
    發表于 07-16 11:08 ?1w次閱讀

    ABC一體機3.0:AI開箱即用即開發

    ABC一體機3.0在大數據一體機、訓練一體機之上,集成了更多的AI能力,包括人臉、語音、視頻、NLP等通用AI和面向工業質檢、金融風控的專用AI,實現開箱即用。更重要的是,ABC一體機3.0
    的頭像 發表于 09-06 15:00 ?4424次閱讀

    阿里如何做到百萬量級硬件故障自愈

    自愈以及集群的自平衡重建,真正在影響業務之前實現硬件故障自動閉環策略,對于常見的硬件故障無需人工干預即可自動閉環解決。1.背景1.1.面臨挑
    發表于 11-30 15:55 ?182次閱讀
    阿里如何做到百萬量級硬件<b class='flag-5'>故障</b><b class='flag-5'>自愈</b>?

    華為開發者大會2021智能硬件開發—開箱即用的解決方案

    大咖、全球開發者一起探討全場景智慧體驗的未來。 開箱即用行業解決方案 智能家居(貼心管家) ? 智能出行(出行助理) ? 影音娛樂(娛樂伙伴) ? 運動健康(私人教練) ? 教育關懷(智慧學伴
    的頭像 發表于 10-23 10:10 ?1400次閱讀
    華為開發者大會2021智能硬件開發—<b class='flag-5'>開箱</b><b class='flag-5'>即用</b>的解決<b class='flag-5'>方案</b>

    開箱即用的物聯網:構建一無縫、安全的智能家庭網絡

    開箱即用的物聯網:構建一無縫、安全的智能家庭網絡
    發表于 11-01 08:26 ?1次下載
    <b class='flag-5'>開箱</b><b class='flag-5'>即用</b>的物聯網:構建一<b class='flag-5'>個</b>無縫、安全的智能家庭網絡

    開箱即用!教你如何正確使用華為云CodeArts IDE Online!

    華為云CodeArts IDE Online服務 ,提供了可隨時隨地編碼的云上開發環境,同時具備開放的生態和獨立插件市場,旨在為開發者提供環境快速獲取、功能開箱即用、跨越計算架構、隨時隨地訪問、橫向
    的頭像 發表于 07-06 11:45 ?556次閱讀
    <b class='flag-5'>開箱</b><b class='flag-5'>即用</b>!教你如何正確使用華為云CodeArts IDE Online!

    配網調度自動化自愈系統的設計與實現

    針對配網調度現狀進行相應需求分析并提出配置方案,著重研究和設計了配網自愈系統。使用配網自愈系統可以減少故障處理時調度員等候操作人員到達現場浪費的時間,由主站控制分段開關及環網聯絡開關,
    的頭像 發表于 01-16 14:08 ?923次閱讀
    配網調度自動化<b class='flag-5'>自愈</b>系統的設計與<b class='flag-5'>實現</b>

    [技術干貨]?AI 助手全套開源解決方案,自帶運營管理后臺,開箱即用

    方案介紹 隨著人工智能技術的不斷發展和普及,越來越多的企業和個人開始關注和使用 AI 助手來提高工作效率和生活便利性。該解決方案基于 AI 大語言模型 API 實現的 AI 助手全套開源解決
    的頭像 發表于 04-05 23:23 ?1179次閱讀
    [技術干貨]?AI 助手全套開源解決<b class='flag-5'>方案</b>,自帶運營管理后臺,<b class='flag-5'>開箱</b><b class='flag-5'>即用</b>

    自愈式電容器型號含義

    自愈式電容器是一種具有自愈功能的電容器,它能夠在電容器內部出現故障時自動修復,從而延長電容器的使用壽命。這種電容器廣泛應用于電力系統、電子設備、家用電器等領域。 一、自愈式電容器的基本
    的頭像 發表于 09-26 11:08 ?270次閱讀

    自愈式電容器容易壞是不是容量小的問題

    自愈式電容器的容易損壞問題,并不完全是由容量小導致的,而是與其工作原理、使用環境以及電氣特性有關。自愈式電容器(如用于高壓應用中的聚丙烯電容器)通常具有自愈特性,這意味著當電容器內部發
    的頭像 發表于 11-11 14:07 ?164次閱讀
    <b class='flag-5'>自愈</b>式電容器容易壞是不是容量小的問題