精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

測試右移之——監控告警中心優化與建設策略

京東云 ? 來源:京東保險 鄭飛 ? 作者:京東保險 鄭飛 ? 2024-11-26 11:11 ? 次閱讀

作者:京東保險 鄭飛

前言

在11.11大促中,質量保障成為了確保大促順利進行的堅固防線。其中,測試右移作為一種前瞻性的質量策略,正日益彰顯其不可或缺的價值。而監控,作為測試右移戰略中的核心環節,不僅承擔著全面、精準捕捉系統運行動態的重任,更需在問題初露端倪時,迅速吹響警報,引領團隊實施有效干預。然而,當前大部分關于測試右移中監控部分的討論,多聚焦于監控技術的選擇與實現,以及如何構建全面的監控體系,而對于監控告警這一核心功能的深度剖析卻相對較少。

告警,作為監控體系中的“哨兵”,其重要性不言而喻。一個高效、精準的告警機制,能夠第一時間將潛在問題反饋給相關人員,為快速定位、解決問題贏得寶貴時間。但現實中,告警機制的設計與實施往往面臨著諸多挑戰,如告警信息的泛濫、感知度不足、準確性不高等,這些問題都嚴重制約了監控體系效能的發揮。

因此,本文特從告警視角出發,探討當前監控告警機制存在的問題與挑戰,并提出針對性的優化與建設策略。希望通過本文的闡述,能夠為讀者在構建和優化監控告警體系時提供有益的參考與啟示。

一、背景概述與當前狀況

在構建業務監控體系的過程中,我們通常采用多元化的告警通知手段,涵蓋郵件、即時通訊消息等多種形式。當前,團隊中大部分業務監控主要依賴郵件和即時通訊消息(京ME)作為告警傳遞的兩大渠道。

然而,隨著監控范圍的不斷擴大和業務應用場景的日益豐富,現有的報警通知機制正面臨一系列嚴峻挑戰。

二、面臨的主要挑戰

1.報警感知度不足:單一的報警模式或當前報警功能的感知能力存在明顯短板。例如,由于每日接收的郵件數量龐大,郵件通知方式往往容易被忽視;相較于郵件,京me消息通知的感知度雖有所提升,但仍存在遺漏關鍵報警信息的風險。

2.報警信息泛濫:無效或冗余的報警信息會嚴重干擾正常報警的傳遞,增加值班人員的工作負擔,降低其處理效率。更為嚴重的是,這些無效信息會將緊急報警淹沒在海量報警信息之中,導致關鍵信息被忽視。

3.報警不準確:不合理的閾值設置可能引發漏報或誤報現象,進而對系統的穩定性和安全性構成潛在威脅。

三、告警中心建設目標

告警中心的建設旨在全面攻克上述存在的痛點問題,并在此基礎上拓展更為全面且強大的功能體系。以下是該建設的核心目標:

1.構建統一報警平臺:旨在提供一個集成化的報警通知中心,確保各業務監控模塊能夠專注于其核心功能的實現,而無需為報警通知的多樣化與整合性擔憂。

2.實現多通道告警:通過集成郵件、即時通訊、短信等多種報警通知渠道,構建一個具備多維度告警感知能力的系統,確保報警信息能夠精準觸達目標接收者。

3.引入優先級設定機制:為報警信息提供分級與優先級設定的能力,使接收者能夠迅速識別并優先處理高優先級報警,確保緊急問題得到及時響應。

4.實現自動升級與抑制:針對有效報警項,當出現嚴重批量報警時,系統將自動提升其感知能力,確保關鍵信息不被遺漏;同時,對于冗余或無效報警,系統將自動進行降級處理,抑制其通知頻率,避免造成不必要的干擾。

5.實施報警合并策略:對于相同類型的報警信息,系統將進行智能合并,以減少報警數量。在設定的時間窗口內,將同一監控對象的多次報警合并為一次,提高報警信息的可讀性和處理效率。

6.打造自適應報警系統:依托實時數據和歷史數據,結合先進的統計分布算法,系統將自動調整報警閾值,以適應系統環境的不斷變化,確保報警信息的準確性和有效性。

7.構建問題閉環處理流程:通過與問題處理平臺無縫對接,形成從報警觸發到問題解決的完整閉環流程,確保每一個報警都能得到及時、有效的處理,從而提升系統的穩定性和可靠性。

四、技術設計方案

4.1 告警設置使用原則

?【建議】控制告警數量,避免引發“狼來了”效應。

?【強制】當告警觸發時,必須附帶明確的操作指南。

?【建議】對于無需人工干預的告警規則,建議直接予以移除。

?【強制】告告警信息中必須包含告警級別、影響范圍及應對措施等關鍵信息。

4.2 告警渠道集成策略

告警中心致力于構建一個全面而靈活的報警感知網絡,集成了多種高效、便捷的告警渠道,包括但不限于:

?郵件通知:利用郵件系統的廣泛覆蓋性和可靠性,確保告警信息能夠準確無誤地送達至指定接收者。

?京me消息:依托京me平臺的即時通訊能力,實現告警信息的快速傳遞,確保相關人員能夠第一時間接收到報警通知。

?京me群通知:還有另外一種情況,就是負責人不能立馬看到告警,針對這種情況我們可以提前準備告警群,把告警投入小組的群里,這樣群里的其他同學也能看到告警,幫負責人處理告警或者提醒負責人處理告警。

?京me日歷提醒:結合京me日歷的日程管理功能,將告警信息以日程提醒的方式呈現,為相關人員提供更為直觀的告警感知體驗。

?電話告警:在緊急情況下,通過電話直接撥打相關人員手機,確保告警信息能夠以最快速度傳遞至目標接收者,實現即時響應。

4.3 故障等級與告警設置策略

在故障管理體系中,明確定義故障的等級至關重要。除了傳統的基于受損PV/UV、收入等維度來劃分故障等級外,故障的持續時間同樣是一個不可忽視的關鍵指標。對于一個核心服務而言,故障的持續時長將直接影響其最終的影響級別。例如,短時間的瞬時故障可能僅造成輕微影響,而長時間的持續故障則可能引發重大業務中斷,帶來嚴重后果。

因此,如何迅速解決故障,實際上也在一定程度上考驗著我們的告警設置能力。在事故的全生命周期管理中,從發現到定位,告警都扮演著至關重要的角色,尤其是故障的初步發現階段。為了優化告警設置,提升故障處理效率,以下幾點策略可供參考:

?告警分級管理:根據故障的嚴重性,將告警劃分為不同的等級,如提示級、預警級、嚴重級和災難級。這種分級管理有助于相關人員根據告警級別快速判斷故障的緊急程度,并采取相應的應對措施。

?告警原因分類:對告警進行細致的原因分類,如網絡故障、硬件故障、軟件錯誤等,有助于快速定位故障源頭,減少排查時間。同時,原因分類也為后續的故障預防和改進提供了有力支持。

?提供解決方案:每條告警信息中應包含初步的解決方案或處理建議,以便相關人員能夠在接收到告警后,迅速采取行動,遏制故障擴散,降低損失。解決方案可以包括緊急操作步驟、備用系統切換方案、聯系技術支持人員等。

4.4 告警收斂抑制與自動升降級策略

告警中心不僅承擔著即時發送告警信息的重任,還需對告警記錄進行精細化管理和分析。告警中心會保留每一次告警的通知記錄,并根據后續的驗證結果,對告警進行精準分類,如有效報警、無效報警、偶發性報警以及常規報警等。

為了提升告警管理的效率和準確性,告警中心會根據歷史告警的最終處理結果,智能識別出冗余或無效的告警。對于這些告警,系統將自動采取降級處理措施,有效抑制其通知頻率,從而避免對相關人員造成不必要的干擾和負擔。這種智能收斂抑制機制,有助于減少無效告警的噪音,讓相關人員能夠更加專注于處理真正重要的告警。

同時,對于歷史上曾經出現過的重要或嚴重報警,告警中心在提供正常通知的基礎上,還具備智能升級的能力。例如,當某個告警配置原本使用較為普通的通知方式(如京me通知),但在出現批量惡劣報警且接收人未能及時跟進處理的情況下,系統會自動將該告警升級為更高級別的通知方式,如電話告警(同時可以支持升級為通知相關上級人員)。這種智能升級策略,能夠確保在緊急情況下,相關人員能夠迅速接收到告警信息,并采取相應的應對措施,從而有效遏制故障的擴散和升級。

4.5 告警合并策略

對相同類型的報警信息進行智能識別與合并。在設定的時間窗口內,對于同一監控對象觸發的多次報警,系統將自動進行合并處理,將多條相似的告警信息整合為一條綜合告警。這種合并方式不僅顯著減少了報警數量,降低了告警信息的冗余度,還使得告警信息更加簡潔明了,易于閱讀和理解。

4.6 自適應閾值策略

在監控告警領域,閾值設定一直是一個棘手的問題。傳統的固定閾值方法,雖然簡單易行,但往往難以兼顧精準告警與減少誤報之間的平衡。閾值設定過于寬泛,可能遺漏真正的故障問題,導致漏報;而設定過于保守,則可能引發大量無效誤報,干擾正常工作。更為復雜的是,隨著業務的不斷發展,監控對象的數據波動也會發生變化,閾值也需要相應地進行調整。

為了解決這一難題,引入了自適應閾值策略優化方案。該方案的核心在于利用統計分布學算法,根據歷史數據走向,動態計算出合理的告警閾值。具體而言,我們可以采用正態分布或均勻分布等統計模型,對歷史監控數據進行擬合和分析,從而得出一個能夠反映數據波動特性的動態閾值。

自適應閾值策略的優勢在于其靈活性和準確性。由于閾值是根據歷史數據動態計算得出的,因此能夠隨著業務的發展和數據的變化而自動調整,始終保持對監控對象的敏感度和準確性。同時,該策略還能夠有效減少誤報和漏報的情況,提高告警信息的可靠性和實用性。

在實施自適應閾值策略時,我們還需要注意以下幾點:

1.數據質量:確保歷史數據的準確性和完整性,避免數據異常對閾值計算造成干擾。

2.模型選擇:根據監控對象的特性和數據分布特點,選擇合適的統計模型進行擬合和分析。

3.閾值調整:定期對自適應閾值進行驗證和調整,確保其始終符合業務需求和運維實際情況。

4.7 告警問題追蹤與閉環

告警中心通過與問題跟蹤系統的集成,實現了告警從觸發到解決的全程跟蹤。當告警觸發時,系統會自動將告警信息發送至問題跟蹤系統,并生成相應的問題記錄。值班人員可以在問題跟蹤系統中查看告警詳情、處理進度和解決方案等信息,確保每一個告警都能得到及時、有效的處理。這種告警問題追蹤與閉環流程,有助于提升系統的穩定性和可靠性。

五、優秀文獻推薦

關于線上穩定性的構建與監控報警機制的完善,特此推薦以下幾篇卓越的文獻資料

外部文獻精選:

1.?《vivo 服務端監控體系建設實踐》?

2.?《我在服務監控方面的實踐》?

神燈社區佳作:

1.?《系統穩定性之-監控報警》?

這些文獻資源將為在構建與優化線上穩定性及監控報警體系方面提供寶貴的參考與啟示。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 測試
    +關注

    關注

    8

    文章

    5174

    瀏覽量

    126488
  • 監控
    +關注

    關注

    6

    文章

    2178

    瀏覽量

    55103
收藏 人收藏

    評論

    相關推薦

    商場泵站交替補水監控告警物聯網解決方案

    滿足不同時段的用水水壓安全穩定。 對此,通過接入控制器PLC,物聯網云平臺能夠實時采集水泵運行參數、變頻器頻率、水壓、流量等數據,并實現可視化的數據展示、監控告警、管理、控制等功能,為管理人員提供靈活調整供水策略
    的頭像 發表于 11-20 13:54 ?61次閱讀

    什么是回歸測試_回歸測試測試策略

    是否在新軟件版本上再次出現。 2、測試策略 回歸測試策略一般由測試經理或測試組長制定,初級軟件
    的頭像 發表于 11-14 16:44 ?131次閱讀

    TI Wi-Fi測試策略概述

    電子發燒友網站提供《TI Wi-Fi測試策略概述.pdf》資料免費下載
    發表于 09-20 10:46 ?1次下載
    TI Wi-Fi<b class='flag-5'>測試</b><b class='flag-5'>策略</b>概述

    天車監控告警物聯網系統方案

    。為了提升天車管理的智能化水平,數之能提供高效可靠的物聯網解決方案。 現場天車用于吊架重型設備進行噴漆作業,收到粉料及碎屑等影響,設備長期使用的風險直線上升,因此要求實現與設備運行狀態與工藝參數的實時監控,同時對
    的頭像 發表于 09-10 15:21 ?188次閱讀
    天車<b class='flag-5'>監控告警</b>物聯網系統方案

    食品冷庫遠程監控自動告警系統方案

    內,就需要對制冷機組進行全天候的監測,建設一套高效的食品冷庫遠程監控自動告警系統,以進一步提升食品儲存的安全性、降低運營成本并增強管理效率。對此,數之能提供高效可靠的解決方案。 通過接入制冷機組PLC,數之能設備運維管
    的頭像 發表于 08-30 15:35 ?213次閱讀

    電動汽車有序充電優化策略

    優化問題。無序充電不僅可能導致電網負荷高峰,影響電網穩定,還可能增加充電成本,降低用戶體驗。因此,探索電動汽車有序充電優化策略,對于推動電動汽車產業的可持續發展具有重要意義。 1電動汽車充電現狀與挑戰 1.1 電動汽車充
    的頭像 發表于 08-24 12:25 ?2560次閱讀
    電動汽車有序充電<b class='flag-5'>優化</b><b class='flag-5'>策略</b>

    高速分切機數據采集監控告警系統解決方案

    的問題。對此,物通博聯提供基于工業智能網關的數據采集監控告警系統解決方案,旨在提升生產設備的智能化管理水平。 1、數據采集 高效的數據采集是實現全面監控的基礎。傳統的數據采集方式往往依賴人工記錄或簡單的傳感器,不
    的頭像 發表于 08-13 15:23 ?364次閱讀
    高速分切機數據采集<b class='flag-5'>監控告警</b>系統解決方案

    IR615配置流量告警方法

    1.登錄路由器,服務流量管理中設置流量使用閥值. 2.添加告警設置,在服務&gt;告警設置中勾選告警輸入和告警輸出. 3.登錄DM平臺添加
    發表于 07-25 07:59

    無縫拼接矩陣在監控中心的應用案例

    訊維無縫拼接矩陣在監控中心的應用案例相當廣泛,其高效的拼接技術和出色的顯示效果為監控工作提供了極大的便利。以下是一些具體的應用案例: 城市交通監控
    的頭像 發表于 03-22 15:04 ?353次閱讀

    數據中心配電能效精細化建設策略研究與趨勢分析

    數據中心配電能效精細化建設策略研究與趨勢分析 張穎姣 安科瑞電氣股份有限公司? 上海嘉定? 201801 摘要:通過分析用戶需求、建設和運維等多方對數據
    的頭像 發表于 03-11 17:00 ?354次閱讀
    數據<b class='flag-5'>中心</b>配電能效精細化<b class='flag-5'>建設</b><b class='flag-5'>策略</b>研究與趨勢分析

    是德科技推出AI數據中心測試平臺旨在加速AI/ML網絡驗證和優化的創新

    2024年2月29日,是德科技(Keysight Technologies,Inc.)宣布,針對人工智能(AI)和機器學習(ML)基礎設施生態系統,推出了 AI數據中心測試平臺,旨在加速AI / ML網絡驗證和優化的創新。
    的頭像 發表于 02-29 09:32 ?597次閱讀
    是德科技推出AI數據<b class='flag-5'>中心</b><b class='flag-5'>測試</b>平臺旨在加速AI/ML網絡驗證和<b class='flag-5'>優化</b>的創新

    淺談新能源汽車充電樁建設優化

    淺談新能源汽車充電樁建設優化 張穎姣 安科瑞電氣股份有限公司?上海嘉定 201801 摘要:本文針對新能源汽車充電樁建設工作進行探究,采用案例分析法、文獻查閱法,指出了新能源汽車充電樁建設
    的頭像 發表于 02-26 10:54 ?555次閱讀
    淺談新能源汽車充電樁<b class='flag-5'>建設</b>及<b class='flag-5'>優化</b>

    某市配網配電室環境智能監控系統建設探索與實踐分析

    環境溫度、環境濕度等所有環境數據實時遠程監控功能。 系統可以實現燈光、水泵、空調等設備的開關狀態監控。 環境參量超標自動告警及自動排障功能。在監控
    發表于 01-09 16:30

    數據中心智能母線監測系統及產品監控選型

    數據中心末端智能母線通過現代通信網絡監控技術,實時監控母線的溫升、電能運行參數等數據,并對采集的實時數據進行分析處理和存儲,上傳至數據中心ECC監控
    的頭像 發表于 01-08 16:56 ?508次閱讀

    AWTK 串口屏開發(3) - 告警信息

    告警信息是一個常用的功能。在AWTK開源串口屏中,內置告警信息模型,只需設計用戶界面即可實現告警信息的顯示和管理。1.功能告警信息是一個常用的功能,MCU在設備異常時,會發送
    的頭像 發表于 12-23 08:24 ?429次閱讀
    AWTK 串口屏開發(3) - <b class='flag-5'>告警</b>信息