新型電力系統—電網端監控方案
1.新能源的頻率與系統頻率相同。
2. 新能源出口電壓與系統電壓相同,其最大誤差應在5%以內。
3. 新能源相序與系統相序相同。
4.新能源電壓相位與系統電壓相位一致。
運維平臺- 監控系統
設計方案
一、概述
監控系統是一種可以對特定設備、網絡、應用程序或服務進行實時監控和管理的技術。監控系統的主要目的是檢測和識別系統或服務的故障或異常,以便能夠在問題發生之前識別和糾正它們。監控系統可以幫助企業或組織實時了解其系統或服務的健康狀況,并做出相應的決策。
二、監控系統通常由以下幾個組成部分:
1.數據采集:
它們是在設備或服務上安裝的軟件或硬件組件,它們收集數據并將其發送到監控系統進行處理和分析。
2.數據服務器:
它們是處理和存儲來自監控代理的數據的計算機。監控服務器通常擁有強大的計算能力和存儲能力,以便處理和存儲大量的監控數據。
3.HMI控制臺:
它是監控系統的用戶界面,通常是一個應用程序或客戶端,用戶可以通過它來查看系統或服務的實時狀態、性能和運行狀況,以及查看歷史數據和生成報告等。
監控系統通常可以監控網絡流量、服務器資源使用率、應用程序性能、安全事件和用戶活動等方面的數據。這些數據可以用來識別潛在的問題并及時解決它們,從而提高系統的可靠性、性能和安全性。
4.監控目標
監控系統的目標是提供實時、準確的系統性能和狀態數據,以幫助管理員和運維人員及時發現和解決問題,從而實現以下幾個目標:
預防系統故障:
監控系統可以及早發現系統中的異常,如網絡擁塞、硬件故障、軟件崩潰等,從而提前預防系統故障,減少停機時間和對業務的影響。
提高系統性能:
監控系統可以檢測系統性能瓶頸和資源利用率,優化系統配置和調整資源分配,從而提高系統的性能和可擴展性。
5.提高系統安全性:
監控系統可以檢測安全事件和攻擊,如惡意軟件、入侵、數據泄漏等,從而及時采取安全措施,保護系統和數據的安全性。
6.優化運維效率:
監控系統可以自動化和簡化監控和管理任務,減少人工干預,從而提高運維效率和降低管理成本。
7.改進用戶體驗:
監控系統可以檢測應用程序或服務的性能和可用性,從而幫助企業或組織提高用戶體驗,提高用戶滿意度。
8.監控系統的目標:
是為企業或組織提供實時的系統性能和狀態數據,從而提高系統的可靠性、性能、安全性和用戶體驗,同時也為企業或組織提供更高效、更可靠的運維管理和資源利用方式。
9.監控作用和價值
監控系統是運維系統或平臺系統中較為核心的組成部分,它承載了運維工作中數據閉環的部分。從功能角度,監控系統分為數據采集功能、數據上報功能、數據存儲功能、告警功能、大屏功能、報表功能等功能模塊;從技術場景角度,監控系統又可以分為機房監控、硬件監控、網絡監控、操作系統監控、中間件監控、云平臺監控、業務監控、撥測監控等垂直技術領域;從業務場景角度,監控系統還可以分為資源類監控、成本類監控、審計類監控、質量類監控、運營類監控、安全類監控等垂直業務領域。
監控系統在現代互聯網技術中具有非常重要的作用和價值,主要體現在以下方面:
系統可靠性和穩定性:
監控系統可以實時監測系統的運行狀態、性能指標和錯誤日志,及時發現故障并進行處理,從而保證系統的可靠性和穩定性。
性能優化:
監控系統可以通過分析性能數據,發現系統中的瓶頸和性能瓶頸,從而進行優化和改進,提高系統的性能和響應速度。
安全保障:
監控系統可以監測網絡流量、安全日志和異常事件,發現和處理安全威脅,提高系統的安全性和防御能力。
預測性維護:
監控系統可以通過收集和分析設備傳感器數據,預測設備故障,并及時進行維護,避免設備損壞和停機造成的損失。
費用控制:監控系統可以通過數據分析和自動化處理,提高管理效率,減少不必要的人工成本和管理費用。
決策支持:監控系統可以提供實時數據和分析結果,幫助管理者進行決策,優化業務流程和提高管理效率。
監控系統可以幫助企業和組織提高系統可靠性、性能、安全性和效率,降低成本和風險,為企業和組織的業務發展提供有力的支持和保障。
在穩定性保障體系中,核心就是在干一件事,減少故障。我們可以看一下故障的生命周期:
減少故障有兩個層面的意思,一個是做好常態預防,不讓故障發生;另一個是如果故障發生,要能盡快止損,減少故障時長。而監控的典型作用,就是幫助我們發現及定位故障,這兩個環節對于減少故障時長至關重要。
運維人員和研發人員是典型的關注穩定性的人,不過側重點不同。發生故障的時候,運維人員更希望快速找到問題根因,及時止損。而研發人員,更希望能“自證清白”。不管出于何種目的,監控都是不可或缺的工具。
其實,監控的作用還有很多,比如用于日常巡檢,作為性能調優的數據佐證,提前發現一些設備、中間件不合理的配置。
隨著時代的發展,監控也從最開始的一句話需求 -- 及時感知系統出現的問題,發展到了希望預知問題,并且可以洞察業務經營數據,越來越多的訴求讓我們逐漸意識到監控的重要作用。
10.業界主流監控系統
現在運維監控工具非常多,對于監控系統的選型需要充分了解其優缺點再做決定。
11.數據處理能力
對于大規模和高復雜性的監控場景可能需要更為專業和靈活的監控系統。
警報功能 功能相對有限,不能實現復雜的警報規則和多種警報通知方式。
界面視覺效果較弱:相對于其他監控系統,界面視覺效果較弱,不夠美觀和易用。i適用于中小型網絡和系統管理,可以幫助用戶監控其IT基礎設施和應用程序的性能和可用性。但是,對于大規模和高復雜性的監控場景,可能需要更為專業和靈活的監控系統。
三、大規模和高復雜性的監控場景監控系統
1.監控指標
硬件監控、系統監控、應用監控、網絡監控、流量分析、日志監控、安全監控、API監控、性能監控、業務監控。
2.硬件監控
查看硬件設備燈光閃爍情況判斷是否故障
通過對硬件詳細情況進行監控,并對電壓電流等設置報警設置報警閾值。
3.系統監控
監控系統資源的使用情況,系統監控是監控體系的基礎。
4.應用監控
硬件監控和系統監控和相關的服務都需要監控起來。
5.網絡監控
網絡監控是監控平臺是必須要考慮的,監控點可以借助很多商業的監控工具,服務提供商還可以幫助你監控狀態。
6.日志監控
通常情況下,隨著系統的運行,操作系統會產生系統日志,應用程序會產生應用程序的訪問日志、錯誤日志,運行日志,網絡日志,我們可以進行日志監控。
7.安全監控
數據庫、配置檢測、全面檢測主機、Web應用漏洞自主挖掘和行業共享相結合漏洞,杜絕最新安全隱患。
8.API監控
由于API變得越來越重要,很顯然我們也需要這樣的數據來分辨我們提供的 API是否能夠正常運作。
9.性能監控
全面監控網頁性能,響應時間、建立連接時間、頁面性能指數、響應時間、可用率、元素大小等。
10.業務監控
沒有業務指標監控的監控平臺,不是一個完善的監控平臺,通常在我們的監控系統中,必須將我們重要的業務指標進行監控,并設置閾值進行告警通知。
重要指標都可以通過監控系統進行監控展示。
11.監控系統設計
運維監控平臺不是簡單的監控的環境。
構建一個智能的運維監控平臺,必須以運行監控和故障報警這兩個方面為重點,將所有業務系統中所涉及的網絡資源、硬件資源、軟件資源、數據庫資源等納入統一的運維監控平臺中,并通過消除管理軟件的差別,數據采集手段的差別,對各種不同的數據來源實現統一管理、統一規范、統一處理、統一展現、統一用戶登錄、統一權限控制,最終實現運維規范化、自動化、智能化的大運維管理。
智能的運維監控平臺,設計架構分為6層,三大模塊。
數據收集層:位于最底層,主要收集網絡數據、業務系統數據、數據庫數據、操作系統數據等,然后將收集到的數據進行規范化并進行存儲。
數據展示層:位于第二層,是一個Web展示界面,主要是將數據收集層獲取到的數據進行統一展示,展示的方式可以是曲線圖、柱狀圖、餅狀態等,通過將數據圖形化,可以幫助運維人員了解一段時間內主機或網絡的運行狀態和運行趨勢,并作為運維人員排查問題或解決問題的依據。
數據提取層:位于第三層,主要是對從數據收集層獲取到的數據進行規格化和過濾處理,提取需要的數據到監控報警模塊,這個部分是監控和報警兩個模塊的銜接點。
報警規則配置層:位于第四層,主要是根據第三層獲取到的數據進行報警規則設置、報警閥值設置、報警聯系人設置和報警方式設置等。
報警事件生成層:位于第五層,主要是對報警事件進行實時記錄,將報警結果存入數據庫以備調用,并將報警結果形成分析報表,以統計一段時間內的故障率和故障發生趨勢。
用戶展示管理層:位于最頂層,是一個Web展示界面,主要是將監控統計結果、報警故障結果進行統一展示,并實現多用戶、多權限管理,實現統一用戶和統一權限控制。
從功能實現劃分,又分為三個模塊,分別是數據收集模塊、數據提取模塊和監控報警模塊,每個模塊完成的功能如下:
數據收集模塊:此模塊主要完成基礎數據的收集與圖形展示。數據收集的方式有很多種,可以通過代理模塊實現,還可以通過自定義腳本實現。
數據提取模塊:此模板主要完成數據的篩選過濾和采集,將需要的數據從數據收集模塊提取到監控報警模塊中。可以通過數據收集模塊提供的接口或自定義腳本實現數據的提取。
監控報警模塊:此模塊主要完成監控腳本的設置、報警規則設置,報警閥值設置、報警聯系人設置等,并將報警結果進行集中展現和歷史記錄。
四、通過軟件實現智能運維監控系統。
其中,數據提取模塊用于其他兩個模塊之間的數據通信,而數據收集模塊可以有一臺或多臺數據收集服務器組成,每個數據收集服務器可以直接從服務器群組收集各種數據指標,經過規范數據格式,最終將數據存儲到數據收集服務器中。
監控報警模塊通過數據抽取模塊從數據收集服務器獲取需要的數據,然后設置報警閥值、報警聯系人等,最終實現實時報警。報警方式支持手機短信報警、郵件報警等,另外,也可以通過插件或者自定義腳本來擴展報警方式。這樣一整套監控報警平臺就基本實現了。
監控系統的關鍵技術主要有如下5點:
1、采集器
采集器決定了監控數據的來源,采集器的好壞決定了監控數據的覆蓋面、數據質量和及時性。一個好的監控系統應該配備大量針對常見技術場景的采集器,并提供方便的自定義數據接口。標準場景的監控數據占所有監控數據的 70% 左右,大量的標準采集器可以大大降低監控系統的持有成本;自定義監控數據占所有監控數據的 30% 左右,設計良好的自定義監控數據接口可以更好的調度、組織和收集自定義數據源,并為后續的二次開發工作夯實工程基礎。
采集器負責采集監控數據,有兩種典型的部署方式,一種是跟隨監控對象部署,比如所有的機器上都部署一個采集器,采集機器相關的指標;另一種是遠程測試式執行命令采集數據。
2、時間序列存儲技術
時間序列的管理、存儲和處理是監控閉環中的核心環節,在設計或評估一個監控系統時應著重考察時間序列存儲的技術方案。時間序列技術的關鍵點在于可用性、可靠性、壓縮比、舊數據清理、指標項管理、多維度聚合等多個方面。
監控系統的架構中,最核心的就是時序庫
數據的查詢效率會影響監控系統的使用效率,尤其在告警計算、報表生成、數據統計等使用場景下,低下的查詢效率會極大影響對數據使用方式的想象空間。
3、告警引擎
告警引擎的核心職責就是處理告警規則,生成告警事件。通常來講,用戶會配置數百甚至數千條告警規則,一些超大型的公司可能要配置數萬條告警規則。每個規則里含有數據過濾條件、閾值、執行頻率等,有一些配置豐富的監控系統,還支持配置規則生效時段、持續時長、留觀時長等。
告警引擎通常有兩種架構,一種是數據觸發式,一種是周期輪詢式。
數據觸發式,是指服務端接收到監控數據之后,除了存儲到時序庫,還會轉發一份數據給告警引擎,告警引擎每收到一條監控數據,就要判斷是否關聯了告警規則,做告警判斷。因為監控數據量比較大,告警規則的量也可能比較大,所以告警引擎是會做分片部署的,即部署多個實例。
周期輪詢式,架構簡單,通常是一個規則一個協程,按照用戶配置的執行頻率,周期性查詢判斷即可。
生成事件之后,通常是交給一個單獨的模塊來做告警發送,這個模塊負責事件聚合、收斂,根據不同的條件發送給不同的接收者和不同的通知媒介。告警事件的處理,是一個非常通用的需求,而且非常零碎、復雜,每個監控系統都去實現一套,通常不會做得很完備。
對告警策略配置方式的考量,應該以靈活性和可維護性為目標。混合架構、微服服等新技術催生了更現代化的業務系統技術棧,這對告警策略的靈活性提出更高要求,告警策略應該支持條件告警、組合條件告警、同比環比、回歸、線性擬合等高級功能,最好能支持基于聚類算法的告警合并
4、數據展示
監控數據的可視化也是一個非常通用且重要的需求,支持不同類型的數據源,圖表非常豐富,基本可以看做是開源領域的事實標準。
監控數據可視化,通常有兩類需求,一個是即時查詢,一個是監控大盤(Dashboard)。即時查詢是臨時起意,比如線上有個問題,需要追查監控數據,還原現場排查問題,這就需要有個方便我們查看的指標瀏覽功能,快速找到想要的指標。監控大盤通常用于日常巡檢和問題排查,由資深工程師創建,放置了一些特別值得重點關注的指標,一定程度上可以引發我們思考,具有很強的知識沉淀效果。如果想要了解某個組件的原理,這個組件的監控大盤通常可以帶給你一些啟發。
五、監控系統未來發展趨勢
1、人工智能
我們的架構應該支持數據科學技術和機器學習技術的引入,技術還在快速發展之中,很多算法和數據方法還在不斷變化,應該為這類變化保留足夠的靈活性。
人工智能技術將逐漸應用于監控系統中,以實現智能化的監控和預測分析。通過對大數據的分析和機器學習,監控系統將能夠實現更加準確、高效的故障預測和預警,從而提高系統的可靠性和穩定性。
2、大數據
監控系統越來越發揮整體運維系統的中樞作用,運維系統逐漸由流程驅動轉變為數據驅動。我們應該更加重視監控系統的開放性,使監控系統具有與其它所有運維子系統對接、整合的能力,并對外做出數據、算法等技術輸出。
隨著大數據技術的不斷發展,監控系統將能夠處理更加龐大的數據量,實現更加精細的監控和分析。同時,監控系統還將能夠更加靈活地支持各種數據源,并實現數據的實時采集、存儲和查詢。
云、容器和微服務的出現使被監控對象的數量增加了兩到三個數量級,所以高維度的數據管理能力尤其重要,我們的時間序列管理技術架構應該為 10 億級別時序數據個數作好充足準備。
3、云服務
云計算技術的發展將推動監控系統向云化方向發展。未來的監控系統將不僅支持本地部署,還將提供云服務,使得用戶可以隨時隨地訪問監控數據,同時還需支持混合云架構,目前不少企業IT架構是混合云架構。
4、自動化
云原生技術浪潮帶來了混合的技術棧和高動態的服務端架構,我們應該重視采集器的自主能力,在面向復雜多變的被監控環境時,采集器盡可能做到對環境的自動識別,對指標的自主采集。
自動化技術將成為監控系統未來發展的重要方向。未來的監控系統將能夠實現自動化配置、自動化發現和自動化報警等功能,從而減輕運維人員的工作負擔,提高工作效率。
5、安全性
隨著網絡安全問題的日益嚴重,監控系統的安全性將成為未來的重要關注點。未來的監控系統將需要更加強大的安全機制,保障監控數據的安全和隱私。
總之未來的監控系統將面臨更多的挑戰和機遇。只有不斷地創新和發展,才能更好地滿足用戶的需求,推動監控系統的發展和進步。
6、總結
運維監控平臺是運維工作中不可或缺的一部分,如何構建適合自己的運維監控平臺,每個公司的需求不一樣,每個運維面對的痛點也不盡相同,但,不管有什么需求,多少需求,萬變不離其宗,有了機器上的各種監控數據,運維就能做很多事情。
編輯:黃飛
?
評論
查看更多