作者:黃立偉,田文慶,楊彬,詹鵬飛
針對城域網(wǎng)運維自動化水平較低、人工成本高且無法擺脫重復運維勞動的現(xiàn)狀,本文探討了當前城域網(wǎng)自動化運維實現(xiàn)的關鍵點、難點,并針對目前城域網(wǎng)工作的重點、痛點,結合運維的實際情況以及一些新技術、新方向,提出了完整的、可實現(xiàn)的自動化運維應用體系和應用思路,同時針對典型的應用案例給出了相應的解決方案,從而徹底改變傳統(tǒng)運維低質、低效的困難局面,推進城域網(wǎng)全生命周期自動化運維能力的提升。
1 背景
移動運營商城域網(wǎng)網(wǎng)絡隨著近幾年業(yè)務的迅猛發(fā)展,尤其隨著國家“寬帶中國”戰(zhàn)略的穩(wěn)步推進,有線家庭寬帶網(wǎng)絡建設在三大運營商中已是后來居上,同時集客市場份額的競爭也日趨白熱化,并伴隨著公司5G網(wǎng)絡業(yè)務的接入,城域網(wǎng)絡承載的業(yè)務類型越來越多,包括寬帶上網(wǎng)業(yè)務、寬帶電視業(yè)務、CDN業(yè)務、IMS語音業(yè)務、互聯(lián)網(wǎng)專線業(yè)務、TR069業(yè)務、WLAN業(yè)務、網(wǎng)管業(yè)務和5G業(yè)務等等,業(yè)務復雜度越來越高,網(wǎng)絡規(guī)模也在成倍的增長,使得城域網(wǎng)網(wǎng)絡運維工作面臨很多的問題和挑戰(zhàn):
(1)自動化運維水平有限。目前自動化運維還僅限于網(wǎng)絡設備的自動巡檢、備份,家寬、集客業(yè)務的自動配置,僅占全部運維工作的20%左右,對于資源的自動采集備案、拓撲的自動發(fā)現(xiàn)、資源的自動擴容、網(wǎng)絡故障的自動排障和修復、安全加固以及網(wǎng)業(yè)協(xié)同等方向還存在著諸多重復性、可優(yōu)化的人工運維工作,需進一步通過提高自動化運維水平來提高運維效力。
(2)運維人員數(shù)量與網(wǎng)絡規(guī)模發(fā)展不匹配。近幾年公司為了實現(xiàn)降本增效的目的,將第三方維護人員全部削減,在自有人員數(shù)量不能及時補充,同時自動化運維水平又有限的情況下,依靠傳統(tǒng)運維手段的自有網(wǎng)絡運維人員通常都會身兼多職,包括業(yè)務配置、安全加固、指標管控、鏈路擴容和質量分析等等,時間上總是有些捉襟見肘,維護人員數(shù)量與網(wǎng)絡規(guī)模的不匹配日益凸顯,如果長期在高強度工作的情況下,難免會出現(xiàn)誤操作導致網(wǎng)絡故障。
(3)運維能力下降與網(wǎng)絡復雜度增加的矛盾突出。數(shù)通專業(yè)通常具有技術和專業(yè)性較強的特點,一個成熟的數(shù)通傳統(tǒng)運維人員基本要學習一年的時間,才能正常掌握各種協(xié)議內(nèi)容、局數(shù)據(jù)配置規(guī)范內(nèi)容和網(wǎng)絡排障,具備獨立支撐網(wǎng)絡運維的能力;同時,由于數(shù)通運維人員的跳槽率相對較高,所以如果運維人員梯度沒有培養(yǎng)好,很容易造成青黃不接的局面,伴隨著網(wǎng)絡規(guī)模和業(yè)務復雜度的不斷增加,按照傳統(tǒng)運維方式,運維能力的下降必將成為網(wǎng)絡支撐的重要短板且不斷激化。
綜上所述,全面實現(xiàn)自動化運維則是解決目前城域網(wǎng)傳統(tǒng)運維難題的理想解決方案,尤其是在降本增效、人力資源有限且存在諸多影響因素的情況下,城域網(wǎng)全生命周期的自動化運維將成為必然的發(fā)展趨勢。
2 自動化運維實現(xiàn)的關鍵點、難點的探討
從傳統(tǒng)運維模式向自動化運維模式推進的過程中,做到規(guī)范標準化、流程標準化,并能夠與當前的潮流技術如大數(shù)據(jù)、人工智能進一步結合,同時確保自動化運維的成果具備強可操作性是自動化運維實現(xiàn)的關鍵點、難點。
2.1規(guī)范標準化的重要性
規(guī)范標準化是實現(xiàn)資源自動管理、自動化運維的基礎,尤其是各廠家設備局數(shù)據(jù)配置規(guī)范的標準化,包括端口、VLAN等資源分配規(guī)范和業(yè)務配置模板規(guī)范的標準化。在自動化運維推進的過程中,不可避免的需要根據(jù)已定制規(guī)范對歷史局數(shù)據(jù)做出規(guī)范化的整改,而業(yè)務邏輯復雜且風險較大的規(guī)范化整改仍然需要人工去完成,同時整改后的結果需要程序作出高效的驗證。只有實現(xiàn)規(guī)范標準化,才能確保局數(shù)據(jù)的透明化、業(yè)務邏輯的清晰化,才能更好的構建統(tǒng)一的CMDB,讓自動化運維程序更容易掌握數(shù)據(jù)、理解數(shù)據(jù)和操作數(shù)據(jù)。
2.2流程標準化的重要性
城域網(wǎng)全生命周期的自動化運維涉及多個流程,包括資源請求和分配流程、業(yè)務自動配置激活流程、故障管控流程和業(yè)務校驗流程等,各個流程可能涉及多個系統(tǒng)、模塊間的調(diào)度協(xié)同,流程的標準化確保了自動化運維實現(xiàn)的可行性、穩(wěn)定性和安全性,有效避免了自動化過程中可能出現(xiàn)的流程卡頓,保證了自動化運維進程的高效推進。
2.3融合新技術優(yōu)勢
在規(guī)范和流程都標準化的基礎上,自動化運維還應融合大數(shù)據(jù)、機器學習、云計算和NFV等新技術優(yōu)勢,使得在數(shù)據(jù)分析、關聯(lián)挖掘以及風險識別等方面做到更加的科學化、合理化、高效化,實現(xiàn)數(shù)據(jù)價值最大化、風險操作的最小化和成本使用最優(yōu)化,充分發(fā)揮出自動化運維的高效、高能的優(yōu)勢。
2.4可操作性和安全性保證
城域網(wǎng)全生命周期的自動化運維應具備較強的可操作性和安全性保障,可操作性是指平臺建設應符合簡單、實用、高效的宗旨,能夠切實解決當前運維工作中存在的痛點,例如重復性勞動、高數(shù)據(jù)價值工作,能夠打通業(yè)務系統(tǒng)、網(wǎng)管系統(tǒng)和數(shù)據(jù)配置等系統(tǒng)之間的壁壘,合理構建系統(tǒng)之間的耦合性,確保自動化運維任務的可執(zhí)行性和執(zhí)行準確性;同時,自動化運維盡管能夠提高生產(chǎn)效率,但是如何保證自動化的操作安全,尤其涉及局數(shù)據(jù)配置方面的操作,業(yè)務邏輯一定要嚴謹,關鍵環(huán)節(jié)授權要嚴控,日志審計可追蹤,退回操作響應要迅速,自動化運維的相關應急預案也要完備,否則誤操作對網(wǎng)絡業(yè)務造成的影響將會很嚴重。
3 自動化運維的應用方向
3.1自動化運維應用體系設計
城域網(wǎng)全生命周期的自動化運維應覆蓋資源管理、告警監(jiān)控、故障搶修、業(yè)務配置、安全防護和網(wǎng)業(yè)協(xié)同等多個方面,做到全面自動化,徹底解放傳統(tǒng)運維勞動力,節(jié)約人力成本,提升生產(chǎn)效率。針對目前城域網(wǎng)運維工作中存在的痛點,急需自動化解決、可實現(xiàn)的重點應用如下圖1所示:
圖1 自動化運維應用體系
3.1.1資源管理自動化應用方向
實現(xiàn)資源管理自動化是整個自動化運維實現(xiàn)的基礎和保證,只有構建好統(tǒng)一的數(shù)據(jù)倉庫,保證基礎數(shù)據(jù)的準確性,實現(xiàn)自動化運維平臺對資源的透明化管理,才能促進其它自動化運維應用的落地。
3.1.1.1基礎資源自動管理應用思路
基礎資源的自動管理重點在基礎硬件資源管理以及IP資源管理,基礎硬件包括設備、板卡和鏈路等信息,IP資源主要涉及公網(wǎng)IP信息備案。基礎資源信息的管理應全面依靠對設備現(xiàn)網(wǎng)數(shù)據(jù)的統(tǒng)一采集和操作變更事件觸發(fā)更新,確保系統(tǒng)資源信息同步的及時性和準確性,能夠最大化的減少人工勞作和提升資源準確性帶來的數(shù)據(jù)價值。
3.1.1.2拓撲自動發(fā)現(xiàn)應用思路
網(wǎng)絡拓撲的生成和變化,應依賴設備規(guī)范化的端口描述、業(yè)務邏輯、Vlan信息等能夠自動的發(fā)現(xiàn)渲染拓撲,改變依靠人工錄入和更新系統(tǒng)資源形成拓撲的傳統(tǒng)方案,實現(xiàn)拓撲的自動化、精細化管理,包括主、備業(yè)務走向,負載均衡情況等均在在拓撲自動化管理應用中體現(xiàn)。
3.1.1.3資源自動分配應用思路
在基礎資源自動化管理實現(xiàn)的基礎上,結合規(guī)范標準化和流程標準化,資源自動分配的實現(xiàn)就相對簡單,資源的自動分配重點在分配邏輯規(guī)則的實現(xiàn)上,比如VLAN資源的分配規(guī)則、端口資源跨板卡捆綁的分配規(guī)則等,同時,應做好資源分配沖突檢測作為資源分配最后的防護底線,資源的沖突檢測可以在設備上通過自動化程序在線監(jiān)測,如ping操作監(jiān)測IP沖突等,或是指令查看端口占用情況。
3.1.1.4資源自動預警應用思路
資源自動預警的應用重點在于實現(xiàn)鏈路利用率、端口占用率、地址資源占用情況和流量負載失衡四個比較核心的網(wǎng)絡關注點,通過自動計算形成統(tǒng)計預警報告,并自動下發(fā)通知給網(wǎng)絡管理員協(xié)調(diào)開展擴容工作,充分做好網(wǎng)絡擴容等工作的超前預警支撐。
3.1.1.5資源自動擴容應用思路
資源自動擴容包括板卡、鏈路以及地址池的擴容工作,其中板卡擴容相對簡單,僅需在設備執(zhí)行簡單的加載指令,確保加載狀態(tài)正常后即完成擴容工作;地址池擴容工作和鏈路擴容相對復雜,涉及資源的自動分配,腳本的自動生成、業(yè)務的驗證,同時鏈路擴容還涉及鏈路調(diào)測等多個環(huán)節(jié),城域網(wǎng)側的聯(lián)調(diào)應重點實現(xiàn)通過機器人實現(xiàn)與工程跳線人員的自動化調(diào)測。
3.1.2告警監(jiān)控智能化應用
告警監(jiān)控智能化應用不僅僅著眼于告警的發(fā)現(xiàn),還需進一步通過自動化的學習、分析來確認和解決存在的異常問題,如流量突變的原因挖掘、OLT故障的研判以及告警自動壓縮等等,以告警壓縮自動化為例,無效告警的壓縮應依靠自動化的手段提升壓縮質量和效率,主要應用機器學習手段,通過對歷史數(shù)據(jù)的監(jiān)督學習,利用告警出現(xiàn)的頻度高低、廠家建議是否壓縮、告警重要程度評級、告警影響程度和告警是否存在關聯(lián)告警等帶標記數(shù)據(jù)進行學習建模,最后通過告警壓縮模型,實現(xiàn)對告警自動化的高效壓縮,如圖2所示:
圖2 無效告警壓縮
3.1.3故障搶修智能化應用
城域網(wǎng)重點業(yè)務主要涉及家庭寬帶、電視以及集客專線業(yè)務,當網(wǎng)絡發(fā)生故障時,由于端到端的鏈路比較長,地市和省公司之間分管不同節(jié)點設備,排障過程的信息交互往往需要較常時間,靠人工去分析判斷故障點或是完成業(yè)務搶通速度就比較慢,構建自動化的排障能力和故障搶通能力,才是故障搶修提效同時提升客戶滿意度的關鍵能力。
3.1.3.1端到端智能排障應用思路
當單個用戶的投訴或是基本不存在接入?yún)R聚特征的分散投訴時,則可以根據(jù)投訴業(yè)務的類型,做端到端的逐段ping測快速確定故障節(jié)點,但前提是根據(jù)干線鏈路的分類做好各條業(yè)務的走向分類,確保每一條業(yè)務都能準確關聯(lián)端到端的鏈路,這樣才能保證自動排障行為的可行性和結果的準確性。比如單個電視業(yè)務投訴,首先,自動排障功能模塊會在主干鏈路BNG-CR-BR上,由BNG發(fā)起到CR和BR的loopback地址的逐段ping測,確保干線鏈路無物理中斷和鏈路丟包;然后,再根據(jù)故障類型,如果是地址池問題,就可以ping測DHCP服務器地址,如果是直播問題,就可以ping測組播匯聚節(jié)點RP的地址,如果看不到電子節(jié)目單,就可以ping測EPG服務器,這樣根據(jù)ping測結果的丟包情況,無需聯(lián)系省公司運維人員,也可以快速確定故障問題點。
3.1.3.2業(yè)務自愈應用思路
業(yè)務自愈包括中斷自愈和質差自愈,城域網(wǎng)在進行扁平化組網(wǎng)改造之后,所有業(yè)務基本實現(xiàn)了自動切換的能力,包括溫備和熱備能力,所以自動化運維的業(yè)務自愈最實用的場景就是質差自愈,這里以OLT上聯(lián)鏈路CRC影響電視花屏為例,主要采集OLT上聯(lián)口存在錯誤CRC數(shù)據(jù)的鏈路端口,然后識別鏈路配對信息,尤其是配對鏈路的峰值利用率信息,并根據(jù)這個數(shù)據(jù)完成倒換前的科學評估,最后智能決策是否要執(zhí)行倒換指令,將指令下發(fā)配置到設備,實現(xiàn)在投訴前的快速倒換處理。
3.1.4業(yè)務配置自動化應用
配置自動激活是最先實現(xiàn)自動化的應用,2016年寬帶配置基本實現(xiàn)了自動配置激活,2019年城域網(wǎng)也開始研究專線自動配置激活,在整個應用測試過程中,專線自動開通失敗原因統(tǒng)計如下圖3所示:
圖3 專線自動開通失敗原因統(tǒng)計
根據(jù)統(tǒng)計結果不難發(fā)現(xiàn),IP和VLAN資源分配失敗或沖突導致的開通失敗是主要原因,另外,專線自動化開通涉及的服開系統(tǒng)和配置激活系統(tǒng)本身存在的程序bug占比也達到了12%,同時局數(shù)據(jù)配置的不規(guī)范導致程序無法執(zhí)行本該執(zhí)行的任務占比也達到了11% 。所以,從專線自動化開通的測試經(jīng)驗來看,要確保自動化應用的可行性,首先,要強化資源自動分配環(huán)節(jié)的可執(zhí)行性,要重點解決IP、VLAN等資源的分配邏輯和沖突檢測;其次,要落實局數(shù)據(jù)規(guī)范性整改,整改過程應盡量依靠自動化的手段取代人工,確保整改的準確性;最后,系統(tǒng)程序的健壯性也是自動化應用很重要的保障,避免系統(tǒng)本身的脆弱性給功能應用造成影響。
業(yè)務配置自動化應用雖然已經(jīng)開展,但應用的范圍相對有限,要真正實現(xiàn)自動化運維就應該確保可實施性的前提下,最大限度的開展自動化的應用。在自動化業(yè)務配置方面,不同廠家設備應統(tǒng)一構建好各種業(yè)務類型的配置模板,目前城域網(wǎng)的業(yè)務配置模板分類包括家寬業(yè)務配置模板、集客業(yè)務配置模板、WLAN業(yè)務配置模板、網(wǎng)管業(yè)務配置模板和業(yè)務采集配置模板,各類業(yè)務配置模板下還應盡量細化小類模板,這樣才能全面適應自動化業(yè)務配置的各類場景開通。
3.1.5安全防護自動化應用
隨著互聯(lián)網(wǎng)業(yè)務的蓬勃發(fā)展,在網(wǎng)絡安全防護方面暴漏的管理脆弱性也越來越突出,運營商在網(wǎng)絡建設初期就嚴格遵守“三同步”原則,避免設備“帶病入網(wǎng)”,同時網(wǎng)絡安全防護管理工作的部署也越來越細致。城域網(wǎng)隨著網(wǎng)絡規(guī)模的不斷增大,安全防護的任務也越來越來越艱巨,往往同樣的安全加固內(nèi)容要全部設備逐一登錄添加配置,比如電視業(yè)務的安全加固;同樣,專線引流工作也僅僅是登錄設備配置相應的ACL簡單操作,但往往人工操作效率都相對較低,針對此類操作簡單、風險小的安全防護配置,應該是自動化運維工作解決的重點內(nèi)容。
3.1.6網(wǎng)業(yè)協(xié)同智能化應用
隨著城域網(wǎng)業(yè)務規(guī)模、網(wǎng)絡規(guī)模的不斷發(fā)展壯大,同時又面臨市場業(yè)務發(fā)展的不確定性,網(wǎng)絡規(guī)劃建設、擴容等工作如果沒有科學的預測分析,盲目的新建資源有可能會造成城域網(wǎng)資源的浪費,也不利于后期網(wǎng)絡優(yōu)化調(diào)整,因此,做好網(wǎng)業(yè)之間協(xié)同智能化工作顯得尤其重要,包括用戶滿意度分析中服務質差與網(wǎng)絡質差的分析,只有做好兩者之間的智能協(xié)同才能高效、更精準的挖掘質差原因。
3.1.6.1資源投放與市場發(fā)展協(xié)同應用思路
資源投放與市場發(fā)展的系統(tǒng),可以結合鎮(zhèn)區(qū)網(wǎng)格化、市場規(guī)劃發(fā)展數(shù)據(jù)或是預增用戶量數(shù)據(jù)和鎮(zhèn)區(qū)現(xiàn)網(wǎng)設備的承載數(shù)據(jù),通過各類業(yè)務量預測模型的計算,對新增容量需求做出準確的評估預測,最終輸出現(xiàn)有和新增評估后的容量對比圖,各個鎮(zhèn)區(qū)所需的擴容需求將一目了然,輕松實現(xiàn)資源的合理規(guī)劃和科學投放,自動化實現(xiàn)方案如下圖4所示:
圖4 自動化評估模型
3.1.6.2滿意度協(xié)同分析應用思路
客戶的滿意度分析也是自動化運維的一個重要應用點,通常客戶滿意度的分析基本都是針對調(diào)研數(shù)據(jù),為了避免給客戶造成反感,調(diào)研數(shù)據(jù)基本都是簡單的詢問,調(diào)研結果可能會具有一定片面性,因此,只有依靠系統(tǒng)自動化,才能更全面的挖掘質差原因和落實好相關的改善措施。由于客戶滿意度涉及多個方面,通常包括網(wǎng)絡質量質差、裝維質量質差和業(yè)務服務質差,要全面的挖掘質差和改善質差,就要提升對服務質差和網(wǎng)絡質差的協(xié)同分析能力。利用機器學習方法實現(xiàn)協(xié)同分析的解決思路主要有三步:
第一步:構建網(wǎng)絡質量質差、裝維質量質差和業(yè)務服務質差的分類器,將每臺BNG下的投訴用戶數(shù)據(jù)輸入到分類器模型進行預測,最后對所有分類預測結果進行統(tǒng)計計算,對每臺BNG下帶用戶進行質差類別分類;
第二步:利用Apriori關聯(lián)規(guī)則算法,確定網(wǎng)絡質量質差、裝維質量質差和業(yè)務服務質差的關聯(lián)原因。
第三步:利用第一步實現(xiàn)的針對每臺BNG作出的細化質差原因分類,并結合第二步的關聯(lián)質差原因,對每臺BNG設備覆蓋范圍內(nèi)的業(yè)務給出質差分析報告和整改方向。
4 系統(tǒng)架構
結合大數(shù)據(jù)處理和小數(shù)據(jù)靈活處理方案,搭建城域網(wǎng)自動化運維平臺,平臺設計主要由4層架構實現(xiàn),如下圖5所示:
圖5 平臺架構
(1)數(shù)據(jù)源:主要實現(xiàn)數(shù)據(jù)采集功能,包括網(wǎng)管數(shù)據(jù)、局數(shù)據(jù)、DPI數(shù)據(jù)、服開數(shù)據(jù)、投訴數(shù)據(jù)等多維基礎數(shù)據(jù)。
(2)數(shù)據(jù)平臺:主要實現(xiàn)數(shù)據(jù)的存儲和預處理,構建統(tǒng)一、規(guī)范的基礎數(shù)據(jù)倉庫,供核心算法層進行建模分析、計算處理以及指令配置等。
(3)核心算法:主要集成了資源自動處理、業(yè)務自動配置、安全防護加固、網(wǎng)業(yè)智能協(xié)同以及實現(xiàn)大數(shù)據(jù)智能化分析的人工智能算法等,以實現(xiàn)應用層的自動化功能。
(4)功能應用:應用層主要實現(xiàn)6大功能,包括告警監(jiān)控智能化、資源管理自動化、故障搶修智能化、安全防護自動化、業(yè)務配置自動化和網(wǎng)業(yè)協(xié)同智能化。
5 總結
城域網(wǎng)運維工作從傳統(tǒng)運維到自動化運維的轉變將成為必然趨勢,本文提出的全生命周期的自動化運維囊括了資源管理、告警監(jiān)控、故障搶修、業(yè)務配置、安全防護和網(wǎng)業(yè)協(xié)同等多個場景應用,同時給出了當前城域網(wǎng)運維急需解決或是改進的典型應用問題點的解決方案,為城域網(wǎng)自動化運維的推進奠定了基礎,實現(xiàn)城域網(wǎng)全生命周期的自動化運維將給網(wǎng)絡運維帶來全面的降本增效,也為實現(xiàn)自動化運維向智能化運維階段發(fā)展帶來重要意義。
責任編輯:gt
評論
查看更多