行業觀察
日前,移動通信網絡行業發生了一起重大事故!
據外媒報道,歐洲電信運營商“巨頭”沃達豐集團表示,其在德國的移動通信網絡于當地時間11月23日下午13:50突然出現大面積故障,造成柏林、漢堡、慕尼黑、科隆、法蘭克福和其他城市共計超過10萬手機用戶無法建立語音連接和數據連接(2G、3G、4G的數據和語音服務都受到宕機影響),直到17:00才恢復正常。
根據沃達豐集團最新一期財報,沃達豐德國子公司約有3000萬移動通信用戶。此次故障中,有多達超過10萬用戶無法打電話和移動上網,所謂“眾口能鑠金”,超過20萬個睜到最大的憤怒圓眼和超過10萬個張到不能再大的嘴巴,以“壞事傳千里”之功力,使得該公司的品牌形象嚴重受損,一代巨頭瞬間遭受幾乎“香消玉殞”。
在這個移動通信就像是水和電甚至像是空氣一樣的時代,更令上述超過10萬的受影響用戶極其抓狂的是,從13:50到17:00一共長達190分鐘(11400秒)的時間,業務才全部恢復。
此次嚴重故障是由什么因素導致的?沃達豐反饋,網絡問題是由部署于慕尼黑、法蘭克福、柏林三地的“failure of control equipment”造成的。“failure of control equipment”就是“控制設備宕機”。從“控制設備”一詞,我們可以想到“控制面”,再進一步考慮到外媒所報道的此次故障所波及的地域之廣大、所影響的用戶之眾多,可以判斷是核心網控制面出了嚴重故障。
核心網,在2G、3G、4G網絡中所扮演的角色,就是“大腦”。一個動物要是大腦死亡了,整個身體就都死亡了;同樣類比地,網絡的“大腦”——核心網掛了,整個網絡就停擺了,所以造成了上述故障具有兩大鮮明特點:一是波及的地域廣大;二是整個故障存在的時間很長——按照電信業務可靠性計算公式以及“99.999%可靠性”這一基本要求,一年中的業務中斷的時間加起來不得超過315秒,而這次一次就斷了11400秒!
所以德國沃達豐這個事件,在5G新基建、5G+千行百業發展得如火如荼的當下,亟需及時地引起業界的深刻反思——①是否普遍足夠重視5G核心網的可靠性?②萬一5G核心網一旦出現了重大故障,能否讓行業客戶的業務“零”中斷(比如5G+政務/制造/交通/金融/電力等要求7×24在線)?若不能,如何及時補救?
敲響了“5G+千行百業”的巨大警鐘
這一起嚴重的事故,使得全球其他所有移動通信網絡運營商在為德國沃達豐感到同情和惋惜的同時,也被嚇出一身的冷汗,尤其是那些正在規模部署5G網絡的數百家運營商更是深感“如履薄冰”:
一是由于核心網是移動通信網絡與IT深度融合的第一站,軟硬件解耦且軟件運行于由通用硬件構成資源池的虛擬化核心網,其可靠性在德國沃達豐此次發生的重大事故中表現得甚為脆弱,說明除了硬件,軟件能力更顯重要。德國沃達豐和其他運營商雖然目前比較重視面向ToC領域的5G網絡的可靠性,但是截至目前在相關方面的投資趨于謹慎(尤其是在對軟件可靠性的投資方面),一旦某一天萬一發生上述德國沃達豐之類的重大事故,這幾年下大力在大眾消費者心中建立起來的5G高端品牌形象很可能頃刻崩塌,極不利于后續5G ToC發展。所以,這個事件說明對于5G核心網可靠性的投資絕對不只是單純的硬件投資,而應該持續投資于對軟件可靠能力的增強。
二是更進一步地,在5G時代,移動通信網絡所承載的將更多(公認是80%)是面向政企客戶的ToB類業務,對于ToB領域而言,“保障5G網絡可靠”是最基本的要求,是5G進入千行百業必須跨越的“門檻”,是“5G+千行百業”最為關鍵的前提,一旦5G核心網出現嚴重故障,帶來的各方面損失都將是上述德國沃達豐事件的N倍(N→+∞)——5G(含B5G)將來會被用在電力、金融、政務、工業4.0(比如智能制造)、(網路輔助的)自動駕駛、遠程醫療等關鍵領域,一旦5G核心網停擺,這些政企業務就會瞬間中斷,由此造成的后果將難以想象,會給社會經濟甚至國家安全帶來重大損失。
截至目前,業界對于5G網絡的“安全性”以及“安全防護能力提升”的公開討論有很多,但幾乎沒有對于5G網絡(尤其是面向ToB領域的5G核心網)“可靠性”的公開討論,說明對于5G核心網的可靠性尚未引起普遍化的重視。所以,德國沃達豐事件對于5G時代所敲響的巨大警鐘就是:對于事關商業、經濟、社會和國家安全的5G新型基礎設施的建設運營,除了要重視做好網絡安全防護外,更需加強對于運行可靠性的深刻認識,全力避免因可靠性問題影響運行效率和安全性。所以由此可以說,安全性是建立在可靠性的基礎之上的,不可靠才是最大的不安全!
構筑起5G核心網磐石泰山般可靠性
堅者如磐石,穩者如泰山。在上述的5G新型基礎設施可靠性中,5G核心網的可靠性顯得最為重要,因為它就是整個5G網絡的“大腦”所在——5G網絡最為核心且對5G確定性能力負責的正是5G核心網,在5G網絡端到端的質量保障當中,5G核心網承擔了對于全局資源的集中控制、調度和管理,負責管理全局的網絡拓撲、所有的接入信息、所有的用戶數據以及所有的行業業務需求;所以一旦5G核心網(其控制面集中部署于大區及省級數據中心)出現故障,受到影響的范圍將會極大。
“如何保障5G核心網的絕對可靠”是一個巨大的系統工程問題,但是仍然遵循“可靠性”相關的基本理論。
可靠性(%)=-t÷(e的MTBF次方)。其中,t為觀測的時間間隔,MTBF為平均故障間隔時間。可見,可靠性僅與MTBF有關,電信級可靠性要達到99.999%,意味著一年的業務中斷時間不超過315 s,落實到系統上即“可用度”。
可用度(%)=MTBF÷(MTBF+MTTR)。其中MTTR為平均故障修復時間。可見,提高(5G核心網)可用度,就要:①增加MTBF,即提高系統的容錯能力,保障長時間穩定運行;②減小MTTR,即在一旦突然出現故障之后,能夠快速發現故障并且瞬間(秒級)排除故障。
綜上,要保障5G核心網的絕對可靠,就要做到:盡量穩定運行、不出故障,而一旦發生故障能夠瞬間精準定位故障并秒級排除故障。
很顯然,這其中,最關鍵的就在于“能否秒級排除故障”。因為不怕一萬、就怕萬一。萬一5G核心網出現重大故障,能否做到讓用戶/客戶“零”感知?
目前,面向5G核心網可靠性,業界在網元級容災(提升VNF可靠性)、單個數據中心(DC)內容災(比如硬件/資源池/多可用區/等IT級容災以及機房/機樓等非IT級容災)、跨DC容災方面均有解決方案。目前看來尚存在兩大較顯著的問題——軟件能力不夠高、跨DC容災不夠強。
(1)亟需更強軟件能力
傳統核心網設備采用先進電信計算平臺ATCA硬件,通過硬件傳感器檢測及內部的軟硬件耦合通知機制來保證故障檢測的實時性和準確性(毫秒級)。在引入NFV對核心網進行軟硬件解耦改造后,VNF的可靠性應不低于現有傳統物理模塊(功能)的可靠性。采用通用服務器后,應用層(軟件)的可靠性不再依賴于底層構筑,VNF只能靠軟件手段去檢測是否出現故障,NFV云化網元通過軟件機制實現故障檢測為秒級,遠低于傳統核心網的毫秒級,所以從更好地保證整體網絡的可靠性的角度,5G核心網亟需更加強大的軟件能力,比如向無狀態化、更強數據庫、微服務、更魯棒的VNF組網及部署架構等方向發展以便于彈性擴縮容并提升電信級服務可靠性與可用性。
(2)亟需解決跨DC容災3大關鍵薄弱問題
“跨DC容災”一直是業界一大難題。主要表現在以下幾個方面。
● 跨DC的數據備份
要實現跨DC容災,必須要實時進行用戶上下文數據備份(比如存儲用戶簽約數據、注冊信息的UDM等主要數據庫)。顯然,這要求進行實時備份而且備份的數據越多越好以利于業務快速恢復。用戶上下文數據變化快,使得備份難度大。業界目前采取的備份方式下,備份時間長(從而不利于一旦出現故障時備份到更多數據即不能保證數據備份的時效性與完整性)、數據量大(未經壓縮)、對DC間鏈路的帶寬要求很高(因為數據量大)。從而,現在亟需打造并部署能夠對待備份數據進行壓縮的解決方案,以在大幅降低DC間鏈路傳輸備份數據的帶寬需求的同時,保證數據備份的時效性與完整性以保障業務恢復的“零”影響。
一旦5G核心網出現故障,就要瞬間運用備份到的數據去恢復,千萬級甚至億級用戶的電信業務恢復,帶來極大考驗。主要體現在以下兩方面。
● 找到備份數據
運用跨DC備份的數據去恢復用戶的電信業務,第一步就是要找到用戶的備份數據。所以可見,“能否快速找到”是關鍵之中的關鍵。
下圖為5G核心網服務化架構,筆者在其中用紅色框標準了5G核心網控制面兩個極為重要的網元——控制層的AMF、數據層的UDM。
從上圖,我們一眼就可以看出AMF的不可或缺性——是用戶接入5G核心網的首個網元,是分組接入的一級關口,是提供5G網絡服務的前提,在用戶體驗的保證上起著關鍵作用。從AMF的名稱“接入和移動管理功能”更是能感受到其極端重要。
UDM則是5G SA網絡用戶的統一數據管理平臺,主要用于存儲用戶的簽約數據、注冊信息,給AMF下發簽約數據,存儲用戶當前服務的AMF地址等,提供用戶簽約數據訪問、位置登記等功能。UDM一旦發生重大事故時,會導致大范圍的業務中斷,影響巨大。
在5G核心網出現故障后,當用跨DC備份的用戶上下文數據去恢復用戶的電信業務時,千萬級乃至億級數量的用戶(將來“萬物互聯”后還可能是幾十億級的設備)同時接入AMF和UDM,勢必有瞬間產生信令風暴的可能——如果在故障發生前備份了所有用戶的上下文數據,則用戶新接入時不用去UDM取簽約數據,業務恢復時,信令就主要沖擊在AMF上;否則,在業務恢復時,信令將沖擊到UDM網元——由于UDM主要能力在于數據存儲,而信令能力弱,從而很容易引發過載。
一旦由此出現信令風暴,將會導致網絡癱瘓,從而引發更多問題,何談“業務恢復”?電信業務有狀態的特點,不同于IT業務的數據備份,還需要更新上下文相關的隧道、通道、鏈路層的多層網絡信息,需要超越標準流程,更新周邊網絡的信令鏈路、路由通道等。目前,業界采用的是通用數據庫,以海量廣播報文尋找用戶備份數據,會產生信令風暴。從而,現在亟需打造并部署能夠避免路由廣播、不會產生信令風暴的可實現“一步到位找到用戶備份數據”的解決方案。
● 恢復數據狀態
找到了用戶的備份數據,接下來就是恢復數據狀態從而恢復用戶的電信業務。在這一個非常重要的環節中,更是不能出現故障,否則前面的環節全都會白做,功虧一簣。目前,業界的解決方案是從單VNF恢復數據,會出現CPU單點過載,容易出現二次故障。從而,現在亟需打造并部署能夠從多個VNF恢復數據的方案——于其中,通過多個VNF的均衡處理來大幅降低單VNF壓力。
深謀遠慮未雨綢繆力保未來網絡可靠
在5G時代,2G和3G將逐步減頻退網,最終很快形成4G、5G長期共存的格局,共同服務于“萬物智聯”(比如基于4G LTE的NB-IoT),所以現在宜未雨綢繆,布局網絡結構簡化、網絡資源可靈活動態共享、軟件平滑演進的融合型核心網,并布局4G網絡高可靠容災與恢復方案,同時高度重視軟件能力加固,增加預算大力持續投資核心網軟件可靠能力,全力保障未來網絡的高可靠。
責任編輯:xj
原文標題:反思!通信業重大事故
文章出處:【微信公眾號:5G】歡迎添加關注!文章轉載請注明出處。
-
通信
+關注
關注
18文章
5977瀏覽量
135872 -
沃達豐
+關注
關注
0文章
183瀏覽量
18422 -
5G
+關注
關注
1353文章
48380瀏覽量
563458
原文標題:反思!通信業重大事故
文章出處:【微信號:angmobile,微信公眾號:5G】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論