近日,在“GNTC 2020全球網絡技術大會”上,阿里巴巴集團研究員,阿里云基礎設施首席網絡架構師戰道發表了題為《數據中心網絡的“高鐵”時代》的演講,分享了阿里云在云計算數據中心領域的技術創新和實踐。
他表示,我們已經進入數字經濟的社會,整個數字經濟社會的基礎設施就是數據中心。作為一個社會基礎設施必須具備大規模部署能力,超高穩定性和更高性能,而且性能要有保障,可預期。因此,通訊技術也要像交通工具變革一樣,從綠皮火車向高鐵迭代,才能夠支撐起未來數字經濟社會的發展。
本世紀頭十年是互聯網蓬勃發展的時期,運營商網絡不斷進行擴容,帶動設備廠商的不斷地設備更新迭代,大型設備的出現本質上解決了規模帶來的挑戰。到了本世紀第二個十年,互聯網應用相比傳統的企業規模來說指數級增加,數據中心的規模也是指數級的增加,已有網絡架構、網絡設備、網絡運營管控模式難以為繼。數字經濟時代對我們網絡無論規模還是穩定性、性能提出更高的要求。如何解決這個問題,是未來網絡發展的一個方向。
戰道認為,要解決這一問題,不能依靠單點技術,無論協議創新、設備創新、控制器創新,單點技術都很難突破,一定要靠體系化的融合創新。首先,是要在網絡層面進行體系化創新。從架構層面、設備自主掌控的層面、運營管控、監控系統層面一體化融合創新;第二是設備簡化。設備的自主掌控,芯片功能和芯片白盒化,到全部自主研發,軟件自主研發最主要就是設備監控,做更細顆粒度監控,本地分布式處理和有機結合。第三就是監控、管控系統的大量投入。
他介紹稱,網絡監控目前主要以監控網絡設備和網絡連通性為主要目標,沒有辦法把網絡的狀態,如故障、信息和單側應用相結合,所以網絡發生故障時候,往往幾秒鐘就反應到應用和計算,當反應到存儲可能會帶來十幾分鐘或者幾十分鐘的故障。這一方面是組織的壁壘,一方面也是廠商和芯片設備的壁壘,缺乏一體化設計,無法達到端到端的打通。對此,阿里云已經大規模部署了端網協同監控和流控技術,其端網協同理念是變成可視化的技術,把網絡當中一些信息準確實時帶到端上,再和業務流進行打通,這樣可以做到業務毫秒級故障恢復。
在端網協同的流控方面,其主要目的是打造低延時、高性能網絡,低延時得到前所未有的關注。因為低延時、高性能是強算力、規模化的應用。進入人工智能、大數據的時代,我們需要強大的算力來計算數據。由于單個芯片計算演進受到摩爾定律限制,所以必須有算力規模化,很多芯片連在一起協同計算,這就離不開高性能網絡。對于高性能網絡優化,要從兩個層次進行優化,其一是AI計算通信模型優化,如果AI計算感知網絡的拓撲、帶寬和網絡狀態,在模型上做一些調整,會直接關系到整個AI計算的性能。除此之外還要網絡本身優化,因為網絡延時是復雜系統化工程,當網絡不是理想狀況,會出現擁塞、丟包,出現丟包延時會呈現數量級提升。如何做好更好的流控,避免網絡出現這個擁塞或者減少丟包,處理好場景,在工業界和學術界是一直探討的話題。
阿里云目前還正在探索采用端網協同多路徑管理技術來提供差異化的服務。該技術是采用分布式和集中式有機結合,端上可以自動計算路徑,自動檢測路徑質量、負載情況和擁塞情況并自動切換。我們都知道流量工程在廣域網相當成熟,但在數據中心沒有人用,首先是因為數據中心本身鏈路相對便宜,另一個原因是數據中心兩臺服務器之間鏈路不同組合可能有上萬條甚至更多,所以傳統的流量工程技術很難在數據中心進行應用。這導致目前的現狀就是網絡利用率不均勻,造成局部擁塞,不能保證差異化服務。在過去這可能不是一個問題,但是面向未來,智慧中心會越來越繁多,有些AI計算可以做出一定的路徑的選擇,數據中心的業務價值才能真正體現出來。
最后,戰道總結道,未來數據中心要支撐起數字經濟社會,需要創新實現超越網絡,需要和應用相結合,需要和計算成熟相結合,只有這樣才能達到真正可預測的性能,保障智慧中心網絡走向另外一個時代。
責任編輯:gt
-
數據中心
+關注
關注
16文章
4691瀏覽量
71956 -
阿里巴巴
+關注
關注
7文章
1610瀏覽量
47112
發布評論請先 登錄
相關推薦
評論