一、背景
SDN概念的誕生已經有十多個年頭,從近年來SDN技術發展與應用部署情況來看,數據中心領域技術發展成熟較早并迅速得到廣泛應用,而國內大型互聯網公司和運營商廣域網領域相對發展要慢一些,究其原因還是由廣域網的網絡實際情況決定的。
數據中心場景業務流量相對簡單,主要是東西向流量的和南北向流量,相關數據中心SDN架構解決方案主要面向解決和處理好Overlay隧道層面流量的打通和調度。而廣域網場景業務流量相對復雜,裸IP流量、MPLS業務流量,往往疊加到一起,同時還要考慮到廣域網的互聯互通情況中多互聯互通出口流量的優化和調度。
從網絡規模和網絡設備層面考慮,數據中心相對廣域網是個小范圍區域網絡,在單個數據中心資源池新建時,完全可以直接采用較為成熟的SDN架構,單一資源池或者一個資源的一個POD內直接采用單廠家方案,不同的資源池之間或者同一個資源池的不同POD間通過標準的SDN北向接口實現異常家解耦。而廣域網是個覆蓋范圍廣大的網絡,運營商級廣域網單個AS域就可以有上千臺路由器的規模,網絡架構雖然一直向扁平化方向發展,但是遠沒有數據中心Spine-Leaf架構那么規整。廣域網建設時為避免單廠家綁定,往往是異廠家設備混合組網,因此廣域網SDN架構需要控制器直接去控制不同廠家的設備,無法簡單的應用單廠家的SDN解決方案。
基于以上原因,廣域網SDN應用和部署相對滯后。廣域網的SDN架構升級和部署,要考慮業務流量的平滑過渡,不能推倒重建,所以廣域網SDN架構設計和部署往往是要分階段地去實現,從最迫切的需求入手,合理安排設備的升級節奏,逐步地引入和完善相關SDN功能。
二、廣域網SDN應用部署與演進的三個階段
第一階段,先從提升業務開通效率入手,解決最迫切的客戶業務自動開通需求,實現網絡的自動化配置能力。通過部署SDN控制器,實現配置命令通過Netconf接口或其他方式自動下發。對于有業務需求的節點,可以先更換或者升級這些節點的PE設備,實現SR-BE功能,使業務流量基于SR-BE去承載,有條件的可以兼顧實現基于松散路徑模式的SR-TE功能,這一階段也可以同時實現基于BGP-LS或其他協議的拓撲生成與呈現。
第二階段,隨著設備的逐步升級,SR功能的全網具備,以及SDN南向接口協議標準化演進和更廣泛的廠家設備支持,逐步實現基于SR-TE的差異化服務和業務流量路徑調優功能,實現基于Telemetry的秒級信息采集,實現SDN控制器對網絡狀態和網絡資源全面的管理掌控。同時可以同步探索和實現部份網絡智能化功能,比如網絡流量模擬和網絡故障模擬,從而對網絡規劃、網絡優化升級、網絡設備和架構調整提供更好的模擬分析和決策參考。
第三階段,基于SDN能力實現更高層次的網絡智能化。未來的IBN(Intent-based Network)或IDN (Intent-Driven Network),都要以SDN能力為基礎去演進和實現。
目前運營商的廣域網SDN部署基本都在第一階段已經部份實現,正在向第二階段演進的過程中。大型互聯網公司因為業務的需求更強烈,整體研發能力強,同時網絡規模又比運營商相對較小,因此廣域網SDN部署和應用相比運營商要更完善和超前。
三、廣域網SDN功能
如果只介紹廣域網SDN架構,會比較公式化。為了使大家更好的理解廣域網SDN,先談一談廣域網SDN的功能,理解了部署廣域網SDN是為了要實現那些功能,回過頭來再去看廣域網SDN架構以及廣域網SDN所涉及的接口協議,可能會理解的更加深入一些。
談到SDN控制器的功能,就不得不先分析下SDN控制器和傳統網管的關系。普遍的認為傳統的網管側重于設備和網絡狀態監控管理,而SDN控制器側重于網絡資源管理和網絡轉發控制。資源管理和網絡設備硬件狀態的管理、網絡拓撲的管理,是分不開的,資源管理以設備狀態和網絡拓撲管理為基礎,而SDN控制器的控制功能是以全面掌握網絡資源和信息為基礎的,可以這么說SDN控制器需要繼承一部分傳統網管的能力或者要以傳統網管的能力為基礎來實現上層的功能,因此我覺得未來控制器和網管會走向合并和統一。
在傳統網管的監控和管理能力之外,SDN控制器要實現資源的實時管控、業務的自動下發、路由分析、網絡仿真、差異化服務、流量調度等功能。下面對個人理解的廣域網SDN應該具備的功能進行梳理與介紹。
1. 網絡監測和數據呈現
能通過BGP-LS或其他協議獲取網絡拓撲,支持以BGP-LS收集SR-MPLS、SRv6等信息,能通過Telemetry實現秒級的網絡數據監測上報,或者至少能通過SNMP實現全網監測數據的周期采集。可以通過TWAMP或其他協議實現網絡質量監控。
基于數據的采集和分析,可以呈現網絡的物理拓撲和邏輯拓撲,可以呈現相關數據信息和狀態信息,比如可以呈現各鏈路網絡流量情況及變化趨勢曲線圖,并根據一定的閾值設定對端口流量利用率進行監控和告警。
2. 業務配置自動下發與管理
SDN控制器能通過Netconf接口或其他方式實現下發MPLS等業務配置,能夠監測網絡內已有配置并同步到控制器,具備資源和配置參數沖突監測功能,能對網絡配置參數和網絡資源全局統一分配管理。
3. SR隧道下發與管理
能夠創建、修改或者刪除SR-TE Tunnel。能夠通過PCEP或其他協議實現SR-TE Tunnel的托管和下發。可以設置隧道的Hot-Standby路徑或者Ti-LFA保護。
能夠創建、修改或刪除SR Policy和SRv6 Policy隧道,支持SR Policy和SRv6 Policy隧道Color、Candidate Path等參數的設置。
SDN控制器能夠支持以圖形化的方式呈現SR隧道路徑、流量、告警等信息,便于網絡管理員對隧道狀態和隧道所承載業務流量進行觀測與管理。
4. SR隧道路徑計算功能
一般提到通過SDN實現差異化服務和業務流量路徑靈活調優等能力,都是以隧道路徑的計算、控制和下發能力為基礎的。隧道路徑計算功能主要包含以下幾個方面。
(1) 多重約束條件計算路徑
路徑計算時可以基于多重約束條件計算路徑,可以支持帶寬、時延、跳數限制、顯示路徑等約束條件。其中顯示路徑約束條件又分為顯示路徑包含(隧道必須嚴格或松散地經過有序指定的鏈路或節點)和顯示路徑排除(隧道必須不能經過指定的鏈路或節點)。
(2) 基于特定選路策略進行選路
根據約束條件計算路徑后可能有多條備選路徑,支持基于鏈路可用度最優、鏈路剩余帶寬最大、Cost最小、時延最小等選路策略進行選路。
(3) 主備路徑分離
支持隧道主備路徑分離(SR-TE Tunnel或SR Policy),主備路徑盡量完全不共路或者少共路。也可以通過TI-LFA的方式實現隧道路徑的保護。
跨AS域隧道路徑計算(有多個AS域的超大網絡場景)
能實現跨AS域E2E路徑計算。支持基于收集的跨域拓撲,根據隧道約束條件進行E2E路徑計算,并將計算的路徑下發到轉發器。AS域內隧道和跨AS域隧道可以共存。
目前跨AS域場景的隧道計算和管理依然是廣域網SDN的一個難題,在進行域內路徑和域間路徑的拼接時,域內路徑最優和域間路徑最優要綜合考慮和衡量,整體比較復雜。
5. 裸IP流量調度
在MPLS的業務場景,MPLS業務流量直接Over在SR 隧道上,通過更改或者優化隧道路徑,就可以實現業務流量的差異化服務和路徑調優。
在裸IP流量場景,要能實現將裸IP業務流量導入到隧道當中,從而實現裸IP流量的調優。可以基于源IP、目的IP、源AS、目的AS、BGP路由Community等參數來抓取裸IP流量,并通過PBR方式導入到隧道當中。當然SR Policy場景下流量的導入會方便很多。
6. 路由分析功能
能在網絡拓撲中可視化呈現IGP路由狀態信息,可以獲取并呈現IGP路由告警,包括IGP Peer Up、Down告警、IGP前綴路由撤銷和IGP路由Flapping等告警。
能通過BMP實現BGP路由信息采集,能在拓撲中可視化呈現BGP路由協議狀態,包括Peer信息、AS發布路由等信息;對網絡中設備BGP運行狀態進行實時監控,包括Peer的狀態,路由新增、撤銷、更新事件。能提供BGP路由的分析與預警,包括公網BGP路由及BGP路由。
7. 網絡仿真
(1) 網絡故障仿真
能實現基于鏈路或者設備故障的網絡流量預測,并支持基于預測結果的網絡流量仿真。在網絡正常狀態下,能對特定設備或者鏈路故障時的網絡狀態進行模擬,輸出模擬仿真后的網絡狀態結果,包括模擬后的網絡資源和鏈路利用率,各鏈路承載的業務信息,以及重要業務流量的承載劣化情況等。便于網絡管理員對可能出現的網絡故障進行影響分析,并更有針對性地準備網絡故障預案。
(2) 網絡流量仿真
能實現流量突發場景的仿真,比如對重大熱點事件、電商促銷等流量突發場景進行仿真,根據導入的流量突發模型模擬流量突發后網絡承載情況,包括鏈路的擁塞情況,網絡資源和設備的負載情況。為網絡管理員制定疏導方案提供更有借鑒意義和直觀的參考。
四、廣域網SDN架構設計
1. 單一管理域或AS域SDN架構設計
對于多廠家設備混合組網的廣域網SDN架構,理想的方案當然是單一控制器通過標準的南向接口去控制不同廠家的設備,但是現實情況是目前不同廠家的南向接口沒有實現全部的標準化,尤其設備配置Netconf的Yang模型,不同廠家還主要是以私有實現為主,所以SDN控制器在某些南向接口協議上就不得不去適配不同廠家私有接口。整體的廣域網SDN架構如下圖。
接口1、接口2、接口3為廠家的私有Netconf接口,SDN控制器通過適配廠家的私有Netconf接口去下發業務和設備配置。未來隨著技術的發展,如果能實現SDN南向Netconf接口的全面標準化和解耦,這三個接口可以統一為一個標準接口。此外需要說明的是,某些標準化程度不高,需要控制器去適配廠家私有實現的協議,也可以放入到接口1、接口2和接口3中,比如Telemetry。
接口4是一組協議,目前主要應用的有如下SDN南向接協議。
PCEP,用于實現SR-TE Tunnel的托管、路徑下發和狀態上報;
SNMP,讀取設備信息,如接口流量、隧道流量,通過SNMP Trap接收設備的告警信息;
Telemetry,信息采集,如接口和隧道流量采集,性能數據采集,Telemetry比SNMP效率更高,可以實現秒級的信息采集,可以更好的實時監控網絡設備和資源狀態;
BMP,BGP運行狀態采集,包括對等體關系的建立與解除、路由信息刷新等;
BGP-LS,控制器通過BGP-LS收集拓撲信息、SR-MPLS信息,SRv6信息、鏈路時延等信息;
BGP Flowspec,控制器通過下發攜帶流量匹配條件和流量匹配后執行動作的BGP Flowspec路由,實現流量調優;
BGP SR Policy/BGP SRv6 Policy,控制器通過BGP下發SR Policy信息,其中包含endpoint、color、candidate path信息,實現對隧道路徑、隧道負載等情況的控制;
Netstream/Netflow/IPFIX:流量采樣,用于流量分析。在流量調優和其他網絡調整前,都需要以流量分析結果作為參考;
TWAMP,雙向主動測量協議,可以探測鏈路的時延、抖動、丟包率。
2. 跨域SDN架構
某些大型網絡經營者擁有多個獨立AS域的網絡,大部分網絡業務域內配置開通,但是也有部份業務需要跨域開通,例如運營商跨省網和骨干網的業務開通與流量調度。在跨域的場景下,可以通過業務編排層實現跨域的業務開通。但編排層是和業務和應用強關聯的,不具備直接的網絡管理能力,如果要實現承載業務流量的隧道路徑跨域計算和跨域端到端流量調度,就需要具備強大的網絡管理能力。我個人還是傾向于認為這個協同跨域業務開通的編排層如果被開發具備強大的網絡管理能力(跨域隧道路徑計算和跨域流量調度),應該叫超級控制器會更貼切些。
當然網絡架構是為網絡需求服務的,以力求完備的架構和功能實現為出發點而不是以迫切的網絡需求為出發點去規劃和建設網絡,背離了網絡發展和演進的原則。廣域網SDN架構演進也是如此,以需求為導向,盡量在滿足需求的情況下去輕量化部署網絡SDN架構。比如經常討論到的在廣域網SDN架構中,普遍認為差異化服務和流量調優要以隧道路徑計算、隧道路徑優化為基礎去實現。我覺得基于隧道路徑計算、優化的功能實現差異化服務和流量調優肯定是需要支持的,對于重點客戶的精確化服務能力的實現也是有意義的。
但是面對大量客戶成千上萬的業務流量和承載隧道,調整起來會非常復雜,對控制器的要求會非常高,部署起來的困難可想而知。所以我覺得不管域內還是域間的差異化服務還是要以QOS能力為基礎去實現,端到端給重要客戶的業務流量配置高優先級,確保高優先級業務流量在網絡承載能力不足、網絡擁塞時被優先轉發。所以,在沒有明確的跨域隧道路徑調優需求的場景下,完全不用開發超級控制器層,而只開發面向業務開通的編排層就可以,當然涉及到跨域業務開通時邊界設備的配置對接,當然也要編排層協調分配一定的網絡配置參數給到兩個域的不同控制器。
3. SDN控制器高可靠部署架構
SDN控制器作為整個網絡的大腦,高可靠部署非常重要。在單一的控制器內部,要通過集群或主備方式實現服務級高可靠保護,服務模塊單節點故障時,SDN控制器功能不受影響。
同時要實現SDN控制器的異地災備部署,在兩個不同的物理位置分別部署主、備控制器,主備控制器間數據進行實時同步。主備控制器可以快速切換,主備切換時,原有業務不中斷。
5. 總結
升級SDN架構,是網絡智能化演進的基礎,是廣域網網絡升級的必然途徑和必選項。但受限于廣域網多廠家混合組網的現狀,廣域網SDN架構升級是一個逐步升級和功能完善的過程,網絡運營者可以根據各自實際的網絡和業務情況去逐步推進SDN架構的部署與功能演進。
評論
查看更多