EVPN已成為現(xiàn)代數(shù)據(jù)中心架構(gòu)的標(biāo)準(zhǔn)解決方案。對(duì)于終端用戶來(lái)說(shuō),受益于基于BGP的控制平面所具有的穩(wěn)定性,EVPN提供了擴(kuò)展其廣播域的靈活性。但這些增加的益處是以提高配置的復(fù)雜性為代價(jià)的。
當(dāng)前所面對(duì)的不再是相對(duì)固定、簡(jiǎn)單,可以通過(guò)維護(hù)人員直觀分析來(lái)發(fā)現(xiàn)錯(cuò)誤的網(wǎng)絡(luò)配置。真正的生產(chǎn)性EVPN配置可能包括多個(gè)深度嵌套結(jié)構(gòu),而且隨網(wǎng)絡(luò)中的租戶數(shù)量成比例增長(zhǎng)。
EVPN配置復(fù)雜性可以且必須通過(guò)適當(dāng)?shù)淖詣?dòng)化解決方案予以解決,這可以減少人為出錯(cuò)的可能性,而NVIDIA Cumulus Linux正是解決該問(wèn)題的合適解決方案。但僅有自動(dòng)化還不夠,錯(cuò)誤仍然可以通過(guò)數(shù)據(jù)源引入系統(tǒng),例如配置管理數(shù)據(jù)庫(kù)(CMDB)的人為錯(cuò)誤。
可觀察性的重要性
這就是為什么對(duì)于任何具有合理復(fù)雜程度的基礎(chǔ)設(shè)施,用戶應(yīng)該有辦法來(lái)采集各類日志、指標(biāo),并且調(diào)試、輸出、匯總、關(guān)聯(lián)和處理這些信息,從而嘗試推斷系統(tǒng)的內(nèi)部狀態(tài)。實(shí)現(xiàn)這一點(diǎn)的能力通常被稱為系統(tǒng)的“可觀察性”,而且隨著底層基礎(chǔ)設(shè)施復(fù)雜性的增加,它正變得日益重要。在CNCF云原生環(huán)境 中,“可觀察性和分析”部分不斷增長(zhǎng)的項(xiàng)目數(shù)量已證明了這一全行業(yè)趨勢(shì)。對(duì)此,NVIDIA也持同樣的觀點(diǎn)。
圖 1 數(shù)據(jù)中心演進(jìn)
通過(guò)NetQ實(shí)現(xiàn)的全網(wǎng)可觀察性
長(zhǎng)期以來(lái),整個(gè)網(wǎng)絡(luò)的可觀察性僅限于拓?fù)湟晥D——有些圖包括從物理鏈接到L2,L3接口再到控制平面協(xié)議等不同層次的細(xì)節(jié)。但這些代表高層次意圖的圖只有在有人維護(hù)時(shí)才能保證準(zhǔn)確。它們永遠(yuǎn)無(wú)法反映每個(gè)設(shè)備中所包含的網(wǎng)絡(luò)的實(shí)際狀態(tài)。NetQ在設(shè)計(jì)上解決了這些問(wèn)題并為整個(gè)網(wǎng)絡(luò)的運(yùn)行狀態(tài)提供了一個(gè)統(tǒng)一的觀察窗口。
一方面,NetQ從其遠(yuǎn)程代理處收集和匯總多項(xiàng)指標(biāo),這些代理可能運(yùn)行在網(wǎng)絡(luò)交換機(jī)、通用計(jì)算服務(wù)器等任何位置。這些指標(biāo)包括但不限于:接口統(tǒng)計(jì)和利用率、LLDP、MAC、ARP/ND和IP路由表、BGP、MLAG和OSPF的控制面狀態(tài),以及用于幫助診斷任一數(shù)據(jù)平面丟包的故障快照(What Just Happened)事件。
另一方面,NetQ使用這些指標(biāo)來(lái)推斷網(wǎng)絡(luò)的內(nèi)部狀態(tài)并作出針對(duì)協(xié)議的診斷。這些檢查包括從簡(jiǎn)單的MTU和鏈路狀態(tài)一致性到BGP和EVPN狀態(tài)驗(yàn)證再到端到端連接性測(cè)試。
故障排除演示
在這篇文章中,將演示如何使用NetQ來(lái)排除一些使用以下拓?fù)浣Y(jié)構(gòu)的常見(jiàn)配置錯(cuò)誤。葉節(jié)點(diǎn)被配置為MLAG對(duì),并且該結(jié)構(gòu)內(nèi)部正在運(yùn)行帶有對(duì)稱IRB的EVPN和基于PIM的BUM復(fù)制 。
圖 2 NVIDIA 空氣中的拓?fù)?/p>
環(huán)境設(shè)置
該測(cè)試拓?fù)浣Y(jié)構(gòu)可以在名為NVIDIA Air的云基礎(chǔ)設(shè)施模擬平臺(tái)上啟動(dòng)。如要了解更多信息,請(qǐng)參閱《NVIDIA Air用戶指南》。
1、選擇創(chuàng)建模擬、演示市場(chǎng)和使用NetQ的網(wǎng)絡(luò)故障排除選項(xiàng)卡。
在接下來(lái)的部分中,將討論各種故障排除情景,并展示NetQ如何幫助確定問(wèn)題的來(lái)源。
情景1:服務(wù)器01無(wú)法與服務(wù)器02通信
第一個(gè)問(wèn)題很簡(jiǎn)單:兩臺(tái)服務(wù)器都連接到同一對(duì)葉節(jié)點(diǎn)交換機(jī)上,因此需要檢查的地方僅限于以下幾個(gè)方面:
所有服務(wù)器鏈接的L1和Bond接口配置
peerlink的MLAG狀態(tài)和配置
通過(guò)NetQ,只需點(diǎn)擊幾下就可以完成所有這些檢查。
1、在模擬頁(yè)面,選擇啟動(dòng)NetQ,輸入用戶名和密碼
2、在工作臺(tái)標(biāo)題中,選擇驗(yàn)證并創(chuàng)建一個(gè)新的MLAG驗(yàn)證。
圖 3 情景 1 結(jié)果
當(dāng)驗(yàn)證完成后,NetQ發(fā)現(xiàn)雙宿設(shè)備有四個(gè)錯(cuò)誤。對(duì)于每一個(gè)出現(xiàn)錯(cuò)誤的檢查,用戶都可以查看更詳細(xì)的信息并了解NetQ認(rèn)為的錯(cuò)誤是什么。
圖 4 場(chǎng)景# 1 詳細(xì)信息
在本情景中,NetQ清楚地指向接口bond1的VLAN配置,現(xiàn)在可以通過(guò)登錄和比較兩臺(tái)葉節(jié)點(diǎn)交換機(jī)上的配置來(lái)進(jìn)行快速驗(yàn)證和糾正。
用戶可按照實(shí)驗(yàn)指導(dǎo)來(lái)依次解決問(wèn)題。
第二個(gè)情景涉及VXLAN EVPN結(jié)構(gòu)上的VLAN內(nèi)通信。這種故障的常用故障排除流程可能涉及以下步驟:
1、確認(rèn)所有BGP會(huì)話都已建立,并且所有對(duì)等層的EVPN地址族都已啟用。
2、確認(rèn)所有四個(gè)葉節(jié)點(diǎn)交換機(jī)上的VLAN至VNI映射是一致的。
3、確保導(dǎo)出和導(dǎo)入所需的Type-2路由使用同一組路由目標(biāo)。
4、檢查BGP是否被配置為發(fā)布所有已配置的VNI。
必須在所有葉節(jié)點(diǎn)交換機(jī)上比較這些數(shù)值。下面將展示用NetQ檢查上述信息有多么簡(jiǎn)單。
1、在主工作臺(tái)標(biāo)題選擇選項(xiàng)卡并打開(kāi)EVPN會(huì)話選項(xiàng)卡。
2、在全屏視圖中打開(kāi)此選項(xiàng)卡,查看所有會(huì)話屏幕(圖5)。
情景2:服務(wù)器01無(wú)法與服務(wù)器04通信
圖 5 場(chǎng)景# 2 詳細(xì)信息
現(xiàn)在可以在屏幕上看到所有的相關(guān)值,這些值以表格的形式呈現(xiàn)并且可以進(jìn)行排序及過(guò)濾以縮小搜索范圍。在該情景中,很容易發(fā)現(xiàn)葉節(jié)點(diǎn)01/02和葉節(jié)點(diǎn)03/04之間Vlan10的VNI映射差異。
用戶可按照實(shí)驗(yàn)指導(dǎo)依次解決問(wèn)題。
情景3:服務(wù)器01無(wú)法與服務(wù)器05通信
最后一個(gè)情景涉及VXLAN EVPN的VLAN間對(duì)稱路由。這次,需要驗(yàn)證的內(nèi)容有所增加,包括以下額外步驟:
每個(gè)VRF的BGP配置和會(huì)話狀態(tài)
EVPN 5型路由在葉節(jié)點(diǎn)交換機(jī)之間的傳播
檢查L(zhǎng)3 VNI的配置是否一致以及每個(gè)MLAG對(duì)是否有唯一的Router MAC
L3 VNI到VRF在所有交換機(jī)上的映射
通過(guò)NetQ EVPN驗(yàn)證功能,所有這些假設(shè)都可以在幾秒鐘內(nèi)得到驗(yàn)證。
1、在主工作臺(tái)標(biāo)題中選擇驗(yàn)證并創(chuàng)建一個(gè)新的按需EVPN驗(yàn)證。幾秒鐘后,用戶即可看到結(jié)果(圖6)
圖 6 情景# 3 結(jié)果
通過(guò)點(diǎn)擊VRF一致性警告,用戶可以清楚地看到錯(cuò)誤位置。解決問(wèn)題的時(shí)間縮短到幾秒鐘,管理員現(xiàn)在可以繼續(xù)糾正葉節(jié)點(diǎn)03/04上的VNI至VRF映射。
圖 7 場(chǎng)景# 3 詳細(xì)信息
請(qǐng)查看實(shí)驗(yàn)室指南,了解解決這個(gè)問(wèn)題所需的具體指令。
總結(jié)
在這篇文章中,展示了NetQ根據(jù)管理設(shè)備采集的各種指標(biāo)來(lái)分析和推斷網(wǎng)絡(luò)狀態(tài)的能力。以上三個(gè)情景展示了如何利用NetQ的驗(yàn)證和協(xié)議專用選項(xiàng)卡將根本原因分析的時(shí)長(zhǎng)從幾分鐘或幾小時(shí)縮短到幾秒鐘。這些驗(yàn)證可以按需求運(yùn)行,也可以定期運(yùn)行,甚至可以在過(guò)去的數(shù)據(jù)上運(yùn)行,這是因?yàn)樗腥罩径即鎯?chǔ)在一個(gè)時(shí)間序列數(shù)據(jù)庫(kù)中。
NetQ的能力遠(yuǎn)遠(yuǎn)超出了這篇文章中所展示和討論的內(nèi)容,并且其功能還包含設(shè)備庫(kù)存、軟件生命周期管理、基于閾值的警報(bào)以及與第三方平臺(tái)(如Slack、PagerDuty和Grafana)的集成。NetQ將繼續(xù)擴(kuò)展并增加更多的功能和第三方集成,在未來(lái)為用戶創(chuàng)造更多價(jià)值。
關(guān)于作者
Michael Kashin 是 NVIDIA 網(wǎng)絡(luò)組的解決方案架構(gòu)師,專注于數(shù)據(jù)中心、自動(dòng)化和可觀測(cè)性。他對(duì)軟件開(kāi)發(fā)、網(wǎng)絡(luò)和云本地技術(shù)有著濃厚的興趣,并熱衷于利用自己的知識(shí)和專長(zhǎng)幫助客戶解決業(yè)務(wù)問(wèn)題。在 2021 年加入 NVIDIA 之前, Michael 曾為多家技術(shù)供應(yīng)商工作,幫助他們的客戶構(gòu)建云并開(kāi)發(fā)基礎(chǔ)設(shè)施管理軟件。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4946瀏覽量
102821 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9025瀏覽量
85193 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4695瀏覽量
71963
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論