思科系統公司可能仍然是數據中心中開關和路由器的最大供應商,但是從長期以來,它一直在被Broadcom所超越,因為博通的芯片除了提供本身的開關功能外,還提供了一點點路由的功能。
盡管在商用以太網開關芯片市場上有很多競爭,當中包括Nvidia(Mellanox),Innovium,Intel(Barefoot Networks),Marvell,以及少數其他新貴都在這個市場中,并且它們在開關中的份額越來越大,尤其是那些決定網絡步伐的超級擴展程序和云構建者。
但是,上述芯片廠商需要擊敗的是開關芯片設計商博通,而不是思科。因為無論思科為其Silicon One路由器和現在針對高端產品的開關芯片制造怎樣的聲勢,并高調宣布公司進入商戶市場。但其實自2000年代末以來,思科本來可以選擇制造商用芯片來抵御來自Broadcom的攻擊,但直到去年,思科才這樣做。
隨著2020逐漸走向尾聲,Broadcom推出了主要針對超大規模產品和大型公共云制造商的“Tomahawk”系列以及旨在實現企業轉換的“Trident”系列芯片,針對思科在十月份公布的六款新的Silicon One芯片。
Broadcom所做的第一件事是擴大了其Tomahawk 4產品線系列,該系列的最早的產品是于去年12月發布的,擁有25.6Tb/sec的速度,可以驅動運行速度為400 Gb/sec的64個端口,現已批量生產。
Broadcom的“Tomahawk”和“Trident”系列產品經理Vecchio告訴The Next Platform。這是博通第二款7納米的開關ASIC(在臺積電公司生產),第一款是2019年6月推出的Trident 4芯片。Del Vecchio表示,這兩種芯片都是單片芯片,Broadcom除非絕對需要,否則不會切換到小芯片設計,因為將多個芯片塊捆綁在一起會對性能產生影響。(其他公司,例如Barefoot Networks,已在不同的模塊中實現了SerDes電路和開關引擎,并使用芯片之間的高速鏈接將它們組裝成一個封裝。這增加了復雜性和封裝成本,但也提高了小芯片的良率,因此降低了成本封裝中的問題。)
正如我們之前所指出的,Broadcom試圖滿足各種各樣客戶的開關和路由選擇需求,并且該公司認為,它無法將所有功能都塞入一個ASIC并由其完成。他們需要重復去理解這些不同的市場是什么,它們的需求是什么,以及Broadcom芯片能解決哪些問題。以下是他們按客戶設置的細分:
Del Vecchio認為,企業通常不會像服務提供商和hyperscalers/云構建商那樣推動帶寬限制。但是他們在網絡上擁有更多的設備和多種類型的設備。此外。由于用戶以服務器所沒有的方式來回移動,因此需要對訪問和安全性進行更多基于策略的控制。
相比之下,服務提供商往往擁有大量的遠程骨干網,因此他們需要在其開關和路由器中進行深度緩沖(deep buffering),以幫助掩蓋這些骨干網中的延遲。服務提供商也往往在其網絡中有更多的超額訂購,以減少開關的數量,這在一定程度上控制了網絡預算。這就是Del Vecchio所謂的“超級共享”(hyper shared)網絡,其中的服務質量(包括大型訪問控制列表,開關或路由表之類的硬件以及交付該服務的軟件)是關鍵。
借助hyperscalers和云構建器,大多數流量都在數據中心內的設備之間(所謂的東西方流量),并且它們帶寬要求非常高。這樣的話他們能在數據中心的100000個服務器的許多微服務鏈接在一起,已組成其所需的應用。他們需要低延遲,但是在各種各樣的網絡條件下可預測的延遲才是最重要的,這也是為什么hyperscalers和云構建者往往擁有非常超額配置網絡的原因。
以下是博通針對不同客戶群的ASIC映射:
這些不是硬性界限。例如,Broadcom收購Dune Networks獲得的“ Jericho” ASIC具有很深的緩沖區,但每個ASIC的總帶寬卻總不如Trident或Tomahawk器件。然而 hyperscalers喜歡在其網絡的核心和骨干網中使用Jericho開關,也許鏈接區域或在數據中心的區域內科充分利用深層緩沖區,但在可編程性更為重要的邊緣需要使用Trident ASIC,數據中心內的主要結構則是Tomahawk芯片最合適的地方。
重要的是,所有這些ASIC除了支持Broadcom的SDK和API堆棧以外,還支持由Microsoft創建并由開放源代碼社區采用的Switch Abstraction Interface(SAI),這樣的話就可以在不同制造商的Switch ASIC上提供API虛擬化層,為此其網絡操作系統可以不需要理會是誰的ASIC,也都可以運行。(對于Microsoft Azure云中的許多用例來說,其SONiC網絡操作系統也是開源的,它在SAI上運行;在其他情況下,Microsoft使用不同的是NOS。)
據我們所知,有十多種網絡操作系統可用于開關制造商或開源社區,其中還有由 hyperscaler 或云構建者在內部開發并保持專有的系統。在過去的幾年中,這些NOS有了很大的發展,但是從長遠來看,市場是否會接受如此多的選擇還有待觀察。反正在服務器市場是肯定不可能。在剛開始的時候,世界范圍內的公司數據中心中可能有兩打服務器架構和三到四打操作系統,但現在,我們基本上可以在大多數情況下使用Linux或Windows Server。
我們認為hyperscalers和云構建者不會停止構建自己的NOS,這比他們停止構建自己的Linux發行版可能性更高,因為這兩者對于其龐大平臺的性能和安全性至關重要。但是我們確實認為便攜式操作系統很重要,而Arrcus的ArcOS很有可能它將以跨平臺NOS的形式出現后。
我們還認為Nvidia將竭盡全力擴展Cumulus Networks通過其同名平臺所做的工作,并將其與Mellanox的多個平臺融合在一起。Arista將其EOS和來自Big Switch Networks的SDN堆棧相結合的方式還有待觀察。在許多具有IOS和NX-OS的數據中心中,Cicso是默認的選擇。因為他們的軟件最便攜,能提供最高性能,并可以涵蓋最多場景。這就像Broadcom通過為特定用例提供精確的ASIC贏得了商用芯片市場一樣。
通過介紹上述背景,我們可以了解Broadcom現在發布的新品的邏輯。
正如我們上文所述,將近一年前宣布的“Tomahawk 4 ” ASIC于2020年初開始提供樣品,如今在宣布后不到一年的時間就開始批量供貨。對于開關ASIC來說,這非常快。Tomahawk 4 ASIC擁有更多的內存,但擁有和Trident 3上的相同“ Blackhawk” SerDes,該SerDes在25.8 GHz上運行,但是因為選擇了PAM-4調制(每個信號可以做兩位)的方式,其每個SerDes通道可以提供50 Gb /秒的有效的帶寬。最大的Tomahawk 4-50G芯片在其邊緣蝕刻了512枚Blackhawk SerDes,總開關帶寬為25.6 Tb / sec。此設備上支持的最密集的開關配置為以400 Gb /秒運行的64個端口。
但是現在,Tomahawk 4系列正在擴展有兩個新成員:
第一個是Tomahawk 4-100G,它擁有與Blackhawk 相同SerDes,但將時鐘頻率提高到51.6 GHz,并向其添加了相同的PAM-4調制,以使每條通道可以達到100 Gb/秒的速度。然而,由于考慮到散熱問題,這個芯片上只集成了256個SerDes。但是,由于熱量隨時鐘速度呈指數級增長,即使其SerDes為Tomahawk 4-50G的一半,Tomahawk 4-100G的運行功率也略高于350瓦,約為400瓦。
Tomahawk 4系列中的第二個新芯片是“戰斧4-12.8T”,它用戶有128個SerDes,同樣也是采用PAM-4調制。
如您所料,這兩種新的Tomahawk4開關ASIC均使用臺積電7納米工藝制造。博通沒有給出這些芯片的具體晶體管數量和die尺寸。但他們表示。這些新的Tomahawk 4 ASIC將于明年批量供貨,這意味著又一個快速的增長。
因為這兩個新的Tomahawk 4芯片每通道的速度為100 Gb /秒,那么他們建立以給定速度運行的端口,就僅僅需要一半的通道數,這是很有價值的。因為這就意味著一切都取決于 hyperscaler 和云構建者客戶想要部署的光學器件,而100 Gb / sec PAM-4光學器件具有更高的功率效率,因此功率效率的凈收益轉移到了速度更快的開關ASIC上。每個端口溫度更高,開關基數更低,因為光功率消耗低得多。
由于思科是商用芯片市場的新生力量,也許是Broadcom在數據中心開關和路由中面臨的最大威脅,因此該公司似乎在其Tomahawk 4芯片的演示文稿中選擇了Silicon One作為對比對象。
我們認為這種比較針對的是Silicon One,但從概念上講,這個對比適用于其他12.8 Tb / sec芯片,包括博通在2018年1月推出的Tomahawk 3芯片。即使新一代ASIC芯片的成本更高,但您也需要六倍的芯片才能使用Tomahawk 3創建25.6聚合帶寬。另一種說法是,Tomahawk 4它的價格是Tomahawk 3的六倍,并且仍然具有空間,散熱,彈性和巨大的延遲優勢,可以提供與端口相同的原始帶寬。
Broadcom還選擇了競爭性商戶芯片中的切片架構,這使我們再次相信它正在圍攻思科的Silicon Silicon One:
雖然Broadcom并不反對在其開關ASIC中增加可編程性,但該圖表似乎著眼于Tomahawk 4的流水線分組處理與網絡處理單元(NPU)之間的性能差異,后者是使用P4編程的Silicon One軟件包的一部分:
這些比較告訴您Broadcom在考慮什么,以及它在擔心誰。
如果我們用SmartNIC來減輕服務器的網絡處理負擔,那么也許我們也需要SmartTOR,這會將其中一些功能從SmartNIC或服務器中分離出來并整合到它們所屬的位置:在開關上。Broadcom明確認為這可能是網絡的未來,并且正在使用稱為Trident SmartTOR的Trident 4開關ASIC的變體來測試這一想法,后者的縮寫顯然是機架頂開關。
這個網絡負載的想法并不新鮮。多年以來,Mellanox(現在是Nvidia的一部分)一直將網絡工作從服務器轉移到ConnectX網絡接口卡上,在過去的幾代InfiniBand和以太網開關ASIC中,它一直在將某些功能整合到開關本身上,加速集體操作等自然屬于開關的工作。
Trident 4芯片的SmartTOR變體的總開關帶寬僅為8 Tb / sec,并且由于采用PAM-4調制,它具有160個SerDes,以25.6 GHz運行,每通道傳輸50 Gb / sec。(與其他Trident 4芯片和原始的Tomahawk 4芯片相同的速度和調制。)
正如您所料,該Trident SmartTOR芯片還采用了臺積電7納米工藝。(Broadcom的下一代設備已經達到5納米了,它在過去的一周中在概念上進行了討論,而沒有談論它計劃為數據中心,云和5G用例在5納米上創建的確切ASIC。) SmartTOR設備具有用于網絡上第2層到第7層服務的可編程管道,并提供了Del Vecchio所說的“大規模”:300萬個流量,300萬個ACL條目,100萬個隧道,和一百萬個柜臺。該芯片還具有以線速運行的數據的MACSec和IPSec加密。
比例尺如何映射到上一代Trident 3-X5芯片:
Trident SmartTOR的用例很有趣。Del Vecchio表示,企業客戶有興趣在裸機而不是虛擬化的云基礎架構上部署其應用程序,在這種情況下,很多由服務器虛擬化管理程序或SmartNIC(很少會)完成的虛擬網絡需要:以某種方式集中完成。將其放入開關很有意義。
如果您希望在X86 Iron甚至FPGA上運行這些網絡服務,則尤其如此,這通常發生在分散在數據中心周圍的網絡設備中:
問題是這個,我們還不能回答:將所有這些功能整合回開關成本上,而不是在X86服務器或FPGA設備上運行它們。直到開關制造商使用Trident SmartTOR創建設備,我們才知道。
責任編輯:tzh
-
芯片
+關注
關注
453文章
50406瀏覽量
421820 -
以太網
+關注
關注
40文章
5376瀏覽量
171113 -
路由器
+關注
關注
22文章
3707瀏覽量
113541
發布評論請先 登錄
相關推薦
評論