01.摘要
隨著大規模分布式數據處理和復雜數據中心服務的興起,數據中心內部流量急劇增加,其特征與高性能超級計算機中的流量相似。然而,用于超級計算機和數據中心的網絡技術存在顯著差異,因此將它們整合起來是一個自然的問題。
本文探討了這兩種工作負載類型和技術之間的差異和共性,概述了在多個層面實現整合的途徑。并預測新興的智能網絡解決方案將加速這種整合的過程。
02.引言
近年來,數據中心計算經歷了前所未有的增長,由最初的內部服務器機房發展為巨型、超級和倉儲規模的數據中心。這些系統中的網絡端點數量已經超過了世界上最大超級計算機的規模,這些超級計算機剛剛達到了Exascale標準。第一代數據中心的網絡主要為外部客戶提供數據,并支持在數據中心運行的簡單分布式應用。然而,隨著大規模數據處理和機器學習的出現,數據中心網絡的需求迅速納入了傳統高性能計算的范疇。這些新的流量需求引發了關于高性能和傳統數據中心網絡是否應該融合的討論。盡管由此產生的規模經濟具有吸引力,但也有一些阻礙融合的因素。在本文中,我們指出了高性能計算和數據中心計算之間的差異和共性,以及它們對大規模網絡技術發展的影響。我們得出結論,能夠同時支持高性能計算(HPC,High Performance Computing)和超大數據中心(MDC,Mega Data Center)工作負載的智能高性能數據中心網絡將很快在工業界得以應用。
高性能計算一直在推動計算的極限。頂級系統,稱為超級計算機,在地球上具有最高的集中計算能力。雖然大多數超級計算機同時運行多個應用程序,但它們被設計為在整個機器上運行單個“頂級運行”(Hero Run)應用程序,以解決世界上最具挑戰性的問題,如在大流行傳染病中尋找疫苗,或訓練最大的深度學習模型。在當今的技術限制下,超級計算機不再是單一服務器,而是由數萬個通過高速通信網絡連接的獨立服務器組成。網絡(即互連)是最關鍵的組成部分,超級計算機的設計圍繞特定的網絡架構。這使得網絡成為一個主要的區分因素,因為“單一應用”場景通常具有嚴格的延遲和帶寬要求。可以說,正是互連網絡將一組服務器轉變為超級計算機。
超級計算機系統運行并行應用程序,最常在使用消息傳遞接口(MPI,Message Passing Interface,[1])的分布式內存超級計算機上實現。MPI程序在每臺服務器上以進程形式運行相似的代碼,并且算法通常使用大規模同步并行(BSP,Bulk Synchronous Parallel)計算模型設計,作為一系列計算-通信-同步階段。在此場景中,應用程序只能在所有進程完成同步后進入下一個階段。這一問題在后來在超大規模數據中心(MDC)中被重新發現,成為長尾問題[2]。許多編程技術可以減少同步和通信開銷(例如,[3],[4]),然而,在極端擴展的情況下,BSP應用程序受到延遲的限制。實際上,通信延遲(尾部)分布確定了系統的可擴展性極限,并確定了單個應用程序可以有效使用的最大進程數[5]。
圖1:數據中心和HPC機器的使用場景。云數據中心為多個客戶提供各種交互式服務,其中包括一些分布式服務,例如機器3-5上的機器學習訓練任務。右側的HPC數據中心主要專注于為三個分布式仿真工作負載提供服務,客戶在這里不需要即時答復。
超級計算機的規模已經被倉儲規模的超大數據中心超越。現代網絡化世界需要存儲和處理由連接的客戶端設備消耗的數據。每個人現在都擁有多個移動設備,并產生和消耗越來越多以云為中心的計算和存儲。此外,并非所有客戶端端點必須在設備后面由人類消耗數據或服務。隨著物聯網(IoT)的普及,數億臺設備向全球數據中心傳送圖像、視頻和網頁等數據。AWS、Google、Facebook或Microsoft等超大數據中心的規模大于最大的單一超級計算機,并且它們在相同的計算、存儲和網絡基礎設施上同時運行更多多樣化的應用程序,以支持更多互動式終端用戶。MDC運營商的范圍是其全球用戶群,隨著應用的增長,而HPC運營商的范圍是在規劃時定義的應用程序容量。圖1顯示了HPC和MDC工作負載的概貌。
MDC系統運行分布式應用程序,其中異步進程使用諸如遠程過程調用(RPC)等編程接口進行成對通信。這些應用程序很少需要使用多服務器或全局同步,因此減少了延遲對總體應用性能的影響。單個端點對之間的通信產生的增加的延遲僅影響個別請求,而不影響整個應用程序。每當在MDC應用程序中出現多對一的通信模式,例如在Map-Reduce或分布式文件系統中的組播模式,開發人員通常依賴于軟截止期限,以減輕響應延遲的長尾影響。由此產生的應用程序不會在無限的尾延遲下停滯,而是在結果質量或效率上做出妥協。這是通過簡單地忽略遲到的RPC響應或在不同服務器上冗余地啟動它們來實現的。因此,網絡缺陷不會減緩應用程序,而是導致了資源的浪費(可以通過添加更多服務器來恢復)。
數據中心的傳統角色是存儲、處理和將數據傳遞給驅動從其服務器到互聯網的終端客戶的數據,形成所謂的南北流量。當面向互聯網的路徑成為瓶頸時,數據中心網絡容量可以相對較小。然而,在當今分布式數據分析和機器學習的時代,互連網絡的吞吐量和延遲要求穩步增長,與服務器之間的通信相關的東西西流量以數量級的方式占主導地位。從這個意義上說,MDC流量類似于傳統的HPC應用程序,盡管應用了更容忍延遲的模型。對于一些新興應用程序來說,明顯地表明HPC和現代大數據分析(例如深度學習、文檔搜索或推薦系統)具有相似的計算和通信模式。例如,許多機器學習可以被表達為張量代數,協同過濾類似于雙分圖上的傳統圖分析。這些大數據工作負載與傳統HPC工作負載之間的主要區別在于前者強調程序員的生產力,而后者強調性能。由于各種原因,編程環境可能會繼續沿著不同的路徑演變,但我們認為底層工作負載及其計算特性非常相似,并且正在迅速趨于融合。
然而,這些工作負載是使用非常不同的互連網絡模式:HPC網絡被優化為最高性能,而MDC網絡遵循傳統的數據中心部署和運營理念。當深入了解細節時,就會發現最底層已經趨于融合,隨著向上移動,共性逐漸顯現。此外,高性能加速器的引入(例如通用圖形處理單元,GPU)對當今的MDC產生了更高帶寬需求,需要在MDC中引入專業網絡,導致HPC樣式的網絡連接島嶼。這些系統通常通過專用的HPC樣式后端網絡來補充前端數據中心網絡。例如,Google TPU的專用環形互連和Azure HPC的InfiniBand部署連接GPU服務器。這種復制導致了顯著的低效率——考慮到底層已經相同,只是通信協議不同!事實上,像AWS Nitro和Microsoft的Catapult [6]這樣的端點解決方案嘗試優化現有的以太網絡。從另一方面來看,Cray的Slingshot技術 [7]來自以HPC為中心的視角,并增加了以太網兼容性。這些例子顯示了需求和解決方案如何隱含了一個共同的高性能網絡解決方案。
雖然在高層次上,HPC和MDC的網絡需求相似,但細節中藏著復雜之處。我們將討論一系列要求,涵蓋了從設計和部署哲學到應用程序編程接口的HPC和數據中心網絡之間的差異。我們評論每個差異的根本性,并揭示未來基于智能網卡(NIC)和交換機的網絡計算解決方案將彌合其中許多差異。每個部分都以簡要的技術預測結束。
03.設計和部署哲學
兩種網絡觀點之間最顯著的差異在于機器部署的方式。一個MDC自然是來自多個供應商的松散連接的服務器集合,可以逐步擴展和升級。布線基礎設施會經歷多代機器和技術。MDC會將光纖安裝為樓宇基礎設施,從而將基礎設施和大部分網絡拓撲與服務器解耦。機架交換機代表了數據中心網絡和計算服務器之間的架構邊界。多供應商支持是基本的,并且基于以太網用于物理層和互聯網協議(IP)用于更高層次。速度異構性對于MDC網絡也是基本的,不同的服務器可能以不同的鏈路速度連接,并且內部網絡鏈路可能與端點速度不同。MDC運營商無法承受因重新配置而導致的大量停機時間,必須同時運行多種技術。在MDC中進行的這種增量升級使現代化變得具有挑戰性,并禁止在技術上取得大的躍進。
傳統上,超級計算機被視為一次性的安裝,并且通常是按照這種方式設計和布線的:所有端點和內部鏈路的鏈路速度都相同;它們的網絡使用單一供應商的組件;通常在初始安裝之前就會制定升級計劃。由于高帶寬互連的重要性和成本,許多超級計算機超越了Clos網絡或胖樹作為互連拓撲的方案。設計范圍從超立方體或高維扭曲網絡 [8] 到更具成本效益的低直徑拓撲 [9],[10]。它們的部署模型允許超級計算機在系統的每個新一代中應用對網絡技術的徹底變革。HPC站點會并行運行舊系統和新系統,在停用系統之前遷移工作負載。這種操作模式在占地面積、功耗和成本方面昂貴,HPC運營商正在推動更加漸進的方法。
技術預測:增量部署和向后兼容性要求阻礙了許多創新技術在MDC中的應用。HPC系統將繼續引領技術領域朝著完全新的、革命性的方向發展。
04.運營理念
在歷史上,數據中心和HPC中心對其運營采取了非常不同的方式。這是由他們的客戶所要求的:云數據中心為從手機用戶到銀行和醫院等各種終端客戶提供服務。它們運行I/O密集的工作負載作為實時服務,其中中斷在幾秒鐘內就可見,并可能導致巨大的經濟損失。例如,收集的數據,比如信用卡交易,無法重建,任何損失都是有害的。因此,提供的服務必須非常可靠并始終可用。超級計算機沿著一條不同的道路發展,這條道路以性能和成本為代價,其中可以容忍小規模的中斷(每年幾個小時)。個別作業可能會失敗,只要它們可以在服務等級協議(SLA)允許的時間內重新運行,并且計算資源進行了過度配置以允許這樣做。這使得HPC運營商能夠在軟件和硬件方面采用更冒險的部署,并且總體上比MDC運營商在網絡和硬件技術方面更為激進。
MDC網絡通過結合確保部分操作的機制(例如,用于故障隔離的獨立網絡平面)和用于控制平面冗余的分布式協議,以優先考慮網絡可用性。HPC互連使用單獨的管理網絡以確保可靠性,但依賴于集中式控制平面來實現高性能網絡,以在有效管理的情況下接受短時間的不可用性。在MDC上運行的應用程序使用軟件級別的復雜冗余(例如,在單獨的服務器上使用備用服務或復制存儲)來實現可靠性。在故障端點上運行的應用程序將迅速重新啟動到新資源上,并重新連接到服務。這使得運營商可以以更低可靠性的、更便宜的硬件為代價,但需要額外的軟件開銷。另一方面,HPC應用程序依賴于在故障后從檢查點重新啟動應用程序。為了在大規模時降低重新啟動成本,HPC供應商使用比MDC更可靠的硬件,例如,HPC網絡使用鏈路級和端到端的重試來保護通信。因此,HPC軟件的可靠性開銷較低,而MDC必須采用昂貴的復制和共識方案。MDC網絡運營商可以從HPC中學到更先進的硬件容錯技術,例如使用鏈路級重試。
安全性對于任何計算系統都是一個重要的考慮因素。HPC系統在軟件[11]和硬件安全性方面傳統上要求不那么嚴格,通常依賴于物理安全性(例如,空氣隔離系統和建筑保護),并避免在節點上使用多租戶。系統管理員是一個受信任的實體,用戶被謹慎地允許進入系統。MDC系統為敏感的第三方工作負載提供服務,其租戶不信任運營商或其他租戶,后者可能是任何持有信用卡的人。這需要在MDC中具備更高水平的安全性,并促使解決方案的出現,例如可信執行或一般的機密計算,以及安全的高性能網絡[12]。最近,越來越多的HPC系統在共享文件系統中托管敏感數據(例如醫療記錄),因此需要采用類似MDC的安全性概念。
MDC由極少數人員操作;其規模如此之大,以至于使用基于人的操作模型是不切實際的,自動化是必須的。這要求具備復雜的監控、日志記錄和控制基礎設施,在HPC系統中是不存在的。監控對于故障排除和容量管理至關重要。雖然我們尚未深入討論容量問題,但“工作負載焦慮”是MDC網絡設計中的一個重要因素。這源于計算和存儲容量必須被配置來吸收端用戶流量和應用工作負載配置中的不可預測的變化。網絡必須容忍這種計算、存儲和工作負載的變化,而不需要進行重大的重新設計。
MDC在部署或配置應用程序時不愿考慮物理親和性,因為容量是按照時間順序部署的,而親和性會使虛擬機(VM)分配策略變得更加復雜。此外,可用性服務級別協議要求在區域或可用性區域內跨數據中心分布應用程序。在HPC應用程序部署中通常考慮地理位置。雖然在遞歸結構網絡(例如胖樹或Clos網絡)上相對簡單實現本地放置,但在其他拓撲上實現本地放置較為困難。然而,全球帶寬網絡承諾使得放置決策變得不那么關鍵。
技術預測:根本的差異在于對(網絡)可用性和安全性的處理方式。如果HPC運營商實施MDC運營提出的更嚴格的要求,HPC和MDC網絡的運營方面將縮小差距。其他方面更為相似,可能會趨于融合。
05.服務多樣性
MDC折射了其運營商的業務模式。一個專注于向企業客戶銷售虛擬機容量的運營商(例如Microsoft),與一個聚焦于人際互動的“終端用戶中心”運營商(例如Facebook),擁有不同的網絡配置文件、控制策略和服務級別協議(SLA)。然而,所有MDC運營商都廣泛應用虛擬化和多租戶技術,以提高管理效率和資源利用率。虛擬化對網絡產生深遠影響,因為它促使采用覆蓋網絡,將流量引導到虛擬端點而非物理端點。而當前的HPC互連則未涉及這種虛擬化或多租戶的要求,通過采用裸金屬尋址以降低開銷。
MDC承載著大量具有截然不同流量需求的服務。例如,吞吐量型工作負載,如備份流量、復制和存儲,與對延遲極為敏感的流量(如分布式計算和客戶互動)共享相同的物理鏈路。這對MDC網絡提出了極高的服務質量(QoS)要求。HPC網絡主要用于并行計算和文件I/O,QoS曾不是首要任務,盡管隨著工作負載多樣性的增加,它變得越來越重要。例如,許多HPC和AI應用程序中使用的AllReduce操作在相對靜默的網絡上表現良好,但其他租戶的流量可能顯著影響可擴展性[13]。值得注意的是,用于美國Exascale系統的HPC互連提供了QoS和先進的擁塞管理。
MDC網絡的規模受可靠供電而非應用可擴展性的限制。當今的MDC網絡跨足多個位置和地區,以確保在面對大規模故障時仍能保持可用性。這引入了高度的數據中心間流量,與傳統的數據中心內部東西流量和面向客戶的南北流量不同。另一方面,HPC流量主要由保持在單個數據中心內的本地通信所主導。
技術預測:在MDC網絡上運行的服務將繼續需要廣泛的QoS類別。HPC系統將看到服務多樣性的增加,這將使MDC風格的機制變得相關。
06.協議棧和層次結構
開放系統互連(OSI)層次結構規定了從物理層(L1)到應用層(L7)的通信協議棧的設計模式。層次之間的區分有爭議,但大多數互聯網服務可以映射到它們。數據中心業界繼承了許多傳統的互聯網協議棧,并且只是最近開始轉向更專業化的協議,例如數據中心TCP(DCTCP)或數據中心量化擁塞通知(DCQCN)。然而,HPC網絡始終調整為最高性能,并且不提供用于完整OSI棧所需的許多頭部(每個協議級別一個)。例如,在HPC互連網絡中,傳輸層L3很少存在,因為網絡不打算可路由。圖2比較了MDC和HPC系統的OSI層次。
圖2:開放系統互聯層
在電氣或光信號級別(L1),MDC和HPC網絡是相同的。在布線和設備基礎設施的規模經濟和眾多的技術約束方面,確保誰先到達誰就是贏家。以25G、56G,以及最近的112G通道為代表,以太網多年來一直在這場競賽中勝出。一些HPC和MDC網絡技術共享L2-L4,但其他HPC技術采用專有協議,具有更專業和更精簡的頭部,以實現最低的開銷。
一個有趣的融合點是遠程直接內存訪問(RDMA),長期以來一直在HPC和存儲網絡中使用,以在L4或L5上實現源進程和目標進程之間的高性能通信。該協議通常完全卸載到硬件實現中,操作系統繞過減少了延遲和延遲的變化。許多MDC運營商在生產中使用或計劃使用它(Azure、Google 1RMA、AWS Nitro)。然而,在MDC規模上,RDMA和TCP/IP流之間的緩沖區和帶寬共享可能會對某些流量造成不利影響。
當今RDMA網絡實現中的簡單基于硬件的重傳機制依賴于無丟包傳輸層。然而,大多數數據中心網絡傳統上使用有丟包的路由器,即在隊列滿時丟棄數據包。盡管有關有丟包(端點控制的流速)與無丟包(網絡控制的流速)的辯論尚未結束,但RDMA對無丟包網絡的要求在保守的數據中心環境中提高了應用的障礙。出于這個原因,為了確保無丟包的語義,MDC將RDMA流量分配到專用的QoS隊列或在后端網絡中進行物理隔離。
技術預測:隨著鏈路速度的增加,額外數據包頭部的相對帶寬開銷逐漸消失,HPC網絡可能選擇支持更復雜的可路由協議。我們預計將看到對UDP/IP上基于消息的協議的轉變;遠程直接內存訪問(RDMA)通過融合以太網(RoCE)是這一趨勢的第一個跡象。在MDC和HPC規模上的實驗和優化將受到離散事件網絡模擬的推動,例如分布式的ns-3、SST或LogGOPSim。
07.網絡利用率
網絡利用率即成本效益,是MDC和HPC系統中的重要驅動因素之一。由于許多MDC應用程序可以容忍較高的延遲,因此它們的網絡理論上可以以更高的穩定利用率運行,并且在平均負載超過30-40%的情況下,不會產生過多的延遲影響。然而,丟包的影響可能如此嚴重,以至于運營商努力保持網絡鏈路的利用率遠低于數據包開始丟棄的點。
在網絡規劃階段,網絡利用率是關于估算所有疊加工作負載的端到端性能的。我們發現,在這個階段,應用網絡模擬可以分析個別鏈路的運行狀態、交換機緩沖區的壓力,當然還有數據包的丟棄和重傳。在運營階段,網絡利用率是關于監視相同的鏈路和交換機緩沖區,當然還要將丟包和重傳與鏈路和緩沖區進行關聯。模擬和操作都可以以服務級別協議(SLA)為導向,其中整個網絡利用率通過延遲分布來感知,幾乎不需要將帶寬作為指標處理。
大規模的BSP式HPC應用程序在通信和計算階段運行,產生突發的開關式流量模式,對延遲分布有嚴格的要求。HPC網絡被設計為滿足突發流量的峰值帶寬要求。當系統運行多個作業時,可以增加效益,但作業之間的爭用,也被稱為“近鄰干擾”(Noisy Neighbor)問題,會導致關鍵的延遲變化。在MDC和HPC網絡中,性能隔離可以緩解此問題,因此這是一個關注點。MDC運營商在流量源(通常是虛擬機)處實施速率限制器以解決網絡性能隔離問題。在HPC中,確保最小化性能變化要求限制應用程序及其流量類型之間的交互,因為系統噪聲[5],[14]和網絡噪聲[13],[15]對應用程序性能產生有害影響。在HPC網絡中使用的單一供應商模型允許部署在更細粒度上運行的新型硬件擁塞管理機制(例如[7])。
靜態等代價多路徑(ECMP,Static Equal Cost Multipathing)可能導致擁塞熱點,尤其是在通信密集型流較少的情況下。自適應路由或數據包噴射(packet spraying)可提高網絡利用率,同時控制瞬時數據包丟失的風險。然而,直到最近,大多數商用以太網交換機沒有提供自適應路由或數據包噴射,因為MDC網絡端點不太支持亂序數據包的接收。最近引入了自適應流簇(flowlet)路由,在不改變數據包順序的同時提供某種有限形式的自適應路徑選擇,這在MDC交換機中得到了應用。自適應路由是在低直徑拓撲(在HPC中常見)中高效利用的先決條件,基本上允許同時使用最小路徑和非最小路徑。HPC網絡端點使用RDMA傳輸支持亂序交付,其中數據包攜帶目標地址并可以獨立寫入內存。
技術預測:基于UDP/IP的基于消息的協議的興起放寬了端點的排序要求,使得超越靜態多路徑的路由方法成為可能。我們還預測這些傳輸的擁塞避免方面,以及TCP本身,將產生快速的演進。
08.應用程序和編程模型需求
應用程序需求在兩方面都發生了變化,并且似乎在中間趨于一致。HPC曾經是非常底層的,應用在裸機上運行,并通過緊湊的消息傳遞(MPI)[1],[16]或遠程內存訪問(RMA)[17]接口訪問網絡。這些接口可以提供低于100納秒的開銷,以達到亞微秒級的端到端延遲。MDC應用程序通常依賴于開銷巨大的拷貝語義的套接字。快速的RPC框架[18]可以潛在地彌合差距,并在MDC環境中實現透明的零拷貝。
基于任務的HPC編程模型使用和擴展這些已建立的接口,以放寬BSP對延遲的要求。傳統的MDC應用程序對延遲相對不敏感,但新興的工作負載,例如新的數據分析和深度學習工作負載類似于BSP風格的HPC應用程序,并具有同樣嚴格的延遲要求。然而,在MDC中,程序員的生產力、快速原型設計和快速部署比性能更為重要。只有成熟的應用程序和堆棧明確針對性能進行調優。許多應用程序是使用Java或Python等托管語言編寫的,并在虛擬化環境中運行,僅用了多達10微秒才能到達網絡。HPC和MDC在不同的級別進行優化:HPC專注于最佳利用CPU和網絡資源,而MDC專注于整個系統的生產力和利用率。
不同的應用需求導致了不同的網絡API。對于高性能計算來說,向RDMA網絡的轉變發生在將近二十年前。從那時起,RDMA一直以個位數微秒的延遲運行,允許將大部分通信工作卸載到網絡接口。虛擬內存機制允許數據路徑繞過主機操作系統,直接在端點內存之間移動數據。高性能計算編程框架直接向應用程序公開遠程內存訪問語義,以最小化開銷[17]。而MDC則逐漸認識到這些技術的潛力[19]。由于RDMA不適用于傳統的TCP/IP套接字模型和分層路由,MDC應用速度較慢。然而,RoCEv2和Priority Flow Control(PFC)等規范使得L3路由成為可能,并將RDMA引入MDC。
現代HPC網絡遠不止于RDMA,網卡執行消息匹配和集體操作,將這些任務從CPU或GPU卸載出來,以提高計算和通信的重疊。MDC中的智能網卡應用通常是為了提供者的利益,確保隔離,而不是改善租戶應用。在MDC中,多租戶使得卸載用戶級邏輯比在HPC中更加復雜,因為網卡通常由單個應用程序擁有。通用的智能網卡編程接口,如網絡中的流處理(sPIN [20]),承諾一種通用的加速策略,可以描述為網絡的CUDA。
技術預測:RDMA在當今的HPC系統中無處不在,而MDC運營商正在為其更大比例的流量采用RDMA。此外,我們預計在MDC和HPC網絡中會看到可編程網絡加速器的顯著發展,超越RDMA的簡單內存存儲語義。
09.結論與預測
盡管數據中心提供商正忙于調整到RDMA和數據包級別的路由方法,但研究界正在迅速轉向具有智能網卡和交換機的通用的流處理。新的網絡加速設備以及營銷術語,如DPU、IPU或NPU,正被各種供應商推向市場。
目前,它們主要部署在微軟的Catapult和AWS的Nitro網卡上,用作基礎設施支持。它們的主要用途是提高安全性(租戶隔離),效率(封裝和加密卸載)和成本(專業化和內部開發),以支持多租戶主機。HPC系統尚未大規模部署智能網卡。我們預測,它們的角色將很快包括更通用的網絡處理和將應用特定協議卸載到專用硬件。
由于HPC和MDC之間的主要區別在協議棧的上層,智能網卡和網絡計算可以通過使用應用特定協議將兩者統一起來。我們將在同一網絡上看到基于套接字的(TCP/IP或QUIC)應用程序和MPI應用程序,并且智能加速的網卡(參見[21])將實現協議的差異。此外,應用特定協議是端點和交換機中網絡加速的重要機遇。我們將看到基于交換機的網絡計算,例如用于深度學習工作負載的減少[22],從而在所有層面實現工作負載的專業化。
與網絡組件(如網卡或交換機)相關的術語“智能”需要超出當前營銷術語的嚴格定義。我們建議將網絡接口稱為“智能”,如果它允許對消息或流進行有狀態計算。有了這樣清晰的定義,我們可以推理出這些智能網絡的行為。
我們得出結論,雖然HPC和MDC在應用層面上趨于融合,但它們的特性需求足夠不同,以支持兩條發展線。當前的生態系統形成了一個有趣的反饋循環,突破性的新技術可以在風險可接受的HPC環境中推動并測試。然而,大眾市場仍將是以太網,它會慢慢吸收在HPC中開發的成功技術。最近的一個例子是RoCE的出現。如果可以通過使用智能網卡和交換機進行配置,HPC和MDC都可以通過使用相同的硬件基礎設施顯著降低成本。以太網品牌的核心是互操作性的承諾,這可以為HPC和MDC網絡奠定堅實的基礎,然而,支持RDMA的供應商仍需履行這一承諾。
總之,雖然我們不知道哪種技術將在10-15年內主導大眾市場,但它肯定會被稱為以太網。
-
數據中心
+關注
關注
16文章
4695瀏覽量
71963 -
應用程序
+關注
關注
37文章
3244瀏覽量
57609 -
HPC
+關注
關注
0文章
312瀏覽量
23687
原文標題:超大規模數據中心與HPC的網絡融合
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論