本文編譯自:Semiengineering
全球領先的超大規模云數據中心公司——Amazon, Google, Meta, Microsoft, Oracle,Akamai——正在推出專門針對云計算的異構多核架構,對整個芯片行業的高性能 CPU 開發產生了影響。
這些芯片都不太可能進行商業銷售。它們針對特定的數據類型和工作負載進行了優化,設計預算龐大,但可以通過提高性能和降低功耗來實現合理化。目標是在更小的面積上容納更多的計算能力,同時降低冷卻成本,而實現這一目標的最佳途徑就是采用定制化架構、緊密集成的微架構和精心設計的數據流。
這一趨勢始于近十年前,當時 AMD 開始采用異構架構和加速處理單元,取代了過去的同質多核 CPU 模式,但起步緩慢。此后,異構架構開始興起,緊隨為移動消費設備設計的腳步,這些設備需要處理非常緊湊的占地面積以及嚴格的功耗和散熱要求。
Quadric營銷副總裁 Steve Roddy 表示:“英特爾等行業巨頭的單片芯片幾乎在每個產品代碼中都配備了 AI NPU?!?“當然,人工智能先驅 NVIDIA 長期以來一直在其大獲成功的數據中心產品中混合使用 CPU、CUDA內核和Tensor內核。未來幾年向 chiplet 的轉變將徹底鞏固這一過渡,因為指定chiplet組合的系統購買者可以挑選為相關設計插座量身定制的計算和互連類型。"
這很大程度上歸因于物理學和由此產生的經濟學。隨著擴展優勢的縮小,以及先進封裝技術的成熟 --它允許在設計中添加更多的定制功能,而過去這些功能受限于掩膜尺寸--每瓦特和每美元性能的競爭已進入白熱化階段。
"西門子 EDA IC 部門市場總監 Neil Hand 說:"如今,每個人都在構建自己的架構,尤其是數據中心企業,而處理器架構很大程度上取決于工作負載的情況。"與此同時,這些開發人員也在詢問加速的最佳途徑是什么,因為有很多方法可以做到這一點。你可以選擇使用具有多個內核的并行路線,這在某些情況下行不通,但在另一些情況下卻很有效。與此同時,應用對內存帶寬的限制越來越大,因此你會發現一些高性能計算公司開始把所有精力都花在內存控制器上。還有一些公司會說:'這實際上是一個分解問題,我們要走加速器路線,擁有獨立的內核。'但我不認為存在一刀切的做法。"
Roddy 指出,這些新型超級芯片內的 CPU 內核仍然遵循高性能 CPU 設計的久經考驗的原則——快速、deep pipelines,在追蹤指針方面極其有效——但這不再是設計團隊的唯一關注點。 “這些大型 CPU 現在與其他可編程引擎共享空間——GPU 和通用可編程 NPU,可加速人工智能工作負載,”他說。 “與大眾消費設備中高度專業化的 SoC 的一個顯著區別是,避免使用硬連線邏輯塊(加速器)來執行人工智能工作負載中的視頻轉碼或矩陣加速等任務。為數據中心設計的設備需要保持可編程性,以響應各種工作負載,而不僅僅是消費類設備中的單一已知功能?!?/p>
然而,所有這些都需要更多的分析,設計屆正在繼續推動流程中的更多步驟。 “無論是因為工具,還是通過仿真或虛擬原型,你都擁有了了解數據的工具?!盚and說。 “此外,該行業已經發展壯大,其專業化程度足以證明所花費用的合理性。第一部分是為了降低制造新硬件的風險,因為你有工具來了解情況,你不必為了安全而制造'一刀切'的產品。現在,市場已經開始分化,它的重要性足以讓你花錢去做。此外,現在也有了這樣做的方法。現在,通過生態系統、技術和其他一切因素的綜合作用,競爭變得容易多了。對于高性能計算公司來說,最初的目標是:'我們只需獲得一個良好的平臺,讓我們可以按照自己的方式對其進行維度化,然后再放入一些加速器。所以我們開始看到人工智能加速器和視頻加速器,然后一些更深奧的公司開始追求機器學習。這意味著什么?這意味著他們需要非常高的 MAC 性能。他們會將處理器架構聚焦于此,這就是他們的差異化之道。"
再加上RISC-V 和可重復使用的芯粒和硬 IP,架構開始看起來與幾年前大為不同。"如果你看看現在的數據中心和數據中心中的整個軟件堆棧,在堆棧中添加一些東西并不像以前那樣困難,你必須重建整個數據中心。"如今變得重要的是進行系統級分析的能力。應用的系統級協同設計已變得非常重要,而且由于高性能計算已不再像以前那樣容易獲得。這是一個帶輪子的數據中心。
許多人認為,應該開發新的架構,以克服幾代 CPU 所面臨的內存挑戰。"Fraunhofer IIS 自適應系統工程部高效電子學部門主管 Andy Heinig 說:"對 AI/ML 的需求將加速開發新的特定應用架構的進程。"傳統的 CPU 如果能提供更好的內存接口來解決內存問題,就能成為這場革命的一部分。如果 CPU 能夠提供這種新的內存架構,那么 AI/ML 加速器就能與 CPU 一起成為數據中心的最佳解決方案。然后,CPU 負責需要靈活性的經典任務,而加速器則為非常具體的任務提供最佳性能。"
例如,Arm 直接與多個超大規模企業合作開發基于 Neoverse 的計算解決方案,以實現高性能、定制靈活性以及強大的軟件和硬件生態系統。通過這種方式已生產出了公開發布的芯片,如 AWS Graviton 和 Nitro 處理器、谷歌的 Mt. Evans DPU、微軟 Azure 的 Cobalt 100、NVIDIA 的 Grace CPU Superchip 和阿里巴巴的倚天 710。
“我們從這些和其他設計合作伙伴那里學到了很多東西,”Arm基礎設施業務線產品管理高級總監 Brian Jeff 說道。 “我們塑造高性能 CPU 和平臺開發的主要方式之一是更深入地了解基礎設施工作負載,從而實現特定的架構和微架構增強,尤其是 CPU 管線的前端和 CMN 網狀結構。"
但捕獲該工作負載并為其開發芯片架構并不總是那么簡單。對于人工智能訓練和推理來說尤其如此,因為它們可能會隨著算法的變化而變化。
"Synopsys公司接口IP首席產品經理Priyank Shukla表示:"目前正在訓練不同的模型,例如Meta公司公開的Llama模型和Chat GPT模型。"所有這些模型都有一個模式和一定數量的參數。以 GPT-3 為例,它有 1,750 億個參數。每個參數的寬度為 2 字節,即 16 位。你需要在 2 個字節中存儲這么多信息--1750 億個參數,相當于 3500 億字節的內存。該內存需要存儲在共享該模型的所有加速器中,而該模型需要放置在加速器的結構中,參數需要放置在與該加速器相關的內存中。因此,你需要一個能接收更大模型并對其進行處理的結構。你可以以不同的方式實現該模型,即實現該算法的方式。有些工作可以串行方式進行,有些工作可以并行方式進行。以串行方式進行的工作需要與高速緩存保持一致,并將延遲降到最低。這種以串行方式進行的工作將在一個機架內進行分工,以便將延遲降到最低。以并行方式進行的工作將通過擴展網絡在不同機架之間進行分配。我們看到系統人員正在創建這一模型和算法,并在定制硬件中加以實現。
圖 1:機器學習優化的服務器機架。來源:新思科技
組裝各種處理元件并非易事。 Synopsys ASIP 工具產品經理 Patrick Verbist 表示:“它們是異構多核架構,通常是通用 CPU 和 GPU 的組合,具體取決于公司類型,因為他們偏愛其中之一?!?。 “還有具有固定功能的 RTL 加速器,它們混合在這些異構多核架構中。這些加速器運行的應用程序負載類型通常包括數據操作、矩陣乘法引擎、激活函數、參數壓縮/解壓縮、圖的權重等。但所有這些事情之間的一個共同點與大規模的運營有關。通常,這些計算是在標準或自定義數據類型上完成的。許多處理架構通常都支持 Int 16,但如果您只需處理 16 位數據,您就不想浪費 32 位數據路徑中的 16 位。你必須定制它。因此,加速器不僅需要運行浮點 32 數據類型,還需要支持 int 8 和/或 int 16,可能是半精度 float、自定義 int 或自定義 float 類型的數據類型,并且功能單元(運算符)通常是向量加法器、向量乘法器、加法器樹和激活函數的組合。這些激活函數通常是超越函數,例如指數或雙曲函數、平方根、大規模除法,但是是矢量化的并且具有單周期吞吐量要求,因為每個周期,您都希望對這些東西開始新的操作。對于此類加速器,在異構性的影響下,我們看到許多客戶使用 ASIP(特定于應用程序的指令處理器)作為該異構空間中的塊之一。 ASIP 允許您自定義運算符,因此數據路徑和指令集僅以比常規 DSP 更有效的方式執行有限的操作集?!?/p>
DSP 通常不會被執行,它的用途太通用了。另一方面,固定功能 RTL 可能不夠靈活,這就產生了這樣的空間:“是的,我們需要比固定功能 RTL 更靈活、但比通用 DSP 不太靈活的東西?!边@就是 ASIP 發揮作用的地方。如果你看看 GPU,你會發現 GPU 在某種程度上也是通用的。它必須支持各種工作負載,但不是所有工作負載。這就是 ASIP 發揮作用的地方,以支持靈活性和可編程性。您需要這種靈活性來支持一系列計算算法,以適應不斷變化的軟件或 AI 圖形要求,以及 AI 算法本身不斷變化的要求?!?/p>
西門子的 Hand 認為計算工作量是一項艱巨的挑戰?!盀榱私鉀Q這個問題,垂直整合的公司正在以這種方式投資高性能計算,因為高性能計算與人工智能沒有太大不同,你只能處理你看到的數據模式,”Hand說。 “如果你是亞馬遜或微軟這樣的公司,那么你就可以獲得大量的跟蹤數據,而無需窺探任何數據,并且你知道機器的瓶頸在哪里。你可以使用這些信息并說,‘我們看到我們獲得了內存帶寬,我們必須對此采取一些措施,或者這是一個網絡帶寬問題,或者,這是一個人工智能吞吐量問題,而我們正陷入這些領域.'這實際上與邊緣發生的挑戰沒有什么不同。邊緣的目標是不同的,我們經??粗f,‘我能擺脫什么?我不需要什么?或者,“我可以在哪里縮小功率范圍?”而在數據中心,您會問,‘我如何才能推送更多數據,以及如何以不燒壞設備的方式做到這一點?隨著設備變得越來越大,我怎樣才能以可擴展的方式做到這一點?”
Hand 相信向多芯片的轉變將推動許多有趣的發展,并且已經被 AMD 和 Nvidia 等公司所采用。 “現在您可以開始為這些高性能計算應用程序提供一些有趣的即插即用組件,在很大程度上,您可以開始說,‘我用于該應用程序的互連芯片是什么?該應用程序的處理模具是什么?它在構建標準計算機之間提供了一個中間立場,無需進行太多更改。我能做些什么?我可以放入不同的進程、不同的網卡、不同的 DIMM。作為云提供商,我可以做的事情是有限的,以實現差異化。另一方面,像 Microsoft 和 Azure 這樣的大型云提供商會說,‘我可以構建自己的完整 SOC,做任何我喜歡做的事情。我可以去建造它。但你現在可以得到這個中等基礎,比方說,你決定生物計算數據中心有市場,有足夠多的人進入這個領域,你可以賺一些錢。您可以組裝 3D IC 并使其在該環境中工作嗎?看看會發生什么將會很有趣,因為這將降低進入門檻。我們已經看到它被蘋果、英特爾、AMD 和 Nvidia 等公司使用,作為一種在無需測試巨大芯片的情況下獲得更快旋轉速度和更多品種的方法,我認為這將產生更大的影響比人們意識到的高性能計算。當你開始將它們與環境的完整數字孿生之類的東西結合起來時,你可以開始了解環境中的工作負載,了解瓶頸,然后嘗試不同的分區,然后下推?!?/p>
Arm 的 Jeff 還發現數據中心芯片架構正在發生變化,以適應 AI/ML 功能。 “CPU 上的推理非常重要,我們看到我們的合作伙伴利用我們的 SVE 管道、矩陣數學增強功能和數據類型來運行推理。我們還看到人工智能加速器通過高速相干接口的緊密耦合開始發揮作用,并且 DPU 正在擴展其帶寬和智能以將節點連接在一起?!?/p>
多模塊不可避免
芯片行業清楚地意識到,對于許多計算密集型應用來說,單芯片解決方案已變得不切實際。過去十年的一個大問題是,多芯片解決方案的轉變何時才會成為主流。 Synopsys 研發總監 Sutirtha Kabir 表示:“整個行業正處于一個拐點,你無法再回避這個問題了?!?“我們在后臺談論摩爾定律和‘SysMoore’,但設計人員必須在 CPU 和 GPU 中添加更多功能,但由于光罩尺寸限制、產量限制以及所有這些限制,他們根本無法做到這一點芯片。多芯片芯片在這里是不可避免的,這帶來了一些有趣的考慮。第一,拿一張紙并將其折疊。這基本上就是多芯片的一個例子。你拿一個芯片,把它折疊起來,如果你能巧妙地設計它,你可以認為你實際上可以大大縮短時序,而不是有很長的時序路徑。如果你從頂部芯片到底部芯片,你所經歷的可能只是芯片中的少量布線,但它們大多是凸塊到凸塊或鍵合到凸塊?!?/p>
多芯片設計所面臨的挑戰包括:要弄清楚有多少條路徑需要同步、時序是應該放在兩個芯片之間還是應該單獨關閉、L1 是應該放在頂部芯片還是底部芯片上--以及是否可以增加 L4。
Kabir解釋說:"從三維角度來看,現在的樓層規劃變得非常有趣。"你可以把一棟單層房屋改建成三層或四層。但隨之而來的還有其他設計挑戰。你不能再忽視散熱問題了。散熱曾經是印刷電路板(PCB)的事情,而現在系統設計師們認為這些芯片非常熱。黃仁勛最近在 SNUG 上說,你把室溫的水從一端放進去,另一端就會變成按摩浴缸的溫度。他是在開玩笑,但事實是,從溫度的角度來看,這些芯片的溫度很高,如果你在平面規劃時不考慮到這一點,你的處理器就會被燒毀。這意味著你必須更早地開始這樣做。在三維平面規劃方面,當涉及到工作負載時,你如何知道自己已經分析了多芯片的不同工作負載,并確保即使在沒有網表的情況下也能考慮到紅外、熱和時序等關鍵影響?我們稱之為零網表階段。這些考慮因素都變得非常有趣,因為你再也無法避免做多芯片,所以從代工廠的角度、從 EDA 的角度,這些都是生態系統的前沿和中心,而設計人員則處于中間位置。
與數據中心芯片的熱問題相關的是低功耗設計
"這些數據中心耗電量巨大,"Ansys 產品營銷總監 Marc Swinnen 說。"我當時正在舊金山參加 ISSCC,我們的展臺就在英偉達公司旁邊,英偉達公司正在展示其人工智能訓練箱--一個裝有八個芯片、大量風扇和散熱片的大箱子。我們問它的耗電量有多大,他們說:'哦,最高時有 1 萬瓦,但平均也有 6000 瓦。'功率真是越來越瘋狂了。
Arm公司的Jeff也認為,應對數據中心芯片新挑戰的最佳方法是采用完整的系統方法,包括指令集架構、軟件生態系統和特定優化、CPU微架構、結構、系統內存管理和中斷控制,以及封裝內和芯片外I/O。"完整的系統方法使我們能夠與合作伙伴合作,根據現代工作負載和工藝節點定制 SoC 設計,同時利用基于chiplet的設計方法"。
這種定制芯片設計方法使數據中心運營商能夠優化其電力成本和計算效率。"Jeff 說:"我們 Neoverse N 系列的高效率使每個插槽的內核數從 128c 到 192c 甚至更高。"這些相同的 N 系列產品可以在更小的空間內擴展到 DPU 和 6g L2 設計以及邊緣服務器。我們的 V 系列產品面向云計算,具有更高的每線程性能和更高的矢量性能(用于人工智能推理和視頻轉碼等工作負載),同時還能提供高效率。加速器附件的廣泛選擇使我們的合作伙伴能夠在為其工作負載量身定制的 SoC 中將定制處理和云原生計算正確地結合在一起。"
結論
鑒于高性能計算的演進特性,特別是由于數據中心的優化方式涉及多個不同方面,所有這一切的最終結果幾乎都無法預測。" Hand表示:"在網絡應用爆發之初,人們開始在數據中心內進行南北向和東西向路由選擇,這改變了所有的網絡交換架構,因為這是一大瓶頸。"這導致了對數據中心的整體重新思考。類似的事情也發生在內存方面,當你開始集成光學技術和一些更智能的內存時,你會發現這將會是非常有趣的事情。
Hand 提到了幾年前的一次英特爾開發者大會,當時該公司解釋了如何利用硅光子學中的表面發射光學技術將內存與數據中心機架中的存儲分離開來。"他說:"他們有一個統一的內存結構,可以在服務器之間共享,也可以從不同的服務器分配內存。"因此,數據中心的拓撲結構開始變得非常有趣。即使在機架中,你看英偉達的人工智能系統結構也不像傳統的服務器機架。最大的變化是,人們可以看到它,如果有市場,你就可以構建它。我們一直認為,架構的關鍵在于核心是否快速。我們從'內核快不快'變成了'我有足夠的內核嗎'。但問題遠不止于此。一旦你開始打破馮-諾依曼架構,開始使用不同的內存流,開始關注內存內計算,它就會變得非常酷。然后你會說,'高性能計算到底意味著什么?
本文編譯自:Semiengineering 特別鳴謝!
-
芯片
+關注
關注
450文章
49614瀏覽量
417055 -
cpu
+關注
關注
68文章
10696瀏覽量
209292 -
soc
+關注
關注
38文章
4020瀏覽量
217006 -
異構多核
+關注
關注
0文章
6瀏覽量
6912 -
奇異摩爾
+關注
關注
0文章
39瀏覽量
3279
原文標題:構建高性能計算芯片
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論