電子發燒友網報道(文/周凱揚)不久前,Meta宣布將花費150億美元,購置60多萬塊GPU,而這還沒算上系統成本。就當大家以為Meta打算All In GPU之際,Meta放出了下一代MTIA AI芯片,MTIA v2。
基于5nm打造,性能三倍以上
相較上一代MTIA v1,新的MTIA v2的工藝從臺積電的7nm換成了臺積電5nm,芯片主頻也從800MHz提升至1.35GHz。得益于芯片工藝的改進,即便晶體管數量大幅增加,其芯片面積僅增加了12%。MTIA v2芯片 / Meta
MTIA v2的性能提升主要體現在算力上,根據Meta給出的數據其GEMM算力達到354TFLOPS/s(INT8),SIMD算力達到11.06TFLOPS/s(INT8),相較上一代均提升了3倍以上。在接口上,MTIA v2也從8xPCIe 4.0升級至8x PCIe 5.0,帶寬翻倍。
算力的提升除了歸功于工藝的升級外,很可能也不乏內核的升級。結合晶心科技和Meta合作開發數據中心AI處理器的新聞來看,MTIA v1很有可能采用了晶心科技打造的首個商用RISC-V矢量處理器內核NX27V,而MTIA v2則很可能用到了最新的AX45MPV內核,其三倍以上的性能提升幅度也符合MTIA的算力提升幅度,不過這也只是猜想而已。值得一提的是,與同樣在近期發布的英特爾Gaudi 3不一樣,MTIA v2在內存配置上依舊沒有選擇HBM,片上內存只有256MB,片外內存選擇了LPDDR5。雖然其片上內存擁有2.7TB/s的帶寬,但也注定了MTIA v2很難用于高效率的大模型應用。在硬件堆料下,MTIA v2的功耗也已經來到了90W,相比MTIA v1的25有著比較大幅度的增加。不過對比H100的能耗比,MTIA v2依然有著比較大的優勢。但這也就意味著上一代的服務器方案可能已經不再適用于新的方案,Meta因此為新加速器打造了全新的機柜系統。該系統單個機架由三個底盤構成,每個底盤塞進了12塊板卡,每個板卡集成了2個加速器,也就意味著單個機架共有72個MTIA v2加速器,單機柜至少需要6000W的電源供應。如果想要實現多機架拓展的話,也可以選擇加入RDMA NIC。Meta表示實現這樣的成績,除了依靠硬件本身的性能提升之外,也離不開他們在優化內核、編譯器、運行時上的努力。隨著后續開發生態進一步成熟,對模型針對性優化的時間會進一步減少,而且未來還有不少空間可以繼續優化芯片的效率。軟件棧引入新的編譯器
隨著新硬件的發布,Meta也加大了他們在軟件棧上的開發力度。作為PyTorch的開發者,MTIA的軟件棧從設計之初就做到了PyTorch 2.0的完全集成,也支持TorchDynamo和TorchInductor等新特性。但與此同時,為了簡化應用開發者的工作,為MTIA v1開發的代碼,也能向下兼容新的MTIA v2硬件。而且Meta表示,因為已經將全部的軟件棧集成在新的MTIA芯片內,在發布之際,他們已經在自己的服務器上用MTIA v2跑了一段時間了。正因為有這種兼容的軟件棧方案,Meta可在九個月內就能讓商用模型運行在16個地區的服務器上。為了為全新的MTIA硬件生成更高性能的代碼,Meta還打造了一套新的Triton-MTIA編譯器。Triton是由OpenAI開發的一套開源語言和編譯器,用于編寫高效的ML計算內核。Triton極大地提高了開發者編寫GPU代碼的速度,但Meta發現Triton也很適合用于MTIA這樣非GPU的硬件架構。寫在最后
從MTIA v2的性能來看,該加速器應該不會替代其購置的大量GPU用在LLM模型上,而是追求算力、內存帶寬和內存容量的平衡,用于排名和推薦的大模型上。這樣一來大容量的SRAM還是用在GPU上,而Meta最大收入來源的廣告業務,可以靠MTIA之類的加速器減少成本。Meta除了投資定制AI芯片和下一代GPU這樣的計算芯片外,Meta也強調他們會繼續投資內存帶寬、網絡、容量相關的下一代硬件系統。不僅如此,Meta也在探索增加MTIA的應用范圍,包括未來可能支持GenAI的負載。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
Meta
+關注
關注
0文章
259瀏覽量
11352 -
AI芯片
+關注
關注
17文章
1860瀏覽量
34920
發布評論請先 登錄
相關推薦
簡單認識第二代高通Oryon CPU
在不久前的2024驍龍峰會上,備受矚目的新一代驍龍旗艦移動平臺——驍龍8至尊版正式發布。這款以“至尊版”命名的全新平臺也是首個采用第二代高通Oryon CPU的移動平臺。憑借領先的CPU、GPU
AMD推出第二代Versal Premium系列
近日,AMD(超威,納斯達克股票代碼:AMD )今日宣布推出第二代 AMD Versal Premium 系列,這款自適應 SoC 平臺旨在面向各種工作負載提供最高水平系統加速。第二代 Versal
一加正式發布第二代東方屏,獲全球首個DisplayMate A++認證
近日,一加攜手京東方正式發布第二代東方屏,并宣布將在年度旗艦產品一加 13 中首發搭載。去年,一加聯合京東方打造出世界上最好的屏幕——東方屏,這是一次中國屏幕歷史級的突破。本次發布的第二代東方屏,在
AMD第二代Versal自適應SoC的主要特色
AMD 第二代 AMD Versal AI Edge 和 Versal Prime 系列助力 AI 驅動型和經典的嵌入式系統實現單芯片智能性。可在性
第二代AMD Versal Prime系列自適應SoC的亮點
第二代 Versal Prime 系列自適應 SoC 是備受期待的 Zynq UltraScale+ MPSoC 產品線的繼任產品,該產品線已廣泛應用于廣播與專業音視頻行業的設備中。第二代
AMD發布第二代Versal自適應SoC,AI嵌入式領域再提速
AMD表示,第二代Versal系列自適應SoC搭載全新的AI引擎,相較上一代Versal AI Edge系列,每瓦TOPS功率可實現最多3倍
AMD 以全新第二代 Versal 系列器件擴展領先自適應 SoC 產品組合,為 AI 驅動型嵌入式系統提供端到端加速
第二代 Versal 系列產品組合中首批器件借助下一代 AI 引擎將每瓦 TOPS 提升至高 3 倍,同時將基于 CPU 的標量算力較之第一
發表于 04-09 16:50
?3918次閱讀
瑞芯微第二代8nm高性能AIOT平臺 RK3576 詳細介紹
RK3576處理器
RK3576瑞芯微第二代8nm高性能AIOT平臺,它集成了獨立的6TOPS(Tera Operations Per Second,每秒萬億次操作)NPU(神經網絡處理單元),用于
發表于 03-12 13:45
三星半導體將其“第二代3納米”工藝正式更名為“2納米”!
近期,科技巨頭三星半導體做出了一個引人注目的決策:將其“第二代3納米”工藝正式更名為“2納米”。
中科馭數自研第二代DPU芯片K2獲得行業認可
近日,中科馭數自研第二代DPU芯片K2在眾多云生態創新應用技術產品中脫穎而出,成功入選由中國云產業聯盟暨中關村云計算產業聯盟發布的“2023年中國云生態創新應用技術產品”。這一殊榮既是
高通第二代驍龍XR2+平臺支持4.3K單眼分辨率
高通技術公司近日宣布推出全新第二代驍龍?XR2+平臺,這一創新平臺旨在為MR和VR設備帶來更出色的性能和體驗。第二代驍龍XR2+平臺具備強大的硬件配置,支持高達4.3K的單眼分辨率和12路及以
高通宣布推出第二代驍龍?XR2+平臺加速MR體驗新浪潮
第二代驍龍XR2+平臺支持4.3K單眼分辨率和12路及以上并行攝像頭,帶來更清晰沉浸的MR和VR體驗。
智繪微電子第二代自研桌面級國產GPU芯片IDM929成功點亮
智繪微電子官方宣布,第二代具有完全自主知識產權的圖形處理芯片“IDM929”成功實現了一次性流片成功,并順利點亮!
評論