精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

特斯拉的下一代AI芯片:存算一體

佐思汽車研究 ? 來源:佐思汽車研究 ? 2023-03-09 09:22 ? 次閱讀

ChatGPT的火爆預示了自動駕駛的方向:大模型(至少超過100億個參數)和高算力(至少1000TOPS@FP16)。ChatGPT完美展示了大模型的優勢,也讓英偉達欣喜若狂,英偉達、AMD英特爾是最大受益者(英偉達最頂級的DGX-H100中的CPU是英特爾的W3495X,國內售價高達每片8萬人民幣),還有幾乎壟斷高端服務器市場的中國臺灣企業廣達和英業達,科技巨頭每年需要花費數百億乃至上千億美元購買新的服務器來處理越來越大的AI模型,并且會持續數十年。

高算力讓存儲墻愈加明顯,存儲系統的成本也持續攀升,AI芯片價格越來越高,未來10萬美元甚至百萬美元級AI芯片也極有可能。要完美解決存儲墻問題是不可能的,折中的辦法是存算一體。這雖然無法解決芯片成本趨高的問題,但是可以解決1000TOPS算力的問題。

根據存儲與計算的距離遠近,將廣義存算一體的技術方案分為三大類,分別是近存計算 (Processing Near Memory,PNM)、存內處理(Processingln Memory,PIM) 和存內計算(Computing in Memory, CIM)。其中,存內計算即狹義的存算一體。

存內計算面臨的最大挑戰是內存和高性能計算都是高度集中的行業,巨頭們出于利潤的考量,不會允許革命性的存內計算顛覆其所屬的壟斷行業。內存行業,美光、三星和SK Hynix在高性能存儲領域市占率達100%。高性能計算領域,英特爾、AMD和英偉達的市場占有率也接近100%。臺積電和三星聯合壟斷了高性能芯片代工領域。7納米以下晶圓廠產能是最具話語權的武器,沒有這個,高性能計算便是空中樓閣。

PNM已經非常常見,即HBM與CPU一體,所有高性能計算芯片都是如此,采用HBM堆疊,2.5D封裝,硅中介層(Interposer)內聯在基板上。也可以反推,沒有采用HBM就不是高性能計算芯片。特斯拉二代FSD已經用上了GDDR6,下一代基本可以肯定是HBM3了。

d7ecdc00-be15-11ed-bfe3-dac502259ad0.png

PIM則是再下一階段熱點

圖片來源:Planet

d81b9c0c-be15-11ed-bfe3-dac502259ad0.png

PIM已經有商業化的實例,最早的實例是Xilinx的Alveo U280

圖片來源:Planet

d836f1c8-be15-11ed-bfe3-dac502259ad0.png

PIM可以大幅度降低存取功耗

圖片來源:Planet

d855242c-be15-11ed-bfe3-dac502259ad0.png

圖片來源:三星

AMD收購Xilinx,其中最看中的就是PIM堆疊技術,AMD后來將其用在InstinctMI100/MI250/MI150/MI210系列GPU上,這也是美國商務部禁止向中國出售的芯片。MI100的性能能夠超越英偉達的上一代旗艦A100,功耗較A100降低約25%,價格也低于A100約30%。MI250與英偉達新旗艦H100持平,在FP32和FP64上,MI250更強;在FP16上,H100遠超MI250。

PIM的主角還是三星,配角是AMD,三星Aquabolt-XLHBM2-PIM是目前唯一PIM內存。

Aquabolt-XL HBM2-PIM架構

d86e5050-be15-11ed-bfe3-dac502259ad0.png

圖片來源:三星

PIM非常簡單,就是用硅通孔(Through Silicon Via, TSV)技術將計算單元塞進內存上下BANK之間。TSV技術人類2010年就掌握了,只不過迄今還不算特別成熟,價格還是有點高。

d888ef46-be15-11ed-bfe3-dac502259ad0.png

圖片來源:三星

計算單元很簡單,一個FP16矩陣乘法,一個FP16矩陣加法。輸入命令解碼和行列地址即可。

PIM運作模式

d8b32180-be15-11ed-bfe3-dac502259ad0.png

圖片來源:三星

PIM的軟件棧

d8cb9292-be15-11ed-bfe3-dac502259ad0.png

圖片來源:三星

在2023CES消費電子展上,AMD推出了MI300,PIM似乎升級到了HBM3。

d8e0dc1a-be15-11ed-bfe3-dac502259ad0.png

圖片來源:AMD

國人一心打破美國的科技壟斷,由于缺乏先進2.5D和3D封裝產能和技術,中國企業對PNM和PIM完全不感興趣,聚焦的是真正的存算一體,即存內計算。

其本質是利用不同存儲介質的物理特性,對存儲電路進行重新設計使其同時具備計算和存儲能力,直接消除“存〞“算〞界限,使計算能效達到數量級提升的目標。在存儲原位上實現計算,是真正的存算一體。存算一體理論上完美,但目前離實用至少還有10年距離。

存內計算主要包含數字和模擬兩種實現方式,二者適用于不同應用場景。模擬存內計算能效高,但誤差較大,適用于低精度、低功耗計算場景,如端側可穿戴設備等。模擬存內計算還涉及復雜的模數轉換器ADC)、數模轉換器DAC)、跨阻放大器(TIA) 等模塊。ADC和DAC領域需要幾十年經驗長期摸索,全球精通ADC和DAC的僅有ADI德州儀器NXP三家,其中ADI最強,正是牽涉大量模擬部分,存內計算無法使用EDA工具,導致芯片開發成本高、周期長、規模小、算力低。

一直以來,主流的存內計算大多采用模擬計算實現,近兩年數字存內計算的研究熱度也有所提升。模擬存內計算主要基于物理定律(歐姆定律和基爾霍夫定律),在存算陣列上實現乘加運算。數字存內計算通過在存儲陣列內部加入邏輯計算電路,如與門和加法器等,使數字存內計算陣列具備存儲及計算能力。數字存內計算精度高,但是其存儲單元只能存儲單比特數據,而目前主流人工智能訓練是32或64比特數據,這嚴重限制了其應用范圍,并且數字存內計算需增加加法樹邏輯電路,很大程度上限制了面積及能效優勢。也就是目前存內計算在高算力領域沒有容身之地的原因。

存內計算最重要的部分就是存儲器件本身,算法之類的軟件部分幾乎可以忽略。目前存儲器主要有易失性存儲器和非易失存儲器件。易失性存儲器在設備掉電之后數據丟失,如SRAM等。非易失性存儲器在設備掉電后數據可保持不變,如NOR Flash、可變電阻隨機存儲器 (Resistive Random Access Memory, RRAM或ReRAM)、磁性隨機存儲器(Magnetoresistive Random Access Memory, MRAM)、相變存儲器 (Phase ChangeMemory, PCM)等。中國企業或機構主要研究的是鐵電晶體管FeFET。傳統的SRAM、DRAM、NAND被三星、美光和SK Hynix壟斷,因此基于傳統存儲的存內計算無論如何都無法對抗這三大巨頭,大部分機構或企業都選擇另辟蹊徑。

幾種新興存儲器的技術對比

d909b07c-be15-11ed-bfe3-dac502259ad0.jpg

需要指出,目前存儲器制造也需要EUV***了,而EUV***被ASML壟斷,又聽命于美國政府。通常認為,DRAM的天花板是10nm。其原因是在傳統1T1C架構下,單位元件面積不斷減小,如何保證電容能夠存儲足夠的電荷、防止相鄰存儲單元之間的耦合,是DRAM推進到10nm以下的無解難題,而EUV是用來做7nm以下的,DRAM目前主流是14納米。14納米理論上完全可以用DUV來完成,不需要EUV。

但實際情況并非如此,三星電子的1Znm節點DRAM量產結果表明,相比于DUV浸沒式光學***,EUV***極大簡化了制造流程,不僅可以大幅度提高光刻分辨率和DRAM性能,而且可以減少所使用的掩模數量,從而減少流程步驟的數量,減少缺陷、提高存儲密度,并大幅降低DRAM生產成本,縮短生產周期。也就是說,即使EUV掩模費用(達數百萬美元)遠高于DUV掩模費用,使用EUV***量產DRAM也具有更高的性價比。三星電子和SK海力士公司將EUV***引入1Znm節點DRAM的量產進展順利,并一路高歌到第五代1β節點,令DRAM三巨頭中最為保守的美光公司很無奈。美光一度宣稱自己用DUV也做到了11納米,然而進入2023年后的DDR5時代,韓國雙雄再一次依靠EUV***碾壓了美光。美光在DDR5方面嚴重落后韓國雙雄。

全球智能汽車領域,特斯拉是第一個用上GDDR6的企業,特斯拉也很可能第一個用上HBM2或HBM3,當然代價是芯片成本超過1000美元以上,不過以特斯拉的溢價能力,消費者愿意為高價買單。要想超越特斯拉,不如一步到位,直接上HBM3。當然了,對中國企業來說最困難的不是技術,而是供應鏈,晶圓級2.5D封裝HBM的產能95%都在臺積電手中,5%在三星手中。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲器
    +關注

    關注

    38

    文章

    7455

    瀏覽量

    163623
  • 存儲
    +關注

    關注

    13

    文章

    4266

    瀏覽量

    85686
  • AI芯片
    +關注

    關注

    17

    文章

    1860

    瀏覽量

    34919

原文標題:特斯拉的下一代AI芯片:存算一體

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    直播預約 |開源芯片系列講座第24期:SRAM一體:賦能高能效RISC-V計算

    鷺島論壇開源芯片系列講座第24期「SRAM一體:賦能高能效RISC-V計算」11月27日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目SRAM
    的頭像 發表于 11-16 01:10 ?110次閱讀
    直播預約 |開源<b class='flag-5'>芯片</b>系列講座第24期:SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>:賦能高能效RISC-V計算

    一體化與邊緣計算:重新定義智能計算的未來

    、人工智能(AI)等技術的發展,數據量的分布性、實時性需求增加,邊緣計算也逐漸從概念走向落地。本文將介紹一體化與邊緣計算的核心思想及其發展趨勢,探討兩者在智能
    的頭像 發表于 11-12 01:05 ?152次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>化與邊緣計算:重新定義智能計算的未來

    一體架構創新助力國產大AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計算(HPC)應用論壇》上,億鑄科技高級副總裁徐芳發表了題為《一體架構創新助力國產大
    的頭像 發表于 10-23 14:48 ?240次閱讀

    科技新突破:首款支持多模態一體AI芯片成功問世

    一體介質,通過存儲單元和計算單元的深度融合,采用22nm成熟工藝制程,有效把控制造成本。與傳統架構下的AI芯片相比,該款
    發表于 09-26 13:51 ?357次閱讀
    科技新突破:首款支持多模態<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>成功問世

    蘋芯科技引領存一體技術革新 PIMCHIP系列芯片重塑AI計算新格局

    智能芯片國產化再傳利好,8月8日,國際領先的一體芯片開拓者——蘋芯科技在北京召開 “
    發表于 08-08 17:21 ?236次閱讀
    蘋芯科技引領存<b class='flag-5'>算</b><b class='flag-5'>一體</b>技術革新   PIMCHIP系列<b class='flag-5'>芯片</b>重塑<b class='flag-5'>AI</b>計算新格局

    后摩智能推出邊端大模型AI芯片M30,展現出一體架構優勢

    電子發燒友網報道(文/李彎彎)近日,后摩智能推出基于一體架構的邊端大模型AI芯片——后摩漫界??M30,最高
    的頭像 發表于 07-03 00:58 ?4118次閱讀

    豐田、日產和本田將合作開發下一代汽車的AI芯片

    豐田、日產和本田等日本主要汽車制造商確實計劃聯手開發下一代汽車的軟件,包括在生成式人工智能(AI)和半導體(芯片)等領域進行合作。
    的頭像 發表于 05-20 10:25 ?940次閱讀

    科技助力AI應用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘

    適用于一體的存儲器類型包括 PCAM、MRAM、RRAM 和 FRAM 等。其中,憶阻器 RRAM 在神經網絡計算中具有特殊優勢,被視為除了 SRAM
    發表于 05-16 16:38

    探索內計算—基于 SRAM 的內計算與基于 MRAM 的一體的探究

    本文深入探討了基于SRAM和MRAM的一體技術在計算領域的應用和發展。首先,介紹了基于SRAM的內邏輯計算技術,包括其原理、優勢以及在神經網絡領域的應用。其次,詳細討論了基于MR
    的頭像 發表于 05-16 16:10 ?2606次閱讀
    探索<b class='flag-5'>存</b>內計算—基于 SRAM 的<b class='flag-5'>存</b>內計算與基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>的探究

    科技攜手北大共建一體化技術實驗室,推動AI創新

    揭牌儀式結束后,王紹迪在北大集成電路學院舉辦的“未名·芯”論壇上做了主題演講,分享了他對于多模態大模型時代內計算發展的見解。他強調了一體在人工智能領域的重要性及其未來發展趨勢。
    的頭像 發表于 05-08 17:25 ?887次閱讀

    DPU技術賦能下一代AI力基礎設施

    4月19日,在以“重構世界 奔赴未來”為主題的2024中國生成式AI大會上,中科馭數作為DPU新型力基礎設施代表,受邀出席了中國智中心創新論壇,發表了題為《以網絡為中心的AI
    的頭像 發表于 04-20 11:31 ?807次閱讀

    什么是通感一體化?通感一體化的應用場景

    通感一體化可廣泛應用于智能家居、智慧城市、智慧交通、醫療健康等方面。文檔君為大家搜集了些典型的應用場景。 智能家居 通感一體化利用基站
    發表于 01-18 16:12 ?1.1w次閱讀
    什么是通感<b class='flag-5'>算</b><b class='flag-5'>一體</b>化?通感<b class='flag-5'>算</b><b class='flag-5'>一體</b>化的應用場景

    一體芯片如何支持Transformer等不同模型?

    后摩智能致力于打造通用人工智能芯片,自主研發的一體芯片在支持各類模型方面表現突出,包括YOLO系列網絡、BEV系列網絡、點云系列網絡等。
    的頭像 發表于 01-05 14:14 ?1305次閱讀

    SRAM一體芯片的研究現狀和發展趨勢

    人工智能時代對計算芯片力和能效都提出了極高要求。一體芯片技術被認為是有望解決處理器
    的頭像 發表于 01-02 11:02 ?2325次閱讀
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>的研究現狀和發展趨勢

    淺談為AI力而生的-芯片

    大模型爆火之后,一體獲得了更多的關注與機會,其原因之是因為
    發表于 12-06 15:00 ?370次閱讀
    淺談為<b class='flag-5'>AI</b>大<b class='flag-5'>算</b>力而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-<b class='flag-5'>體</b><b class='flag-5'>芯片</b>