精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

當CPU算力趨近極限,GPU能否替代CPU滿足數字芯片設計的算力需求?

新思科技 ? 來源:新思科技 ? 2024-04-10 17:19 ? 次閱讀

就數字設計實現而言,RTL-to-GDSII流程中的每一步都涉及海量計算。在SoC級別,開發者需要評估數百個分區的各種版圖規劃選項,從而更大限度減少互連中的延遲并提高效率。確定了版圖規劃后,需要在每個分區中繼續執行其余步驟,直到完成整個芯片的實現與簽核環節。每個步驟的算力需求本身就很高,再乘以分區的數量,不禁讓人懷疑:傳統上用于數字設計的CPU是否已難堪重任?GPU能否替代CPU滿足這樣的算力需求?

目前,GPU以其在人工智能AI)/機器學習(ML)、游戲以及高性能計算等領域處理極具挑戰性的工作負載的強大能力而備受推崇。隨著芯片設計趨向更大尺寸與更高復雜性,將GPU的應用范圍延伸到數字芯片設計實現領域,或許正當其時。

EDA工作負載面臨的CPU算力瓶頸

CPU一直被譽為計算機的“大腦”。現代CPU集成了數十億個晶體管和多個處理內核,適合執行各種任務,并且處理速度極快。另一方面,GPU最初是為了特定用途而設計的,但隨著時間推移,GPU也逐漸演變為能夠廣泛用于并行處理任務的通用處理器了。

傳統上,電子設計自動化(EDA)的工作負載主要在基于x86架構的CPU上運行。然而,Multi-Die等復雜架構的普及,使得CPU的算力逐漸接近極限。考慮到芯片開發團隊經常面臨產品上市時間的壓力,任何能加速芯片設計流程的工具和技術都將極具價值。在驗證和分析階段,由于GPU的卓越計算性能,新思科技的PrimeSim和VCS仿真流程已經實現了顯著的速度提升。盡管GPU并不適用于數字設計流程中的所有環節,但它在某些特定任務中無疑能夠提供速度上的優勢。

在數據中心,每個機箱平均部署64至128個先進高性能x86 CPU內核,部分機箱甚至有多達200個內核。某些任務需求對內核數量要求更高,因此需要多個機箱協同進行分布式處理。但如果網速不匹配,這種分布式處理就會帶來額外的通信成本。RTL-to-GDSII流程和優化技術中包含許多相互依賴的關系。要成功并行執行流程中的每個作業,進行分布式處理的各個CPU機箱之間必須能夠非常快速地完成數據共享,不能有任何延遲。然而在實際情況中,網絡延遲對處理周期時間有著顯著影響,進而導致整個RTL-to-GDSII流程的分布式并行難以達到理想效果。

另一方面,GPU內核可以輕松地進行擴展。由于每個GPU內核承擔的操作較少而且體積極小,一個插槽內可以集成數萬個內核,這樣便可在占用空間可控的情況下,提供強大的處理能力。那些能從大規模并行處理中受益的任務非常適合交由GPU處理。然而,這些任務通常需要是單向的,因為任何需要決策和迭代的任務都會減慢處理速度,“或者/并且”需要返回CPU進行復雜的“if then else”條件判斷邏輯。這就意味著,在RTL-to-GDSII數字實現流程中,并非所有任務都適合用GPU來執行。

通過GPU加速來加快布局過程

在數字設計流程中,自動布局是一項已經在GPU上得到充分應用并顯示出巨大潛力的任務。新思科技的Fusion Compiler采用了GPU加速布局技術,在商業環境下的原型測試中,相較于傳統CPU,已經證明了其在縮短周轉時間方面的顯著優勢:

38秒即可完成一個3nm GPU流式多處理器設計的布局,其中包含140萬個可布局標準單元和20個可布局硬宏,相比之下,CPU驅動的布局需要13分鐘才能完成

82秒即可完成一個12nm汽車CPU設計的布局,其中包含290萬個可布局標準單元和200個可布局硬宏,相比之下,CPU驅動的布局需要19分鐘才能完成

結合新思科技AI驅動的設計空間優化解決方案DSO.ai,我們預計在保持相同完成時間線的前提下,將AI驅動型搜索空間擴大15至20倍。這一進步有望幫助開發團隊在功耗、性能和面積(PPA)方面實現更卓越的設計成果。

在數字設計的多個實施步驟中,版圖規劃和布局對最終設計的功耗、性能和面積(PPA)有著重大影響,因此這兩個步驟是最需要進行廣泛探索的環節。即便GPU計算資源通常與高性能CPU計算集群分離,我們也能預見,在基于GPU的布局技術支持下,開發者能夠高效完成工作。然而,在RTL-to-GDSII的整個實施流程中,如果其他環節存在即時或交替的GPU加速需求,設計數據在CPU與GPU集群之間的傳輸所引入的延遲,會對吞吐量產生影響。

新型數據中心SoC正在設計中引入CPU與GPU資源間的統一內存,以處理TB級的工作負載。得益于這類新興架構,利用GPU加速時不再需要移動設計數據,我們也能進一步思考GPU加速還可以應用在數字設計流程的哪些其他方面。特別是當開發者能夠將GPU與AI驅動的實施工具結合使用時,那必將實現更快的探索、更廣的范圍以及更優的結果。此外,新思科技的AI驅動型全棧式EDA解決方案Synopsys.ai,能夠助力開發者實現更佳的性能、功耗與面積(PPA)結果、更快達成目標、并顯著提升開發效率、實現更高的工程生產力,我們可以預見GPU加速技術的加入將進一步革新芯片設計領域。

總結

在芯片設計流程的仿真階段,GPU的運用已司空見慣,數字設計流程的其他部分也將逐漸展現出利用GPU加速的潛力。面對大型芯片或Multi-Die這類復雜架構,CPU在運行RTL-to-GDSII流程時的算力已接近飽和,難以滿足所期望的處理速度。而GPU以其卓越的可擴展性和處理能力,有望實現更快的設計周期和更佳的芯片性能。在使用GPU加速的布局工具進行的原型設計測試中,布局速度已實現高達20倍的提升。隨著AI技術逐步融入EDA流程中,GPU的加入將顯著提升功耗、面積和性能(PPA)指標,同時縮短產品上市時間。

審核編輯:劉清
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SoC設計
    +關注

    關注

    1

    文章

    147

    瀏覽量

    18720
  • 人工智能
    +關注

    關注

    1787

    文章

    46067

    瀏覽量

    235119
  • RTL
    RTL
    +關注

    關注

    1

    文章

    384

    瀏覽量

    59522
  • 數字芯片
    +關注

    關注

    1

    文章

    105

    瀏覽量

    18338
  • GPU芯片
    +關注

    關注

    1

    文章

    303

    瀏覽量

    5749

原文標題:當CPU算力趨近極限,GPU能否成為數字芯片設計的救星?

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【書籍評測活動NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構分析

    ;蘋果、Cerebras、Ampere、特斯拉等企業的加入讓這場“芯片戰爭”更加熱鬧。 CPUGPU、NPU等
    發表于 09-02 10:09

    的分類與現代生活

    的提升使得用戶能夠享受到更加流暢和豐富的數字體驗。 個人通常指的是個人使用的計算設備,如智能手機、個人電腦、平板電腦等。這些設備通過中央處理器(
    的頭像 發表于 08-26 15:05 ?101次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>的分類與現代生活

    大模型時代的需求

    現在AI已進入大模型時代,各企業都爭相部署大模型,但如何保證大模型的,以及相關的穩定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
    發表于 08-20 09:04

    服務器為什么選擇GPU

    隨著人工智能技術的快速普及,需求日益增長。智中心的服務器作為支撐大規模數據處理和計算的核心設備,其性能優化顯得尤為關鍵。而GPU服務器
    的頭像 發表于 07-25 08:28 ?281次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>服務器為什么選擇<b class='flag-5'>GPU</b>

    IaaS+on+DPU(IoD)+下一代高性能底座技術白皮書

    DPU 是當下基礎設施的核心創新之一。如果把 CPU 比做大腦,那么 GPU 就好比是肌肉,而 DPU 就是神經中樞。CPU 承載了應
    發表于 07-24 15:32

    摩爾線程張建中:以國產助力數智世界,滿足大模型需求

    摩爾線程創始人兼CEO張建中在會上透露,為了滿足國內對AI的迫切需求,他們正在積極尋求與國內頂尖科研機構的深度合作,共同推動更大規模的AI智
    的頭像 發表于 05-10 16:36 ?631次閱讀

    Sora需求引發業界對集結國內AI企業的探討

    據周鴻祎觀察,Sora視頻分析所需恐遠超千億規模模型。因而,考慮到如今國內芯片供應受限,問題至關重要。事實上,Meta已有約50萬臺
    的頭像 發表于 02-25 10:03 ?450次閱讀

    智能規模超通用,大模型對智能提出高要求

    的縮寫,即每秒所能夠進行的浮點運算數目(每秒浮點運算量)。 ? 可以分為通用、智能
    的頭像 發表于 02-06 00:08 ?5472次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發布于 :2024年01月25日 14:54:52

    深入了解浮點運算—CPUGPU是如何計算的?

    隨著國家大力發展數字經濟,的提升和普惠變得越來越重要。在數字化時代,已成為推動科技發展和
    的頭像 發表于 01-18 18:20 ?3202次閱讀
    深入了解浮點運算—<b class='flag-5'>CPU</b>和<b class='flag-5'>GPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>是如何計算的?

    ChatGPT芯片如何做輸出

    卡的核心當然還是計算芯片,會搭配大容量高帶寬的內存、緩存,以及搭載CPU用于調度,為了幫助數據傳輸,便會使用高速通道,這便是PCIe(高速串行計算機擴展總線標準)在系統中的作用:提
    發表于 01-11 10:01 ?374次閱讀
    ChatGPT<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>如何做<b class='flag-5'>算</b><b class='flag-5'>力</b>輸出

    GPU是顯卡嗎 cpugpu哪個

    很大的區別,因此它們的計算能力也不同。 首先,我們來看一下CPU(中央處理器)的CPU是一種通用處理器,它被設計用于處理各種不同類型的任務,包括數據處理、指令執行、邏輯控制等。
    的頭像 發表于 01-10 15:45 ?4493次閱讀

    探索AIGC未來:CPU源碼優化、多GPU編程與中國瓶頸與發展

    ,大大提高人工智能模型的計算能力,更好地滿足實際應用的需求。 本文將分析AIGC的最新進展,深入探討以上話題,以及中國產業的瓶頸和趨勢。
    的頭像 發表于 12-08 11:49 ?1347次閱讀
    探索AIGC未來:<b class='flag-5'>CPU</b>源碼優化、多<b class='flag-5'>GPU</b>編程與中國<b class='flag-5'>算</b><b class='flag-5'>力</b>瓶頸與發展

    什么是可分為哪些類別?

    計算是人類解決問題的一種方式。 在漫長的歷史長河中,人類遇到過很多問題,都需要通過計算來解決。這些計算任務,僅憑大腦這個“原生”工具,是無法完成的。 于是,人類發明了很多
    的頭像 發表于 11-20 09:27 ?1.2w次閱讀
    什么是<b class='flag-5'>算</b><b class='flag-5'>力</b>?<b class='flag-5'>算</b><b class='flag-5'>力</b>可分為哪些<b class='flag-5'>算</b><b class='flag-5'>力</b>類別?

    人工智能為什么需要GPU

    GPU前面加一個“GP”,就變為General-Purpose Computing on Graphics Processing Units,即通用計算圖形處理器。我們去術語化,可以直接說這是一種用于處理非特定需求(通用類型)計算目的的
    發表于 11-10 14:48 ?5427次閱讀
    人工智能<b class='flag-5'>算</b><b class='flag-5'>力</b>為什么需要<b class='flag-5'>GPU</b>?