精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型“狂歡”之下,算力之困何解?

sakobpqhz ? 來源:算力基建 ? 2023-08-23 16:09 ? 次閱讀

“百模大戰”愈演愈烈,AI產業化前夜似乎已在不知不覺中來臨。海量數據爆發,計算量指數級增長,傳統基礎設施架構下的算力已經無法滿足模型時代的需求。據OpenAI測算,全球AI訓練所用的計算量呈現指數級增長,平均每3.43個月便會增長一倍,目前計算量已擴大30萬倍,遠超算力增長速度。國家信息中心聯合浪潮信息發布的《智能計算中心創新發展指南》顯示,當前我國超過30個城市正在建設或提出建設智算中心,但仍然無法滿足相關需求。模型建設究竟需要多少算力?如何更大程度挖掘出現有算力的潛力?又該如何通過優化資源調度讓算力價值最大化?模型“狂歡”之后,是時候回歸“冷靜”了。

01. 供需失衡下的算力之困

打造一個AI大模型究竟需要多少算力?公開數據顯示,ChatGPT初始所需的算力就是1萬塊英偉達A100(一種AI芯片),價格超過7億元。后續的調優訓練每天消耗算力大概是3640PFLOPS,需要7至8個算力達500PFLOPS的數據中心支持,建設成本約為三、四十億元。

“大模型的用戶量、訪問速度、網絡帶寬、訓練模式等都會影響到其算力需求的大小。”中國科學院計算技術研究所研究員張云泉在接受《中國電子報》記者采訪時表示,“要訓練一個中國版的ChatGPT,首先要部署價值至少7億元的硬件設施,還要準備大筆訓練調優的費用。”

騰訊云異構計算產品負責人宋丹丹對《中國電子報》記者介紹稱,大模型對算力的要求分為訓練和推理兩個階段。訓練需要短時間內的并行算力,而且要在短時間內能夠做到交付,對算力的量、算力的穩定性和性能、彈性擴縮容能力有高要求。進入推理階段,對于單位算力的性價比、成本、算力所處的位置、端應用服務是否能夠快速連接等要求比較高。這就要求企業具備海量的可擴縮容的高性能算力,并且這些算力能夠穩定交付。

近日,廣發證券對國內AI大模型的訓練和推理階段算力需求,以及相應的成本進行了測算。結果顯示,在暫不考慮軟件層面算法優化帶來的模型消耗算力成本下降的前提下,國內大模型在訓練與推理階段或將產生相當于1.1萬臺或3.8萬臺(樂觀假設下)高端AI服務器的算力需求,以單片A100售價10萬元、AI加速卡價值量占服務器整機約70%計算,則對應約126億元或434億元增量AI服務器市場規模。

“實際上,算力之困已經爆發了。”張云泉坦言,國內目前大模型存在技術水平不高、同質化等問題,主要是算力層面和國外差距比較大,沒有算力基礎,后面算法等都無法進一步發展。大模型企業不是不愿意盡快更新迭代,而是算力不夠用,只能精打細算。

浪潮云首席技術官孫思清在接受《中國電子報》記者采訪時表示,從通用算力到智能算力,算力需求的變化其實與場景需求密切相關。伴隨模型參數規模越來越大,智能化程度越來越高,對并行計算能力以及包括存儲、網絡等在內的底層基礎硬件能力,以及擴展性、靈活性的要求也越高。此外,算力還要與大模型本身進行更好的適配。

模型層出不窮,智能算力需求隨之激增。據一些服務器廠商透露,目前智算服務器出貨量已經超過通用CPU。不過,孫思清表示,未來,隨著軟硬件升級和大模型核心技術的提升,同等規模的大模型所需算力也許會逐漸減少。

實際上,不只是大模型,人工智能應用已無處不在。這些看得見的應用背后,皆是看不見的智能算力在支撐。如何破解算力供需失衡的新課題?業內專家普遍認為,要做“加法”,也要做“減法”。

02. 做“加法”:軟硬皆施,提升利用率

“我國算力的利用率只有30%。”中國工程院院士鄔賀銓坦言。工信部最新數據顯示,中國算力總規模居全球第二,保持30%左右的年增長率。新增算力設施中,智能算力占比已超過50%。在多個權威市場分析機構的排名中,美國和中國都屬于算力的領跑者,主要差距在于計算效率和應用水平。

提升算力供給能力是重中之重。“不同于超算需要的64位雙精度浮點運算,智能算力多為32及以下的低精度運算,它是分階段的,可以通過硬件加速來實現算力提升。”張云泉表示。比如,隨著數據量的增長和計算任務的復雜化,CPU、GPU需要具備更高的計算和處理能力,存儲器需要具備更大的容量和更快的讀寫速度。同時,算力提升還需要更大的網絡帶寬、速度更快的網絡設備,從而更快地完成大規模數據傳輸和處理。

“硬件層面,CPU、GPU等核心硬件的性能越來越高,將有效提升算力供給能力;軟件層面,模型算法和計算框架的優化,也能緩解一定的算力壓力,減少對算力的依賴。”孫思清表示。這“一增一減”之間,算力供需平衡將找到新的出路。

“智算即異構計算。相對于只用CPU的通用計算,在服務器里CPU+GPU就是異構計算。背后的邏輯,是讓最適合的專用硬件去做最適合的事。”宋丹丹表示,“對于整個算力的優化是分層級解決的。除了計算資源自身的架構和性能提升,也就是卡的迭代外,我們會在虛擬化層,通過GPU虛擬化或者計算池化等等一系列的技術,把算力做更多的多機多卡互聯,然后把它以云服務、容器、Serverless或者實例的模式更靈活地對外使用。在平臺層,通過任務流的模式,以深入上層服務的方式進一步優化計算效率。”

鄔賀銓指出,降低算力使用門檻,才能讓更多企業用得上、用得起現有的算力資源。目前國外有些企業已經把硬件服務器資源開放出來,也包括算力、算法的模型平臺。而在國內,百度、阿里、華為等大企業也已開放平臺,這意味著中小企業只要有意愿需求,都可以利用這些平臺做數據訓練。“目前國內已經意識到要讓算力更簡單、降低算力使用門檻的趨勢。”他說道。

03. 做“減法”:化繁為簡,優化資源調度

要讓算力發揮更大價值,除了提升現有算力利用率,還可以通過簡化算力資源匹配與調度過程的方式實現事半功倍的效果。

日前,復旦大學率先選擇將智能計算平臺CFFF部署在公有云上。據復旦大學“浩清”教授、人工智能創新與產業研究院院長漆遠透露,有賴于公共云模式,跑在CFFF平臺上的項目可享受到超千卡并行的智能算力,千卡并行的有效算力達到行業領先的92%,可拓展性達到萬卡,萬卡并行有效算力也可達90%。

中國工程院院士、阿里云創始人王堅指出,從計算到智算,公共云提供的是像電一樣的計算服務,把算力基礎設施部署在公共云上將加速推動產業步入開放發展的新階段。在他看來,AI大模型的訓練和運營需要集約化、在線的算力基礎設施。集約化的算力基礎設施是基礎支撐,要求更高的計算并行性、更高的計算效率、更低的計算成本,并且要求適配各類專用計算芯片。在線化對算力提出更高要求,從模型訓練和應用看,需要形成“用戶膨脹、使用反饋、模型進化”的飛輪效應,海量用戶在線使用和大規模API調用集成等都需要在線化的算力資源。這種集約化、在線化的需求,與公共云集中建設運維、彈性伸縮、按需服務的商業模式不謀而合。

“云是大模型最好的承載方式,也是訓練和應用大模型的最佳平臺。”宋丹丹指出,一方面,云上具備領先的軟硬件架構、面向未來的技術架構和研發體系。對AI企業而言,從本地搭建服務器架構可能不是一個合適的選擇。借助云上豐富的能力和產品,如云上的算力、網絡、向量數據庫,企業可以聚焦于大模型研發本身,業務開發的敏捷度也能進一步提升。另一方面,打造大模型需要的算力規模,對企業現金流的挑戰很大。云上的算力形式,可以根據用戶需求靈活分配計算資源,同時也提升了大模型的訓練和推理效率。

孫思清認為,公有云集約化的特點有助于算力共享模式的實現。大模型的訓練并不是一直滿負荷進行的,空閑的時候,可以利用云的模式將算力池化,與其他有算力需求的企業共享。但同時他也指出,現實操作起來存在困難,數據歸屬、隱私保護、合規性等問題都需要考慮。

他表示,算力可以當作“水電”來用,但數據不可以。“水電”能動,但“水廠”“電廠”不能動,分布式算力并不能適用所有場景。此外,算力互聯還需建立標準化的運營體系,算力如何計量、如何付費、如何結算都需要探討。

張云泉表示,具體問題要具體分析,不能一概而論。幾十億參數規模的大模型放在云上可以,幾百億、上千億規模的大模型肯定不行。中等規模以下的智算中心可以部署在公有云上,但大規模的智算中心如果部署在公有云上,網絡延遲會很大,難以支撐高端計算。另外,運營商也會考慮到用云成本以及上云后是否會被云廠商“鎖定”等問題。

他認為,優化算力調度不能光靠算力網絡的互聯互通來解決問題。首先要盡快推進接口協議,定義標準、建立標準;其次要優化算力調度管理軟件,同時建設安全體系;此外,要選擇成熟芯片和生態完善的技術路線,這樣智算中心用起來效率才能達到比較高的水平。建議組建生態聯合體,共同打造1~2個大規模的智算中心,協同訓練少數幾個通用大模型,共享算力資源。”

“未來,大模型將走向相對開放的生態,開源是一個重要趨勢。”孫思清說道。他建議,政府層面應做好算力資源的統籌,重點聚焦合規性管控和集約化建設,把握好節奏,避免“一窩蜂”導致大量算力的浪費。企業層面應持續加打技術創新與場景實踐力度,分工合作,協同發展。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 運營商
    +關注

    關注

    4

    文章

    2392

    瀏覽量

    44377
  • AI
    AI
    +關注

    關注

    87

    文章

    30146

    瀏覽量

    268421
  • 算力
    +關注

    關注

    1

    文章

    928

    瀏覽量

    14744
  • 大模型
    +關注

    關注

    2

    文章

    2328

    瀏覽量

    2486

原文標題:模型“狂歡”之下, 算力之困何解?

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    中國大會召開,業界首個高質量評估體系發布

    首次完整地構建了人工智能時代高質量的理論體系,并探索性提出業界首個 "五位一體"的高質量評估體系。 發布現場 在當前由大模型和AIG
    的頭像 發表于 09-28 16:50 ?235次閱讀
    中國<b class='flag-5'>算</b><b class='flag-5'>力</b>大會召開,業界首個<b class='flag-5'>算</b><b class='flag-5'>力</b>高質量評估體系發布

    中國智能汽車騰飛,為什么異構是第一生產

    智能時代的“世紀車”,異構是第一驅動力
    的頭像 發表于 09-14 10:32 ?3579次閱讀
    中國智能汽車騰飛,為什么異構<b class='flag-5'>算</b><b class='flag-5'>力</b>是第一生產<b class='flag-5'>力</b>?

    淺析三大異同

    隨著一年多前ChatGPT的出現引爆人工智能(AI)浪潮,支撐大模型背后的“”概念突然闖進我們的視野,成為科技圈炙手可熱的新詞,引領著最新潮流。作為數字經濟時代新生產,也許不少人
    的頭像 發表于 08-30 12:56 ?634次閱讀
    淺析三大<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>之</b>異同

    摩爾線程GPU底座助力大模型產業發展

    以大模型為代表的新一代人工智能技術是引領新一輪科技革命和產業變革的戰略性技術和重要驅動力量,隨著對需求的日益高漲,人工智能底座公司日
    的頭像 發表于 08-27 16:15 ?579次閱讀

    模型時代的需求

    現在AI已進入大模型時代,各企業都爭相部署大模型,但如何保證大模型,以及相關的穩定性和性能,是一個極為重要的問題,帶著這個極為重要的問
    發表于 08-20 09:04

    名單公布!【書籍評測活動NO.41】大模型時代的基礎架構:大模型中心建設指南

    工作日內未聯系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎,是針對其需求設計的及基礎架構。本書針對如何為大
    發表于 08-16 18:33

    摩爾線程張建中:以國產助力數智世界,滿足大模型需求

    摩爾線程創始人兼CEO張建中在會上透露,為了滿足國內對AI的迫切需求,他們正在積極尋求與國內頂尖科研機構的深度合作,共同推動更大規模的AI智集群項目。
    的頭像 發表于 05-10 16:36 ?889次閱讀

    力系列基礎篇——101:從零開始了解

    相信大家已經感受到,我們正處在一個人工智能時代。如果要問在人工智能時代最重要的是什么?那必須是:
    的頭像 發表于 04-24 08:05 ?1002次閱讀
    <b class='flag-5'>算</b>力系列基礎篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:從零開始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    液冷是大模型需求的必然選擇?|英偉達 GTC 2024六大亮點

    在這個以高性能計算和大模型推動未來通用人工智能時代,已成為科技發展的隱形支柱。本文將重點探討的演進,深入分析在不同領域中
    的頭像 發表于 04-10 12:57 ?507次閱讀
    液冷是大<b class='flag-5'>模型</b>對<b class='flag-5'>算</b><b class='flag-5'>力</b>需求的必然選擇?|英偉達 GTC 2024六大亮點

    數據語料庫、算法框架和芯片在AI大模型中的作用和影響

    數據語料庫、算法框架和芯片的確是影響AI大模型發展的三大重要因素。
    的頭像 發表于 03-01 09:42 ?985次閱讀

    能RADXA微服務器試用體驗】Radxa Fogwise 1684X Mini 規格

    ChatGLM2-6B、AIGC、Llama2、SAM、Whisper等超大參數模型 還有一份詳細的英文的規格表: 另外,能RADXA微服務器服務器,還是大學生集成電路創新創業大賽# 第八屆集創賽杯賽題目
    發表于 02-28 11:21

    Sora需求引發業界對集結國內AI企業的探討

    據周鴻祎觀察,Sora視頻分析所需恐遠超千億規模模型。因而,考慮到如今國內芯片供應受限,問題至關重要。事實上,Meta已有約50萬臺
    的頭像 發表于 02-25 10:03 ?548次閱讀

    智能規模超通用,大模型對智能提出高要求

    電子發燒友網報道(文/李彎彎)是設備通過處理數據,實現特定結果輸出的計算能力,常用FLOPS作為計量單位。FLOPS是Floating-point Operations Per Second
    的頭像 發表于 02-06 00:08 ?6113次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發布于 :2024年01月25日 14:54:52

    AGI時代的奠基石:Agent++大模型是構建AI未來的三駕馬車嗎?

    AI Agent的訓練離不開,服務器作為一個強大的計算中心,為AI Agent提供基礎,支持其進行復雜計算和處理大規模數據的任務,包括模型
    的頭像 發表于 12-21 13:34 ?1143次閱讀
    AGI時代的奠基石:Agent+<b class='flag-5'>算</b><b class='flag-5'>力</b>+大<b class='flag-5'>模型</b>是構建AI未來的三駕馬車嗎?