“百模大戰”愈演愈烈,AI產業化前夜似乎已在不知不覺中來臨。海量數據爆發,計算量指數級增長,傳統基礎設施架構下的算力已經無法滿足模型時代的需求。據OpenAI測算,全球AI訓練所用的計算量呈現指數級增長,平均每3.43個月便會增長一倍,目前計算量已擴大30萬倍,遠超算力增長速度。國家信息中心聯合浪潮信息發布的《智能計算中心創新發展指南》顯示,當前我國超過30個城市正在建設或提出建設智算中心,但仍然無法滿足相關需求。模型建設究竟需要多少算力?如何更大程度挖掘出現有算力的潛力?又該如何通過優化資源調度讓算力價值最大化?模型“狂歡”之后,是時候回歸“冷靜”了。
01. 供需失衡下的算力之困
打造一個AI大模型究竟需要多少算力?公開數據顯示,ChatGPT初始所需的算力就是1萬塊英偉達A100(一種AI芯片),價格超過7億元。后續的調優訓練每天消耗算力大概是3640PFLOPS,需要7至8個算力達500PFLOPS的數據中心支持,建設成本約為三、四十億元。
“大模型的用戶量、訪問速度、網絡帶寬、訓練模式等都會影響到其算力需求的大小。”中國科學院計算技術研究所研究員張云泉在接受《中國電子報》記者采訪時表示,“要訓練一個中國版的ChatGPT,首先要部署價值至少7億元的硬件設施,還要準備大筆訓練調優的費用。”
騰訊云異構計算產品負責人宋丹丹對《中國電子報》記者介紹稱,大模型對算力的要求分為訓練和推理兩個階段。訓練需要短時間內的并行算力,而且要在短時間內能夠做到交付,對算力的量、算力的穩定性和性能、彈性擴縮容能力有高要求。進入推理階段,對于單位算力的性價比、成本、算力所處的位置、端應用服務是否能夠快速連接等要求比較高。這就要求企業具備海量的可擴縮容的高性能算力,并且這些算力能夠穩定交付。
近日,廣發證券對國內AI大模型的訓練和推理階段算力需求,以及相應的成本進行了測算。結果顯示,在暫不考慮軟件層面算法優化帶來的模型消耗算力成本下降的前提下,國內大模型在訓練與推理階段或將產生相當于1.1萬臺或3.8萬臺(樂觀假設下)高端AI服務器的算力需求,以單片A100售價10萬元、AI加速卡價值量占服務器整機約70%計算,則對應約126億元或434億元增量AI服務器市場規模。
“實際上,算力之困已經爆發了。”張云泉坦言,國內目前大模型存在技術水平不高、同質化等問題,主要是算力層面和國外差距比較大,沒有算力基礎,后面算法等都無法進一步發展。大模型企業不是不愿意盡快更新迭代,而是算力不夠用,只能精打細算。
浪潮云首席技術官孫思清在接受《中國電子報》記者采訪時表示,從通用算力到智能算力,算力需求的變化其實與場景需求密切相關。伴隨模型參數規模越來越大,智能化程度越來越高,對并行計算能力以及包括存儲、網絡等在內的底層基礎硬件能力,以及擴展性、靈活性的要求也越高。此外,算力還要與大模型本身進行更好的適配。
模型層出不窮,智能算力需求隨之激增。據一些服務器廠商透露,目前智算服務器出貨量已經超過通用CPU。不過,孫思清表示,未來,隨著軟硬件升級和大模型核心技術的提升,同等規模的大模型所需算力也許會逐漸減少。
實際上,不只是大模型,人工智能應用已無處不在。這些看得見的應用背后,皆是看不見的智能算力在支撐。如何破解算力供需失衡的新課題?業內專家普遍認為,要做“加法”,也要做“減法”。
02. 做“加法”:軟硬皆施,提升利用率
“我國算力的利用率只有30%。”中國工程院院士鄔賀銓坦言。工信部最新數據顯示,中國算力總規模居全球第二,保持30%左右的年增長率。新增算力設施中,智能算力占比已超過50%。在多個權威市場分析機構的排名中,美國和中國都屬于算力的領跑者,主要差距在于計算效率和應用水平。
提升算力供給能力是重中之重。“不同于超算需要的64位雙精度浮點運算,智能算力多為32及以下的低精度運算,它是分階段的,可以通過硬件加速來實現算力提升。”張云泉表示。比如,隨著數據量的增長和計算任務的復雜化,CPU、GPU需要具備更高的計算和處理能力,存儲器需要具備更大的容量和更快的讀寫速度。同時,算力提升還需要更大的網絡帶寬、速度更快的網絡設備,從而更快地完成大規模數據傳輸和處理。
“硬件層面,CPU、GPU等核心硬件的性能越來越高,將有效提升算力供給能力;軟件層面,模型算法和計算框架的優化,也能緩解一定的算力壓力,減少對算力的依賴。”孫思清表示。這“一增一減”之間,算力供需平衡將找到新的出路。
“智算即異構計算。相對于只用CPU的通用計算,在服務器里CPU+GPU就是異構計算。背后的邏輯,是讓最適合的專用硬件去做最適合的事。”宋丹丹表示,“對于整個算力的優化是分層級解決的。除了計算資源自身的架構和性能提升,也就是卡的迭代外,我們會在虛擬化層,通過GPU虛擬化或者計算池化等等一系列的技術,把算力做更多的多機多卡互聯,然后把它以云服務、容器、Serverless或者實例的模式更靈活地對外使用。在平臺層,通過任務流的模式,以深入上層服務的方式進一步優化計算效率。”
鄔賀銓指出,降低算力使用門檻,才能讓更多企業用得上、用得起現有的算力資源。目前國外有些企業已經把硬件服務器資源開放出來,也包括算力、算法的模型平臺。而在國內,百度、阿里、華為等大企業也已開放平臺,這意味著中小企業只要有意愿需求,都可以利用這些平臺做數據訓練。“目前國內已經意識到要讓算力更簡單、降低算力使用門檻的趨勢。”他說道。
03. 做“減法”:化繁為簡,優化資源調度
要讓算力發揮更大價值,除了提升現有算力利用率,還可以通過簡化算力資源匹配與調度過程的方式實現事半功倍的效果。
日前,復旦大學率先選擇將智能計算平臺CFFF部署在公有云上。據復旦大學“浩清”教授、人工智能創新與產業研究院院長漆遠透露,有賴于公共云模式,跑在CFFF平臺上的項目可享受到超千卡并行的智能算力,千卡并行的有效算力達到行業領先的92%,可拓展性達到萬卡,萬卡并行有效算力也可達90%。
中國工程院院士、阿里云創始人王堅指出,從計算到智算,公共云提供的是像電一樣的計算服務,把算力基礎設施部署在公共云上將加速推動產業步入開放發展的新階段。在他看來,AI大模型的訓練和運營需要集約化、在線的算力基礎設施。集約化的算力基礎設施是基礎支撐,要求更高的計算并行性、更高的計算效率、更低的計算成本,并且要求適配各類專用計算芯片。在線化對算力提出更高要求,從模型訓練和應用看,需要形成“用戶膨脹、使用反饋、模型進化”的飛輪效應,海量用戶在線使用和大規模API調用集成等都需要在線化的算力資源。這種集約化、在線化的需求,與公共云集中建設運維、彈性伸縮、按需服務的商業模式不謀而合。
“云是大模型最好的承載方式,也是訓練和應用大模型的最佳平臺。”宋丹丹指出,一方面,云上具備領先的軟硬件架構、面向未來的技術架構和研發體系。對AI企業而言,從本地搭建服務器架構可能不是一個合適的選擇。借助云上豐富的能力和產品,如云上的算力、網絡、向量數據庫,企業可以聚焦于大模型研發本身,業務開發的敏捷度也能進一步提升。另一方面,打造大模型需要的算力規模,對企業現金流的挑戰很大。云上的算力形式,可以根據用戶需求靈活分配計算資源,同時也提升了大模型的訓練和推理效率。
孫思清認為,公有云集約化的特點有助于算力共享模式的實現。大模型的訓練并不是一直滿負荷進行的,空閑的時候,可以利用云的模式將算力池化,與其他有算力需求的企業共享。但同時他也指出,現實操作起來存在困難,數據歸屬、隱私保護、合規性等問題都需要考慮。
他表示,算力可以當作“水電”來用,但數據不可以。“水電”能動,但“水廠”“電廠”不能動,分布式算力并不能適用所有場景。此外,算力互聯還需建立標準化的運營體系,算力如何計量、如何付費、如何結算都需要探討。
張云泉表示,具體問題要具體分析,不能一概而論。幾十億參數規模的大模型放在云上可以,幾百億、上千億規模的大模型肯定不行。中等規模以下的智算中心可以部署在公有云上,但大規模的智算中心如果部署在公有云上,網絡延遲會很大,難以支撐高端計算。另外,運營商也會考慮到用云成本以及上云后是否會被云廠商“鎖定”等問題。
他認為,優化算力調度不能光靠算力網絡的互聯互通來解決問題。首先要盡快推進接口協議,定義標準、建立標準;其次要優化算力調度管理軟件,同時建設安全體系;此外,要選擇成熟芯片和生態完善的技術路線,這樣智算中心用起來效率才能達到比較高的水平。建議組建生態聯合體,共同打造1~2個大規模的智算中心,協同訓練少數幾個通用大模型,共享算力資源。”
“未來,大模型將走向相對開放的生態,開源是一個重要趨勢。”孫思清說道。他建議,政府層面應做好算力資源的統籌,重點聚焦合規性管控和集約化建設,把握好節奏,避免“一窩蜂”導致大量算力的浪費。企業層面應持續加打技術創新與場景實踐力度,分工合作,協同發展。
-
運營商
+關注
關注
4文章
2392瀏覽量
44377 -
AI
+關注
關注
87文章
30146瀏覽量
268421 -
算力
+關注
關注
1文章
928瀏覽量
14744 -
大模型
+關注
關注
2文章
2328瀏覽量
2486
原文標題:模型“狂歡”之下, 算力之困何解?
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論