日前,2023全球人工智能產品應用博覽會在蘇州開幕。浪潮信息智能業務生產創新平臺AIStation憑借領先的資源調度與平臺管理能力,有效提升大模型算力平臺使用效率,榮獲智博會核心獎項“產品金獎”。此次獲獎,不僅體現了AIStation在大模型算力與業務支撐方面的領先性,也體現了產業對大模型算力平臺效率的高度關注。
當前,以大模型為代表的生成式AI技術正在加速發展并革新各行業智能轉型路徑。生成式AI創新需要基于海量數據集,在擁有成百上千加速卡的AI服務器集群上對千億級參數的AI大模型進行分布式訓練。如何發揮大模型算力平臺效能、抑制性能損耗,以高效完成AI大模型的訓練部署,已成為AIGC時代的新挑戰。
作為專為人工智能開發和部署提供全流程支持的端到端平臺,AIStation能夠以強大的資源調度和管理能力助力客戶加速AI大模型開發與部署,通過對計算資源、數據資源、深度學習軟件棧資源進行統一管理,有效提升大模型AI算力集群的使用效率。
一站式管理、毫秒級調度,集群利用率達70%
大模型訓練需要構建包含計算、網絡、存儲、框架等在內的系統性分布式訓練環境,傳統的分散化管理不僅門檻高、效率低,且缺少針對性優化的整體調度系統,導致大模型計算平臺的整體協同性較差,訓練算力效率低。
針對分布式訓練計算規模大、系統性強的特點,AIStation實現了異構算力集群的統一池化管理,通過自研分布式任務自適應系統將訓練底層的計算、存儲、網絡環境自動化配置,并提供自定義修改基本超參數功能。通過多種資源高效管理和調度策略,AIStation能實現萬卡集群的毫秒級調度,提升整體資源利用率到70%以上。
同時,AIStation集成主流的大模型訓練框架,依托容器化技術,能夠將運行環境、框架適配過程標準化、模塊化,支持秒級構建運行環境,保障AI開發和AI業務的高效運行。
瓶頸優化、穩健容錯,全流程加速大模型訓練
針對大規模分布式訓練過程中遇到的算力網絡搭建、數據加速、網絡通信優化等瓶頸,AIStation通過鏡像分發加速、數據緩存加速、網絡拓撲調度、資源動態彈性伸縮等特性,在提高計算資源利用率的同時加速整個訓練過程。其中,AIStation通過數據緩存機制可讓模型訓練效率獲得200%-300%的提升,并能夠根據節點的數據緩存情況自動調度訓練任務,避免訓練數據重復下載,節省數據加載時間,與自研調度系統配合后,分布式訓練線性加速比能夠高達0.9,有效抑制多節點協同的性能損耗。
健壯性與穩定性是目前高效完成大模型訓練的強要求。對此,AIStation通過提供全生命周期管理、故障容錯、集群監控運維等一體化能力,能夠實現訓練異常和故障的全面檢測和自動處理,有效縮短斷點續訓時間,降低復雜度,以持續穩定的訓練降低大模型訓練成本和周期。
高效調用,釋放大模型應用價值
針對大模型訓練完成后的應用部署,AIStation實現訓練和推理的全打通,加快模型應用落地。針對大模型實際應用中的調用突發性,AIStation可根據推理服務資源需求的變化及時調整資源配給,根據實時業務的請求量實現秒級服務擴縮容,可支持百萬級高并發的大模型AI推理服務場景,服務響應平均延遲低于1ms,突發的訪問高峰的響應效率提升50%。
目前,AIStation已經在2457億參數的“源”大模型訓練實踐中得到有效驗證,支撐 “源”大模型的訓練算力效率達44.8%,高于GPT-3的21.3%。同時,某大型商業銀行基于AIStation打造的并行運算集群,憑借領先的大規模分布式訓練支撐能力,榮獲2022IDC“未來數字基礎架構領軍者”獎項。未來, AIStation平臺將持續為各行業的大模型開發與部署提供高效的算力平臺管理能力,加速AIGC技術迭代革新。
-
人工智能
+關注
關注
1787文章
46060瀏覽量
234947 -
算力
+關注
關注
1文章
836瀏覽量
14567 -
大模型
+關注
關注
2文章
2134瀏覽量
1970
原文標題:【開放試用】AIStaiton,有效提升大模型算力平臺效率
文章出處:【微信號:浪潮AIHPC,微信公眾號:浪潮AIHPC】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論