當前,生成式AI(AIGC)已經成為AI產業化發展的主戰場,隨著大模型參數量和數據量的爆發式增長,多源異構數據的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一。為了化解生成式AI的數據存儲與管理瓶頸,浪潮信息在"數智未來"AIGC數據應用創新論壇上,正式發布面向生成式AI的存儲解決方案,該方案以極致融合、極致性能、極致節能,和熱溫冷冰四級數據全生命周期管理,助力開啟生成式AI新局面,創造智慧時代新機遇。
生成式AI亟待突破多源異構和存儲性能瓶頸
生產式AI是人工智能從1.0時代進入2.0時代的重要標志,其具備強大的認知智能,在搜索引擎、藝術創作、影音游戲,以及金融、教育、醫療、工業等領域有著廣闊的應用前景。Gartner預測,到2023年將有20%的內容被AIGC所創建;到2025 年人工智能生成數據占比將達到10%。據分析師預測,到2032年,生成式人工智能市場規模將達到2,000億美元,占據人工智能支出總額的約20%,顯著高出當前的5%。換言之,未來十年市場規模可能每兩年就會翻一番。
生成式AI主要應用場景涵蓋文本生成、語音生成、圖片生成、視頻生成、代碼生成、虛擬人生成等,在每種應用的背后是基于行業上下游對數據進行采集、標注、訓練、推理、歸檔,其特征是數據量大、多元數據類型復雜、服務協議多樣、性能要求苛刻、要求服務持續在線。生成式AI對數據存儲提出如下挑戰:
異構數據的融合:生成式AI訓練模型的數據呈現來源多、格式多的多源異構現狀,傳統存儲面向單一數據類型設計,需要以搬移數據的方式實現多協議訪問,存儲成為應用平臺的關鍵瓶頸;
持續的低延遲與高帶寬:模型訓練過程中,頻繁地從數據集取Token,每個Token一般4字節,實時高并發小IO性能需要極低的延遲;存儲模型Checkpoint時,為Checkpoint數據可快速寫入,需要高帶寬;
EB級大容量存儲需求:越多的數據投喂結果越精準的工作原理,決定了大模型訓練存在深度學習網絡層數多、連接多、參數和數據集種類復雜、數據量大的特征,隨著模型參數和數據量的快速增長,對于存儲的大容量和擴展需求也迫在眉睫。
數據存儲產業需要進行全方位的技術升級,通過在多源異構融合、數據高速傳輸、海量數據管理等方面持續創新,打造專業的生成式AI存儲產品與解決方案。
浪潮信息讓生成式AI智慧有數
浪潮信息是最早布局大模型的企業之一,打造了算力、算法、數據全棧的解決方案能力。在數據存儲領域,浪潮信息準確識別行業痛點、積極布局,經過持續攻關,在融合存儲架構、系統性能設計、數據全生命周期管理算法等方面不斷突破,打造出生成式AI存儲解決方案。
浪潮信息生成式AI存儲解決方案基于AS13000融合存儲系統,可以支撐AIGC產業上中下游業務應用,并針對不同業務階段的數據存儲需求,提供熱溫冷冰四級存儲,實現數據在各級存儲間自動流轉。用高性能節點形態來滿足數據訓練、數據推理兩個階段的高帶寬、低延時、高并行讀寫性能存儲需求,用大容量節點形態來滿足數據采集、數據準備、數據歸檔三個階段的海量多元數據存儲需求,方案具備極致融合、極致性能、極致節能三大能力,以及熱、溫、冷、冰四級數據全生命周期存儲管理能力,助力生成式AI突破海量數據存力瓶頸,加速釋放數據的價值。
極致融合。為了應對不同模態的多樣性需求,浪潮信息提出"協議互通、數據融合"設計理念,一個集群內支持多個存儲池,一個存儲池內支持文本、圖片、音頻、視頻等多種類型數據存儲,一份數據又可以被前端不同業務場景同時以文件、對象、大數據、視頻四種存儲協議進行并行訪問。用一套存儲實現支持多模態場景應用,免除了數據跨應用時的復制,實現真正意義上非結構化數據的協議互訪互通,讓數據融合。
極致性能。AIGC場景數據類型多樣化,文件大小不一、數量多,且讀寫頻繁,對存儲系統的百GB級高帶寬、百萬級IOPS需求成了常態。浪潮信息在軟件方面,通過數控分離架構減少東西向數據量的轉發,通過GDS、RMDA技術縮短I/O路徑,通過SPDK、緩存零拷貝技術減少I/O路徑上的數據拷貝,以及基于自研NVMe SSD開發的盤控協同技術,減少I/O訪問SSD盤的次數,使存儲性能得到進一步釋放。在硬件方面,優化IO路徑通道,均衡IO路徑,最大化發揮硬件性能,全閃單節點帶寬超過50GB/s,IOPS超過50萬;此外,創新性地引入雙控全閃節點,帶寬超100GB/s,IOPS超100萬,真正使系統具備千萬級IOPS、EB級帶寬,充分滿足AIGC場景對存儲系統的苛刻要求。
極致節能。浪潮信息近期最新發布了G7硬件平臺,存儲專用的液冷服務器涵蓋性能型和容量型,且均采用模塊化冷板組件設計模式。在系統方案層面,浪潮信息具有風液式、液液式等完善的端到端解決方案,能夠為用戶全方位打造液冷數據中心交鑰匙工程,并且完成了業界首次液冷整機柜批量交付,實現PUE<1.1。
端到端的數據全生命周期管理。除了三大"極致"能力之外,得益于"資源互通、管理融合"的設計理念,浪潮生成式AI存儲方案基于閃存、磁盤、磁帶、光盤四種介質提供熱溫冷冰四種存儲資源,通過資源互通實現數據全生命周期管理。基于數據的熱度識別,自動釋放在線存儲空間,可以將海量數據自動歸檔到光盤庫,降低長期存儲成本;實現冷數據的分鐘級快速回調,滿足0~4級應用的存儲需求。四種介質、四類存儲節點,提供熱溫冷冰自動流轉,滿足各類應用的靈活配置需求,通過性能型、均衡型、容量型、高密容量型四種機型的按需靈活配置,進一步降低整體投入。
目前,浪潮信息生成式AI存儲解決方案已經在全球領先的中文語言大模型"源1.0"中成功落地,面對千億級參數量和數據量帶來的挑戰,浪潮信息通過AS13000高吞吐并行存儲系統實現了多存儲協議互通、數據融合,利用全閃的極致性能,助力"源1.0"大模型實現了16天完成訓練的超高效率。國內AI獨角獸公司采用浪潮信息提供的并行文件存儲,承載5000億參數量的NLP語言類大模型的數據集Token和CheckPoint文件,輕松應對大/小文件的讀寫挑戰,配置AS13000全閃存儲集群,支持高性能RocE組網和GPU直通存儲功能,帶寬超過300GB、存儲性能超過350萬 IOPS,保證存儲集群的高可用與敏捷擴容。
面對生成式AI掀起的變革熱潮,誰能掌握數字化變革的先機,誰就能把握未來AI革命的致勝關鍵,而數據底座將成為千行百業創新變革的重要基石。浪潮信息存儲秉承"存儲即平臺"的產品理念,精耕數據存儲產品與解決方案,攜手合作伙伴,助力生成式AI在金融虛擬客服、圖片編輯設計、智能駕駛、跨模態檢索等場景的落地,激活數據要素新潛能,駕馭智慧化轉型新趨勢,在機遇與挑戰并存的新格局下,為行業轉型注入新價值、新動能。
審核編輯:湯梓紅
-
存儲
+關注
關注
13文章
4261瀏覽量
85669 -
浪潮
+關注
關注
1文章
450瀏覽量
23814 -
AI
+關注
關注
87文章
30106瀏覽量
268399 -
生成式AI
+關注
關注
0文章
487瀏覽量
459
發布評論請先 登錄
相關推薦
評論