精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI狂飆突進,存力需作先鋒

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2023-06-03 09:43 ? 次閱讀

5月30日,在2023中關村論壇成果發布會上,《北京市加快建設具有全球影響力的人工智能創新策源地實施方案(2023-2025年)》正式發布。《實施方案》要求,支持創新主體重點突破分布式高效深度學習框架、大模型新型基礎架構等技術,著力推動大模型相關技術創新。

這被業界視為中國將強力推動大模型發展的又一力證。事實上,近期從中央各部委到地方省、市,對于發展AI技術,把握大模型機遇的政策傾斜度不斷上升,無論是政策出臺密度還是整體戰略高度,都達到了驚人的水平。

有理由相信,中國將實現一場以大模型為突破點的AI狂飆突進。自2017年開啟新一代人工智能發展戰略以來,中國將在目前機遇窗口中得到再發展,推動AI產業全面爆發。

我們都知道,抓住AI發展機遇,需要以技術突破與基礎設施建設為基礎,而提到AI產業的基礎設施,普遍會提到AI芯片、深度學習框架、預訓練大模型,卻經常會忽略另一個關鍵問題:大模型將帶來巨大的數據壓力,數據存儲也是AI發展進程中的支柱。

ChatGPT是這一輪AI爆發的引線,而接下來大模型規模化應用帶來的數據難題,其實也早已寫在了ChatGPT當中。

面對這種即將到來的壓力,中國存力準備好了嗎?

從ChatGPT看AI崛起帶來的數據挑戰

從2018年谷歌發布BERT,業界開啟了預訓練大模型之路。大模型的特點是訓練數據規模與模型參數龐大,這將給存儲帶來嚴峻考驗,這一點在ChaGPT中也展現無疑。

預訓練大模型所謂的“大”,體現在模型的深度學習網絡層數多、鏈接多、參數復雜,以及訓練所用數據集種類更復雜,數據數量更豐富。在深度學習算法剛剛誕生時,主流模型只有幾百萬參數,而BERT發布時模型參數就已經過億,將深度學習推進到了大模型階段。到了ChatGPT這個階段,主流模型已經有幾千億參數,甚至業界已經開始規劃萬億模型。幾年時間里,AI模型的參數提升幾千倍,如此龐大的數據與模型都需要進行存儲,這就成了AI爆發給存儲的第一大考驗。

此外,大家目前會廣泛提到AI大模型采用了全新的模型結構,因此對非結構化數據會有更好的吸收效果與魯棒性,這對于AI最終效果非常重要,但也帶來一個衍生問題:我們需要妥善處理存儲和調用海量的非結構化數據。比如說,ChatGPT在升級后加入了識圖等多模態能力,因此其訓練數據也需要在文本基礎上加入大量圖片,再比如自動駕駛車輛,每天要將大量實地測試視頻存儲起來作為模型訓練依據。這些非結構化數據,帶來了AI相關數據的海量增長,也帶來了存儲和處理這些數據的難題。

據統計,當前全球新增數據有80%都是非結構化數據,年復合增長率達到38%,應對多元化的數據激增,已經成為大模型時代必須克服的困難。

還有一個問題,大模型往往需要頻繁讀取和調用數據。ChatGPT的數據訪問使用量達到單月17.6億次,平均響應速度在10秒以內,并且AI模型的工作流程包括采集、準備、訓練、推理四部分,每個階段需要讀寫不同類型的數據。因此,大模型對存儲性能也帶來了要求。

此外,圍繞ChatGPT展開的一系列數據主權、數據保護爭議,也提醒我們AI大模型帶來了數據安全方面新的風險。試想一下,如果不法分子攻擊數據庫,從而令大語言模型生成錯誤信息欺騙用戶,其危害結果既嚴重且隱蔽。

綜合來看,ChatGPT雖好,但其對數據存儲的規模、性能、安全等方面都提出了挑戰。當我們致力于發展大模型和類ChatGPT應用的時候,存儲這關不得不過。

中國存力,準備好了嗎?

最近幾年,我們都在說算力就是生產力。但有算就要有存,存力的極限,也決定了數字化生產力發展的上限。

那么,在接下來必然出現的中國大模型狂飆突進中,中國存力是否已經做好準備了呢?很遺憾,從幾個方面來看,今天中國存力的準備依舊不充分,需要進一步升級和發展。我們可以一同來關注一下中國存力存在的幾個問題,看看他們是否對應了大模型帶來的數據壓力。

1.存力規模不足,限制AI產業發展上限

大模型將帶來海量數據,那么第一要務就是將這些數據進行妥善存儲。但在目前階段,中國依舊有著存力不夠,大量數據甚至無法進入存儲階段的問題。從2022年數據來看,中國數據生產量已經達到了驚人的8.1ZB,位居全球第二。但中國存力規模只有1000EB左右,這意味著數據可存儲率僅為12%,絕大多數數據無法得到有效保存。當中國已經明確數據作為第五生產要素的地位,智能化發展需要依靠數據、充分利用數據,卻有海量數據難以完成保存,這之間的問題不可謂不嚴重。中國仍然需要保持高速、大規模的存力增長,才能把握大模型帶來的AI技術發展機遇。

2.海量數據沖擊下,管理效率和存取效率低

上文討論過,AI大模型帶來的主要數據挑戰,是海量數據的管理效率和處理存取效率低。提升存取效率,要求數據以高效率、低能耗的方式完成存寫,但目前在中國仍然有75%的數據在使用機械硬盤。相對于閃存盤,機械硬盤容量密度低、數據讀取慢、能耗高、可靠性差,相對來說,全閃存具有高密度、低能耗、高性能、高可靠的一系列優點,但中國全閃存替換依舊有較長的一段路要走。

3.多重數據隱憂,導致存儲安全形勢嚴峻

數據安全問題,已經成為AI公司乃至AI產業迫切關注的問題。在2020年美國的Clearview AI公司發生數據安全事故,造成2000多家客戶的30億條數據泄露。這個案例向我們展現了AI產業的數據安全形勢十分嚴峻,我們必須從數據存儲階段開始重視安全。尤其當AI大模型在國計民生中扮演的角色愈發重要,就更需要存儲提升安全能力,以應對各種可能存在的風險。

客觀來看,中國存力已經保持了較高的發展速度,但在整體規模、全閃存占比以及技術創新能力上,依舊具有一定程度的不足。一場面向產業智能化需求與AI大規模落地的存儲升級已經時不我待。

面向智能時代,存儲產業的機遇與方向

結合ChatGPT所代表的AI大模型帶給存儲的壓力,以及中國存力本身的發展現狀,我們可以很清晰得出一個結論:中國存儲必須支撐AI崛起,完成大規模的升級。

我們可以清晰看到存儲產業的發展方向,這些方向的急迫性與廣闊空間,構成了存儲產業的重大機遇。

首先,需要擴大存力規模,加速全閃存建設。

全閃存替換機械硬盤的“硅進磁退”,是存儲產業多年來的整體發展趨勢。面對AI崛起的產業機會,中國存儲產業需要加快全閃存替代的實施與落地,最大化發揮出全閃存高性能、高可靠等優勢,以應對AI大模型帶來的數據存用需求。

此外,還必須注意的一點是全閃存化分布式存儲的機會正在加大。隨著AI大模型的崛起,非結構化數據的爆發,數據重要性正在顯著提升,同時AI已經深入到大型政企的生產核心,更多企業用戶傾向進行本地化的AI訓練,并且采用基于文件協議的數據存儲,而不是數據放到公有云平臺,這就導致分布式存儲的需求得到提升和加強。

二者結合,持續快速推動存儲產業的全閃化落地,就成為了中國存儲產業發展的核心賽道。

其次,需要提升存儲技術創新,適配AI模型的發展需求。

上文提到,AI帶來的數據考驗不僅僅是數據規模大,更是數據復雜性與應用流程多樣性的挑戰,因此存儲的先進性必須得到進一步提升。比如說,為了應對AI頻繁的數據訪問需求,存儲的讀寫帶寬和訪問效率都需要進行升級。為了配合AI大模型的數據需求,存儲產業需要進行全方位的技術升級。

在數據存儲格式方面,傳統的數據格式,比如“文件”“對象”,最初的設計意圖并不是匹配AI模型的訓練需求,并且非結構化數據的數據格式不統一,使得在AI模型調用數據的過程中,會產生大量對文件格式進行重新理解、對齊的工作,進而造成模型運行效率下降,訓練算力消耗增多。

為此,就需要在存儲側形成新的“數據范式(Data Paradigm)”。以自動駕駛訓練為例,不同類型的數據都參與到了數據訓練的進程當中,如果在存儲側采用了新的數據范式,就可以幫助各種數據統一起來,更好地適配到AI模型訓練當中,從而加速自動駕駛車輛的訓練工作。打個比方,如果把AI想象為一種新的動物,它需要吃一種新的飼料,如果把傳統格式的數據喂給它,就會產生消化不良的問題,而新數據范式,就是在存儲側構筑完全適合AI的數據,從而讓“喂養AI”的過程絲滑順暢。

在AI開發工作中,數據管理的工作量占比巨大,不同數據集之間還會存在數據孤島問題,而數據編織技術能夠效應對這些問題。通過數據編織,可以讓存儲內置數據分析能力,把物理邏輯上散布的數據整合起來,形成全局視圖化的數據調度和流動能力,從而有效管理AI帶來的海量數據,達成數據利用效率的提升。

這些存儲側的技術創新,可以讓數據存力與AI發展形成更加緊密的契合關系。

此外,需要將安全能力納入存儲本身,強化主動安全能力。

伴隨著AI發揮的價值越來越大,數據安全問題帶給企業用戶的損失也更多。因此,企業必須提升數據安全能力。其中最重要的一點是要提升數據韌性,讓存儲本身具有安全能力,從源頭上守護數據安全。接下來,更多數據韌性能力將被內嵌到數據存儲產品中,例如勒索檢測、數據加密、安全快照和AirGap隔離區恢復特征等。

值得注意的是,目前業界已經有了面向AI大模型崛起,進行存儲全面升級的探索與嘗試。華為存儲通過高質量的全閃存產品,融合先進的存儲技術、內嵌的安全能力,實現了存儲創新與AI發展的緊密契合,相向而行。

整體而言,存儲產業的發展與中國存力的進步,對于AI大模型的落地,乃至千行百業的智能化升級,都有著舉足輕重的意義。脫離了存儲的發展,AI帶來的數據洪潮將難以妥善化解,AI技術甚至可能由于缺乏數據支撐,變成無本之源,無根之木。

智能時代的機遇與責任,恰好同時擺在了存儲產業面前。在華為等優秀品牌的存力探索下,中國存儲正迎來史無前例的機會,也在承擔時代給予的責任。

很多業界專家認為,大語言模型是AI歷史上的“iPhone時刻”,那么AI技術帶來的存力升級潮,或許也將成為中國存儲產業的里程碑時刻,成為一個黃金年代的序章。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲
    +關注

    關注

    13

    文章

    4266

    瀏覽量

    85686
  • AI
    AI
    +關注

    關注

    87

    文章

    30239

    瀏覽量

    268475
  • 人工智能
    +關注

    關注

    1791

    文章

    46896

    瀏覽量

    237666
  • ChatGPT
    +關注

    關注

    29

    文章

    1549

    瀏覽量

    7507
  • 大模型
    +關注

    關注

    2

    文章

    2339

    瀏覽量

    2499
  • 存力
    +關注

    關注

    0

    文章

    23

    瀏覽量

    79
收藏 人收藏

    評論

    相關推薦

    科技啟動首屆內計算創新大賽

    內計算作為一項打破“內存墻”“功耗墻”的顛覆性技術,消除了與算的界限,相比CPU或GPU能夠實現更高計算并行度、更大專用算,達成數量級的能效提升。在AI加速落地的趨勢下,學術界及
    的頭像 發表于 11-21 10:44 ?144次閱讀

    企業AI租賃是什么

    企業AI租賃是指企業通過互聯網向專業的算提供商租用所需的計算資源,以滿足其AI應用的需求。以下是對企業AI
    的頭像 發表于 11-14 09:30 ?182次閱讀

    科技榮獲2024中國AI層創新企業

    科技入榜【2024中國AI層創新企業】,憑借在創新內計算芯片領域的高能效算創新實踐和亮眼市場表現獲得智庫專家評委的認可。
    的頭像 發表于 11-06 15:30 ?325次閱讀

    算一體架構創新助力國產大算AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計算(HPC)應用論壇》上,億鑄科技高級副總裁徐芳發表了題為《算一體架構創新助力國產大算AI芯片騰飛》的演講。
    的頭像 發表于 10-23 14:48 ?240次閱讀

    與算并重:數據時代的雙刃劍

    在2024年的今天,人工智能(AI)技術已經全面滲透至我們生活的方方面面,從醫療診斷到智能交通,從金融分析到智能家居,AI正以前所未有的速度重塑我們的世界。這一變革背后,算
    的頭像 發表于 10-08 16:00 ?731次閱讀

    ODCC 2024:AI挑戰,PTM商業模式助力企業級存儲創新實踐

    9月3日至4日,2024開放數據中心大會(以下簡稱“ODCC”)在北京召開。江波龍企業級存儲事業部市場總監曹潯峰受邀出席,并發表了題為《大模型AI應用對挑戰與創新實踐》的精彩演講,深入剖析了當
    的頭像 發表于 09-06 08:02 ?469次閱讀
    ODCC 2024:<b class='flag-5'>AI</b><b class='flag-5'>存</b><b class='flag-5'>力</b>挑戰,PTM商業模式助力企業級存儲創新實踐

    內計算原理分類——數字內計算與模擬內計算

    數字內計算與模擬內計算各有優劣,都是算一體發展進程中的重點發展路徑,數字內計算由于其高速、高精度、抗噪性強、工藝技術成熟、能效比高等特點,更適用于大算
    的頭像 發表于 05-21 16:26 ?2250次閱讀
    <b class='flag-5'>存</b>內計算原理分類——數字<b class='flag-5'>存</b>內計算與模擬<b class='flag-5'>存</b>內計算

    科技助力AI應用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘

    中得到彰顯。算一體架構的突破傳統馮·諾依曼架構的范式探索成為重要趨勢。這種架構改變了算分離的局面,類似于“在家辦公”一樣,消除了數據“往返通勤”的能量消耗和時間延遲,大大提高了AI
    發表于 05-16 16:38

    內計算WTM2101編譯工具鏈 資料

    工藝條件下將AI計算效率提升2個數量級,充分滿足快速發展的神經網絡模型指數級增長的算需求。 witin_mapper是知科技自研的用于神經網絡映射的編譯軟件棧,可以將量化后的神經網絡模型映射
    發表于 05-16 16:33

    聯發科技推出天璣AI先鋒計劃

    聯發科技(MediaTek)近日重磅推出了一項名為“天璣AI先鋒計劃”的創新舉措。這一計劃旨在匯聚全球開發者的智慧與力量,共同推動AI技術的發展和應用。通過整合聯發科技與業界生態伙伴的優質資源,該計劃為敢于創新、勇于探索的開發者
    的頭像 發表于 05-08 10:55 ?653次閱讀

    商湯科技:AI 2.0時代的“新質生產工具”

    2024年全球開發者先鋒大會(GDC)在上海盛大開幕,匯聚了全球頂尖的開發者與科技創新者。商湯科技董事長兼CEO徐立受邀出席,并發表了題為《AI 2.0時代的“新質生產工具”》的主旨演講,引發了廣泛關注和深度思考。
    的頭像 發表于 03-25 09:28 ?596次閱讀

    新火種AI|百度AI賺翻了!全年營收1346億,碾壓OpenAI成盈利第一?

    狂飆AI風口,為什么百度賺到錢了?
    的頭像 發表于 03-02 09:10 ?975次閱讀
    新火種<b class='flag-5'>AI</b>|百度<b class='flag-5'>AI</b>賺翻了!全年營收1346億,碾壓OpenAI成盈利第一?

    AI大步向前,先進加速度追趕

    賽迪最新發布的《中國先進發展研究報告》(下稱“報告”)指出,目前中國發展存在一定“被忽視”現象,預計到2025年,將有超過420EB的巨大
    的頭像 發表于 12-25 16:25 ?520次閱讀

    淺談為AI大算而生的算-體芯片

    大模型爆火之后,算一體獲得了更多的關注與機會,其原因之一是因為算一體芯片的裸算相比傳統架構的AI芯片,能帶來十倍以上的提升。
    發表于 12-06 15:00 ?370次閱讀
    淺談為<b class='flag-5'>AI</b>大算<b class='flag-5'>力</b>而生的<b class='flag-5'>存</b>算-體芯片

    2023 EDGE AWARDS全球創新評選 | 知科技上榜“年度潛在價值企業”

    12月2日,由鈦媒體主辦的2023 T-EDGE全球創新大會公布了2023“EDGE AWARDS全球創新評選”榜單。 憑借在內計算芯片領域率先突破百萬級應用、加速算創新的先鋒表現,知
    的頭像 發表于 12-04 17:15 ?588次閱讀
    2023 EDGE AWARDS全球創新評選 | 知<b class='flag-5'>存</b>科技上榜“年度潛在價值企業”