今年都在說AI技術落地。AI到底有沒有真正落地?可能得真實數字說了才算。
IDC今年7月發布的一份報告顯示,2018至2024年,中國AI云服務市場年復合增長率將達到93.6%。
當然,高增速也不一定是真正的行業繁榮,行業的結構變化更能說明天平傾斜的方向。
阿里云最近有一組數字值得玩味:四年前,云上的訓練任務占比超過80%;而如今,推理任務所占算力比重已經基本過半。
阿里云透露,這背后主要是因為4年以來,AI行業悄然發生的變化:云端進行推理的需求,比訓練需求的增長要快得多。占比過半標志推理將是未來更為主流的云上AI計算需求,也說明AI行業已經從創業和從研發和創業為主,真正走向落地。
為什么這么說?
阿里云異構計算研發總監龍欣解釋, 訓練是更偏后端研發的階段。而推理更多是把成熟的產品推廣到市場上規模化應用,從這個角度來看,算力是處于訓練還是處于推理,其實就能判斷這個產品在AI上的技術是否開始了大規模落地。
而阿里云還透露了一組數字,最初云端GPU上線時,只有少數幾家互聯網企業和人工智能技術創業公司,租用算力來驗證自己的商業模式和業務探索;現在AI用戶已覆蓋智能智造、醫療、教育等數十個行業。
例如,今年的疫情讓在線教育等行業迅速增長。阿里云透露,在線教育是過去一年里對異構計算需求增長最迅速的行業,已經增長了近200%。這也側面反映了這個行業AI應用的快速落地。
“實際上,AI已經進入到了下半場。推理業務的多樣化也帶來了異構場景和器件的多樣化,云游戲、5G都是現在非常受關注的賽道。”龍欣表示,云上異構計算也在支撐更多的新興賽道。
AI技術已經到了不是少數人少數企業的“自嗨”,開始走向傳統行業,全面開花。
總而言之,AI已經從重訓練的研發階段,進入訓練推理并重的落地階段,而且應用面越來越廣。
從算法到“算法+算力”
以深度學習為代表的AI技術飛速發展,對于算力的需求也在暴增。OpenAI的年度報告顯示,從AlexNet到AlphaGo Zero,短短6年時間里,最先進AI模型算力需求增長了30萬倍。
算法固然是提升AI技術的核心,但是想要AI快速落地,最“簡單粗暴”的辦法就是疊加算力。今年出現的超大自然語言模型GPT-3就是典型的例子。
另一方面,更偏研發行為的訓練階段,對算力的需求是有天花板的,與具體業務規模不直接關聯。而如今AI產品的落地,意味著隨著前端用戶規模的擴大,對應推理業務模型對算力的需求是會呈現線性甚至爆發式增長的。比如,阿里云曾經在數天內為一款爆款AI產品“彈出”了數萬片云上GPU,抓住了涌入的用戶。
“巧婦難為無米之炊”,掌握算力資源的AI基礎設施成為AI從概念到落地的重要支撐。
AI已經從以單一的算法為核心逐漸演變為算法、算力雙核心。
云,無疑是獲取算力最便捷與靈活的方式。通過云,企業可以隨時獲得充足的云端AI算力。
作為基礎設施提供商的云計算,為滿足行業發展,堆硬件是必經之路,但提供AI算力并不等同于單純堆硬件,如果沒有全面的軟硬件技術,只會得到1+1<2的效果。
如何調度這些資源,解決用戶在使用時的性能損失,是云計算廠商必須考慮的問題。
云異構計算的三個階段
這就要從云上AI基礎設施的發展階段說起。
云上異構計算作為最能發揮AI效率的計算方式,其發展可以分為三個階段:
第一個階段,是異構計算需求的從0到1。
在2013年AlexNet依靠GPU達到80%準確率,展現了GPU在AI算力提供上的能力這給業界開辟了一條新路。淘寶拍立淘、新浪微博等等,就開始嘗試利用GPU來開發機器學習產品。2016年,阿里云邁出了第一步:啟動異構計算業務,主要是服務了第一批尋求AI創新的客戶的需求。在這個階段,主要解決了企業對異構算力的從有到無。
第二個階段,是規模化。
在2016年AlphaGo大放異彩之后,深度學習等AI技術開始從實驗室走向工業界。隨著大量互聯網企業開始對人工智能算法研發進行重點投入,AI算力的瓶頸也日益凸顯。
大量模型訓練的需求,以及對大算力需求的不斷增長,推動了規模化、強彈性、高性能的云上計算基礎設施的落地。阿里云也開始規模化部署云上異構算力。
短短3年時間,阿里云已經擁有超大規模的云上異構計算集群,每秒能支撐100億億次的異構運算,相當于在1秒內看懂超過5.3億張圖片、翻譯4千萬句話、識別9.2萬小時長的語音。
而正如前文所說,2020年,人工智能行業的拐點已經到來,AI真正從研發和創業,走向了落地實踐。這也就驅動著異構計算產品進入了第三階段。
第三階段的特征,是精細化和多樣化。
當AI從研發走向落地,訓練場景就將面臨更為復雜多樣的業務,對于企業客戶而言,上云的需求也就從大算力,聚焦到了降低推理成本和極速部署等方面,同時場景也更為多樣。
不難看出,這三個階段的變化,是技術進步和行業發展共同促進的結果。
而第二階段構建面向大計算的基礎設施,可以說是所有云廠商的必經之路,也仍然是目前許多廠商的競爭重點。
但在基礎設施之上,如何讓客戶能進一步快速調用資源,在AI落地的過程中進一步降本增效?
作為中國云計算市場份額最高的云服務商,阿里云已經率先邁出了這一步,給出的答案是——
軟硬一體
軟硬一體,在2017年就已成為頭部云服務廠商的共識。
為了云計算的一大頑疾——通過虛擬機搭建云的過程中,虛擬化帶來的性能損耗問題,2017年9月,阿里云推出第一代神龍架構,在整個行業中首次以軟硬結合的設計方式實現了性能的0損耗。而大洋彼岸的AWS也同樣在2017年底推出了類似產品AWS Nitro架構。
在此基礎之上,現在,阿里云異構計算針對垂直行業,進一步提供了讓云上資源變得更高效、更易用的軟件工具。
比如針對人工智能行業的神龍AI加速引擎(AIACC)。
在大規模深度學習場景中,大規模GPU資源不僅導致了高運維成本,隨著機器數的增加,不同機器GPU之間的配合難度也會變大,導致單張GPU卡的利用率反而下降。AIACC則可以通過對通訊、帶寬等進行深度優化,提升資源協作效率和利用率
在AIACC的加持之下,今年3月,阿里云獲得了斯坦福大學DAWNBench ImageNet四個榜單的世界第一。
根據已經落地的實際案例,AIACC可以幫助客戶在云上訓練場景下,提升2倍到14倍的性能;在推理場景下,提升2倍到6倍的性能。
AI芯片領域的獨角獸地平線,與阿里云AIACC團隊緊密合作,將基于阿里云異構計算的分布式訓練性能提升4倍,讓地平線算法研發效率得以顯著的提升,成本得以大幅下降。
阿里內部,以阿里云IoT的圖像分類業務為例。AIACC團隊和IoT智能業務研發團隊合作,將大規模圖像分類分布式訓練性能提升5倍。
另一阿里異構獨有的軟件產品,便是分片cGPU容器技術,能讓客戶通過容器來調度底層GPU資源,以更細顆粒度調度使用GPU,提高GPU資源利用率,達到降本增效的目的。
阿里云異構計算產品負責人潘岳也進一步對量子位解釋了“軟硬一體”的必要性:
單純從算力的角度來說,硬件相當修路時用到的水泥、石塊這樣的基礎。但僅僅是基礎的堆疊顯然是不足以解決問題的。
硬件資源為底層的基礎設施之上,需要將虛擬化這樣的技術通過軟件產品的形式迭代出來,去充分發揮底層硬件的能力,把相應的技術紅利釋放給客戶。
算力池化
除了軟硬一體,阿里云異構計算產品展現出來的另一個發展趨勢,是算力池化,帶來了對算力更加靈活的調度能力。
一直以來,用戶在云上選擇GPU算力的時候,都是受規格配比限制的,比如內存和GPU之間只有特定幾個比例。可是每個AI推理模型之間需要的資源配比是千差萬別的。
阿里云異構計算今年推出彈性加速計算實例EAIS,通過軟件池化的方式,在國內云廠商中首次實現GPU、FPGA、NPU等異構加速器與CPU/內存的解耦。
EAIS為客戶提供了一個異構算力池,用戶可以將需要的GPU資源量搭配到任何一款阿里云ECS服務器中,根據不同應用需求靈活優化CPU/內存與GPU之間的比例,匹配適合的資源組合,在提升AI推理效率的同時大幅降低成本。
全面布局
AI下半場,它的基礎設施需要更豐富和多樣。
龍欣表示,推理面臨的是非常復雜的業務場景,涉及到的技術很可能不只有AI。C端用戶用到的一個功能,可能融合了音視頻編解碼和深度學習等多種技術。異構計算作為底層的基礎設施,也需要覆蓋多樣化的需求。
阿里云異構計算雖然發軔于AI,但它面對的,早已不只AI。
阿里云異構計算產品加持的經典案例,早已不僅僅局限于AI領域。
阿里云異構GPU/FPGA服務器就重點支持了天貓雙11晚會直播的實時視頻轉碼,服務了4k、1080p、720p等各個分辨率的轉碼。
業內規模最大的單業務FPGA計算集群,為淘寶提供超過數百萬QPS的圖片轉碼處理能力。FPGA云服務器今年首次100%承擔雙十一淘寶圖片流量,預計節省計算成本數億元。
……
云異構計算的下一步
回顧國內云異構計算產品的發展歷程,阿里云無疑是最早布局的云服務商。
據阿里巴巴集團研究員、阿里云彈性計算負責人張獻濤介紹,阿里巴巴內部有豐富的業務,這些內部業務為阿里云的技術輸出提供了最直觀的行業洞察。而反過來,阿里云的技術積累又反哺了集團業務。
這就形成了一個良性的閉環,使得阿里云能夠堅定地在云計算業務上進行前瞻性的布局。
那么,在第三階段之后,云異構計算將向何處去,阿里云又是如何判斷的呢?
阿里云異構計算產品負責人潘岳談到,從產品的角度而言,未來云異構計算的發展,一定是一個生態化的過程。
一方面,是阿里云這樣的底層基礎設施,被行業ISV(獨立軟件開發商)、解決方案公司集成,賦能AI等領域的創新實踐。
另一方面,是與英偉達這樣的加速器廠商加強合作,進一步豐富加速器的硬件生態。
而站在技術角度,阿里云異構計算研發總監龍欣表示,接下來,單一加速器將不再能滿足AI、視頻編解碼等諸多領域的業務需求,加速器硬件融合的趨勢已經顯現。
未來,異構計算在技術上有可能出現這樣一次新的變革:通過軟件池化解耦和硬件池化解耦,把多種加速器融合在一起,去滿足AI等行業中業務落地階段更廣泛的加速需求。
這也將是阿里云下一階段的重點探索方向。
并且,隨著5G的布局,隨著視頻等可視化計算需求的增長,云異構計算不僅僅是在AI領域,也將在視頻、云游戲等更多行業中扮演更加重要的角色。
編輯:hfy
-
云計算
+關注
關注
39文章
7735瀏覽量
137204 -
人工智能
+關注
關注
1791文章
46859瀏覽量
237579 -
深度學習
+關注
關注
73文章
5492瀏覽量
120978
發布評論請先 登錄
相關推薦
評論