在深度學習、元宇宙的迅速推動下,大數據分析、高性能計算、人工智能、CAE仿真等領域得到快速發展。
僅2021年上半年,中國新增的人工智能企業就超過30多萬家,一是可見的人工智能公司數量增長,二是越發膨脹的算力需求。
信通院發布的中國算力發展指數白皮書顯示2020年中國智能計算的算力占算力規模的41%。預測到2030年,占比將迅速攀升到70%。
智算中心概念內涵及功能定位
概念界定
智算中心是基于最新人工智能理論,采用領先的人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的公共算力新型基礎設施,通過算力的生產、聚合、調度和釋放,高效支撐數據開放共享、智能生態建設、產業創新聚集,有力促進AI產業化、產業AI化及政府治理智能化。
主要內涵
一. 算力公共基礎設施
智算中心面向政府、行業、企業等多用戶群體提供人工智能應用所需算力服務、數據服務和算法服務,能夠匯聚各行業領域數據資源、支撐各行業領域AI計算需求,智算中心作為公共算力基礎設施,通過提供共性的算力、數據及算法服務,讓算力服務更為易用,使得智慧計算像水電一樣能成為基本公共服務。
二. 計算架構技術領先、生態成熟
智算中心基于AI模型提供高強度的數據處理、智能計算能力,集成先進的智能軟件系統和智能計算編程框架,實現云端一體化,形成技術領先、可持續發展的高性能、高可靠計算架構。智算中心核心計算單元采用先進的人工智能芯片,面向新型的人工智能場景,采用異構計算,能大幅提升對基礎算力的使用效率和算法的迭代效率。同時集成生態成熟的智能軟件系統和智能計算編程框架,便于不斷迭代升級。
三. 算力、數據和算法的融合平臺
智算中心以融合架構計算系統為平臺,以數據為資源,以強大算力驅動AI模型對數據進行深度加工,使算力、數據、算法三個基本要素成為一個有機整體和融合平臺。智算中心為AI算法研發提供大規模數據處理能力,也為AI產業應用提供充足的計算資源,全面支撐各類人工智能技術的應用和演進。
四. 以產業創新升級為目標
圍繞智算中心基礎設施建設,以數據流引導技術流、業務流、資金流、人才流聚集,實現以數據驅動產業創新發展新模式是智算中心的核心目標。通過打造人工智能開放服務平臺,面向AI產業、傳統產業提供基于深度學習技術的人工智能算法能力、算法框架和相關接口,全面匯聚并賦能各產業領域AI應用,助力加速孵化新業態,推進數字經濟與傳統產業深度融合,實現AI與產業的聚合并帶動形成一個多層級的AI產業生態體系,全面賦能產業創新升級。
功能定位
智算中心是智能時代面向社會全域多主體的新型公共基礎設施,集算力生產供應、數據開放共享、智慧生態建設和產業創新聚集四大功能于一體,為有海量數據存儲、處理、分析及應用支撐需求的各類場景提供載體支撐。
一. 算力生產供應平臺
AI計算是智能時代發展的核心動力。智算中心以數據為資源,以強大算力驅動AI模型對數據進行深度加工,源源不斷產生各種智慧計算服務,面向全行業領域提供基于深度學習技術的人工智能算法能力、算法框架和相關接口,為政府、企業及科研院所等多方用戶提供生產生活各領域智慧服務,發揮新型基礎設施的社會價值,降低社會服務成本,讓智慧計算服務更快的普及到每個人、每個企業。
二. 數據開放共享平臺
智算中心是新型公共基礎設施,通過全量匯聚各行業領域數據資源,開放共享全面提升AI算法訓練數據質量。同時,隨著數據匯聚共享能力的提升,通過跨領域數據的多次開發利用,以數據流引領技術流、業務流、資金流、人才流等聚集,深度分析挖掘應用需求,使沉淀的數據資源在各個應用場景中實現價值最大化。
三. 智能生態建設平臺
智算中心是集人工智能、大數據、云計算等多種技術和AI算力服務、數據服務和模型服務于一體的新型IT基礎設施。其廣泛應用將加速推動產業AI化和AI產業化,以智能算力生態聚合帶動形成多層級產業生態體系,賦能多個產業、惠及多類主體,助推數字經濟與傳統產業深度融合,加速孵化新業態。
四. 產業創新聚集平臺
以AI算力生產供給為核心的智算中心,面向政府、企業及科研機構等多主體,圍繞數據、算法和算力三大要素著力構建AI全產業鏈。其通過生產、聚合、調度和釋放算力推動AI 產業要素資源聚集,匯聚不同主體資源優勢打造產業創新聚集平臺,在政府主導下,科創企業、科研機構和傳統企業發揮各自在AI方面的技術優勢、研發優勢和場景優勢,加速AI應用場景落地,助力傳統產業轉型升級,催生經濟新業態新模式,優化公共服務供給。
智算中心基礎設施
隨著旺盛的需求和建設迅速發展,新的問題被提出來。歸納起來為開放、融合、綠色、普惠、服務。
開放
目前,智算中心面臨的首要問題是開放性。AI應用數量的增加和迭代速度對智算中心的生命力提出挑戰。
智算中心作為一種新型基礎設施,不能僅僅解決材料或基因等某一領域的問題。
同時,智算中心的建設要避免在斥巨資建設智算中心一兩年之后,智算中心的功能就大幅衰減的情況。
關于業界智算中心的建設的兩種思路:
一. 垂直一體化整合模式
每一層由建設者獨立實現,優點是避免不同技術路線之間的適配過程。
二. 多元協作模式
適配難度會大一點,但對開發者更友好,更有利于產業發展。通過芯片、算法、框架和模型的全面開放和兼容,構建多元集成基礎架構,實現計算基礎的最大易用性,降低遷移成本,為未來開發者帶來更好的環境,進而通過建設智算中心,促進整個產業鏈的健康發展。
融合
隨著AI技術的不斷發展,各行業對智能化、數字化轉型的認識和需求不斷增強,從產業橫向來看,AI賦能的領域越來越多,從智慧城市到工業制造再到農業生產、科學計算等等。從行業縱向角度來看,AI應用正在從垂直領域逐步向縱深領域發展,以解決行業內部的關鍵問題。
AI應用多樣,對算力的需求同樣多樣。有些應用需要高精度的算力,而有些則需要低精度算力?;旌暇群投嘣懔Τ蔀橹撬慊A設施發展的必然趨勢。
綠色
除了AI的應用越來越多,AI模型的參數和智算中心的算力也在逐年上升。
尤其是現在大模型越來越多,以GTP-3為例,相關數據顯示,如果GPT-3的所有程序都運行一次,該模型產生的碳排放量相當于一輛車行駛70萬公里,大約是從地球到月球的兩倍距離。
在雙碳目標下,智算中心的節能減排形勢相當嚴峻。
藍海大腦冷板式液態智算中心通過將需要散熱的設備固定在一塊冷板上(通常為銅鋁等導熱金屬構成的封閉腔體),將發熱器件的熱量間接傳遞給循環流動的冷卻液體,液體在通過冷板的時候將設備熱量帶走,以達到散熱的目的。
技術特點
散熱能力強:局部熱流密度達150W/CM2
維護方便,技術成熟
環境適應性強:適用于軍民領域各種應用環境
冷卻介質多為導電液體,存在泄漏安全隱患
關鍵技術
系統匹配設計
流量分配設計
冷板流道優化設計
焊接
自密封連接
基于藍海大腦冷板式液態技術已經完全達到了國家要求數據中心碳排放標準,實現從規劃設計、中心建設、到平臺運營的完整配套服務,貫穿智算基礎設施的全生命周期。
普惠
目前,智算中心的價格有兩個特點:
一. 貴
作為一種新型的算力基礎設施,如果通過將建設成本轉換為算力單價來計算,算力成本較高。
二. 亂
這是一個新興市場,而算力的價格與智算中心所在地區等多方面因素有關。
從長遠來看,一定要有非常普惠的算力提供給AI用戶和開發者,讓AI產業持續發展,也能降低各地政府的投資建設壓力。
服務
目前大部分智算中心采用取建、運分離的模式,運營方面還沒有成熟的商業模式,運營主體普遍處于模糊地帶,有可能出現運營缺乏的情況。
但是,對于要建設智算中心服務區域經濟各地政府來說,智算中心的運營是剛需,是必須要解決的問題。
總結
智算中心的建設仍處于初期階段,要從開放、融合、綠色、普惠、服務五個方面進行智算基礎設施的建設,提高智算中心的運營效益。
隨著AI產業和產業AI的不斷發展,智算基礎設施建設熱度持續升高。與傳統的數據中心相比,智算中心在當地產業經濟發展可能會帶來更明顯的作用,如何建好、管好、用好智算中心是一個持續迭代更新的命題。
液冷智算中心案例
隨著數字經濟高速發展,數據量與日俱增,海量的數據處理、存儲、傳輸的過程都離不開智算中心。智算中心作為新基建的重要組成部分,數字經濟的堅實底座,其重要性已上升到國家戰略層面。
從需求量上看,在數字經濟時代,全國的數據量平均每兩年翻一番,數據處理剛需依然存在,可預見智算中心規模也將相應地增長。截止至 2019 年,全國數據中心產值已達 1,562.5 億元,與 2018 年相比,增長27.2%。預計 2035 年產值將達 6,057.5 億元。
利用高性能服務器的人工智能集群技術。多個液冷機器可以聚集在一起,以擴大吞吐量,以進一步訓練和推理加速,并支持數十億至數萬億參數模型。大型數據中心和高性能服務器通常有數百到數千個節點,需要數月或數年時間才能建成,占用數據中心機柜空間及增加耗電量,并且通常吸引超過 10MW 的設備。相比之下,每臺液冷GPU服務器提供相當于10s-100s傳統節點的計算等價物。此外,冷卻系統、供配電、空調功耗和資源池虛擬化技術的發展和優化,推動PUE 值持續降低,數據中心總體能效水平有所提高。
在以前的20多年里,大多數智算解決方案都采用行業標準互連的大規模服務器集群。隨著人工智能、大數據等技術和應用的日益成熟落地,實際業務對數據中心等底層基礎設施的性能要求越來越高。性能提高直接導致服務器功耗不斷增加,尤其是芯片制程提升變慢導致功耗提升加速,通用 CPU 的 TDP(Thermal Design Power ,散熱設計功耗)持續增加,已從最初的 100W 左右逐步增加到最高可達 400W。單臺通用服務器滿載功率已逼近 1 kW,用于 AI 訓練的機器單機功率甚至高達 2.6kW,未來AI 訓練 GPU 單機預計最高可達 10kW。
另一方面,云計算數據中心的單體規模越來越大。截止至 2020 年,全國數據中心總機架數約 428.6 萬架。數據中心總機架數增長規律與總產值相似,均以相對穩定地增幅逐步上漲,預計至 2035 年全國數據中心總機架數約 1,491.1 萬架。無論是對于局部散熱還是整個數據中心散熱而言,風冷技術均趨于能力極限,且每年會產生大量的電力消耗,增加了數據中心的運維成本。
液冷技術通過液體作為熱量傳輸媒介,達到降低設備溫度的目的。液體可以直接導向熱源帶走熱量,不像風冷一樣間接通過空氣制冷。對于密度高、規模大、散熱需求高的數據中心優勢明顯。
液冷數據中心解決方案
對于需要最大性能、密度和效率的大型系統的客戶,高性能服務器提供液冷機柜,高性能服務器提供液冷機柜,支持高性能計算配置中所有組件的液體冷卻系統。
這種架構包含許多支持高瓦數CPU和GPU(超過500W)的創新功能,極大地減少了互連布線需求,降低了操作成本。液冷式基礎設施還帶來了更緊湊的系統結構,減少使用昂貴的光互連電纜。
此外,其基礎設施經過精心設計,支持多處理器體系結構和加速器選項,至少在未來十年內與下一代CPU、GPU和互連技術保持向前兼容。
機柜架構
液冷機柜的計算和交換機基本構件包括:
服務器機柜:一臺機柜可容納8臺機箱,最多支持64個計算刀片和512個處理器。
計算刀片:刀片是機箱中的模塊,包括CPU、結構連接、印刷電路板,以及冷卻和電源組件。預裝四個雙插座節點。從機柜前部插入機箱。
交換機機箱:可容納8臺交換機箱,最多支持64個交換機。從機柜后部插入機箱。
交換機刀片:包含光纖交換機,電路板,用于連接計算刀片和冷卻所需的所有組件和電源。
每個機柜包含8個服務器機箱和8個交換機機箱,直接從交換機連到刀片上,無需布線。交換機和交換機端口都是直接液冷冷卻。刀片垂直放置,交換機水平放置,交換機可以直接與刀片相連接。
預裝的液冷計算刀片配備四臺雙處理器服務器。所有組件均采用直接液體冷卻方式。機柜未配置風扇。
64 口交換機,提供 ?12.8 Tb/s 帶寬
每個交換機機箱最多支持8個交換機刀片,每個計算刀片最多支持8個光纖連接
每個機箱2個交換機,用于向32個計算節點(8個計算刀片)單點連接 (每個節點一個網絡連接)
每個機柜有16個交換機,用于向256個計算節點(64個計算刀片)單點連接 (每個節點一個網絡連接)
任何端點間,最多3次連接
電源
液冷機柜可以支持高達300千瓦的功率。
每面機柜都有一系列PDU和整流器,將輸入的480V或400V三相交流電源轉換為380V直流電源,分配給單獨的計算和交換機刀片。計算和交換機刀片上的直流到直流轉換器將輸入的380V直流電源首先轉換為48V直流電源,然后轉換為各種組件的直流電壓。機柜支持頂部或底部供電。
冷卻
機柜和所有組件冷卻由貫穿整個計算設施的循環液體完成。冷卻分配單元(CDU)通過數據中心的熱交換器冷卻液體將熱水循環。整個冷卻回路是一個源自CDU的閉環。一個CDU最多可以支持四臺液冷機柜。CDU將冷卻液保持在一定溫度,并通過熱傳遞機制將熱量轉移到數據中心的水里。
液體冷卻通過一系列流管到達液冷柜中的各個刀片和部件,這些流管將冷卻液從主管道分配到各個刀片和交換機,然后將熱的液體回流管道。機柜前面配備計算刀片的冷卻管,后面配備交換機的冷卻管。計算刀片和交換機刀片之間的連接快速且無滴漏,可在不關閉整個系統的情況下卸下刀片對服務器進行維護。冷板直接去除CPU中的熱量。當NIC夾層卡位于CPU上方時,由CPU冷板冷卻。液冷高性能服務器的功率和冷卻預算大大小于風冷裝置。
總結
擴展:機柜內的無電纜網絡減少外部電纜和光纜。
總體擁有成本TCO:在產品使用壽命內節省電力和水的運營成本。
靈活性:靈活高度集成的液冷基礎設施提供廣泛的計算平臺、可升級的網絡解決方案及未來的兼容性。
在“marketing@lanhy.cn”獲取完整版《智能計算中心規劃建設指南》完整版。
END
?
審核編輯:鄢孟繁
評論
查看更多