精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI化革命:大廠如何重新定義數據中心的未來

SDNLAB ? 來源:SDNLAB ? 2023-10-10 16:29 ? 次閱讀

數據中心在現代社會扮演著至關重要的角色,它們是數字化時代的神經中樞,支持著云計算、大數據、人工智能等技術的快速發(fā)展。在傳統(tǒng)的數據中心中,冷空氣通過充斥著計算、網絡和存儲系統(tǒng)的機架被加熱后,通過冷卻設施捕獲并排出。

但這僅適用于傳統(tǒng)的數據中心,隨著計算需求的不斷增加,傳統(tǒng)數據中心面臨著巨大的挑戰(zhàn),包括能源效率、資源優(yōu)化以及冷卻問題。鋪天蓋地的 AI 大模型時代,當著手部署用于訓練AI 模型的系統(tǒng)的那一刻,GPU節(jié)點可以輕松消耗整個機架的功率,這迫使數據中心運營商做出一些重大的設計改變。本文將探討人工智能如何改變數據中心建設和冷卻,以及其對數據中心行業(yè)的影響。

數據中心建設的革新

人工智能應用通常需要大規(guī)模的高性能計算資源,包括GPU和TPU等加速器。因此,數據中心需要具備足夠的計算能力來支持這些應用的訓練和推理。這意味著數據中心需要更多的服務器和更強大的網絡基礎設施,以確保高性能計算任務能夠順暢執(zhí)行。

特斯拉似乎已經意識到了這一點。這家美國電動汽車制造商正在尋找人員來幫助其建立“同類首個數據中心”。

近期,該公司表示正在尋找一名數據中心高級工程項目經理,他將“領導特斯拉首個此類數據中心的端到端設計和工程,并將成為特斯拉數據中心的關鍵成員之一”。

目前尚不清楚所謂的“同類首個數據中心”是什么意思,推測它可能與去年在 Hot Chips 上展示的定制 Dojo AI 加速器有關。

特斯拉計劃從現在到 2024 年底向該項目投入超過 10 億美元,以加速其自動駕駛軟件的開發(fā)。整個系統(tǒng)的運算能力可能超過 100 exaFLOPS,預計相當于 BF16 的性能。這意味著特斯拉必須找到能夠容納該設備的地方。

然而,構建和管理一個能夠提供足夠電力和冷卻以保持 AI 加速器正常運轉的設施可能是一場噩夢。

Dojo 是一臺可組合的超級計算機,完全由特斯拉內部開發(fā)。從計算、網絡、IO,到指令集架構、電力傳輸、封裝和冷卻,一切都是定制的,目的是加速特斯拉的機器學習算法

該系統(tǒng)的基本構建模塊是特斯拉的 D1 小芯片,其中 25 個使用臺積電的晶圓系統(tǒng)技術封裝到Dojo 訓練模塊中。總而言之,這個半立方英尺的系統(tǒng)具有 11GB SRAM、9TB/s 的結構連接,并且可以管理 9 petaFLOPS 的 BF16 性能。

將所有性能塞進如此緊湊的外形尺寸已經帶來一些挑戰(zhàn)了,例如如何為單個 15kW 加速器提供動力和冷卻,更不用說構成 1 exaFLOPS Dojo V1 系統(tǒng)的 6個加速器了。這還只是加速器,你還需要為所有用于通過加速器提供和協調數據流的支持系統(tǒng)提供動力和冷卻。

然后是高速網格的問題,這可能會限制這些模塊的部署方式。在這些速度下,將它們包裝得越緊密越好,但熱負荷也越大。因此,如果特斯拉完全放棄使用傳統(tǒng)機架的想法而轉而采用全新的東西,也就不足為奇了。

無論該系統(tǒng)最終采用何種形式,有一點是肯定的:無論特斯拉決定在哪里部署該系統(tǒng),都將需要超級計算水平的冷卻能力。

數據中心冷卻的重要性

數據中心冷卻是現代 IT 基礎設施中的一個關鍵問題,推動了創(chuàng)新系統(tǒng)和解決方案的發(fā)展,涉及空調、水冷技術和其他基于液體的機制,以確保最佳性能和能源效率。由于冷卻系統(tǒng)約占數據中心總能耗的 40%,因此成本也是一個關鍵考慮因素。數據中心冷卻在維持系統(tǒng)性能方面發(fā)揮著至關重要的作用。

什么是數據中心冷卻?

數據中心冷卻是指用于調節(jié)數據中心設施內的溫度、濕度和氣流的設備、系統(tǒng)、方法和技術。由于數據中心通常容納數千臺服務器、IT 設備和其他產生大量熱量的電子設備,因此適當的冷卻對于保持最佳性能和防止過熱至關重要。

數據中心冷卻的目的是什么?

數據中心的冷卻系統(tǒng)用于將服務器、存儲設備、網絡硬件和各種其他設備運行時產生的熱量散出去。這種熱量以溫度的形式測量,是在電能轉化為熱能時產生的,這一過程是由于電子元件效率低下而發(fā)生的。

除了管理熱量外,數據中心冷卻系統(tǒng)還可以維持設施內適當的濕度水平。這樣可以防止靜電和冷凝的積聚,這兩個因素都會對電子設備造成重大損壞。

數據中心冷卻的主要目的是維持適合IT設備運行的環(huán)境條件。行業(yè)組織ASHRAE建議數據中心的溫度保持在 18°C 至 27°C范圍內。ASHRAE 還建議數據中心的濕度水平應在 40% 至 60% 的范圍內,具體取決于具體的設備和配置。

為什么數據中心冷卻很重要?

數據中心冷卻之所以重要,原因有很多,包括性能、防止停機、設備壽命和能源效率等:

# 性能

數據中心的過熱會產生“熱點”,導致處理器和內存等服務器組件出現故障。過熱時,計算機系統(tǒng)可能會變慢、凍結,甚至遭受永久性的硬件損壞。適當的冷卻可以使系統(tǒng)能夠保持最佳性能和服務器的板載邏輯。

# 防止停機

過熱可能會導致系統(tǒng)故障并導致停機。在數據中心,停機不僅會造成破壞,而且代價高昂。實施適當的冷卻技術有助于防止此類問題。

# 設備壽命

長時間暴露在高溫下會縮短硬件的使用壽命。相反,保持涼爽的環(huán)境可以延長設備的使用壽命。還需要注意的是,濕度過高會對設備造成損害。當潮濕的灰塵顆粒粘附在電氣元件上時,會減少熱傳遞,甚至會導致腐蝕。

# 能源效率

高效的冷卻系統(tǒng)消耗更少的能源和水,使其更加環(huán)保且更具成本效益。傳統(tǒng)的“機械”數據中心冷卻方法(例如空調)可能非常耗能并消耗大量的水。因此,采用使用較少能源或水的現代冷卻解決方案對于降低運營電力成本特別有利。

人工智能已經在改變數據中心的面貌

人工智能基礎設施提出的冷卻和電力要求已經促使一些大型超大規(guī)模企業(yè)和數據中心運營商重新評估他們如何構建數據中心。

Facebook 母公司 Meta 也是推動這些變革的公司之一。該公司在人工智能研發(fā)方面投入巨資,去年使用了由 16,000 個 英偉達A100 GPU 組成的人工智能超級計算機。

在去年的 OCP 峰會上,Meta展示了其 Grand Teton AI 訓練平臺以及 Open Rack v3 (ORV3) 規(guī)范,該規(guī)范旨在適應系統(tǒng)的更高功率和熱負載。例如,根據 Meta 的規(guī)范,單個母線可以支持 30kW 的機架。

Meta的基礎設施副總裁Alexis Bjorlin在博客中寫道:“ORV3生態(tài)系統(tǒng)可以適應幾種不同形式的液冷策略,包括空氣輔助液體冷卻和設施水冷卻。”“我們看到,功率趨勢正在增加,對液冷技術的需求正在迫使我們對平臺、機架、電源和數據中心設計的所有元素進行不同的思考。”

在博客發(fā)表后不久,Meta取消了兩個荷蘭數據中心,并宣布將重新設計位于阿拉巴馬州亨茨維爾的第三個數據中心,該公司將其稱為“人工智能戰(zhàn)略投資”。

數據中心冷卻的演進

傳統(tǒng)的數據中心冷卻方法通常依賴于大型制冷設備,這些設備耗能巨大,導致高昂的運營成本。其次,這些設備需要占用大量物理空間,從而限制了數據中心內部服務器和存儲設備的部署密度,增加了建設和運營成本。此外,高密度計算設備的普及導致了過熱問題,傳統(tǒng)冷卻系統(tǒng)則難以有效地處理這一挑戰(zhàn)。同時,它們還會對環(huán)境造成負面影響,如碳排放和水資源消耗,不符合可持續(xù)性原則。

6f922dbc-6744-11ee-939d-92fbcf53809c.png

空氣輔助液體冷卻成為焦點

Meta等大公司正在投資的關鍵技術之一是空氣輔助液體冷卻。

與多年來在 HPE Cray、Atos 和聯想超級計算機中看到的全液冷基礎設施不同。該技術大量使用后門熱交換器 (RDHx),以減少支持熱運行芯片所需的全設施基礎設施投資。

RDHx 真的很簡單,相當于一個機架大小的散熱器和一些大風扇。該技術因其靈活性而受到很多青睞,這使得它可以部署在支持機架級液體冷卻所需管道的設施中。

在 Meta 的案例中,該公司將 RDHx 視為一種更有效地消除系統(tǒng)熱量的方法。據了解,該實施涉及直接液冷 (DLC) 服務器,該服務器通過管道連接到機架內儲液器和泵,推動加熱的冷卻劑通過 RDHx,系統(tǒng)中的熱量在 RDHx 中排出到熱通道。

在這種配置中,RDHx 的功能很像游戲 PC 中的定制水冷回路,但它不是冷卻一個系統(tǒng),而是冷卻整個機架。

RDHx 也可用于空氣冷卻。在這種配置下,冷設施水通過 RDHx 泵送。當熱空氣從空氣冷卻系統(tǒng)的后部排出時,熱量被散熱器吸收。Meta 去年 10 月發(fā)表了一篇關于該技術可行性的完整論文。

這種方法的最大好處之一,特別是對于托管服務器而言,是它不要求客戶在準備好之前就接受 DLC,并且對于他們支持液體冷卻行業(yè)中不會相互沖突。

隨著技術的不斷發(fā)展,我們可以期待新型冷卻技術的涌現,如量子冷卻等。這些技術將進一步降低能源消耗,提高可持續(xù)性。

在人工智能的時代下,數據中心建設和冷卻技術的演進正共同塑造著數字化世界的未來。人工智能時代不僅催生了數據中心建設方面的創(chuàng)新和改變,也對數據中心冷卻技術提出了挑戰(zhàn),這兩者相輔相成,不斷演進,以滿足巨大的計算需求和可持續(xù)性標準。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 超級計算機
    +關注

    關注

    2

    文章

    460

    瀏覽量

    41923
  • 數據中心
    +關注

    關注

    16

    文章

    4686

    瀏覽量

    71954
  • 人工智能
    +關注

    關注

    1791

    文章

    46853

    瀏覽量

    237551

原文標題:AI化革命:大廠如何重新定義數據中心的未來

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    醫(yī)療AR眼鏡,重新定義遠程會診體驗

    【AR眼鏡:重新定義遠程會診體驗】 在快速發(fā)展的醫(yī)療領域,安寶特醫(yī)療AR眼鏡以其尖端技術和創(chuàng)新功能,引領遠程會診的未來,致力于為為醫(yī)生和患者帶來更高效、精準和無縫的醫(yī)療體驗。 探索安寶特醫(yī)療AR眼鏡
    的頭像 發(fā)表于 09-10 10:57 ?237次閱讀

    安森美引領數據中心能效革命

    在當今數字轉型的浪潮中,數據中心作為支撐人工智能、云計算等關鍵技術的基礎設施,其能耗問題日益凸顯。特別是隨著AI計算的蓬勃發(fā)展,數據中心對電力的需求急劇增加,傳統(tǒng)搜索引擎請求相比,
    的頭像 發(fā)表于 08-12 11:13 ?444次閱讀

    AI時代,我們需要怎樣的數據中心AI重新定義數據中心

    超過60%的中國企業(yè)計劃在未來12至24個月內部署生成式人工智能。AI、模型的構建,將顛覆數據中心基礎設施的建設、運維和運營。一個全新的數據中心智能化時代已經拉開序幕。
    發(fā)表于 07-16 11:33 ?659次閱讀
    <b class='flag-5'>AI</b>時代,我們需要怎樣的<b class='flag-5'>數據中心</b>?<b class='flag-5'>AI</b><b class='flag-5'>重新定義</b><b class='flag-5'>數據中心</b>

    黃仁勛:人工智能和加速計算的交匯將重新定義未來

    COMPUTEX 大會開幕前發(fā)表主題演講,他表示:“生成式 AI 正在重塑行業(yè),并為創(chuàng)新和增長帶來新機遇。” “今天,我們正處于計算領域重大轉變的最前沿,”黃仁勛表示,“人工智能和加速計算的交匯將重新定義未來。” 6500 多
    的頭像 發(fā)表于 06-03 17:42 ?1491次閱讀

    HNS 2024:星河AI數據中心網絡,賦AI時代新動能

    華為數據通信創(chuàng)新峰會2024在巴庫隆重舉辦,在“星河AI數據中心網絡,賦AI時代新動能”主題論壇中,華為面向中東中亞地區(qū)發(fā)布星河AI
    的頭像 發(fā)表于 05-15 09:15 ?599次閱讀
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>網絡,賦<b class='flag-5'>AI</b>時代新動能

    港燈打造了面向未來的下一代電力數據中心網絡

    通過華為數據中心網絡CloudFabric解決方案實現了秒級切換,保障了“業(yè)務零中斷”和“零單點故障”,港燈打造了面向未來的下一代電力數據中心網絡, 為港燈未來全面演進軟件
    的頭像 發(fā)表于 04-16 09:29 ?552次閱讀

    #mpo極性 #數據中心mpo

    數據中心MPO
    jf_51241005
    發(fā)布于 :2024年04月07日 10:05:13

    模塊機房:數據中心未來

    隨著數字轉型加速,數據中心已成為企業(yè)運營的核心。傳統(tǒng)的數據中心面臨空間利用不足、能源效率低下、擴展性差和維護成本高等問題。模塊機房應運而生,它不僅克服了傳統(tǒng)設計的局限,還為
    的頭像 發(fā)表于 03-12 17:26 ?853次閱讀

    微模塊數據中心的優(yōu)勢

    微模塊數據中心是以模塊、標準的架構和高效高可靠的UPS、精密空調等靈活組合于一體打造的模塊數據中心基礎設施,可實現靈活快速部署、高效節(jié)
    的頭像 發(fā)表于 01-19 13:53 ?628次閱讀

    讓數字世界堅定運行 | 華為發(fā)布2024數據中心能源十大趨勢

    深圳2024年1月17日 /美通社/ --?近日,華為舉辦2024數據中心能源十大趨勢發(fā)布會并發(fā)布《白皮書》。發(fā)布會上,華為數據中心能源領域總裁堯權定義未來
    的頭像 發(fā)表于 01-17 20:45 ?535次閱讀
    讓數字世界堅定運行 | 華為發(fā)布2024<b class='flag-5'>數據中心</b>能源十大趨勢

    #光纜水峰 #綜合布線光纜 #數據中心

    數據中心光纜
    jf_51241005
    發(fā)布于 :2024年01月15日 09:43:26

    墨芯人工智能CEO王維:需要重新定義和設計AI計算機

    AI時代,我們需要重新定義和設計AI計算機。僅依靠硅基的摩爾定律,2年翻一倍的線性增長的算力供給遠不能滿足指數級增長的需求問題。
    的頭像 發(fā)表于 01-12 11:12 ?1028次閱讀

    數據處理器:DPU編程入門》讀書筆記

    。以DPU為技術代表的新算力架構,正在重新定義數據中心和云原生技術的基礎架構。 DPU的出現,是隨著數據中心的高速發(fā)展,通信能力和計算能力成為數據中心基礎設施的相輔相成的兩個重要發(fā)展方
    發(fā)表于 12-21 10:47

    Microchip CEO博文《AI將如何重新定義數據中心?》

    AI已經存在了一段時間,其影響也相當巨大。生成式AI剛開始嶄露頭角,對于其如何顛覆世界的種種預言已經迅速成為熱門話題,影響之深廣,令人深思。? 這項技術已經對數據中心產生了重大影響。基于必須在云端
    的頭像 發(fā)表于 12-11 14:50 ?1310次閱讀
    Microchip CEO博文《<b class='flag-5'>AI</b>將如何<b class='flag-5'>重新定義</b><b class='flag-5'>數據中心</b>?》

    AI重新定義PC體驗

    ,用戶的終端設備將成為真正的智能助手,以更直觀、更無縫的方式融入用戶的生活。在PC行業(yè)中未來蓬勃發(fā)展的企業(yè),將是那些期待AI能夠實現集成化、個性體驗的世界級企業(yè)。 當前,關于生成式AI
    的頭像 發(fā)表于 12-06 10:15 ?509次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>重新定義</b>PC體驗