Aurora是Intel近年來參與的最受期待和最引人注目的項目之一,它是對Intel整個系統組合的大膽投注。預計這臺機器將是首臺峰值性能達到2 exaflops(2x10^18)浮點運算每秒的超級計算機。
作為位于伊利諾伊州阿貢國家實驗室的Aurora超級計算機的首席架構師和首席研究員,Olivier Franza在實現這一最具雄心的科學儀器中發揮了領導作用,更不用說它還是世界上最大的GPU集群了。
這給了Franza一些壓力,他是Intel的22年資深員工,2016年作為系統硬件架構師加入Aurora項目,并監督向基于GPU的機器的轉變,于2021年成為首席架構師。
Franza解釋說:“首席架構師負責根據客戶的高級要求定義超級計算機的整體系統架構。有一些基本的要求,如總體性能指標和功率范圍,但也有如RAS——可靠性、可用性、可維護性——這些對構建可擴展系統至關重要的內在特性。”
他的職責還包括從節點到機架到完整系統的系統拓撲的細節,包括其網絡結構和存儲組件。
路線圖樞軸為塑造未來產品提供了機會
初始規劃開始時,Aurora作為美國能源部贊助的系統,其設計由一系列Intel技術組成。然而,Intel產品路線圖的變化,特別是Xeon Phi和Omnipath產品家族的結束,需要重新開始。當Intel制定了構建數據中心GPU的計劃時,Franza參與了Intel? 數據中心GPU Max系列(代號Ponte Vecchio)的設計討論。
從這個角度看,Aurora不僅僅是一個獨立的系統。相反,它幫助塑造了Intel整體的策略和產品組合,以在最高級別解決規模和性能問題。
Franza表示:“我們將所有Aurora系統級的要求融入到組件級。”
例如,Intel Xeon CPU Max系列與高帶寬內存的架構和概念,起初是由一些來自Intel Xeon Phi平臺的特性產生的,這是第一個集成了高帶寬和高容量的創新內存架構的產品。
此外,對高性能的需求進一步推動了所有子系統的進步,從計算刀片的熱機械解決方案到其高密度物理集成,到存儲。
Franza表示:“Intel構建了一個全新的存儲概念,DAOS(分布式異步對象存儲)。” 這是一個開源軟件生態系統,用于在傳統硬件上實現高速存儲。“Aurora將是第一個使用它的系統,而且是迄今為止最大的。”
從設計組件到將數千個系統連接在一起
Aurora項目推動了系統級思考和Intel內部各個業務部門之間的廣泛合作,以及與阿貢科學家和項目的另一個主要合作伙伴惠普企業的工程師的合作。
Franza表示:“讓整個團隊齊心協力、交付像Aurora這樣的機器,對我們許多人來說,是一生中只有一次的經歷。”
盡管工程師們在六月份安裝了最后的刀片,但Franza仍在夜間繼續進行該項目,因為系統正經過測試、穩定和驗證的階段。
他為一個大團隊提供指導,該團隊正在進行系統啟動、驗證、穩定、優化和使全系統性能工作負載啟用的工作。最值得注意的是High Performance Linpack(HPL)基準測試,該測試確定了世界上的頂級系統,由半年度Top500名單認證。
Franza每天早上參加每日站會,仔細檢查每個節點的夜間運行,并制定第二天和未來工作的計劃。每天下午,一個每日總結會議總結了進展和障礙。工作永無止境;機器始終運行。
他解釋說:“我們采取逐步方法,在大規模上進行驗證和穩定。” “你從刀片開始,然后移到機架,然后是多個機架,然后從那里擴展。”
Aurora 由 10,624 個計算刀片組成,在 166 個機架上擁有 63,744 個 Intel Max 系列 GPU(GPU 數量比世界上任何其他系統都多)和 21,248 個 Intel Xeon Max CPU。
他說:“它的大小相當于四個網球場,聽起來很多,對吧?” “但只有當你真正去看它時,你才會意識到這個項目的巨大規模。”
Franza必須確保這個龐大的系統是穩定的、功能正常的和高效的。這是一個艱巨的任務,但終點即將到來。
他說:“走在過道上,所有的燈都亮著,感覺到機器正在運行是令人印象深刻的,顯然也是非常有成就感的。” “這是一個顯而易見的成就。”
“一生一次”的努力,塑造科學的超級計算機
使他繼續前進的是建造“一個非凡的機器”的機會,這將為有影響力的研究提供動力。他引用了Aurora在癌癥研究方面的巨大潛力作為項目將造福我們所有人的一個領域。
他說:“我認為這是使我們非常自豪的一件事。”
Aurora不僅將致力于解決世界上最復雜的科學和工程問題,它還將是一個理想的平臺,用于運行生成式AI并將其應用于研究。“它將啟用計劃中最大的大型語言模型,即1萬億參數的Aurora GenAI項目,增強、啟用并簡化科學家的生活,”Franza說。
但他最享受的是團隊合作和友情。
他說:“這是一個持續的努力,需要很大的毅力。” “核心團隊保持了馬拉松的心態,直到結束都不結束。我們需要那種能夠長時間有效地關注某件極具挑戰性的事情的人。最后,所取得的成就是很少有人可以說他們取得過的。”
文章來源:半導體行業觀察
審核編輯 黃宇
-
英特爾
+關注
關注
60文章
9888瀏覽量
171533 -
gpu
+關注
關注
28文章
4702瀏覽量
128708
發布評論請先 登錄
相關推薦
評論