華東師范大學(xué)河口海岸學(xué)國家重點實驗室葛建忠教授團(tuán)隊作為國際先進(jìn)海洋數(shù)值模型 FVCOM 開發(fā)團(tuán)隊核心成員,隨著 FVCOM 的發(fā)展和應(yīng)用越來越廣泛,以及行業(yè)不斷提升的對預(yù)報精度與時效性要求,算力需求劇增,借助 NVIDIA GPU 加速計算技術(shù),不僅實現(xiàn)了傳統(tǒng)動力學(xué)數(shù)值模型的百倍計算加速,造福了海洋預(yù)報、水利工程等具體應(yīng)用領(lǐng)域,也為海洋模型系統(tǒng)向人工智能模型轉(zhuǎn)型以及人工智能海洋學(xué)的發(fā)展提供了關(guān)鍵的基礎(chǔ)數(shù)據(jù)生成工具和方法,是人工智能技術(shù)進(jìn)一步應(yīng)用于海洋領(lǐng)域的重要基石。
海洋預(yù)報數(shù)值模型計算負(fù)載劇增
隨著自然災(zāi)害越來越頻發(fā),為災(zāi)害過程防御提供技術(shù)支撐的數(shù)值預(yù)報系統(tǒng)對“精確、及時、高效、穩(wěn)定”有著越來越高的需求,特別是隨著集合預(yù)報模型的研發(fā)和應(yīng)用帶來了數(shù)值模型計算量的急劇上升(比如在集合預(yù)報中計算量與集合樣本數(shù)量成正比,是單個模型計算的數(shù)十倍),超大的計算負(fù)載給預(yù)報業(yè)務(wù)單位和超算中心帶來了極大的壓力,而預(yù)報系統(tǒng)又具有“高時效”的特點,要盡可能地控制計算量,從而提高預(yù)報時效。與此同時,河口生態(tài)、生物地球化學(xué)過程模型具有變量多、過程復(fù)雜的特點,其計算量一般是動力模型的 10 倍以上。潮灘濕地植被斑塊及潮溝系統(tǒng)、近海工程、海上風(fēng)電場等模型一般都要求小于 5 米的空間分辨率,這也造成了模型計算量顯著增大。
面對計算量劇增的挑戰(zhàn),實驗室目前的計算架構(gòu)主要采取基于 CPU 的多核計算節(jié)點擴(kuò)展方案為主,以增加核數(shù)、節(jié)點來應(yīng)對,這對高性能集群的建設(shè)和運維提出了更高的要求,也進(jìn)一步提高了數(shù)值模型應(yīng)用和拓展的門檻。
采用 OpenACC 框架加速 FVCOM 模型
為了解決數(shù)值模型計算負(fù)載劇增這一難點問題,華東師范大學(xué)河口海岸學(xué)國家重點實驗室葛建忠教授團(tuán)隊調(diào)研分析了目前的主要 GPU 加速計算技術(shù),包括 CUDA、OpenACC、stdpar、Kokkos、OpenCL 等,并與 NVIDIA 技術(shù)團(tuán)隊進(jìn)行了詳細(xì)討論和分析,結(jié)合 FVCOM 模型代碼的復(fù)雜度,選擇了 OpenACC 為主的技術(shù)路線,并于 2023 年初開始相關(guān)代碼遷移工作,并在 2023 年 8 月參加了 NVIDIA 舉辦的武漢大學(xué) GPU Hackthon 活動,得到了專業(yè)的技術(shù)支持,解決了多個關(guān)鍵技術(shù)難點,于 2023 年底完成了主要代碼的遷移、測試和驗證工作。
為降低大規(guī)模數(shù)值模型的使用門檻,模型代碼的遷移和測試都在一臺搭載 NVIDIA GeForce RTX 40 系列 GPU 的臺式電腦上完成,并在 2023 年初完成部署的超算中心計算節(jié)點上采用 CPU 進(jìn)行對比,該計算節(jié)點為 Intel Xeon Gold CPU,遷移后的模型支持正壓、斜壓、泥沙、植被等關(guān)鍵模型,并支持全部外部驅(qū)動包括風(fēng)場、熱通量、降雨、離線流場、嵌套文件的高效傳輸,也可進(jìn)行單精度、雙精度計算的自由切換。遷移后模型相關(guān)的輸入、輸出和控制文件未發(fā)生任何變化,可以適用于原有 FVCOM 的相關(guān)應(yīng)用。
加速對比測試選擇 10 萬、35 萬、100 萬、150 萬、200 萬水平方向網(wǎng)格等模型,所有模型都在 RTX GPU 上進(jìn)行單精度模式計算,并采用計算節(jié)點進(jìn)行單線程運行相同模型。相對于 CPU 單線程計算速度,采用 OpenACC 技術(shù)的 FVCOM 模型分別達(dá)到了 88、181、194、195、198 倍的加速比(圖 1)。在此基礎(chǔ)上采用編譯器控制選項可以在同一套代碼上靈活切換 CPU 或者 GPU 模式,且經(jīng)檢驗,CPU 和 GPU 加速模型都得到一致的模擬結(jié)果。在單精度 FVCOM 的前提下,一個 RTX GPU 的計算能力在不考慮網(wǎng)絡(luò)交換的情況下相當(dāng)于超算集群的 3.5 個 64 核計算節(jié)點,在考慮節(jié)點間網(wǎng)絡(luò)交換延遲時可相當(dāng)于 5 個節(jié)點。
圖 1:單精度 GPU-FVCOM 加速實驗結(jié)果
該模型可在 NVIDIA 加速計算框架體系內(nèi)高效擴(kuò)展,將 10 萬、35 萬、100 萬、150 萬網(wǎng)格模型再調(diào)整為雙精度模式,采用單個 NVIDIA Ampere Tensor Core GPU 進(jìn)行加速計算,分別達(dá)到了 48、77、139 和 135 的加速比,顯示了對雙精度模式也有良好的加速效果。在多個 GPU 計算節(jié)點的情況下,也可采用 MPI+OpenACC 方式支持多 GPU 并行計算。
圖 2:雙精度 GPU-FVCOM 加速實驗結(jié)果
超百倍計算加速造福海洋預(yù)報
目前,F(xiàn)VCOM 模型在海洋預(yù)報、海洋工程與作業(yè)等領(lǐng)域應(yīng)用極為廣泛。以國內(nèi)外近海海洋預(yù)報業(yè)務(wù)為例,F(xiàn)VCOM 已經(jīng)成為我國沿海省、市、區(qū)各級海洋預(yù)警預(yù)報部門開展業(yè)務(wù)化預(yù)報工作的主要模型選擇。海洋預(yù)報業(yè)務(wù)的發(fā)展趨勢是不斷提升對預(yù)報精度與時效的要求,二者都意味著巨大的算力需求,而將 FVCOM 模型實現(xiàn) GPU 加速是解決實際應(yīng)用中劇增的算力需求的有效途徑。
采用 GPU 加速的預(yù)報模型可以將預(yù)報時效從小時級別降低到分鐘級,甚至秒級。顯著的效率提升也釋放了模型進(jìn)一步采用更高網(wǎng)格分辨率從而提高模擬精度的潛力。
另一方面,業(yè)務(wù)部門對于臺風(fēng)風(fēng)暴潮等事件的集合預(yù)報愈發(fā)重視。集合預(yù)報是指針對不同的初始條件或驅(qū)動要素(例如臺風(fēng)演化過程)的擾動,計算出多個可能的未來情形,以考慮預(yù)報中的不確定性。這就對模型的計算速度提出了更大的挑戰(zhàn),而 GPU 加速能夠很好地加以應(yīng)對。
在水利工程領(lǐng)域,F(xiàn)VCOM 模型也已廣泛用于工程可行性分析與評估。尤其是在工程前期研究階段,需要借助數(shù)值模型對多種施工建設(shè)方案的效果進(jìn)行模擬評估,多工況計算對傳統(tǒng)模型也造成了極大挑戰(zhàn)。實現(xiàn) GPU 加速從而更快地給出論證結(jié)果,則可以切實地提高工程推進(jìn)效率,節(jié)省工期。
此外,本項目所實現(xiàn)的案例具有較高的啟示意義與推廣價值,例如 OpenACC 技術(shù)方案還可以應(yīng)用在其他近海和海洋數(shù)值模型系統(tǒng)。在采用結(jié)構(gòu)化網(wǎng)格的模型中(如ROMS、ECOM、POM 等),該方案甚至可能實現(xiàn)更好的加速效果。本次實踐也證明,GPU 加速能夠極大地降低河口、海岸、海洋研究和工程應(yīng)用領(lǐng)域進(jìn)行數(shù)值模擬所需的硬件門檻,為學(xué)科發(fā)展、業(yè)務(wù)應(yīng)用都提供了巨大幫助。
目前,海洋數(shù)值模型正經(jīng)歷其發(fā)展歷程中的最大轉(zhuǎn)型,即從基于動力學(xué)機(jī)制與方程的傳統(tǒng)海洋數(shù)值模型轉(zhuǎn)型為基于機(jī)器學(xué)習(xí)(深度學(xué)習(xí))等方法的人工智能模型。而人工智能模型對數(shù)據(jù)的需求與依賴巨大,其訓(xùn)練通常離不開海量的、可靠的數(shù)據(jù)。然而,海洋系統(tǒng)中的實測數(shù)據(jù),相較于海洋巨大的空間尺度以及所關(guān)切問題的具體時間范圍,總是稀缺的。數(shù)值模型則可以為人工智能模型提供大量的基礎(chǔ)訓(xùn)練數(shù)據(jù),也是當(dāng)下保障數(shù)據(jù)范圍與質(zhì)量最有效的途徑之一。例如,葛建忠教授團(tuán)隊已經(jīng)用實現(xiàn) GPU 加速的 FVCOM 模型系統(tǒng)計算了中國近海 1960 – 2023 年海洋流場和生態(tài)動力過程,用該三維高分辨率模型生成了超 20TB 容量的同化數(shù)據(jù)產(chǎn)品。隨后,通過利用 NVIDIA 開發(fā)的基于 AFNO 架構(gòu)的 FourCastNet 模型對該數(shù)據(jù)集開展訓(xùn)練,他們實現(xiàn)了對河口及近海動力學(xué)過程的快速推演與分析。此外,他們還采用實現(xiàn) GPU 加速的 FVCOM 模型高效快速地計算了超過 1000 個臺風(fēng)風(fēng)暴潮過程樣本,用于訓(xùn)練一個基于深度學(xué)習(xí)方法的風(fēng)暴潮預(yù)報模型。這兩個數(shù)據(jù)集的構(gòu)建,若采用傳統(tǒng)的、未經(jīng)加速的數(shù)值模型,所耗費的時間成本將高出百倍以上。
綜上,采用 OpenACC 框架的 FVCOM 為傳統(tǒng)動力學(xué)數(shù)值模型提供了超過百倍的計算加速。這樣的效率提升不僅直接造福了海洋預(yù)報、水利工程等具體應(yīng)用領(lǐng)域,也為海洋模型系統(tǒng)向人工智能模型轉(zhuǎn)型以及人工智能海洋學(xué)的發(fā)展提供了關(guān)鍵的基礎(chǔ)數(shù)據(jù)生成工具和方法,是人工智能技術(shù)進(jìn)一步應(yīng)用于海洋領(lǐng)域的重要基石。
團(tuán)隊介紹
華東師范大學(xué)河口海岸學(xué)國家重點實驗室葛建忠教授團(tuán)隊長期致力于海洋數(shù)值模型的研發(fā)與應(yīng)用,是國際先進(jìn)海洋數(shù)值模型 FVCOM 開發(fā)團(tuán)隊核心成員,主持開發(fā)了其中導(dǎo)堤-丁壩、細(xì)顆粒粘性泥沙、浮泥、河流閘門、植被、藻類漂移生長等 FVCOM 核心模塊,并參與開發(fā)了波流共同作用、FVCOM-ERSEM 生物地球化學(xué)等模塊。此外,該團(tuán)隊也建立了中國海-長江口多空間尺度物理-生物地球化學(xué)耦合數(shù)值模擬系統(tǒng)。
葛建忠教授團(tuán)隊基于 FVCOM 框架,主要聚焦高濃度泥沙、物理-生物地球化學(xué)耦合過程、臺風(fēng)風(fēng)暴潮等方面的研究,并針對長江河口、黃海、浙閩沿海、珠江口和北部灣等國內(nèi)典型河口海岸區(qū)域進(jìn)行了應(yīng)用研究。在德國的易北河口、漢堡港、越南的峴港等區(qū)域,該團(tuán)隊也開展了相關(guān)合作和應(yīng)用研究,其相關(guān)成果也為國家海洋與水利等部門的黃海滸苔防治、風(fēng)暴潮預(yù)報、咸潮入侵防御等方面提供了多項技術(shù)支撐。
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4793瀏覽量
102435 -
人工智能
+關(guān)注
關(guān)注
1787文章
46067瀏覽量
235132 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131856 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5422瀏覽量
120598 -
GPU芯片
+關(guān)注
關(guān)注
1文章
303瀏覽量
5749
原文標(biāo)題:造福海洋預(yù)報!采用 OpenACC 框架的 FVCOM 模型實現(xiàn)超百倍計算加速
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論