11月19日,在2020全球超算大會(huì)(SC20)上,浪潮發(fā)布了新一代HPC集群管理平臺(tái)ClusterEngineV5,不僅支持超算中心HPC及AI計(jì)算負(fù)載,為硬件運(yùn)維、業(yè)務(wù)管理和應(yīng)用性能分析提供全棧式高效管理,而且?guī)椭到y(tǒng)管理者輕松管理上萬(wàn)節(jié)點(diǎn),大幅提升了HPC集群的資源利用率和應(yīng)用計(jì)算效率,滿足了面向未來(lái)的新型超算中心的創(chuàng)新業(yè)務(wù)增長(zhǎng)需求。
ClusterEngineV5提供獨(dú)有的HPC應(yīng)用性能分析工具,幫助用戶診斷應(yīng)用瓶頸,提升HPC應(yīng)用優(yōu)化效率及質(zhì)量。該工具可對(duì)異構(gòu)集群進(jìn)行全方位性能分析,針對(duì)AI計(jì)算提供函數(shù)級(jí)應(yīng)用性能分析,及時(shí)定位性能異常,幫助用戶深入分析和發(fā)現(xiàn)計(jì)算性能優(yōu)化空間。基于該工具的分析結(jié)果,用戶可結(jié)合自身平臺(tái)的資源使用情況及設(shè)備特征,提升應(yīng)用計(jì)算效率及資源利用率。
面對(duì)底層硬件,ClusterEngineV5提供一體化硬件運(yùn)維監(jiān)控平臺(tái),實(shí)現(xiàn)服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備的全生命周期自動(dòng)化運(yùn)維,有效地幫助用戶提高運(yùn)維效率、降低運(yùn)維成本。平臺(tái)可實(shí)現(xiàn)7*24小時(shí)大規(guī)模硬件監(jiān)控管理,快速識(shí)別200+類問(wèn)題,內(nèi)置30000+專家級(jí)大數(shù)據(jù)規(guī)則庫(kù),快速診斷故障根因并提供解決方案。同時(shí)可以自動(dòng)監(jiān)測(cè)數(shù)據(jù)中心功耗,進(jìn)行智能分析、遠(yuǎn)程控制、功耗管理,幫助用戶節(jié)省30%以上的功耗。
面對(duì)核心業(yè)務(wù),ClusterEngineV5為上萬(wàn)節(jié)點(diǎn)HPC集群提供穩(wěn)定、高效、易用的HPC業(yè)務(wù)管理平臺(tái)。可實(shí)現(xiàn)HPC和AI應(yīng)用的統(tǒng)一管理,作業(yè)提交流程極簡(jiǎn)化。并能根據(jù)用戶業(yè)務(wù)需求實(shí)現(xiàn)靈活的作業(yè)調(diào)度和管理策略,保證資源充分利用。同時(shí)支持容器化,用戶可快速部署應(yīng)用,在多節(jié)點(diǎn)并行計(jì)算時(shí),保證各節(jié)點(diǎn)系統(tǒng)環(huán)境一致,并且可通過(guò)容器快速部署開(kāi)發(fā)環(huán)境,提升開(kāi)發(fā)工作效率。
另外,浪潮ClusterEngineV5打通了硬件監(jiān)控、業(yè)務(wù)管理和應(yīng)用性能分析,提供了一套面向HPC與AI應(yīng)用場(chǎng)景的全棧式超算中心管理解決方案,涵蓋全生命周期集群硬件智能運(yùn)維、全方位集群監(jiān)控、應(yīng)用性能監(jiān)控、異構(gòu)集群算力調(diào)度分析和調(diào)優(yōu)等,幫助管理人員高效管理HPC和AI負(fù)載,降低集群部署和管理門(mén)檻,提高資源利用率和計(jì)算效率,實(shí)現(xiàn)降本增效,推動(dòng)面向未來(lái)的超算中心業(yè)務(wù)創(chuàng)新。
fqj
-
浪潮
+關(guān)注
關(guān)注
1文章
450瀏覽量
23819 -
管理系統(tǒng)
+關(guān)注
關(guān)注
1文章
2429瀏覽量
35825
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論