ic設計現面臨算力需求不均勻的行業特點,以一個為期18月的芯片設計為例,涉及前端,驗證,后端三個周期: 前4個周,只涉及到前端布局以及架構,對算力需求不高,因此月度需求較少; 從5月開始,前端,驗證,后端均開始工作,算力開始逐步提升,第11個月達算力小高峰,在第16個月達算力最高峰,月度調月度調度峰值達到百萬級核時以上; 算力波峰和波谷的核數差距在20倍以上; 算力在第16個月達到最高峰后,迅速下降。
北鯤云提供混合云部署、云上一體化部署等多種部署模式 ,北鯤云用多種方式助力企業大大提高工作效率。
多地域資源調度防止Job Pending:對SLURM開源集群調度系統進行二次開發:一個SLURM集群可同時使用華為云多個地域的資源, 按照設定的優先級進行資源調度, 防止由于單地域資源不足導致的Job Pending
指定周期鎖定資源(Pre-alloc)防止Job Pending:用戶也可以使用SLURM命令提前鎖定資源,在資源鎖定成功后,再運行任務,如salloc –N 100 –p c-32-2 –t 1-00:00:00 鎖定100臺32核64G資源,鎖定期為1天
隊列集(partition-set)支持大規模資源使用:在大規模資源調度的場景如千臺規模時,單個實例類型(隊列)容易缺貨導致調度失敗,北鯤云對SLURM進行二次開發,實現隊列集功能,可在一個Job中指定多個隊列按優先級調度資源
資源彈性溢出與調度:在絕大部分場景下,用戶無需關注資源本身,只需要提交作業,平臺會自動根據作業申請的資源數量,自動彈性申請云上資源,并在作業結束后5分鐘自動釋放資源
以國內某芯片設計企業為例子,本地集群無法在業務高峰期(年底、年中)滿足仿真計算需求,作業排隊情況嚴重; 原有云上解決方案嚴重改變了芯片設計工程師線下操作方式,降低了工作效率; 云上資源調度策略不靈活,導致Job pending,影響仿真工作穩定性; 原有云上資源價格偏貴,成本控制不靈活;
使用專業解決方案,深度整合無感化上云。本地建立專門的上云節點,用于仿真數據自動同步; 將云上資源與virtuoso軟件ade_L、ade_XL、maestro等提交作業方式深度整合,芯片設計工程師僅需切換環境變量即可無感化上云; LSF-Slurm Wrapper讓工程師按原有命令習慣提交作業,不改變操作習慣,降低使用成本; 多地域資源調度已經華為云云上資源的豐富,保證了業務高峰能夠預留、隨需調度充足的計算資源。
審核編輯 黃昊宇
-
IC設計
+關注
關注
37文章
1291瀏覽量
103762 -
芯片設計
+關注
關注
15文章
1001瀏覽量
54811
發布評論請先 登錄
相關推薦
評論