今年2月,我們FCC-E產品全新上線了專有D區,專門滿足用戶對高性價比的稀缺大機型需求。
產品研發組的小伙伴們根本停不下來~
才幾個月,我們又又上新了!今天的新品是
FCP
(fastone Compute Platform),我們的
一站式企業級軟件平臺
,主要面向的是已經有本地研發環境,但依然為一些問題而頭疼的用戶——
本地資源利用率為什么這么低??
設計仿真業務卡頓,怎么搞?加機器?擴存儲?集群化?
如何搭建一個研發集群?LSF、Slurm、OpenLava、SGE?沒有經驗?
EDA/CAE等工具無法使用?仿真Case異常退出?驗證出現中斷?
項目高峰期或沖刺期,怎么確保業務穩定可靠,不掉鏈子?
有成熟穩定大規模實踐的國產自主可控研發平臺嗎?
上市成熟企業如何中長期規劃研發平臺的演進和持續性降本增效?
01
先說FCP有啥用
四大典型適用場景
FCP是面向創新驅動型用戶的一站式企業級軟件平臺,能夠快速構建企業本地研發環境,高效管理用戶資源。FCP充分支持企業向混合云架構演進,統一管理多本地及多云的復雜研發環境,提升研發效率并降低總體擁有成本。
emmmmm,官方說明有點過于官方了。
沒事,接下來我們來具體看看,對企業來說,FCP的四個典型適用場景:
場景一:黑箱變白箱,提升資源利用率
用戶將本地機器當單機使用,各干各的,也不加限制與管理,先到先得。一旦有人著急使用的時候要么機器拉滿,內存爆掉,任務失敗,要么排長隊。本地資源使用情況,形同黑箱。
FCP搭載了速石調度器Fsched,把散亂的單機資源匯成集群,支持靈活的調度策略,實現集群全生命周期管理,避免資源碎片化和資源搶奪問題,統一管理,資源共享,提升利用率。
配合可視化監控,資源使用狀況了如指掌,安排得明明白白。如果任務運行觸發了預設的告警指標,負責人會實時收到提醒,及時處理任務異常。
場景二:可視化界面+自動化運維,贏麻了
企業業務場景需求多樣,比如突發大算力需求、混合云模式、外包團隊管理、全球多地協同研發等等,整個IT基礎架構通常比較復雜。
而工業軟件體系龐大,使用和維護都有一定的門檻,如工具版本管理、任務flow優化等既要基礎IT能力,又要有業務認知。
企業內部有多個部門的,還要考慮審批流程與內部權限劃分,保障自己的數字資產安全。
FCP實現了上述需求的產品化,只要在后臺完成設置,不需要手動一一操作,可視化界面+自動化運維,贏麻了。
場景三:應用與資源雙管齊下,研發戰斗力加成100%
本地研發環境的集群模式能提高單人資源使用上限,而當本地資源不夠用的時候,FCP還能開啟混合云模式,自動調度云資源充分滿足業務需求。
但是研發效率的癥結可不止在資源層面——
FCP提供基于任務、資源或團隊層面的靈活調度策略配置,最優化使用資源滿足不同企業不同發展階段的業務目標。對應用本身運行提供支持和優化,并結合應用和底層資源的聯動和適配,給出最佳實踐。
不同業務團隊之間可以根據不同用戶權限共享計算資源、存儲資源、軟件資源等,提高了整個團隊的工作與協同效率。
場景四:業務目標穩定達成,中間不掉鏈子
資源利用率,運維效率,研發效率,統統上來了,最后一個要保證的,就是業務穩定性與可持續性了,尤其是項目高峰期或沖刺期。像我們在普冉案例里算的,停一天就是幾百萬,這誰扛得???
我們FCP產品能支持整個研發全流程,同時,高可用的混合云架構保障平臺自身穩定。我們能統一管理多本地及多云的復雜研發環境,且能隨時拓展到云上,支持業務的擴展性和連續性,業務數據運營分析能為運營優化與決策提供數據支撐。專業的CSM服務能覆蓋用戶全生命周期,提供全天候專業服務與客戶保障,確保用戶業務目標的達成。
更長期來看,國產合規這個問題,不少企業已經開始早作打算了。
02
速石兩大產品線:
FCP與FCC-E,啥關系?
我們的兩大產品線FCC-E和FCP有什么關系呢?
用戶應該怎么選?兩者之間有沖突嗎?
如果企業想輕資產快速起步,對未來發展不確定,對產品彈性要求高,我們首推FCC-E:即開即用的研發云平臺,遍布全球的資源中心,滿足全球化業務協同發展,能為企業提供一條研發的捷徑。
如果企業需要部署或者優化本地研發環境,FCP可以說是不二之選:本地標準化集群部署,靈活的調度策略,可視化的監控與實時告警,IT運維自動化,能最大化本地資源的投入產出比。
發展到一定階段后,有本地環境的企業,業務逐漸增多,波峰波谷明顯,可能涉及外包團隊管理,數據備份或容災,或者多地研發中心協同。這時候,就需要混合云架構了。
本地+云端,這就是混合云了?
nonono ~~
由于FCP與FCC-E在底層架構的一致性,FCP能夠隨時向混合云架構演進,把本地的管理能力拓展到云端,并且實現算力、網絡、存儲、許可證和數據等關鍵資源的統一管理,保障資源調度、系統監控和性能分析的一致性和高效性。
之前怎么用,之后還是怎么用。
03
選擇適合你的FCP版本:
Core核心版 vs Suite旗艦版
為了讓FCP更貼合用戶的實際需求,我們推出了兩種不同的版本——FCP Core核心版與FCP Suite旗艦版。
下圖中心區域即FCP Core核心版,中心和周邊共同構成FCP Suite旗艦版。
二者相同點
幫助企業提升研發效率,保障業務的連續性與擴展性;
自動化構建標準本地環境,榨干本地算力,讓運維更簡單;
提供可視化的資源監控告警,信息透明,便于決策支持。
二者的區別
Core提供的是核心功能模塊,構建環境、集群管理、自動化運維這些都包括在內,因此更適合需要快速搭建本地環境的小微企業;
Suite涵蓋Core的全部功能,并在這個基礎上增加了六大高級能力加持,更適合用于大中型企業的復雜研發環境管理;
FCP目前只有Suite支持將工作負載溢出至云端,也只有Suite能滿足深度定制化需求。
總的來說,Core是產品的地基,而Suite就是建立在這個基礎上更全面、更符合企業級業務需求的產品。
04
FCP的落地實踐
舉4個栗子叭
單機變集群,研發效率提升50%
我們有一家做模擬芯片設計的用戶,他們的研發工程師們都沒有接觸過集群,平時本地服務器就是當單機用,各干各的,沒有明確的資源限制和任務管理機制。這就導致任務高峰期機器經常滿載,內存爆掉也很常見,辦公室里經常響起絕望的嘶吼。
OK,安排。
轉成集群模式后,對研發工程師來說,一個任務可以拆分多機跑,多個任務可以同時跑,來了大任務也不用擔心被一臺機器的上限所限制。
而原本碎片化的資源在統一匯入資源池后,IT負責人可以直接在可視化界面上做集群管理,根據各組的情況調度分配資源,從根本解決資源碎片化和資源搶奪等問題。
從單機模式到集群模式,最直接的效果是:計算效率提升30%-50%。
單機轉集群更多優點請戳:集群如何成為項目研發、IT和老板的最佳拍檔?
FCP產品替代開源調度器,CAD精力節約40%+
普冉半導體在與我們合作前,是用SGE搭建集群的,但版本和新版操作系統、EDA工具軟件兼容不佳,在滿足一些更高階功能的情況下受到一定限制。
為了保障公司整體業務的穩定性,同時最小化軟件環境對研發進度的影響,普冉選擇讓FCP逐漸覆蓋原有的研發環境,最終完全替代,以此提高自身的研發效率和體驗。同時,研發人員無須改變操作習慣。
我們提供了調度策略+任務&資源監控+實時告警三步走功能。
在調度策略上,普冉能按照任務優先級、資源空閑狀況、許可證使用等維度安排任務進程,也能實現不同團隊間的資源分配,隨時設置,隨時修改。
在監控層面,我們提供基于EDA任務層的監控、告警、數據統計分析功能與服務,管理者能監控重要指標變化,從全局角度掌握項目的整體任務及資源情況。
在實時告警上,普冉能自己設置關鍵指標,一旦觸發告警,就通過郵件、微信、飛書等方式告知相關人員,提醒處理。
FCP作為標準化產品,IT自動化程度高,能幫CAD和IT把很多手動的工作自動化,省去大量繁瑣的手動部署和對接調試工作。
在和普冉之前的研發表現做了量化對比后,我們幫助普冉提升了30%的整體研發效率,在上線初期就為CAD節省了40%的時間。
更多詳細內容可戳:【案例】普冉半導體逐步布局自主可控,漸次提升研發效率
海內外多site研發協同與統一管理
我們有一家全球化的IC Design用戶,在上海、美國、印度等地都有研發團隊,每個團隊都是獨立的,但又存在業務上的交叉,還有云上云下多個不同研發環境。
這種跨國多地研發中心的協同與統一管理,算是最復雜的那種了。
用戶統一使用了我們的產品,這對保障不同site間基礎架構與用戶體驗的一致性起到了關鍵作用,可以減少大量的重復建設和協同過程中的溝通成本,顯著提高了整體的工作效率。
在多地研發協同上——
FCP的標準化確保了各site間的環境一致性,可以減少大量的重復建設和協同過程中的溝通成本。全球的項目數據能按照需求手動或自動同步,各site間互為備份。還有應用的多版本管理,網絡優化加速這種工作我們也順手解決了。
在FCP的支持下,不管是環境、網絡、數據還是工具,都得到了一致性的保障。
在全球統一管理上——
FCP能實現全球范圍的統一身份認證,給不同的用戶分別設定角色與訪問權限,對項目的數據和計算資源等做統一的管理和隔離,提高運營效率與整體信息安全水平。
IT自動化和平臺級的統一管理也釋放了IT與CAD的精力,各site間無需重復配置同一職能,有效幫助團隊節省了人力成本。
混合云架構,無需動輒六位數投入
在和一家數模混合芯片設計企業的交流過程中,對方表示自己的團隊擴張速度很快,業務量大且沒有規律,突發算力需求和多項目并行是常事了。
之前雖然超額配置了一批服務器,現在也不夠用了,考慮到自身需要一定的現金流儲備,而且機器買多了也沒有地方放,因此不想繼續投入大量資金采購。
在詳細分析了用戶的業務數據后,我們整理出了三個重點:
精細化運營,給一些需要大內存的任務單獨分區,避免內部的資源搶奪,進一步提升效率;
盡可能使用本地資源,如果有突發算力需求,或者到了業務高峰期,能使用云端彈性資源補足;
本地和云端統一管理,降低IT壓力。
FCP的混合云架構,自帶的Auto-Scale彈性伸縮功能,可以按照任務需求,動態開啟和關閉云端資源,在資源靈活性和快速響應能力這一塊拿捏得死死的。
我們提升了用戶的資源利用率,混合云架構也完美解決了項目并行帶來的短期算力缺口,無需動輒六位數的投入,需要多少用多少。
05
1000家企業
1000個CSM
1000家企業,可能有1000種不同需求。
大部分都可以用標準FCP產品來滿足的。
但總有一些非標需求,需要深入企業自身的業務場景與使用現狀,會涉及到一些定制化服務、專業分析評估、專家技術支持與行業經驗的提煉輸出。
當然,很多問題,用戶自己也能在實踐中慢慢摸索,這個得失權衡,取決于用戶自己,可能是時間,可能是金錢,或其他。
我們的CSM(Customer Success Manager)服務,提供面向企業用戶的全天候專業服務與客戶保障,覆蓋用戶全生命周期使用場景。
CSM專業服務——單核時成本下降73%
藍箭航天
,我國民營商業航天的“破局者”,主打一個
自主研發
,發展速度非???,使用速石研發平臺的用戶數從0到數百人,穩定增長,資源用量也隨著業務周期長期穩定上升。
CSM服務效果:
提升用戶研發效率,保障整體業務穩定性;
整個研發平臺使用期間,單核時成本下降達73%。
我們大致把整個業務分為三個階段:
階段一:在業務的磨合階段,平臺剛剛上線,用戶的使用習慣比較粗放。
CSM在調研和摸底后,結合實際業務和操作,向團隊輸出更精細的資源使用建議,并對CAE應用做了深度支持,建立基礎監控告警策略。
階段二:在中期優化階段,GPU的使用量逐步增多,成本提升,不合理的資源使用帶來的成本浪費也被放大。
CSM通過監控數據發現這點后,指導了合理的資源選型和業務分配,讓資源利用更加合理、高效。同時增設了核時波動告警、實例空閑告警,持續進行成本優化。
階段三:在持續優化的平穩期,藍箭的業務穩定性和單核時成本均邁入了穩定向好的態勢。
CSM持續提供主動巡檢、定期數據分析、使用技巧賦能、安全加固規劃、產品需求追蹤落地等服務支撐,深耕細化,持續提升用戶體驗。
更多詳細內容可以參考:
從“地獄級開局”到全球首款液氧甲烷火箭,我們如何助力藍箭沖破云霄
-END-
速石科技(ID:Fastone_tech)
我們為創新驅動型用戶提供為應用優化的一站式研發云平臺,致力于構建為應用定義的云,讓任何應用程序,始終以自動化、更優化和可擴展的方式,在任何基礎架構上運行。
說出你的應用,我們就有故事~~
審核編輯 黃宇
-
仿真
+關注
關注
50文章
4048瀏覽量
133431 -
云平臺
+關注
關注
1文章
1283瀏覽量
38882 -
FCP
+關注
關注
0文章
12瀏覽量
1956
發布評論請先 登錄
相關推薦
評論