精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習與PAWS相結合的性能感知系統簡介

openEuler ? 來源:openEuler ? 2023-11-29 11:06 ? 次閱讀

[概述]

在數據中心,資源利用率指標,尤其是 CPU 利用率常用于量化集群的有效利用程度。在實際環境中,系統給負載分配的資源以及工作負載的調度決策都會影響利用率。

如果工作負載資源分配不準確,集群可能會因空閑而未充分利用。另一方面,如果調度決策不合理,即便是利用率有提升,負載間的資源沖突也會導致性能出現下降。

為了提高資源利用率,同時盡量減少由于干擾導致的性能下降,以保證 QoS,性能感知系統 PAWS(Performance Aware System)應運而生。

PAWS 的愿景是提供一套能夠基于負載特征歷史特征進行資源推薦,同時盡可能避免互相干擾的調度算法

[特性介紹]

PAWS 主要解決資源精準推薦以及資源干擾的問題,因此其主要圍繞著這兩方面來構建自己的能力。當前 PAWS 主要主要以下兩個特性:

特性一、VPA 資源推薦

算法思想

VPA (Vertical Pod Autoscaler) 是一種自動伸縮技術,通過對分配給微服務的物理資源(CPU、內存等)進行調整,來滿足微服務不斷變化的需求。不同的服務有不同的資源需求,這取決于多個因素,例如一天中的時間、用戶需求等。為這些服務進行固定的資源分配可能會導致集群的資源利用率非常低。

PAWS 提出了一種將經典的數值優化解決方案與當代的機器學習方法相結合的 VPA 推薦算法,通過對負載歷史特征的分析,為工作負載推薦適當的資源,從而釋放多余申請的資源,從而提高集群利用率。

PAWS-VPA 的整體架構如下:

4302060a-8ddc-11ee-939d-92fbcf53809c.png

其中 DRIFT Recommender 從 Prometheus 中獲取所需數據,并通過 VPA 推薦算法,給出對應的數據值。其整體算法包括了主動預測,負載感知以及預測反饋三部分:

[ ] 主動預測:預測負載資源,在變化之前給出建議;

[ ] 負載感知:基于歷史數據庫感知負載特征模式,并給出建議;

[ ] 反饋機制:通過運行時的反饋系統,快速糾正不當建議;

整個算法的整體思想為,以過去 N 個時間窗口的 CPU 利用率以及資源執行情況為輸入,每隔一段時間*(k)*進行一次調用,對未來一個或者多個時刻之內,每個容器的 CPU 資源推薦最佳值。

在推薦時,會考慮過往的資源推薦情況,基于過往的 overestimation(過高估計)和 underestimation(過低估計)進行加權,給出最優建議。

在算法中,我們的目標函數(OBJ)是資源高估和低估事件的加權(w)平均值。在這里,

[ ] 高估(overestimation)是指 CPU 的建議高于實際 CPU 利用率,導致整體利用率偏低;

[ ] 低估(underestimation)指的是 CPU 建議低于 CPU 利用率導致 throttle 事件,會導致負載性能下降;

數學上,OBJ=w x UE+(1-w)x OE,其中 w 是分配給低估相對于高估的重要性或權重。

模塊組成

整個 PAWS-VPA 推薦算法共包含三個模塊:負載表征,數值優化以及機器學習預測。

負載表征(Workload Characterization):分析過去的 CPU 利用率特征,以給出合理的 OBJ 權重 w

數值優化(Numerical Optimization):使用經典的數值優化來計算過去 M 個時間段內的最優推薦。具體來說,我們最小化 OBJ 以獲得過去樣本的最優目標推薦,并將這個最小化問題描述為混合整數線性規劃(Mixed Integer Linear Program,MILP).

機器學習預測(Machine Learning Forecast):在 MILP 計算出過去 M 個時間間隔的目標值后,本模塊將這 M 個最佳歷史推薦作為輸入,并根據機器學習算法中定義的預測水平 F 預測下一個(一個或多個)更新間隔的最佳未來推薦。

特性二、時序沖突檢測調度

算法思想

PAWS 開發了一套調度插件,通過利用負載歷史數據中提取的資源利用率并進行時序分析統計,并讓調度器基于該統計對負載進行錯峰填谷,避免資源沖突的同時實現更高的資源分配。其使用了中的機制,對于系統中標記的進行資源的采集。通過收集作業容器的歷史資源使用情況,分析時間序列周期(如每小時),輸出每個周期周期的預估資源利用率,從而避免作業資源沖突,最終實現錯峰補谷的調度,提升集群資源利用率。

4319bb4c-8ddc-11ee-939d-92fbcf53809c.png

算法流程

整個算法分為預測和調度兩個部分,其中預測主要基于每種負載的歷史數據,統計其時序變化情況,以供調度器使用;調度則基于上述信息,結合新任務的特征情況,給出合理的調度決策。

435dcc7e-8ddc-11ee-939d-92fbcf53809c.png

預測流程:通過 Prometheus 等時序數據庫,讀取每個已知負載的資源利用率歷史數據點,分析出小時維度的變化情況,并保存為歷史數據,以供調度器參考。

調度流程:對于新來的任務,基于任務標簽來判斷具體策略。對于已知任務,從調度器中選取歷史模板,與每個節點歷史數據進行疊加求和;對于未知任務,則基于任務資源 request 與節點數據進行疊加求和。在 Scoring 階段,當存在任務運行周期階段超過閾值的可能性,進行不同的打分并歸一。于此同時,系統對于未知任務會實時統計其資源利用率,確保后續該任何再次被拉起時可能進行更精確的打分。

[結果評估]

文中所述的 Performance Aware System 通過機器學習與數理分析手段,對負載資源的分配與調度進行優化。我們在實驗室場景下模擬了包括 Redis,Nginx 和 Torchserve 等在內的一些典型應用,并通過搭建 10 臺服務器的小型集群進行驗證。通過測試發現,集群整體利用率在部署前后出現明顯的提升。下圖為其中某一個節點的利用率變化情況,該節點的峰值利用率從 30%提升到了 40%以上。

43709570-8ddc-11ee-939d-92fbcf53809c.png

我們同時對部署前后的業務性能變化進行了對比,發現 P99 時延劣化在 10%以內,證明了算法在提升集群利用率的同時也能有效避免性能出現下降。

任務名稱 負載類型 P99 時延(前) P99 時延(后) 性能劣化
Ngix CPU / Net 密集型 437.7 447.6 2%
Redis Memory 密集型 0.019 0.021 10%
Torchserve CPU 密集型 316.2 302.2 0%

目前本特性代碼已在 openEuler Cloud Native SIG 進行開源,地址為:https://gitee.com/openeuler/paws

于此同時,本方案仍然存在一些不夠完美的地方,比如當前本方案主重點瞄準 CPU 計算密集型場景,但是在實際場景中,內存以及 IO 可能都成為影響業務的瓶頸點,同時資源競爭導致的性能下降也很難 100%從利用率的角度進行監控。因此也希望對該技術方向有興趣的伙伴能加入該 SIG,對 PAWS 進行持續優化。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10829

    瀏覽量

    211198
  • 算法
    +關注

    關注

    23

    文章

    4601

    瀏覽量

    92677
  • 數據中心
    +關注

    關注

    16

    文章

    4700

    瀏覽量

    71971
  • 數據庫
    +關注

    關注

    7

    文章

    3767

    瀏覽量

    64283
  • 機器學習
    +關注

    關注

    66

    文章

    8382

    瀏覽量

    132444

原文標題:openEuler 資源利用率提升之道 07:PAWS 性能感知系統簡介

文章出處:【微信號:openEulercommunity,微信公眾號:openEuler】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    人工智能感知技術是安防機器人應用支撐技術之一

    的基礎上,結合實戰應用,提出了其功能和性能上存在的問題,最后對其發展趨勢進行展望。安防機器人是一種專門應用于安保巡邏和服務的移動機器人,它除了需要解決移動
    發表于 12-24 09:19

    安森美智能感知技術對三大應用領域發展有什么影響?

    圖像傳感器、深度感知、傳感器融合,是感知未來發展的三個趨勢,而汽車、機器視覺、邊緣人工智能(Edge AI)是智能感知最聚焦的3大應用市場。安森美半導體是全球唯一一家提供完整
    發表于 07-30 07:16

    能感知怎么助力機器視覺發展?

    交通系統(ITS)、智能家居/樓宇、智能零售、虛擬實境(VR)/增強實境(AR)等等。全球圖像傳感器領袖安森美半導體傳承40多年的成像經驗,擁有2000多項成像專利,提供寬廣的智能感知陣容,包括電子卷簾快門
    發表于 08-01 07:11

    big.LITTLE和GPU相結合可以實現性能和功耗的最佳匹配

    big.LITTLE和GPU相結合實現性能和功耗的最佳匹配
    發表于 02-02 07:00

    基于虛擬儀器的智能感知專家系統的設計

    集成了網絡通信、嵌入式系統、虛擬儀器、人工智能專家系統等前沿技術,構成基于虛擬儀器的智能感知專家系統,由智能感知單元對運行中設備狀態實時監測
    發表于 05-27 16:03 ?13次下載

    基于虛擬儀器的智能感知專家系統的設計

    集成了網絡通信、嵌入式系統、虛擬儀器、人工智能專家系統等前沿技術,構成基于虛擬儀器的智能感知專家系統,由智能感知單元對運行中設備狀態實時監測
    發表于 12-14 16:58 ?18次下載

    能感知的發展現狀_智能感知的未來

    一般來說,一個有效的人工智能系統是基于其感知、記憶和思維能力,以及學習、自適應及自主的行為能力等。具有在復雜場景中的動態智能感知能力,就需要利用多源信息融合技術,將跨時空的同類和異類傳
    的頭像 發表于 09-10 10:52 ?5.3w次閱讀

    最新機器學習工具對材料進行計算建模相結合

    他們的發現發表在近日的《美國國家科學院院刊》(Proceedings of the National Academy of Sciences)的一篇論文中,論文將壓痕實驗與使用最新機器學習工具對材料進行計算建模相結合
    的頭像 發表于 03-25 15:25 ?3096次閱讀

    LSTM和注意力機制相結合機器學習模型

    置預測的影響權重不同,以及長期的歷史信息會來帶維數災難等,移動對象的位置預測面臨著嚴峻的挑戰。針對這些挑戰,在分析現有預測算法的不足的基礎上,提出了一種長短期記憶網絡(LSTM)和注意力( Attention)機制相結合機器學習
    發表于 04-08 13:51 ?7次下載
    LSTM和注意力機制<b class='flag-5'>相結合</b>的<b class='flag-5'>機器</b><b class='flag-5'>學習</b>模型

    NVIDIA發布高性能感知技術的最新項目

    自主機器人所面臨的關鍵挑戰之一是感知和理解周圍的世界。 在 ROS World 2021 上,NVIDIA 發布了向 ROS 開發者社區提供高性能感知技術的最新項目。這些項目將加速產品開發、提高產品
    的頭像 發表于 10-28 15:05 ?1594次閱讀
    NVIDIA發布高<b class='flag-5'>性能感知</b>技術的最新項目

    協作機器人:將機器肌肉與人類靈巧性相結合

    協作機器人:將機器肌肉與人類靈巧性相結合
    的頭像 發表于 01-05 09:43 ?763次閱讀

    機器視覺與農業智能感知科研匯總

    機器視覺為主的農業信息智能感知技術已成為智慧農業發展的關鍵技術,廣泛應用于農業領域將會加速農業生產方式的轉變,推動產業結構升級,對提高農業現代化水平、實現農業可持續發展具有重大意義。本文機器視覺
    的頭像 發表于 08-08 15:29 ?718次閱讀

    機器視覺與農業智能感知的科研項目匯總

    機器視覺與農業智能感知相關的研究,目前已經取得了一定進展,在果園果樹、大田作物、荒漠植物、中藥材、畜禽等領域,已經獲得了一定科研進展。本文整理了近期發表的機器視覺與農業智能感知相關專題
    的頭像 發表于 08-10 16:43 ?556次閱讀

    能感知系統的組成主要包含哪些

    能感知系統是一種利用人工智能技術和感知技術,通過感知環境中的信息并對其進行處理和分析的系統。它可以收集、處理和解釋來自傳感器和其他數據源的
    的頭像 發表于 12-01 15:26 ?4467次閱讀

    計算機視覺與智能感知是干嘛的

    引言 計算機視覺(Computer Vision)是一門研究如何使計算機能夠理解和解釋視覺信息的學科。它涉及到圖像處理、模式識別、機器學習等多個領域,是人工智能的重要組成部分。智能感知
    的頭像 發表于 07-09 09:23 ?819次閱讀