精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智能化編碼面臨的算力瓶頸 如何利用CPU解決全鏈路智能編碼?

LiveVideoStack ? 來源:LiveVideoStack ? 2023-08-09 09:09 ? 次閱讀

智能化編碼面臨的算力瓶頸

圖中是一個視頻轉碼推流的一般性流程圖。主播將視頻上傳到上行CDN,然后再由視頻處理中心進行各種前處理,包括內容理解,審核,編輯,增強和超分,然后進行編碼,再推送到下行CDN,供觀眾觀看。

ae71458e-364a-11ee-9e74-dac502259ad0.png

紅色框部分都是和AI相關的部分。智能化編碼中,AI所需算力已經超過編碼本身。1080p的數據超成4K,編碼只需要20幾個物理核,但是如果要超分,就需要一張GPU卡。一張GPU卡5000塊一個月,對比下來成本優勢一目了然。

根據相關視頻企業公開的財報,視頻轉碼和帶寬的成本占到公司全年收入的10%左右。隨著AIGC的發展,未來肯定不局限于10%,因此成本問題是我們的痛點之一。

aeb51f70-364a-11ee-9e74-dac502259ad0.png

CPU全鏈路智能化編碼的優勢就在于成本節約,運維簡單。下面舉一個更具體的例子:

我們都知道轉碼方式有很多種,但CPU有兩個不可替代的優勢:1.高靈活性;2.高復用性。CPU的升級幾乎沒有成本,只需升級一下軟件部分即可,以云為基礎,申請一個虛擬主機,無論是docker還是container都可以隨用隨放,十分自由靈活,成本很低。

由于超分部分對算力的要求非常高,需要通過GPU來輔助,但同時也會引發一些問題:客戶將高要求的AI負載遷移到GPU上,將編碼和前處理完全分離。這就像在一間屋子里解碼——發送到另一間屋子進行前處理——再轉回來編碼。這不僅讓流程變得冗長,也對運維造成了極大負擔,數據的反復調度也造成了一定時延的增加。

CPU全鏈路智能化編碼正是解決了這一痛點。

英特爾第四代至強可擴展處理器及AMX賦能智能化編碼

接下來會介紹英特爾第四代至強可擴展處理器及其內置的AI加速器AMX,以及如何利用AMX和英特爾成熟的軟件棧和工具鏈幫助視頻編解碼工作者,打造全鏈路智能化編碼。

最新的統計數據,英特爾至強服務器在中國市場的數據中心的占有率保持在80%以上,可以說至強服務器是數據中心的基石。第四代至強一個重要的革新就是內置了數個硬件加速器,用于不同應用場景的性能加速,例如之前需要外置的PCIE插卡就已經內置在CPU內部。

aed170a8-364a-11ee-9e74-dac502259ad0.png

從左往右第一個AMX適用于AI;QAT負責壓縮、解壓和加解密;DLB負責Load Balance,CDN負責負載均衡,自動dispatch到閑散的資源上;DSA負責內存拷貝,不需要CPU參與,異步拷貝不僅速度快,而且不占用CPU內存;IAA負責存內分析,更多和數據庫相關,IAA可以在不解壓數據的情況下分析數據。

AMX的全稱是Advanced Matrix eXensions,高級矩陣擴展指令集。它在AVX512的基礎之上做了進一步的擴展。AMX有兩個核心思想,一個是Tiles,一個是Timo。Tiles是物理上兩地寄存器的疊加,16個AVX512疊加在一塊。Timo是針對兩地Tiles的矩陣運算。最新的至強每一顆物力核上都有一個內置的AMX,充當AI 的加速卡。

aff5c86c-364a-11ee-9e74-dac502259ad0.png

和大多數加速卡一樣,AMX加速的是量化精度。目前第四代至強支持的是BF16和INT8,未來也會很快支持FP8和FP16。BF16的表達范圍和FP32一模一樣,只是精度比FP32小一點。目前絕大多數的場景,BF16已經足夠。對于訓練來說FP16足矣,而推理則只需要INT8。

b0668dae-364a-11ee-9e74-dac502259ad0.png

AMX是如何加速矩陣乘的呢?我們在做大的矩陣時可以把矩陣拆成16*64,然后一次性計算。如果算力不夠,可以用oneDNN和MLKDNN處理,而AMX加速矩陣乘計算,算力是前一代產品的8倍。

b0ad32d6-364a-11ee-9e74-dac502259ad0.png

這張圖是至強服務器峰值計算能力的演進過程。從2019年開始的第二代至強可擴展處理器支持VNNI,最新發布的第四代至強可擴展處理器支持AMX,可以看到每個指令周期的計算能力得到8倍的提升。

b0f880c4-364a-11ee-9e74-dac502259ad0.png

硬件性能只是一方面,軟件生態某種意義上說對開發者來說更為關鍵。這是一張英特爾 AMX的軟件生態圖,從下往上,從最底層的操作系統到虛擬化KVM、HyperV,再到核心AI計算庫都是英特爾開發的。在框架層面,主流的TF和PyTorch也都包含在內,除此之外英特爾還提供了豐富的推理工具。這些成熟的軟件生態使得我們的開發者可以專注于算法創新,而不用考慮如何部署等細節,開箱即用。

b1770fca-364a-11ee-9e74-dac502259ad0.png

BF16和INT8的高算力對將AI從GPU遷到CPU之上確實有很大的幫助,但如何保證精度呢?英特爾有一個工具叫做INC,內置了很多專門用于精度的校正算法。作為開發者,只需要做三件事:輸入模型、輸入數據集和輸入精度要求即可。INC會根據客戶的輸入進行tuning,直到有一個用戶滿意的算法。如果最終達不到設定的精度要求,還可以對某些層進行回滾,從而保證設定的精度可以達到要求。

b1e11672-364a-11ee-9e74-dac502259ad0.png

回到視頻編解碼領域,我們知道視頻前處理是在FFmpeg解碼之后,對YUV或者RGB數據進行處理,處理結束后再送到編碼器x264或者x265編碼。由于整個pipeline中,數據的處理速度并不一致,因此為了讓整個過程的數據順滑地流動起來,就需要做一部分的改造,比如解碼后的raw data放入一個buffer隊列中,AI推理異步從這個隊列中取數據做推理,并把推理后的結果送到編碼器中,這需要一定量針對FFmpeg的開發工作。

幸運的是,英特爾已經幫用戶做好了。FFmpeg中有一個英特爾的OpenVINO后端,用戶直接使用就行。FFmpeg的DNN AI推理后端,目前只支持2個后端,一個是Tensorflow,另外一個就是英特爾的OpenVINO。

總結:FFmpeg已經集成了OpenVINO作為AI 的后端推理引擎且英特爾有專門的團隊去維護,大家可以放心使用。

b2365eac-364a-11ee-9e74-dac502259ad0.png

這是一個和合作伙伴的實際案例。在視頻增強和目標檢測這兩個場景下,使用了英特爾第四代至強可擴展處理器AMX優化的AI推理性能相對上一代平臺分別提升了1.86倍和1.95倍。與此同時,精度損失被控制在可接受的范圍,這也使得英特爾的客戶在CPU上實現了全鏈路智能化編碼,大幅降低了部署成本和運維成本。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19165

    瀏覽量

    229145
  • 編碼器
    +關注

    關注

    45

    文章

    3596

    瀏覽量

    134162
  • DSA
    DSA
    +關注

    關注

    0

    文章

    48

    瀏覽量

    15124
  • 硬件加速器
    +關注

    關注

    0

    文章

    42

    瀏覽量

    12759
  • GPU芯片
    +關注

    關注

    1

    文章

    303

    瀏覽量

    5781

原文標題:面對算力瓶頸,如何利用CPU解決全鏈路智能編碼?

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    100T極致+開發支持,地瓜機器人為具身智能造“基座”

    專為新一代通用機器人而生的旭日5智能計算芯片、極致易用全能開發首選RDK X5機器人開發者套件、具身智能全場景核心RDK S100,以及賦能
    發表于 09-21 14:15 ?361次閱讀
    100T極致<b class='flag-5'>算</b><b class='flag-5'>力</b>+<b class='flag-5'>全</b><b class='flag-5'>鏈</b><b class='flag-5'>路</b>開發支持,地瓜機器人為具身<b class='flag-5'>智能</b>造“基座”

    MT6501 磁編碼 IC:推動智能倉儲系統與自動穿梭車的應用

    一、引言 在當今數字智能化的時代,倉儲物流行業正經歷著深刻的變革。智能倉儲系統憑借其高效、精準和自動的特點,成為了提升企業競爭的關鍵
    的頭像 發表于 08-15 16:32 ?291次閱讀
    MT6501 磁<b class='flag-5'>編碼</b> IC:推動<b class='flag-5'>智能</b>倉儲系統與自動穿梭車的應用

    智能化浪潮中的聯想轉型與獲取的革新

    成果的縮影。 六年前,聯想開始布局智能化轉型,構建起3S棧優勢,不僅在智能設備、智能基礎設施和方案服務上取得突破,更在推進行業智能化轉型中
    的頭像 發表于 08-08 11:15 ?259次閱讀

    前沿情報局 | 合眾恒躍HZHY-AI500G集成Hailo-8?智能模塊,超高助力邊緣設備實現高性能人工智能

    近年來,隨著人工智能和大數據的迅速崛起,對高性能計算的需求大幅增長。傳統的CPU在處理復雜計算任務時已顯現出瓶頸,GPU和專用的AI加速器等
    的頭像 發表于 07-27 08:45 ?428次閱讀
    前沿情報局 | 合眾恒躍HZHY-AI500G集成Hailo-8?<b class='flag-5'>智能</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模塊,超高<b class='flag-5'>算</b><b class='flag-5'>力</b>助力邊緣設備實現高性能人工<b class='flag-5'>智能</b>!

    如何利用生成式人工智能進行精確編碼

    隨著技術的飛速發展,生成式人工智能(Generative AI)在軟件開發領域的應用日益廣泛。生成式AI以其強大的學習和創造能力,為精確編碼提供了前所未有的可能性。本文將深入探討如何利用生成式人工
    的頭像 發表于 07-05 17:51 ?548次閱讀

    斬獲大獎!移遠通信以高智能模組產品,推動工業生產智能化發展

    6月27日,在2024MWC上海期間,由通信世界媒體主辦的2024信息通信業“新智推薦”優秀企業/方案獲獎名單重磅發布。作為全球領先的物聯網整體解決方案供應商,移遠通信憑借其豐富的高智能
    的頭像 發表于 06-29 08:29 ?291次閱讀
    斬獲大獎!移遠通信以高<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>智能</b>模組產品,推動工業生產<b class='flag-5'>智能化</b>發展

    京東云發布智能編碼應用JoyCoder,助力開發者提升效率

    京東云近日推出了一款基于大模型的革命性智能編碼應用——JoyCoder。這款應用不僅支持智能代碼評審、批量生成單元測試等獨家功能,更具備代碼預測續寫、注釋生成代碼、智能代碼生成接口文檔
    的頭像 發表于 06-11 09:31 ?455次閱讀

    AI核心板:Core-1688JD4

    采用SOPHON能八核AI處理器BM1688,INT8高達16TOPS,支持16解碼+10編碼
    的頭像 發表于 05-15 08:02 ?1257次閱讀
    AI<b class='flag-5'>算</b><b class='flag-5'>力</b>核心板:Core-1688JD4

    汽車邁入智能化,需要芯片做什么?

    計算場景的底座,既面臨著整車廠商對高性價比芯片的大量需求,也在電子電氣架構向集中式演進的過程中迎來技術創新和軟硬件深度結合的挑戰。 市場回歸理性,需要高性價比芯片 汽車芯片企業作為Tier2,不僅在汽車產業
    的頭像 發表于 04-30 14:57 ?383次閱讀

    長城汽車攜手軟件測評中心打造整車智能化的深度測試模式

    近日,長城汽車和中汽研軟件測評(天津)有限公司(以下簡稱“軟件測評中心”)宣布,將聯手打造整車智能化的深度測試模式。
    的頭像 發表于 03-25 10:55 ?776次閱讀

    智能規模超通用,大模型對智能提出高要求

    的縮寫,即每秒所能夠進行的浮點運算數目(每秒浮點運算量)。 ? 可以分為通用智能
    的頭像 發表于 02-06 00:08 ?6113次閱讀

    網絡面臨三大挑戰

    2024年,以AIGC為代表的人工智能技術將進一步激發需求,網絡、智中心、超
    的頭像 發表于 01-12 10:39 ?1019次閱讀

    FM350-2可以帶8增量式編碼器采集速度嗎?

    請問FM350-2可以帶8增量式編碼器采集速度嗎? FM350-2是8 通道智能計數器模塊,我想用來采集8增量式編碼器,采用速度測量模式
    發表于 12-20 08:19

    驅動, AI生態合作共贏

    — “我們通過多元產品布局,以智能大視頻為基礎構建智能應用平臺,通過AI 面賦能,與多家行業標桿客戶建立戰略合作關系,并配合客戶在
    的頭像 發表于 12-08 18:40 ?913次閱讀
    <b class='flag-5'>全</b>志<b class='flag-5'>算</b><b class='flag-5'>力</b>驅動, AI生態合作共贏

    探索AIGC未來:CPU源碼優化、多GPU編程與中國瓶頸與發展

    ,大大提高人工智能模型的計算能力,更好地滿足實際應用的需求。 本文將分析AIGC的最新進展,深入探討以上話題,以及中國產業的瓶頸和趨勢。
    的頭像 發表于 12-08 11:49 ?1486次閱讀
    探索AIGC未來:<b class='flag-5'>CPU</b>源碼優化、多GPU編程與中國<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>瓶頸</b>與發展