精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenVINO 2024.4持續提升GPU上LLM性能

英特爾物聯網 ? 來源:英特爾物聯網 ? 2024-10-12 09:41 ? 次閱讀

作者:

Yury Gorbachev 英特爾院士 OpenVINO 產品架構師

Whiteny Foster OpenVINO產品專家

翻譯:

武卓 博士 英特爾 OpenVINO 布道師

本次新版本在整個 OpenVINO 產品系列中引入了重要的功能和性能變化,使大語言模型 (LLM) 的優化和部署在所有支持的場景中更容易、性能更高,包括邊緣和數據中心環境的部署。

在客戶端,在之前的版本中我們一直在努力工作,而這個版本則支持我們全新的 Intel Xe2 GPU 架構,該架構在最近推出的 Intel Core Ultra 處理器(第二代)中搭載。Xe2 架構由 Intel Xe Matrix Extensions (Intel XMX) 加速技術提供支持,我們與 oneDNN 和驅動程序團隊的合作伙伴合作啟用了該技術,以在矩陣乘法等計算密集型運算上實現最佳性能。由于矩陣乘法是 LLM 中的一個關鍵熱點,因此在部署 LLM 時,使用 Xe2 架構的性能優勢會立即顯現出來。

我們不僅直接通過英特爾 XMX 優化了矩陣乘法,還創建了高度優化的 GPU 基元,如 縮放點積注意力(Scaled Dot Product Attention) 和旋轉位置編碼( Rotary Positional Embeddings),以減少這些復雜操作的執行流水線開銷。我們致力于改善內存消耗并更有效地支持具有壓縮權重的模型,從而使大型語言模型(LLM)的部署更適合筆記本電腦/邊緣設備,并允許 LLM 適應最小的內存占用,這對于資源有限的環境至關重要。

我們所做的一些更改是通用的,并且會對其它平臺產生顯著影響,包括平臺上的集成顯卡(例如 Intel Core Ultra(第一代))和獨立顯卡(Intel Arc 系列)。

通過橫跨數十個大語言模型的性能和準確性驗證,我們衡量了整個模型集的這些改進。使用神經網絡壓縮框架 (NNCF) 優化框架中的權重壓縮算法可以嚴格控制對模型準確性的影響。

對內置 顯卡的性能進行比較,英特爾酷睿 Ultra 處理器(第二代)的 第2 個Token延遲性能比第一代 高出 1.3 倍,適用于 Llama3-8B 和 Phi-3-Mini-4k-Instruct 等 LLM,詳情請參見下圖。

36b15926-877f-11ef-b8af-92fbcf53809c.png

使用 OpenVINO 工具套件 2024.4 在最新的英特爾酷睿超級處理器(第二代)內置 GPU 上最大限度地提高 LLM 性能。有關工作負載和配置,請參閱附錄。結果可能會有所不同。

除了 GPU,Intel Core Ultra 處理器(第二代)還引入了更強大的 NPU,具有 40 TOPS 的峰值推理吞吐量,這是對上一代產品的重大升級。OpenVINO 現在通過 OpenVINO GenAI 軟件包為經典深度學習模型(例如計算機視覺語音識別和生成)和 LLM 提供對這種加速技術的訪問。我們一直在與 NPU 團隊合作,以提高性能、減少內存消耗并加快過去版本的模型編譯速度,并將在未來的版本中繼續增強。

使用 LLM 的另一種常用場景是通過模型服務,這意味著模型可以通過 REST API 被訪問,并通過 vLLM 或 OpenVINO 模型服務器 (OVMS) 等框架來進行服務。對于此使用場景,我們還引入了新功能以增強解決方案特性。

OpenVINO 模型服務器(OVMS) 現在通過 OpenAI API 為 LLM 提供服務,并提供了啟用前綴緩存功能的能力,該功能通過緩存提示詞常見部分的計算來提高服務吞吐量。當提示詞以相同的文本開頭(例如“您是一個有用的 AI 助手”)或在聊天場景中使用 LLM 時,這尤其有用。我們還為 OVMS 中的 CPU 啟用了 KV 緩存壓縮,從而減少了內存消耗并改進了第二個Token延遲等指標。

從 OpenVINO 2024.4 版本開始,GPU 將支持分頁注意力( PagedAttention) 操作和連續批處理,這使我們能夠在 LLM 服務場景中使用 GPU。我們最初在對 vLLM 的貢獻中啟用此功能,并在此版本中將其擴展到 OpenVINO 模型服務器。這允許 Intel ARC GPU 在您的環境中以優化的服務特性提供 LLM 模型服務。查看適用于 CPU 和 GPU 的 LLM 服務演示,其中展示了如何利用這些功能。

LLM 服務演示

https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html

為了繼續數據中心場景,OpenVINO 現在在英特爾至強處理器上運行時提供對 mxfp4 的支持,如開放計算項目規范中所定義。對于 LLM,與 BF16 精度相比,它允許在第二個令牌延遲上提高性能,同時減少內存消耗。神經網絡壓縮框架 (NNCF) 模型優化功能支持此功能,該功能允許將 LLM 權重壓縮為這種格式。

定義

https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

從模型支持的角度來看,我們一直在與 Hugging Face 的合作伙伴一起更新 Optimum -Intel 解決方案。該方案允許在使用 OpenVINO 運行時時使用 Hugging Face API 運行模型,并高效導出和壓縮模型以用于 OpenVINO GenAI 軟件包 API。在此版本中,我們專注于支持 Florence 2、MiniCPM2、Phi-3-Vision、Flux.1 等模型。OpenVINONotebooks已經可用,用于演示如何在您選擇的平臺上將這些模型與 OpenVINO 一起使用。

OpenVINONotebooks

https://github.com/openvinotoolkit/openvino_notebooks

使用 Flux.1 和 OpenVINO生成文本到圖像,并帶有輸入提示:一只小小的約克夏梗宇航員從月球上的蛋中孵化。https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/flux.1-image-generation

整個夏天,我們一直在與 Google Summer of Code 的優秀貢獻者合作,結果令人鼓舞。我們一直在努力改進

ARM 平臺上的生成式 AI

https://medium.com/openvino-toolkit/improve-openvino-performance-on-generative-ai-workload-on-arm-devices-with-5aee5808e23a,

支持RISC-V

https://medium.com/openvino-toolkit/my-journey-with-google-summer-of-code-2024-enhancing-openvino-for-risc-v-devices-b69568426aff

并探索許多其他令人興奮的發展,我們很快將更詳細地介紹這些發展。

謝謝您,我們期待在即將發布的版本中為您帶來更多性能改進和新功能。有關此版本的更多詳細信息,請參閱 發行說明。

發行說明

https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html

Appendix

附錄

36febcb6-877f-11ef-b8af-92fbcf53809c.png

371ccbb6-877f-11ef-b8af-92fbcf53809c.png372832a8-877f-11ef-b8af-92fbcf53809c.png3745bbb6-877f-11ef-b8af-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19159

    瀏覽量

    229111
  • 英特爾
    +關注

    關注

    60

    文章

    9880

    瀏覽量

    171479
  • LLM
    LLM
    +關注

    關注

    0

    文章

    272

    瀏覽量

    305
  • OpenVINO
    +關注

    關注

    0

    文章

    87

    瀏覽量

    181

原文標題:OpenVINO? 2024.4|支持新一代英特爾?酷睿? Ultra處理器,持續提升GPU上LLM性能|開發者實戰

文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    對比解碼在LLM的應用

    為了改進LLM的推理能力,University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務的LLM方法。實驗表明,所提方法能有效改進LLM的推理能力。讓我們走進
    發表于 09-21 11:37 ?587次閱讀
    對比解碼在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的應用

    低比特量化技術如何幫助LLM提升性能

    針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術一直是優化效果最佳的方案之一,本文將探討低比特量化技術如何幫助 LLM 提升性能
    的頭像 發表于 12-08 15:26 ?1102次閱讀
    低比特量化技術如何幫助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b><b class='flag-5'>性能</b>

    用Chiplet解決ASIC在LLM的成本問題

    電子發燒友網報道(文/周凱揚)雖說最近靠著GPT大語言模型的熱度,英偉達之類的主流GPU公司賺得盆滿缽滿,但要說仗著GPU的高性能就能高枕無憂的話,也就未免有些癡人說夢了。未來隨著LLM
    的頭像 發表于 07-18 00:15 ?1203次閱讀
    用Chiplet解決ASIC在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的成本問題

    GPUOpenVINO基準測試的推斷模型的默認參數與CPU的參數不同是為什么?

    在 CPU 和 GPU 推斷出具有 OpenVINO? 基準的相同模型: benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m
    發表于 08-15 06:43

    在Raspberry Pi從源代碼構建OpenVINO 2021.3收到錯誤怎么解決?

    在 Raspberry Pi 從源代碼構建 OpenVINO?2021.3。 運行OpenVINO?推理,并收到錯誤消息: ModuleNotFoundError:沒有
    發表于 08-15 08:24

    芯片開發商ARM宣布對CPU與GPU的一系列改進,性能大幅提升

    芯片開發商ARM宣布對CPU與GPU的一系列改進,當芯片在Windows筆記本運行時,性能大幅提升
    的頭像 發表于 06-04 14:54 ?3836次閱讀

    ARM新架構很給力,GPU性能提升了20%,但麒麟990無緣用上

    ARM早已經公布了下一代芯片架構,即A77的CPU核心和Mali-G77的GPU,這一代架構,在CPU性能將會提升20%左右,但GPU改變
    的頭像 發表于 08-21 11:51 ?8896次閱讀

    英偉達:GPU讓AI的性能每年都成倍提升

    英偉達首席科學家Bill Dally在一年一度的中國GPU技術大會召開前接受第一財經記者獨家專訪時表示,GPU讓人工智能(AI)的性能每年都能成倍提升,英偉達的研究人員正在定義如何在具
    的頭像 發表于 12-15 13:37 ?2490次閱讀

    選擇GPU服務器需要考慮哪些情況如何才能提升GPU存儲性能

    GPU是我們常用器件,采用GPU,才使得圖形顯示成為可能。在上期文章中,小編對GPU的加速原理等知識有所闡述。為增進大家對GPU的認識,本文將基于兩點介紹
    的頭像 發表于 02-08 17:37 ?3436次閱讀

    LLM性能的主要因素

    現在是2023年5月,截止目前,網絡已經開源了眾多的LLM,如何用較低的成本,判斷LLM的基礎性能,選到適合自己任務的LLM,成為一個關鍵
    的頭像 發表于 05-22 15:26 ?1657次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件
    的頭像 發表于 10-23 16:10 ?611次閱讀

    深度解讀各種人工智能加速器和GPULLM性能特征

    在不同的硬件平臺上評估LLM對于理解傳統和非傳統體系結構的能力和局限性至關重要。先前的工作已經在超級計算機上研究了LLM,并使用傳統的深度學習基準來提供對其能力的詳細評估與分析。
    發表于 10-25 11:49 ?660次閱讀
    深度解讀各種人工智能加速器和<b class='flag-5'>GPU</b><b class='flag-5'>上</b>的<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>特征

    NNCF壓縮與量化YOLOv8模型與OpenVINO部署測試

    OpenVINO2023版本衍生出了一個新支持工具包NNCF(Neural Network Compression Framework – 神經網絡壓縮框架),通過對OpenVINO IR格式模型的壓縮與量化更好的提升模型在
    的頭像 發表于 11-20 10:46 ?1493次閱讀
    NNCF壓縮與量化YOLOv8模型與<b class='flag-5'>OpenVINO</b>部署測試

    如何利用OpenVINO加速LangChain中LLM任務

    LangChain 是一個高層級的開源的框架,從字面意義理解,LangChain 可以被用來構建 “語言處理任務的鏈條”,它可以讓AI開發人員把大型語言模型(LLM)的能力和外部數據結合起來,從而
    的頭像 發表于 12-05 09:58 ?776次閱讀

    解鎖LLM新高度—OpenVINO? 2024.1賦能生成式AI高效運行

    LLM 的發展仍保持著驚人的速度。盡管現有的 LLM 已經具備強大的功能,但通過 OpenVINO? 的優化和推理加速,可以對這些復雜模型的執行進行精煉,實現更快、更高效的處理,減少計算開銷并最大限度發揮硬件潛力,這將直接導致
    的頭像 發表于 05-10 10:36 ?489次閱讀