精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用vLLM+OpenVINO加速大語(yǔ)言模型推理

英特爾物聯(lián)網(wǎng) ? 來(lái)源:英特爾物聯(lián)網(wǎng) ? 2024-11-15 14:20 ? 次閱讀

作者:

武卓 博士 英特爾 OpenVINO 布道師

隨著大語(yǔ)言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來(lái)推理時(shí)延高、資源消耗大等挑戰(zhàn)。vLLM 作為高效的大模型推理框架,通過(guò) OpenVINO 的優(yōu)化,vLLM 用戶不僅能夠更高效地部署大模型,還能提升吞吐量和處理能力,從而在成本、性能和易用性上獲得最佳平衡。這種優(yōu)化對(duì)于需要快速響應(yīng)和節(jié)省資源的云端或邊緣推理應(yīng)用尤為重要。目前,OpenVINO 最新版本 OpenVINO 2024.4 中已經(jīng)支持與 vLLM 框架的集成,只需要一步安裝,一步配置,就能夠以零代碼修改的方式,將 OpenVINO 作為推理后端,在運(yùn)行 vLLM 對(duì)大語(yǔ)言模型的推理時(shí)獲得推理加速。

15954672-9db3-11ef-93f3-92fbcf53809c.png

01vLLM 簡(jiǎn)介

vLLM 是由加州大學(xué)伯克利分校開發(fā)的開源框架,專門用于高效實(shí)現(xiàn)大語(yǔ)言模型(LLMs)的推理和部署。它具有以下優(yōu)勢(shì):

高性能:相比 HuggingFace Transformers 庫(kù),vLLM 能提升多達(dá)24倍的吞吐量。

易于使用:無(wú)需對(duì)模型架構(gòu)進(jìn)行任何修改即可實(shí)現(xiàn)高性能推理。

低成本:vLLM 的出現(xiàn)使得大模型的部署更加經(jīng)濟(jì)實(shí)惠。

02一步安裝:搭建 vLLM+OpenVINO 阿里云ECS開發(fā)環(huán)境

下面我們以在阿里云的免費(fèi)云服務(wù)器 ECS 上運(yùn)行通義千問(wèn) Qwen2.5 模型為例,詳細(xì)介紹如何通過(guò)簡(jiǎn)單的兩步,輕松實(shí)現(xiàn) OpenVINO 對(duì) vLLM 大語(yǔ)言模型推理服務(wù)的加速。

在阿里云上申請(qǐng)免費(fèi)的云服務(wù)器 ECS 資源,并選擇 Ubuntu22.04 作為操作系統(tǒng)

159ee2fe-9db3-11ef-93f3-92fbcf53809c.png

接著進(jìn)行遠(yuǎn)程連接后,登錄到終端操作界面。

請(qǐng)按照以下步驟配置開發(fā)環(huán)境:

1. 更新系統(tǒng)并安裝 Python 3 及虛擬環(huán)境:

sudo apt-get update -y
sudo apt-get install python3 python3.10-venv -y

2. 建立并激活 Python 虛擬環(huán)境:

python3 -m venv vllm_env
source vllm_env/bin/activate

3. 克隆 vLLM 代碼倉(cāng)庫(kù)并安裝依賴項(xiàng):

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install --upgrade 
pippip install -r requirements-build.txt --extra-index-url https://download.pytorch.org/whl/cpu

4. 安裝 vLLM 的 OpenVINO 后端:

PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu" VLLM_TARGET_DEVICE=openvino python -m pip install -v .

至此,環(huán)境搭建完畢。

03魔搭社區(qū)大語(yǔ)言模型下載

接下來(lái),去魔搭社區(qū)下載最新的通義千問(wèn)2.5系列大語(yǔ)言模型,這里以 Qwen2.5-0.5B-Instruct 模型的下載為例。

模型下載地址為:

https://www.modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct

魔搭社區(qū)為開發(fā)者提供了多種模型下載的方式,這里我們以“命令行下載“方式為例。

首先用以下命令安裝 modelscope:

pip install modelscope

接著運(yùn)行以下命令完成模型下載:

modelscope download --model Qwen/Qwen2.5-0.5B-Instruct

下載后的模型,默認(rèn)存放在以下路徑中:

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct

本次運(yùn)行的推理腳本,我們以 vllm 倉(cāng)庫(kù)中 examples 文件夾中的 offline_inference.py 推理腳本為例。由于 vLLM 默認(rèn)的腳本是從 Hugging Face 平臺(tái)上直接下載模型,而由于網(wǎng)絡(luò)連接限制無(wú)法從該平臺(tái)直接下載模型,因此我們采用上面的方式將模型從魔搭社區(qū)中下載下來(lái),接下來(lái)使用以下命令,修改腳本中第14行,將原腳本中的模型名稱“"facebook/opt-125m"”替換為下載后存放Qwen2.5模型的文件夾路徑”

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct“即可,效果如下圖所示。

15c54458-9db3-11ef-93f3-92fbcf53809c.png

04一步配置:配置并運(yùn)行推理腳本

接下來(lái),在運(yùn)行推理腳本,完成 LLMs 推理之前,我們?cè)籴槍?duì) OpenVINO 作為推理后端,進(jìn)行一些優(yōu)化的配置。使用如下命令進(jìn)行配置:

export VLLM_OPENVINO_KVCACHE_SPACE=1 
export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

VLLM_OPENVINO_KVCACHE_SPACE:用于指定鍵值緩存(KV Cache)的大小(例如,VLLM_OPENVINO_KVCACHE_SPACE=100 表示為 KV 緩存分配 100 GB 空間)。較大的設(shè)置可以讓 vLLM 支持更多并發(fā)請(qǐng)求。由于本文運(yùn)行在阿里云的免費(fèi) ECS 上空間有限,因此本次示例中我們將該值設(shè)置為1。實(shí)際使用中,該參數(shù)應(yīng)根據(jù)用戶的硬件配置和內(nèi)存管理方式進(jìn)行設(shè)置。

VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8:用于控制 KV 緩存的精度。默認(rèn)情況下,會(huì)根據(jù)平臺(tái)選擇使用 FP16 或 BF16 精度。

VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS:用于啟用模型加載階段的 U8 權(quán)重壓縮。默認(rèn)情況下,權(quán)重壓縮是關(guān)閉的。通過(guò)設(shè)置 VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON 來(lái)開啟權(quán)重壓縮。

為了優(yōu)化 TPOT(Token Processing Over Time)和 TTFT(Time To First Token)性能,可以使用 vLLM 的分塊預(yù)填充功能(--enable-chunked-prefill)。根據(jù)實(shí)驗(yàn)結(jié)果,推薦的批處理大小為 256(--max-num-batched-tokens=256)。

最后,讓我們來(lái)看看 vLLM 使用 OpenVINO 后端運(yùn)行大語(yǔ)言模型推理的效果,運(yùn)行命令如下:

python offline_inference.py

除了運(yùn)行以上配置,可以利用 OpenVINO 在 CPU 上輕松實(shí)現(xiàn) vLLM 對(duì)大語(yǔ)言模型推理加速外,也可以利用如下配置在英特爾集成顯卡和獨(dú)立顯卡等 GPU 設(shè)備上獲取 vLLM 對(duì)大語(yǔ)言模型推理加速。

export VLLM_OPENVINO_DEVICE=GPU 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

05結(jié)論

通過(guò)在 vLLM 中集成 OpenVINO 優(yōu)化,用戶能夠顯著提升大語(yǔ)言模型的推理效率,減少延遲并提高資源利用率。簡(jiǎn)單的配置步驟即可實(shí)現(xiàn)推理加速,使得在阿里云等平臺(tái)上大規(guī)模并發(fā)請(qǐng)求的處理變得更加高效和經(jīng)濟(jì)。OpenVINO 的優(yōu)化讓用戶在保持高性能的同時(shí)降低部署成本,為 AI 模型的實(shí)時(shí)應(yīng)用和擴(kuò)展提供了強(qiáng)有力的支持。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    60

    文章

    9880

    瀏覽量

    171480
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2322

    瀏覽量

    2479
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    87

    瀏覽量

    181

原文標(biāo)題:開發(fā)者實(shí)戰(zhàn)|一步安裝,一步配置:用 vLLM + OpenVINO? 輕松加速大語(yǔ)言模型推理

文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    壓縮模型會(huì)加速推理嗎?

    位壓縮和“無(wú)”配置下都運(yùn)行了 115 毫秒,盡管精度有所下降。我認(rèn)為將 float 網(wǎng)絡(luò)參數(shù)壓縮為 uint8_t 不僅可以節(jié)省內(nèi)存,還可以加快推理速度。那么,壓縮模型是否應(yīng)該加速推理
    發(fā)表于 01-29 06:24

    如何在OpenVINO工具包中使用帶推理引擎的blob?

    無(wú)法確定如何在OpenVINO?工具包中使用帶推理引擎的 blob。
    發(fā)表于 08-15 07:17

    在AI愛(ài)克斯開發(fā)板上用OpenVINO?加速YOLOv8目標(biāo)檢測(cè)模型

    《在 AI 愛(ài)克斯開發(fā)板上用 OpenVINO 加速 YOLOv8 分類模型》介紹了在 AI 愛(ài)克斯開發(fā)板上使用 OpenVINO 開發(fā)套件部署并測(cè)評(píng) YOLOv8 的分類
    的頭像 發(fā)表于 05-12 09:08 ?1261次閱讀
    在AI愛(ài)克斯開發(fā)板上用<b class='flag-5'>OpenVINO</b>?<b class='flag-5'>加速</b>YOLOv8目標(biāo)檢測(cè)<b class='flag-5'>模型</b>

    自訓(xùn)練Pytorch模型使用OpenVINO?優(yōu)化并部署在AI愛(ài)克斯開發(fā)板

    本文章將依次介紹如何將 Pytorch 自訓(xùn)練模型經(jīng)過(guò)一系列變換變成 OpenVINO IR 模型形式,而后使用 OpenVINO Python API 對(duì) IR
    的頭像 發(fā)表于 05-26 10:23 ?885次閱讀
    自訓(xùn)練Pytorch<b class='flag-5'>模型</b>使用<b class='flag-5'>OpenVINO</b>?優(yōu)化并部署在AI愛(ài)克斯開發(fā)板

    AI愛(ài)克斯開發(fā)板上使用OpenVINO加速YOLOv8目標(biāo)檢測(cè)模型

    《在AI愛(ài)克斯開發(fā)板上用OpenVINO加速YOLOv8分類模型》介紹了在AI愛(ài)克斯開發(fā)板上使用OpenVINO 開發(fā)套件部署并測(cè)評(píng)YOLOv8的分類
    的頭像 發(fā)表于 05-26 11:03 ?1187次閱讀
    AI愛(ài)克斯開發(fā)板上使用<b class='flag-5'>OpenVINO</b><b class='flag-5'>加速</b>YOLOv8目標(biāo)檢測(cè)<b class='flag-5'>模型</b>

    如何將Pytorch自訓(xùn)練模型變成OpenVINO IR模型形式

    本文章將依次介紹如何將Pytorch自訓(xùn)練模型經(jīng)過(guò)一系列變換變成OpenVINO IR模型形式,而后使用OpenVINO Python API 對(duì)IR
    的頭像 發(fā)表于 06-07 09:31 ?1894次閱讀
    如何將Pytorch自訓(xùn)練<b class='flag-5'>模型</b>變成<b class='flag-5'>OpenVINO</b> IR<b class='flag-5'>模型</b>形式

    OpenVINO? C++ API編寫YOLOv8-Seg實(shí)例分割模型推理程序

    本文章將介紹使用 OpenVINO 2023.0 C++ API 開發(fā)YOLOv8-Seg 實(shí)例分割(Instance Segmentation)模型的 AI 推理程序。本文 C++ 范例程序的開發(fā)環(huán)境是 Windows + V
    的頭像 發(fā)表于 06-25 16:09 ?1511次閱讀
    用<b class='flag-5'>OpenVINO</b>? C++ API編寫YOLOv8-Seg實(shí)例分割<b class='flag-5'>模型</b><b class='flag-5'>推理</b>程序

    在AI愛(ài)克斯開發(fā)板上用OpenVINO?加速YOLOv8-seg實(shí)例分割模型

    《在 AI 愛(ài)克斯開發(fā)板上用 OpenVINO 加速 YOLOv8 目標(biāo)檢測(cè)模型》介紹了在 AI 愛(ài)克斯開發(fā)板上使用 OpenVINO 開發(fā)套件部署并測(cè)評(píng) YOLOv8 的目標(biāo)檢測(cè)
    的頭像 發(fā)表于 06-30 10:43 ?872次閱讀
    在AI愛(ài)克斯開發(fā)板上用<b class='flag-5'>OpenVINO</b>?<b class='flag-5'>加速</b>YOLOv8-seg實(shí)例分割<b class='flag-5'>模型</b>

    主流大模型推理框架盤點(diǎn)解析

    vLLM是一個(gè)開源的大模型推理加速框架,通過(guò)PagedAttention高效地管理attention中緩存的張量,實(shí)現(xiàn)了比HuggingFace Transformers高14-24倍
    發(fā)表于 10-10 15:09 ?5030次閱讀
    主流大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>框架盤點(diǎn)解析

    基于OpenVINO Python API部署RT-DETR模型

    平臺(tái)實(shí)現(xiàn) OpenVINO 部署 RT-DETR 模型實(shí)現(xiàn)深度學(xué)習(xí)推理加速, 在本文中,我們將首先介紹基于 OpenVINO Python
    的頭像 發(fā)表于 10-20 11:15 ?908次閱讀
    基于<b class='flag-5'>OpenVINO</b> Python API部署RT-DETR<b class='flag-5'>模型</b>

    NNCF壓縮與量化YOLOv8模型OpenVINO部署測(cè)試

    OpenVINO2023版本衍生出了一個(gè)新支持工具包NNCF(Neural Network Compression Framework – 神經(jīng)網(wǎng)絡(luò)壓縮框架),通過(guò)對(duì)OpenVINO IR格式模型的壓縮與量化更好的提升
    的頭像 發(fā)表于 11-20 10:46 ?1493次閱讀
    NNCF壓縮與量化YOLOv8<b class='flag-5'>模型</b>與<b class='flag-5'>OpenVINO</b>部署測(cè)試

    如何加速語(yǔ)言模型推理

    的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速語(yǔ)言模型推理過(guò)程,以期為相關(guān)領(lǐng)域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?464次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)
    的頭像 發(fā)表于 07-24 11:38 ?769次閱讀

    使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

    OpenVINO 是一個(gè)開源工具套件,用于對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化并在云端、邊緣進(jìn)行部署。它能在諸如生成式人工智能、視頻、音頻以及語(yǔ)言等各類應(yīng)用場(chǎng)景中加快深度學(xué)習(xí)推理的速度,且支持來(lái)自
    的頭像 發(fā)表于 10-12 09:55 ?275次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開發(fā)板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究也越來(lái)越多,從目前的市場(chǎng)來(lái)說(shuō),有些公司已經(jīng)有了專門做推理的ASIC,像Groq的LPU,專門針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 10-29 14:12 ?204次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應(yīng)用