国产一区二区欧美区|欧美国产日韩一二三四|久久精品国产欧美成人|亚洲欧美久久国产|国产综合欧美久久

作者：

Ekaterina Aidova AI 框架工程師

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多模態大模型可以可以理解多種不同模態的輸入數據，并輸出相應反饋結果，例如圖像理解，語音識別，視覺問題等。

多模態大模型都會將文本生成模型作為底座模型，以支持對話能力，其中千問團隊近期發布的 Qwen2-Audio 和 Qwen2-VL 便是以 Qwen2 為底座的多模態大模型，分別支持語音/文本以及圖像/文本作為多模態輸入，相比上一代的 Qwen-VL 和 Qwen-Audio ，基于 Qwen2 的多模態模型具備更強大的視覺理解以語音理解能力，并實現了多語種的支持。本文將分享如何利用 OpenVINO 工具套件在輕薄本上部署 Qwen2-Audio 以及 Qwen2-VL 多模態模型。

1Qwen2-VL

1. 模型轉換與量化

目前 Qwen2-VL 的推理任務還沒有被完全集成進 Optimum 工具中，因此我們需要手動完成模型的轉換和量化，其中包含語言模型 lang_model，圖像編碼模型 image_embed，文本 token 編碼模型 embed_token 模型以及圖像特征映射模型 image_embed_merger。

為了簡化轉化步驟，我們提前對這些轉化任務行進行了封裝，開發者只需要調用 Qwen2-VL 示例地址中提供的函數便可完成這些模型的轉換，并對其中負載最大的語言模型進行量化。這里以 Qwen2-VL-2B-Instruct 為例。

from ov_qwen2_vl import convert_qwen2vl_model
import nncf


compression_configuration = {  
  "mode": nncf.CompressWeightsMode.INT4_ASYM,  
  "group_size": 128,  
  "ratio": 1.0,
}


convert_qwen2vl_model("Qwen/Qwen2-VL-2B-Instruct", model_dir, compression_configuration)

2.圖片內容理解

此外在該示例中，我們也對模型的推理任務進行封裝，通過以下代碼便可快速部署圖像理解任務，并實現文字的流式輸出。由于 Qwen2-VL 對于輸入數據有格式上的要求，因此我們需要提前將圖片和文本包裝為指定的字典格式，并調用模型自帶的 processor 腳本將其轉換為 prompt 輸入。

question = "Describe this image."


messages = [
  {
    "role": "user",
    "content": [
      {
        "type": "image",
        "image": f"file://{example_image_path}",
      },
      {"type": "text", "text": question},
    ],
  }
]

你可以將以下推理代碼中的 device 設置為“GPU“，以激活系統中 Intel 集顯或是獨顯的能力。

from ov_qwen2_vl import OVQwen2VLModel
model = OVQwen2VLModel(model_dir, device)


processor = AutoProcessor.from_pretrained(model_dir, min_pixels=min_pixels, max_pixels=max_pixels)


text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(  
 text=[text],  
 images=image_inputs,  
 videos=video_inputs,  
 padding=True,  
 return_tensors="pt",
 )
 
generated_ids = model.generate(**inputs, max_new_tokens=100, streamer=TextStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True))

示例輸出效果如下：

Question:

Describe this image.

Answer:

The image depicts a woman sitting on a sandy beach with a large dog. The dog is standing on its hind legs, reaching up to give the woman a high-five. The woman is smiling and appears to be enjoying the moment. The background shows the ocean with gentle waves, and the sky is clear with a soft light, suggesting it might be either sunrise or sunset. The scene is serene and joyful, capturing a heartwarming interaction between the woman and her dog.

3. 視頻內容理解

由于 Qwen2-VL 可以同時支持對多個圖像輸入，因此可以基于這一特性實現視頻內容理解，實現方法也特別簡單，僅需對視頻文件抽幀后保存為圖片，并將這些圖片基于 Qwen2-VL 提供的預處理腳本合并后，轉化為 Prompt 模板，送入模型流水線進行推理。值得注意的是，當你將"type"設置為 "video"后，processor 會自動將兩張圖片拼接為一張，進行處理，以優化推理性能，并降低多圖任務的內存占用。

question = "描述一下這段視頻"
messages = [
  {
    "role": "user",
    "content": [
      {
        "type": "video",
        "video": [
          "file://./examples/keyframe_1.jpg",
          "file://./examples/keyframe_2.jpg",
          "file://./examples/keyframe_3.jpg",
          "file://./examples/keyframe_4.jpg",
        ],
        "fps": 1.0,
      },
      {"type": "text", "text": question},
    ],
  }
]

2Qwen2-Audio

1. 模型轉換與量化

針對 Qwen2-Audio，我們同樣在 Qwen2-VL 示例地址中對模型的轉換和量化步驟進行了接口封裝，其中包含語言模型 lang_model，音頻編碼模型 audio_embed，文本 token 編碼模型 embed_token 模型以及音頻特征映射模型 projection。使用方法如下：

from ov_qwen2_audio_helper import convert_qwen2audio_model
import nncf
compression_configuration = {
  "mode": nncf.CompressWeightsMode.INT4_ASYM,
  "group_size": 128,
  "ratio": 1.0,
}
convert_qwen2audio_model("Qwen/Qwen2-Audio-7B-Instruct", model_dir, compression_configuration)

2. 語音對話

Qwen2-Audio 提供語音對話和音頻分析兩種任務模式。在語音對話模式中，用戶只需輸入語音而無需輸入文字，指令則通過語音直接傳達給模型。下面則是一個音頻分析的例子。

conversation = [
  {"role": "system", "content": "You are a helpful assistant."},
  {
    "role": "user",
    "content": [
      {"type": "audio", "audio_url": audio_chat_url},
    ],
  },
]
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios = [librosa.load(audio_chat_file, sr=processor.feature_extractor.sampling_rate)[0]]
inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
generate_ids = ov_model.generate(**inputs, max_new_tokens=50, streamer=TextStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True))

和 Qwen2-VL 一樣，我們需要在構建輸入 Prompt 前，提前準備好字典格式的數據，可以看到在語音對話模式下，我們僅需提供音頻文件的地址或路徑。該示例的輸出如下：

Answer:

Yes, I can guess that you are a female in your twenties.

從輸出結果可以看到 Qwen2-Audio 不光可以理解音頻內容，并且可以識別對話者的音色和語調。

3. 音頻分析

在音頻分析模式下，Qwen2-Audio則支持多模態輸入，此時我們可以將文本和音頻拼接在一起，作為prompt送入模型中進行推理。

question = "What does the person say?"
conversation = [
  {"role": "system", "content": "You are a helpful assistant."},
  {
    "role": "user",
    "content": [
      {"type": "audio", "audio_url": audio_url},
      {"type": "text", "text": question},
    ],
  },
]

示例輸入結果：

Answer:

The person says: 'Mister Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.'

3總結與展望

通過 OpenVINO 封裝后的 API 函數，開發者可以非常便捷地對預訓練模型進行轉化壓縮，并實現本地化的推理任務部署。同時基于 Qwen2 系列多模態模型強大的音頻與圖像理解能力，我們僅在輕薄本上便可以構建起一個完整的語言模型應用，在保護用戶數據隱私的同時，降低硬件門檻。后期我們也計劃將 Qwen2 多模態系列模型的流水線集成進 Optimum 組件中，方便開發者更靈活地進行調用，敬請期待。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

英特爾

英特爾

+關注

關注
60

文章
9880

瀏覽量
171479
AI

AI

+關注

關注
87

文章
30106

瀏覽量
268398
模型

模型

+關注

關注
1

文章
3171

瀏覽量
48711
OpenVINO

OpenVINO

+關注

關注
0

文章
87

瀏覽量
181

原文標題：如何利用 OpenVINO? 部署 Qwen2 多模態模型｜開發者實戰

文章出處：【微信號：英特爾物聯網，微信公眾號：英特爾物聯網】歡迎添加關注！文章轉載請注明出處。

如何使用OpenVINO C++ API部署FastSAM模型

象的位置和邊界。本文將介紹如何使用 OpenVINO C++ API 部署 FastSAM 模型，以實現快速高效的語義分割。在前文中我們發表了《基于 OpenVINO Python A

發表于 11-17 09:53 ?862次閱讀

如何使用<b class='flag-5'>OpenVINO</b> C++ API<b class='flag-5'>部署</b>FastSAM<b class='flag-5'>模型</b>

使用OpenVINO? 部署PaddleSeg模型庫中的DeepLabV3+模型

Movidius MyraidX VPU上，請參考第一篇文章： Ubuntu20.04環境下使用OpenVINO部署BiSeNetV2模型 ? 那么我們重述一下什么是語義分割： ?

發表于 11-22 14:58 ?9838次閱讀

使用<b class='flag-5'>OpenVINO</b>? <b class='flag-5'>部署</b>PaddleSeg<b class='flag-5'>模型</b>庫中的DeepLabV3+<b class='flag-5'>模型</b>

在C++中使用OpenVINO工具包部署YOLOv5模型

下載并轉換YOLOv5預訓練模型的詳細步驟，請參考：《基于OpenVINO?2022.2和蝰蛇峽谷優化并部署YOLOv5模型》，本文所使用的Open

發表于 02-15 16:53 ?4572次閱讀

VisCPM：邁向多語言多模態大模型時代

可以大致分為兩類： 1. 在圖生文（image-to-text generation）方面，以 GPT-4 為代表的多模態大模型，可以面向圖像進行開放域對話和深度推理； 2. 在文生圖

發表于 07-10 10:05 ?690次閱讀

基于OpenVINO Python API部署RT-DETR模型

平臺實現 OpenVINO 部署 RT-DETR 模型實現深度學習推理加速，在本文中，我們將首先介紹基于 OpenVINO Python API

發表于 10-20 11:15 ?908次閱讀

基于OpenVINO C# API部署RT-DETR模型

Python API 部署 RT-DETR 模型 | 開發者實戰》和《基于 OpenVINO C++ API 部署 RT-DETR 模型

發表于 11-10 16:59 ?712次閱讀

NNCF壓縮與量化YOLOv8模型與OpenVINO部署測試

OpenVINO2023版本衍生出了一個新支持工具包NNCF(Neural Network Compression Framework – 神經網絡壓縮框架)，通過對OpenVINO IR格式模型的壓縮與量化更好的提升

發表于 11-20 10:46 ?1493次閱讀

簡單兩步使用OpenVINO?搞定Qwen2的量化與部署任務

英特爾 OpenVINO? 工具套件是一款開源 AI 推理優化部署的工具套件，可幫助開發人員和企業加速生成式人工智能 (AIGC)、大語言模型、計算機視覺和自然語言處理等 AI 工作負載，簡化深度學習推理的開發和

發表于 04-26 09:39 ?1558次閱讀

阿里通義千問Qwen2大模型發布

阿里巴巴最近發布了其通義千問系列的新成員——Qwen2大模型，并在Hugging Face和ModelScope兩大平臺上實現了同步開源。這一舉措無疑為人工智能領域的研究者和開發者們提供了更多選擇和可能。

發表于 06-07 15:59 ?732次閱讀

阿里通義千問Qwen2大模型發布并同步開源

阿里巴巴集團旗下的通義千問團隊宣布，全新的Qwen2大模型正式發布，并在全球知名的開源平臺Hugging Face和ModelScope上同步開源。這一里程碑式的事件標志著中國在人工智能領域的又一次重要突破。

發表于 06-11 15:33 ?1040次閱讀

Qwen2強勢來襲，AIBOX支持本地化部署

Qwen2是阿里通義推出的新一代多語言預訓練模型，經過更深入的預訓練和指令調整，在多個基準評測結果中表現出色，尤其在代碼和數學方面有顯著提升，同時拓展了上下文長度支持，最高可達128K。目前

發表于 06-27 08:02 ?984次閱讀

基于Qwen-Agent與OpenVINO構建本地AI智能體

Qwen2 是阿里巴巴集團 Qwen 團隊研發的大語言模型和大型多模態模型系列。

發表于 07-26 09:54 ?721次閱讀

阿里Qwen2-Math系列震撼發布，數學推理能力領跑全球

阿里巴巴近期震撼發布了Qwen2-Math系列模型，這一系列模型基于其強大的Qwen2 LLM構建，專為數學解題而生，展現了前所未有的數學推理能力。

發表于 08-12 15:19 ?693次閱讀

通義千問發布第二代視覺語言模型Qwen2-VL

。Qwen2-VL系列模型在多模態處理領域取得了突破性進展，于多個權威測評中嶄露頭角，刷新了多項最佳成績記錄，展現出強大的視覺理解與語言交互能力。

發表于 09-03 16:31 ?529次閱讀

號稱全球最強開源模型 ——Qwen2.5 系列震撼來襲！PerfXCloud同步上線，快來體驗！

最新的大規模數據集上進行了預訓練，該數據集包含多達18Ttokens。相較于Qwen2，Qwen2.5獲得了顯著更多的知識（MMLU：85+），并在編程能力（Human

發表于 09-25 16:52 ?524次閱讀