精品亚洲成a人片在线观看-国产精品亚洲二区在线-99久久精品国产一区二区-国产精品自产拍在线观看

工具介紹

英特爾OpenVINO 工具套件是一款開源AI推理優(yōu)化部署的工具套件，可幫助開發(fā)人員和企業(yè)加速生成式人工智能 (AIGC)、大語言模型、計算機(jī)視覺和自然語言處理等 AI 工作負(fù)載，簡化深度學(xué)習(xí)推理的開發(fā)和部署，便于實(shí)現(xiàn)從邊緣到云的跨英特爾平臺的異構(gòu)執(zhí)行。

ChatGLM3是智譜AI和清華大學(xué)KEG實(shí)驗(yàn)室聯(lián)合發(fā)布的對話預(yù)訓(xùn)練模型。ChatGLM3-6B是ChatGLM3系列中的開源模型，在保留了前兩代模型對話流暢、部署門檻低等眾多優(yōu)秀特性的基礎(chǔ)上，ChatGLM3-6B引入了以下新特性：

更強(qiáng)大的基礎(chǔ)模型：

ChatGLM3-6B的基礎(chǔ)模型ChatGLM3-6B-Base采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)和更合理的訓(xùn)練策略。在語義、數(shù)學(xué)、推理、代碼、知識等不同角度的數(shù)據(jù)集上測評顯示，ChatGLM3-6B-Base具有在10B以下的預(yù)訓(xùn)練模型中領(lǐng)先的性能。

更完整的功能支持：

ChatGLM3-6B采用了全新設(shè)計的Prompt格式，除正常的多輪對話外，同時原生支持工具調(diào)用 (Function Call)、代碼執(zhí)行 (Code Interpreter) 和Agent任務(wù)等復(fù)雜場景。

更全面的開源序列：

除了對話模型ChatGLM3-6B外，還開源了基礎(chǔ)模型ChatGLM-6B-Base、長文本對話模型ChatGLM3-6B-32K。以上所有權(quán)重對學(xué)術(shù)研究完全開放，在填寫問卷進(jìn)行登記后亦允許免費(fèi)商業(yè)使用。

圖：基于Optimum-intel與OpenVINO部署生成式AI模型流程

英特爾為開發(fā)者提供了快速部署ChatGLM3-6B的方案支持。開發(fā)者只需要在GitHub上克隆示例倉庫，進(jìn)行環(huán)境配置，并將Hugging Face模型轉(zhuǎn)換為OpenVINO IR模型，即可進(jìn)行模型推理。由于大部分步驟都可以自動完成，因此開發(fā)者只需要簡單的工作便能完成部署，目前該倉庫也被收錄在GhatGLM3的官方倉庫和魔搭社區(qū)Model Card中，接下來讓我們一起看下具體的步驟和方法：

示例倉庫：

https://github.com/OpenVINO-dev-contest/chatglm3.openvino

官方倉庫：

https://github.com/THUDM/ChatGLM3?tab=readme-ov-file#openvino-demo

Model Card：

https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/summary#

模型轉(zhuǎn)換

當(dāng)你按倉庫中的README文檔完成集成環(huán)境配置后，可以直接通過以下命令運(yùn)行模型轉(zhuǎn)換腳本：

python3 convert.py --model_id THUDM/chatglm3-6b –output {your_path}/chatglm3-6b-ov

該腳本首先會利用Transformers庫從Hugging Face的model hub中下載并加載原始模型的PyTorch對象，如果開發(fā)者在這個過程中無法訪問Hugging Face的model hub，也可以通過配置環(huán)境變量的方式，將模型下載地址更換為鏡像網(wǎng)站，并將convert.py腳本的model_id參數(shù)配置為本地路徑，具體方法如下：

$env:HF_ENDPOINT = https://hf-mirror.com
huggingface-cli download --resume-download --local-dir-use-symlinks False THUDM/chatglm3-6b --local-dir {your_path}/chatglm3-6b
python3 convert.py --model_id {your_path}/chatglm3-6b --output {your_path}/chatglm3-6b-ov

當(dāng)獲取PyTorch的模型對象后，該腳本會利用OpenVINO的PyTorch frontend進(jìn)行模型格式的轉(zhuǎn)換，執(zhí)行完畢后，你將獲取一個由.xml和.bin文件所構(gòu)成的OpenVINO IR模型文件，該模型默認(rèn)以FP16精度保存。

權(quán)重量化

該步驟為可選項(xiàng)，開發(fā)者可以通過以下腳本，將生成的OpenVINO模型通過權(quán)重量化策略，進(jìn)一步地壓縮為4-bits或者是8-bits的精度，以獲取更低的推理延時及系統(tǒng)資源占用。

python3 quantize.py --model_path {your_path}/chatglm3-6b-ov --precision int4 --output {your_path}/chatglm3-6b-ov-int4

執(zhí)行完畢后，你將獲得經(jīng)過壓縮后的IR模型文件，以INT4對稱量化為例，該壓縮后的模型文件的整體容量大約為4GB左右。

圖：量化后的OpenVINO模型文件

同時在量化結(jié)束后，亦會在終端上打印模型的量化比例，如下圖所示。

圖：量化比例輸出

由于OpenVINO NNCF工具的權(quán)重壓縮策略只針對于大語言模型中的Embedding和Linear這兩種算子，所以該表格只會統(tǒng)計這兩類算子的量化比例。其中ratio-defining parameter是指我們提前通過接口預(yù)設(shè)的混合精度比例，也就是21%權(quán)重以INT8表示，79%以INT4表示，這也是考慮到量化對ChatGLM3模型準(zhǔn)確度的影響，事先評估得到的配置參數(shù)，開發(fā)者亦可以通過這個示例搜索出適合其他模型的量化參數(shù)。此外鑒于第一層Embedding layer和模型最后一層操作對于輸出準(zhǔn)確度的影響，NNCF默認(rèn)會將他們以INT8表示，這也是為何all parameters中顯示的混合精度比例會有所不同。當(dāng)然開發(fā)者也可以通過nncf.compress_weights接口中設(shè)置all_layers=True，開關(guān)閉該默認(rèn)策略。

示例：

https://github.com/openvinotoolkit/nncf/tree/develop/examples/llm_compression/openvino/tiny_llama_find_hyperparams

模型轉(zhuǎn)換

最后一步就是模型部署了，這里展示的是一個Chatbot聊天機(jī)器人的示例，這也是LLM應(yīng)用中最普遍，也是最基礎(chǔ)的pipeline，而OpenVINO可以通過Optimum-intel工具為橋梁，復(fù)用Transformers庫中預(yù)置的pipeline，因此在這個腳本中我們會對ChatGLM3模型再做一次封裝，以繼承并改寫OVModelForCausalLM類中的方法，實(shí)現(xiàn)對于Optimum-intel工具的集成和適配。以下為該腳本的運(yùn)行方式：

python3 chat.py --model_path {your_path}/chatglm3-6b-ov-int4 --max_sequence_length 4096 --device CPU

如果開發(fā)者的設(shè)備中包含英特爾的GPU 產(chǎn)品，例如Intel ARC系列集成顯卡或是獨(dú)立顯卡，可以在這個命令中將device參數(shù)改為GPU，以激活更強(qiáng)大的模型推理能力。

在終端里運(yùn)行該腳本后，會生成一個簡易聊天對話界面，接下來你就可以驗(yàn)證它的效果和性能了。

總結(jié)

通過模型轉(zhuǎn)換、量化、部署這三個步驟，我們可以輕松實(shí)現(xiàn)在本地PC上部署ChatGLM3-6b大語言模型，經(jīng)測試該模型可以流暢運(yùn)行在最新的Intel Core Ultra異構(gòu)平臺及至強(qiáng)CPU平臺上，作為眾多AI agent和RAG等創(chuàng)新應(yīng)用的核心基石，大語言模型的本地部署能力將充分幫助開發(fā)者們打造更安全，更高效的AI解決方案。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
46845

瀏覽量
237535
計算機(jī)視覺

計算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1696

瀏覽量
45927
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
803

瀏覽量
13145
OpenVINO

OpenVINO

+關(guān)注

關(guān)注
0

文章
87

瀏覽量
181

原文標(biāo)題：簡單三步使用OpenVINO? 搞定ChatGLM3的本地部署 | 開發(fā)者實(shí)戰(zhàn)

文章出處：【微信號：英特爾物聯(lián)網(wǎng)，微信公眾號：英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

用Ollama輕松搞定Llama 3.2 Vision模型本地部署

Ollama 是一個開源的大語言模型服務(wù)工具，它的核心目的是簡化大語言模型（LLMs）的本地部署和運(yùn)行過程，請參考《Gemma 2+Ollama在算力魔方上幫你在LeetCode解題》，一條命令完成

發(fā)表于 11-23 17:22 ?107次閱讀

用Ollama輕松<b class='flag-5'>搞定</b>Llama 3.2 Vision模型<b class='flag-5'>本地</b><b class='flag-5'>部署</b>

使用OpenVINO Model Server在哪吒開發(fā)板上部署模型

OpenVINO Model Server(OVMS)是一個高性能的模型部署系統(tǒng)，使用C++實(shí)現(xiàn)，并在Intel架構(gòu)上的部署進(jìn)行了優(yōu)化，使用OpenVINO 進(jìn)行推理，推理服務(wù)通過gP

發(fā)表于 11-01 14:19 ?185次閱讀

使用<b class='flag-5'>OpenVINO</b> Model Server在哪吒開發(fā)板上<b class='flag-5'>部署</b>模型

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日，Meta又發(fā)布了Llama3.2：一個多語言大型語言模型（LLMs）的集合。

發(fā)表于 10-12 09:39 ?462次閱讀

使用<b class='flag-5'>OpenVINO</b> 2024.4在算力魔方上<b class='flag-5'>部署</b>Llama-3.2-1B-Instruct模型

入門級攻略：如何容器化部署微服務(wù)？

第一步理解容器化基礎(chǔ)，第二步創(chuàng)建Dockerfile，第三步構(gòu)建推送鏡像，第四步部署微服務(wù)，第五步

發(fā)表于 10-09 10:08 ?118次閱讀

三行代碼完成生成式AI部署

LLM加載與推理部署能力，實(shí)現(xiàn)了OpenVINO對CNN網(wǎng)絡(luò)、生成式模型、LLM網(wǎng)絡(luò)主流模型的全面推理支持。

發(fā)表于 08-30 16:49 ?380次閱讀

用OpenVINO C# API在intel平臺部署YOLOv10目標(biāo)檢測模型

的模型設(shè)計策略,從效率和精度兩個角度對YOLOs的各個組成部分進(jìn)行了全面優(yōu)化，大大降低了計算開銷，增強(qiáng)了性能。在本文中，我們將結(jié)合OpenVINO C# API使用最新發(fā)布的OpenVINO 2024.1部署YOLOv10目標(biāo)檢

發(fā)表于 06-21 09:23 ?941次閱讀

【AIBOX上手指南】快速部署Llama3

Firefly開源團(tuán)隊(duì)推出了Llama3部署包，提供簡易且完善的部署教程，過程無需聯(lián)網(wǎng)，簡單快捷完成本地化

發(fā)表于 06-06 08:02 ?592次閱讀

簡單三步！高效預(yù)測半導(dǎo)體器件使用壽命

電力電子元器件已經(jīng)成為現(xiàn)代電子系統(tǒng)中重要的組成部件，同時，元器件的熱性能將大大影響整體設(shè)備的可靠性。庭田科技提供的POWERTESTER測試平臺，在不破壞待測器件的前提下，僅需三步，即可高效安全

發(fā)表于 05-30 10:31 ?425次閱讀

【AIBOX】裝在小盒子的AI足夠強(qiáng)嗎？

Firefly推出大語言模型本地部署的產(chǎn)品：AIBOX-1684X，目前已適配主流的大語言模型，包括ChatGLM3-6B，以下是ChatGLM3在AIBOX-1684X上的實(shí)機(jī)演示

發(fā)表于 05-15 08:02 ?406次閱讀

Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

Llama3 是Meta最新發(fā)布的開源大語言模型(LLM), 當(dāng)前已開源8B和70B參數(shù)量的預(yù)訓(xùn)練模型權(quán)重，并支持指令微調(diào)。

發(fā)表于 05-10 10:34 ?975次閱讀

簡單兩步使用OpenVINO?搞定Qwen2的量化與部署任務(wù)

英特爾 OpenVINO? 工具套件是一款開源 AI 推理優(yōu)化部署的工具套件，可幫助開發(fā)人員和企業(yè)加速生成式人工智能 (AIGC)、大語言模型、計算機(jī)視覺和自然語言處理等 AI 工作負(fù)載，簡化深度學(xué)習(xí)推理的開發(fā)和部署，便于實(shí)現(xiàn)從

發(fā)表于 04-26 09:39 ?1558次閱讀

英特爾集成顯卡+ChatGLM3大語言模型的企業(yè)本地AI知識庫部署

在當(dāng)今的企業(yè)環(huán)境中，信息的快速獲取和處理對于企業(yè)的成功至關(guān)重要。為了滿足這一需求，我們可以將RAG技術(shù)與企業(yè)本地知識庫相結(jié)合，以提供實(shí)時的、自動生成的信息處理和決策支持。

發(fā)表于 03-29 11:07 ?754次閱讀

如何在MacOS上編譯OpenVINO C++項(xiàng)目呢？

英特爾公司發(fā)行的模型部署工具 OpenVINO 模型部署套件，可以實(shí)現(xiàn)在不同系統(tǒng)環(huán)境下運(yùn)行，且發(fā)布的 OpenVINO 2023 最新版目前已經(jīng)支持 MacOS 系統(tǒng)并同時支持在蘋果

發(fā)表于 01-11 18:07 ?852次閱讀

三步完成在英特爾獨(dú)立顯卡上量化和部署ChatGLM3-6B模型

ChatGLM3 是智譜 AI 和清華大學(xué) KEG 實(shí)驗(yàn)室聯(lián)合發(fā)布的新一代對話預(yù)訓(xùn)練模型。ChatGLM3-6B 是 ChatGLM3 系列中的開源模型，在填寫問卷進(jìn)行登記后亦允許免費(fèi)商業(yè)使用。

發(fā)表于 01-11 18:04 ?1551次閱讀

ChatGLM3-6B在CPU上的INT4量化和部署

ChatGLM3 是智譜 AI 和清華大學(xué) KEG 實(shí)驗(yàn)室聯(lián)合發(fā)布的新一代對話預(yù)訓(xùn)練模型。ChatGLM3-6B 是 ChatGLM3 系列中的開源模型，在填寫問卷進(jìn)行登記后亦允許免費(fèi)商業(yè)使用。

發(fā)表于 01-05 09:36 ?868次閱讀