精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGLM3-6B在CPU上的INT4量化和部署

英特爾物聯(lián)網(wǎng) ? 來(lái)源:英特爾物聯(lián)網(wǎng) ? 2024-01-05 09:36 ? 次閱讀

作者:劉力 英特爾邊緣計(jì)算創(chuàng)新大使

ChatGLM3-6B 簡(jiǎn)介

ChatGLM3 是智譜 AI 和清華大學(xué) KEG 實(shí)驗(yàn)室聯(lián)合發(fā)布的新一代對(duì)話預(yù)訓(xùn)練模型。ChatGLM3-6B 是 ChatGLM3 系列中的開(kāi)源模型,在填寫(xiě)問(wèn)卷進(jìn)行登記后亦允許免費(fèi)商業(yè)使用

02342994-aae9-11ee-8b88-92fbcf53809c.gif

請(qǐng)使用命令,將 ChatGLM3-6B 模型下載到本地:

git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

左滑查看更多

BigDL-LLM 簡(jiǎn)介

BigDL-LLM 是開(kāi)源,遵循 Apache 2.0 許可證,專門用于在英特爾的硬件平臺(tái)上加速大語(yǔ)言模型(Large Language Model, LLM)推理計(jì)算的軟件工具包。它是在原有的 BigDL 框架基礎(chǔ)上,為了應(yīng)對(duì)大語(yǔ)言模型在推理過(guò)程中對(duì)性能和資源的高要求而設(shè)計(jì)的。BigDL-LLM 旨在通過(guò)優(yōu)化和硬件加速技術(shù)來(lái)提高大語(yǔ)言模型的運(yùn)行效率,減少推理延遲,并降低資源消耗。

BigDL-LLM 的主要特點(diǎn)包括:

1低精度優(yōu)化:通過(guò)支持 INT4/INT5/INT8 等低精度格式,減少模型的大小和推理時(shí)的計(jì)算量,同時(shí)保持較高的推理精度。

2硬件加速:利用英特爾 CPU 集成的硬件加速技術(shù),如 AVX(Advanced Vector Extensions)、VNNI(Vector Neural Network Instructions)和 AMX(Advanced Matrix Extensions)等,來(lái)加速模型的推理計(jì)算。

3使用方便:對(duì)于基于 Hugging Face Transformers API 的模型,只需修改少量代碼即可實(shí)現(xiàn)加速,使得開(kāi)發(fā)者可以輕松地在其現(xiàn)有模型上應(yīng)用 BigDL-LLM。

4性能提升:BigDL-LLM 可以顯著提高大語(yǔ)言模型在英特爾平臺(tái)上的運(yùn)行速度,減少推理時(shí)間,特別是在處理大規(guī)模模型和復(fù)雜任務(wù)時(shí)。

5資源友好:通過(guò)優(yōu)化模型運(yùn)行時(shí)的資源使用,BigDL-LLM 使得大語(yǔ)言模型可以在資源受限的環(huán)境中也能高效運(yùn)行,如普通的筆記本電腦或服務(wù)器。

使用 BigDL-LLM

量化并部署 ChatGLM3-6B

第一步,創(chuàng)建虛擬環(huán)境

請(qǐng)安裝 Anaconda,然后用下面的命令創(chuàng)建名為 llm 的虛擬環(huán)境:

conda create -n llm python=3.9
conda activate llm

左滑查看更多

第二步,安裝 BigDL-LLM

執(zhí)行命令:

pip install --pre --upgrade bigdl-llm[all] -i https://mirrors.aliyun.com/pypi/simple/

左滑查看更多

第三步:運(yùn)行范例程序

范例程序下載地址:

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_infer.py

import time
from bigdl.llm.transformers import AutoModel
from transformers import AutoTokenizer


CHATGLM_V3_PROMPT_FORMAT = "<|user|>
{prompt}
<|assistant|>"
# 請(qǐng)指定chatglm3-6b的本地路徑
model_path = "d:/chatglm3-6b"
# 載入ChatGLM3-6B模型并實(shí)現(xiàn)INT4量化
model = AutoModel.from_pretrained(model_path,
                 load_in_4bit=True,
                 trust_remote_code=True)
# 載入tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path,
                     trust_remote_code=True)
# 制作ChatGLM3格式提示詞  
prompt = CHATGLM_V3_PROMPT_FORMAT.format(prompt="What is Intel?")
# 對(duì)提示詞編碼
input_ids = tokenizer.encode(prompt, return_tensors="pt")
st = time.time()
# 執(zhí)行推理計(jì)算,生成Tokens
output = model.generate(input_ids,max_new_tokens=32)
end = time.time()
# 對(duì)生成Tokens解碼并顯示
output_str = tokenizer.decode(output[0], skip_special_tokens=True)
print(f'Inference time: {end-st} s')
print('-'*20, 'Prompt', '-'*20)
print(prompt)
print('-'*20, 'Output', '-'*20)
print(output_str)

左滑查看更多

運(yùn)行結(jié)果,如下所示:

025ed96e-aae9-11ee-8b88-92fbcf53809c.png

ChatGLM3-6B WebUI demo

請(qǐng)先安裝依賴軟件包:

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

左滑查看更多

下載范例程序:

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_web_demo.py

然后運(yùn)行:

streamlit run chatglm3_web_demo.py

左滑查看更多

運(yùn)行結(jié)果如下:

總結(jié)

BigDL-LLM 工具包簡(jiǎn)單易用,僅需三步即可完成虛擬環(huán)境創(chuàng)建、BigDLL-LLM 安裝以及 ChatGLM3-6B 模型的 INT4 量化以及在英特爾 CPU 上的部署。

作者簡(jiǎn)介

劉力,深圳市鉑盛科技有限公司的創(chuàng)始人。帶領(lǐng)團(tuán)隊(duì)成功設(shè)計(jì)了多種計(jì)算機(jī)系統(tǒng),并申請(qǐng)了多項(xiàng)專利和軟件著作,鉑盛科技為國(guó)家高新技術(shù)企業(yè),深圳市專精特新企業(yè)。鉑盛通過(guò)整合算力和算法,打造軟硬件一體化的AIPC解決方案,目前產(chǎn)品已在工業(yè)控制智能機(jī)器人、教育、醫(yī)療、金融等多個(gè)邊緣計(jì)算領(lǐng)域得到廣泛應(yīng)用。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    60

    文章

    9880

    瀏覽量

    171485
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10824

    瀏覽量

    211137
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30106

    瀏覽量

    268399
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3245

    瀏覽量

    42396

原文標(biāo)題:三步完成 ChatGLM3-6B 在 CPU 上的 INT4 量化和部署 | 開(kāi)發(fā)者實(shí)戰(zhàn)

文章出處:【微信號(hào):英特爾物聯(lián)網(wǎng),微信公眾號(hào):英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NCNN+Int8+yolov5部署量化

    【GiantPandaCV引言】?還記得我兩個(gè)月前寫(xiě)的文章嗎,關(guān)于yolov4-tiny+ncnn+int8量化的詳細(xì)教程:NCNN+INT8+YOLOV4
    發(fā)表于 01-25 16:01 ?2次下載
    NCNN+<b class='flag-5'>Int</b>8+yolov5<b class='flag-5'>部署</b>和<b class='flag-5'>量化</b>

    英偉達(dá):5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

    降低數(shù)字格式而不造成重大精度損失,要?dú)w功于按矢量縮放量化(per-vector scaled quantization,VSQ)的技術(shù)。具體來(lái)說(shuō),一個(gè)INT4數(shù)字只能精確表示從-8到7的16個(gè)整數(shù)。
    的頭像 發(fā)表于 12-12 15:48 ?761次閱讀

    ChatGLM-6B的局限和不足

    ); ChatGLM-6B 是一個(gè)開(kāi)源的、支持中英雙語(yǔ)的對(duì)話語(yǔ)言模型,基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù); 結(jié)合模型量化技術(shù),用戶可以消費(fèi)級(jí)
    的頭像 發(fā)表于 06-25 11:50 ?5400次閱讀
    <b class='flag-5'>ChatGLM-6B</b>的局限和不足

    ChatGLM2-6B:性能大幅提升,8-32k上下文,推理提速42%,中文榜單位列榜首

    主要評(píng)估LLM模型中文能力的 C-Eval 榜單中,截至6月25日 ChatGLM2 模型以 71.1 的分?jǐn)?shù)位居 Rank 0 ,ChatGLM2-6B 模型以 51.7 的分?jǐn)?shù)位
    的頭像 發(fā)表于 06-26 14:30 ?958次閱讀
    <b class='flag-5'>ChatGLM2-6B</b>:性能大幅提升,8-32k上下文,推理提速42%,<b class='flag-5'>在</b>中文榜單位列榜首

    類GPT模型訓(xùn)練提速26.5%,清華朱軍等人用INT4算法加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    使用 INT4 算法實(shí)現(xiàn)所有矩陣乘法的 Transformer 訓(xùn)練方法。 模型訓(xùn)練得快不快,這與激活值、權(quán)重、梯度等因素的要求緊密相關(guān)。 神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要一定計(jì)算量,使用低精度算法(全量化訓(xùn)練或 FQT 訓(xùn)練)有望提升計(jì)算和內(nèi)存的效率。FQT
    的頭像 發(fā)表于 07-02 20:35 ?640次閱讀
    類GPT模型訓(xùn)練提速26.5%,清華朱軍等人用<b class='flag-5'>INT4</b>算法加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    ChatGLM2-6B解析與TPU部署

    ChatGLM2-6B解析與TPU部署
    的頭像 發(fā)表于 08-18 11:28 ?769次閱讀
    <b class='flag-5'>ChatGLM2-6B</b>解析與TPU<b class='flag-5'>部署</b>

    Xilinx器件具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)

    電子發(fā)燒友網(wǎng)站提供《Xilinx器件具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò).pdf》資料免費(fèi)下載
    發(fā)表于 09-13 09:30 ?0次下載
    <b class='flag-5'>在</b>Xilinx器件<b class='flag-5'>上</b>具有<b class='flag-5'>INT4</b>優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)

    探索ChatGLM2算能BM1684XINT8量化部署,加速大模型商業(yè)落地

    1.背景介紹2023年7月時(shí)我們已通過(guò)靜態(tài)設(shè)計(jì)方案完成了ChatGLM2-6B單顆BM1684X部署工作,
    的頭像 發(fā)表于 10-10 10:18 ?3591次閱讀
    探索<b class='flag-5'>ChatGLM</b>2<b class='flag-5'>在</b>算能BM1684X<b class='flag-5'>上</b><b class='flag-5'>INT</b>8<b class='flag-5'>量化</b><b class='flag-5'>部署</b>,加速大模型商業(yè)落地

    Yolo系列模型的部署、精度對(duì)齊與int8量化加速

    基于PytorchQuantization導(dǎo)出的含有QDQ節(jié)點(diǎn)的onnx時(shí),我們發(fā)現(xiàn)盡管量化版本的torch模型精度很高,但是TensorRT部署時(shí)精度卻很低,TRT
    的頭像 發(fā)表于 11-23 16:40 ?1189次閱讀

    OpenVINO? 2023.2 發(fā)布:讓生成式AI實(shí)際場(chǎng)景中更易用

    2023.2 版本中,我們進(jìn)一步優(yōu)化此工作流程,并引入 CPU 和集成顯卡運(yùn)行權(quán)重量化int
    的頭像 發(fā)表于 12-08 16:04 ?930次閱讀
    OpenVINO? 2023.2 發(fā)布:讓生成式AI<b class='flag-5'>在</b>實(shí)際場(chǎng)景中更易用

    三步完成英特爾獨(dú)立顯卡量化部署ChatGLM3-6B模型

    ChatGLM3 是智譜 AI 和清華大學(xué) KEG 實(shí)驗(yàn)室聯(lián)合發(fā)布的新一代對(duì)話預(yù)訓(xùn)練模型。ChatGLM3-6BChatGLM3 系列中的開(kāi)源模型,填寫(xiě)問(wèn)卷進(jìn)行登記后亦允許免費(fèi)
    的頭像 發(fā)表于 01-11 18:04 ?1551次閱讀
    三步完成<b class='flag-5'>在</b>英特爾獨(dú)立顯卡<b class='flag-5'>上</b><b class='flag-5'>量化</b>和<b class='flag-5'>部署</b><b class='flag-5'>ChatGLM3-6B</b>模型

    使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34Bint4量化和推理優(yōu)化實(shí)踐

    CodeFuse是由螞蟻集團(tuán)開(kāi)發(fā)的代碼語(yǔ)言大模型,旨在支持整個(gè)軟件開(kāi)發(fā)生命周期,涵蓋設(shè)計(jì)、需求、編碼、測(cè)試、部署、運(yùn)維等關(guān)鍵階段。
    的頭像 發(fā)表于 01-12 18:13 ?1088次閱讀

    【AIBOX】裝在小盒子的AI足夠強(qiáng)嗎?

    Firefly推出大語(yǔ)言模型本地部署的產(chǎn)品:AIBOX-1684X,目前已適配主流的大語(yǔ)言模型,包括ChatGLM3-6B,以下是ChatGLM3AIBOX-1684X
    的頭像 發(fā)表于 05-15 08:02 ?406次閱讀
    【AIBOX】裝在小盒子的AI足夠強(qiáng)嗎?

    chatglm2-6bP40做LORA微調(diào)

    背景: 目前,大模型的技術(shù)應(yīng)用已經(jīng)遍地開(kāi)花。最快的應(yīng)用方式無(wú)非是利用自有垂直領(lǐng)域的數(shù)據(jù)進(jìn)行模型微調(diào)。chatglm2-6b國(guó)內(nèi)開(kāi)源的大模型,效果比較突出。本文章分享的內(nèi)容是用
    的頭像 發(fā)表于 08-13 17:12 ?436次閱讀
    <b class='flag-5'>chatglm2-6b</b><b class='flag-5'>在</b>P40<b class='flag-5'>上</b>做LORA微調(diào)

    源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

    2.0-M32量化版是"源"大模型團(tuán)隊(duì)為進(jìn)一步提高模算效率,降低大模型部署運(yùn)行的計(jì)算資源要求而推出的版本,通過(guò)采用領(lǐng)先的量化技術(shù),將原模型精度量化
    的頭像 發(fā)表于 08-25 22:06 ?255次閱讀
    源2.0-M32大模型發(fā)布<b class='flag-5'>量化</b>版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA<b class='flag-5'>3</b>