近期,openEuler A-Tune SIG在openEuler 23.09版本引入llama.cpp&chatglm-cpp兩款應用,以支持用戶在本地部署和使用免費的開源大語言模型,無需聯網也能使用!
大語言模型(Large Language Model, LLM)是一種人工智能模型,旨在理解和生成人類語言。它們在大量的文本數據上進行訓練,可以執行廣泛的任務,包括文本總結、翻譯、情感分析等等。openEuler通過集成llama.cpp&chatglm-cpp兩款應用,降低了用戶使用大模型的門檻,為Build openEuler with AI, for AI, by AI打下堅實基礎。
openEuler技術委員會主席胡欣慰在OSSUMMIT 2023中的演講
應用簡介
1. llama.cpp是基于C/C++實現的英文大模型接口,支持LLaMa/LLaMa2/Vicuna等開源模型的部署;
2. chatglm-cpp是基于C/C++實現的中文大模型接口,支持ChatGlm-6B/ChatGlm2-6B/Baichuan-13B等開源模型的部署。
應用特性
這兩款應用具有以下特性:
1. 基于ggml的C/C++實現;
2. 通過int4/int8等多種量化方式,以及優化KV緩存和并行計算等手段實現高效的CPU推理;
3. 無需 GPU,可只用 CPU 運行。
使用指南
用戶可參照下方的使用指南,在openEuler 23.09版本上進行大模型嘗鮮體驗。
llama.cpp使用指南如下圖所示:
llama.cpp使用指南
正常啟動界面如下圖所示:
LLaMa啟動界面
2. chatlm-cpp使用指南如下圖所示:
chatlm-cpp使用指南
正常啟動界面如下圖所示:
ChatGLM啟動界面
規格說明
這兩款應用都可以支持在CPU級別的機器上進行大模型的部署和推理,但是模型推理速度對硬件仍有一定的要求,硬件配置過低可能會導致推理速度過慢,降低使用效率。
以下是模型推理速度的測試數據表格,可作為不同機器配置下推理速度的參考。
表格中Q4_0,Q4_1,Q5_0,Q5_1代表模型的量化精度;ms/token代表模型的推理速度,含義為每個token推理耗費的毫秒數,該值越小推理速度越快;
表1 LLaMa-7B測試表格
表2 ChatGLM-6B測試表格
歡迎用戶下載體驗,玩轉開源大模型,近距離感受AI帶來的技術革新!
感謝LLaMa、ChatGLM等提供開源大模型等相關技術,感謝開源項目llama.cpp&chatglm-cpp提供模型輕量化部署等相關技術。
審核編輯:湯梓紅
-
人工智能
+關注
關注
1787文章
45804瀏覽量
234086 -
C++
+關注
關注
21文章
2084瀏覽量
73221 -
openEuler
+關注
關注
2文章
297瀏覽量
5761 -
大模型
+關注
關注
2文章
2053瀏覽量
1778 -
LLM
+關注
關注
0文章
244瀏覽量
274
原文標題:手把手帶你玩轉openEuler | 如何本地部署大模型
文章出處:【微信號:openEulercommunity,微信公眾號:openEuler】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論