精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

8x7B MoE與Flash Attention 2結合，不到10行代碼實現快速推理

前段時間，Mistral AI 公布的 Mixtral 8x7B 模型爆火整個開源社區(qū)，其架構與 GPT-4 非常相似，很多人將其形容為 GPT-4 的「縮小版」。

我們都知道，OpenAI 團隊一直對 GPT-4 的參數量和訓練細節(jié)守口如瓶。Mistral 8x7B 的放出，無疑給廣大開發(fā)者提供了一種「非常接近 GPT-4」的開源選項。

在基準測試中，Mistral 8x7B 的表現優(yōu)于 Llama 2 70B，在大多數標準基準測試上與 GPT-3.5 不相上下，甚至略勝一籌。

▲圖源 https://mistral.ai/news/mixtral-of-experts/

隨著這項研究的出現，很多人表示：「閉源大模型已經走到了結局。」

短短幾周的時間，機器學習愛好者 Vaibhav (VB) Srivastav 表示：隨著 AutoAWQ（支持 Mixtral、LLaVa 等模型的量化）最新版本的發(fā)布，現在用戶可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結合使用，達到快速推理的目的，實現這一功能大約只需 24GB GPU VRAM、不到十行代碼。

▲圖源 https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ地址：

https://github.com/casper-hansen/AutoAWQ 操作過程是這樣的： 首先是安裝 AutoAWQ 以及 transformers：

pipinstallautoawqgit+https://github.com/huggingface/transformers.git

第二步是初始化 tokenizer 和模型：

?第三步是初始化 TextStreamer：

?第四步對輸入進行 Token 化：

?第五步生成：

?當你配置好項目后，就可以與 Mixtral 進行對話，例如對于用戶要求「如何做出最好的美式咖啡？通過簡單的步驟完成」，Mixtral 會按照 1、2、3 等步驟進行回答。

項目中使用的代碼：

Srivastav 表示上述實現也意味著用戶可以使用 AWQ 運行所有的 Mixtral 微調，并使用 Flash Attention 2 來提升它們。看到這項研究后，網友不禁表示：真的很酷。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

代碼

代碼

+關注

關注
30

文章
4753

瀏覽量
68369
GPT

GPT

+關注

關注
0

文章
352

瀏覽量
15318
OpenAI

OpenAI

+關注

關注
9

文章
1045

瀏覽量
6412

原文標題：8x7B MoE與Flash Attention 2結合，不到10行代碼實現快速推理

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

CC13x2x7和CC26x2x7 SimpleLink無線MCU技術參考手冊

電子發(fā)燒友網站提供《CC13x2x7和CC26x2x7 SimpleLink無線MCU技術參考手冊.pdf》資料免費下載

發(fā)表于 11-14 14:16 ?0次下載

CC13<b class='flag-5'>x2x7</b>和CC26<b class='flag-5'>x2x7</b> SimpleLink無線MCU技術參考手冊

阿里Qwen2-Math系列震撼發(fā)布，數學推理能力領跑全球

阿里巴巴近期震撼發(fā)布了Qwen2-Math系列模型，這一系列模型基于其強大的Qwen2 LLM構建，專為數學解題而生，展現了前所未有的數學推理能力。Qwen2-Math家族包括1.5

發(fā)表于 08-12 15:19 ?695次閱讀

PerfXCloud順利接入MOE大模型DeepSeek-V2

今日，在 PerfXCloud 重磅更新支持 llama 3.1 之后，其平臺再度實現重大升級！目前，已順利接入被譽為全球最強的 MOE 大模型 DeepSeek-V2 ，已在 PerfXCloud（澎峰云）官網的體驗中心對平臺

發(fā)表于 07-27 10:08 ?568次閱讀

PerfXCloud順利接入<b class='flag-5'>MOE</b>大模型DeepSeek-V<b class='flag-5'>2</b>

Verilog：【8】基于FPGA實現SD NAND FLASH的SPI協議讀寫

校驗 2Bytes **　　6 模塊代碼** 　　本代碼所實現的功能，是基于黑金AX301B，實現

發(fā)表于 06-21 17:58

ESP32-S2能否支持8位串行RGB？

看ESP32-S2手冊上寫的是支持8位串口RGB的。但是在編譯esp-idf master代碼時出錯。我有一片LCD是8位串行RGB接口（

發(fā)表于 06-17 06:17

昆侖萬維開源2千億稀疏大模型Skywork-MoE

近日，昆侖萬維公司宣布開源一款名為Skywork-MoE的稀疏大模型，該模型擁有高達2千億參數，不僅性能強勁，而且推理成本更低，為人工智能領域帶來了新的突破。

發(fā)表于 06-04 14:44 ?547次閱讀

STM32G0B1無法操作FLASH,解鎖FLASH失敗的原因？

使用STM32G0B1寫內部的Flash時出現問題，代碼： #pragma arm section code = \"RAMCODE\" uint32_t

發(fā)表于 04-02 07:45

8b10b編碼verilog實現

8b/10b編碼是一種用于減少數據線上的低效能時鐘信號傳輸的技術，通過在數據流中插入特殊的控制字符，來同步數據和時鐘。在Verilog中實現8b/1

發(fā)表于 03-26 07:55

基于NVIDIA Megatron Core的MOE LLM實現和訓練優(yōu)化

本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Experts) 大語言模型（LLM）實現與訓練優(yōu)化上的創(chuàng)新工作。

發(fā)表于 03-22 09:50 ?716次閱讀

基于OpenCV DNN實現YOLOv8的模型部署與推理演示

基于OpenCV DNN實現YOLOv8推理的好處就是一套代碼就可以部署在Windows10系統、烏班圖系統、Jetson的Jetpack系

發(fā)表于 03-01 15:52 ?1429次閱讀

大模型系列：Flash Attention V2整體運作流程

基于1.1中的思想，我們在V2中將原本的內外循環(huán)置換了位置（示意圖就不畫了，基本可以對比V1示意圖想象出來）。我們直接來看V2的偽代碼（如果對以下偽代碼符號表示或解讀有疑惑的朋友，最好

發(fā)表于 02-21 11:38 ?1797次閱讀

最佳開源模型刷新多項SOTA，首次超越Mixtral Instruct！「開源版GPT-4」家族迎來大爆發(fā)

Mixtral 8x7B模型開源后，AI社區(qū)再次迎來一大波微調實踐。來自Nous Research應用研究小組團隊微調出新一代大模型Nous-Hermes 2 Mixtral 8x7B，在主流基準測試中擊敗了Mixtral In

發(fā)表于 01-30 15:29 ?905次閱讀

CYT2B7 flash分區(qū)的疑問求解

在看看 CYT2B7 的手冊時，對于 flash 分區(qū)有疑問。為什么 Dual Bank 的分區(qū)中碼 flash和data flashdapping A和Mapping B？使用時單

發(fā)表于 01-22 07:30

混合專家模型 (MoE)核心組件和訓練方法介紹

隨著 Mixtral 8x7B (announcement, model card) 的推出，一種稱為混合專家模型 (Mixed Expert Models，簡稱 MoEs

發(fā)表于 01-13 09:37 ?1186次閱讀

深入淺出理解PagedAttention CUDA實現

vLLM 中，LLM 推理的 prefill 階段 attention 計算使用第三方庫 xformers 的優(yōu)化實現，decoding 階段 attention 計算則使用項目編譯

發(fā)表于 01-09 11:43 ?1791次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學習和實踐經驗

精選推薦
更多

文章

資料

帖子

星閃與Wi-Fi 7一相逢，便點亮智家無數

腦極體
13小時前

288 閱讀

【產品方案】基于CW32L010的低成本USB充電檢測儀產品方案

CW32生態(tài)社區(qū)
14小時前

292 閱讀

【CW32模塊使用】微波多普勒無線雷達傳感器

CW32生態(tài)社區(qū)
14小時前

156 閱讀

【CW32模塊使用】HX711稱重傳感器

CW32生態(tài)社區(qū)
15小時前

218 閱讀

新唐科技基于MPU/M4/BLE MCU在智能斷路器上的整體應用方案

新唐MCU
15小時前

187 閱讀

電機管理控制系統SIMOCODE PRO 3UF7常見問題集

KANA
233

5積分

46下載

基于紅外遙控的門禁系統設計

KK
0.72 MB

免費

31下載

可在移動設備上本地呈現的Lottie移動庫

姚小熊27
2.16 MB

免費

1下載

Dowse網絡配置工具

灑下墨色
13.75 MB

免費

0下載

GXWaterCollectionViewLayout可設置縱橫方向和排列數的瀑布流布局

小峰
1.45 MB

2積分

3下載

FacenetPytorch人臉識別方案--基于米爾全志T527開發(fā)板

blingbling111
1天前

285 閱讀

DCDC之Buck電路電感、電容值的選取及分析

醉清歌
1天前

384 閱讀

反激電源模塊輸出電壓穩(wěn)定，但輸出電流不穩(wěn)定，從0跳變到1A,這是怎么回事？

陽光少年BOY
1天前

593 閱讀

HarmonyOS NEXT應用元服務開發(fā)Intents Kit（意圖框架服務）綜述

李洋水蛟龍
1天前

357 閱讀

請問mateXT鴻蒙 4.2.0.130，如何可以安裝并正常使用goople play store？

jf_25844730
1天前

481 閱讀

推薦專欄
更多

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

8x7B MoE與Flash Attention 2結合，不到10行代碼實現快速推理

評論

CC13x2x7和CC26x2x7 SimpleLink無線MCU技術參考手冊

阿里Qwen2-Math系列震撼發(fā)布，數學推理能力領跑全球

PerfXCloud順利接入MOE大模型DeepSeek-V2

Verilog：【8】基于FPGA實現SD NAND FLASH的SPI協議讀寫

ESP32-S2能否支持8位串行RGB？

昆侖萬維開源2千億稀疏大模型Skywork-MoE

STM32G0B1無法操作FLASH,解鎖FLASH失敗的原因？

8b10b編碼verilog實現

基于NVIDIA Megatron Core的MOE LLM實現和訓練優(yōu)化

基于OpenCV DNN實現YOLOv8的模型部署與推理演示

大模型系列：Flash Attention V2整體運作流程

最佳開源模型刷新多項SOTA，首次超越Mixtral Instruct！「開源版GPT-4」家族迎來大爆發(fā)

CYT2B7 flash分區(qū)的疑問求解

混合專家模型 (MoE)核心組件和訓練方法介紹

深入淺出理解PagedAttention CUDA實現