LLaMA生態中的各個模型梳理

最近大模型發展卷的很，王慧文都被整抑郁了。想要研究學習大模型，應該從哪里開始呢？

目前大模型發展生態最好的當屬Meta的LLaMA模型。如果GPT系列是Windows操作系統(巧了，OpenAI的大東家目前就是微軟)，那么LLaMA就是Linux。如果GPT系列是蘋果手機，那么LLaMA就是安卓。如果你想基于大模型做一些事情，無論是創業還是研究，最好選擇一個生態好的模型，畢竟有人用才有市場。

ChatGPT演化的路徑如下圖所示。

圖片中分了4個階段，但是第三個和第四個階段一般都會放在一起，屬于對齊階段。所以一般會分成如下3個階段：

Stage 1: 預訓練(Pretrain)

Stage 2: 監督微調(SFT)

Stage 3: 對齊(Reward Model + RLHF)

既然已經有了成功ChatGPT這一成功的案例，大家都想基于LLaMA把這條路再走一遍，以期望做出自己的ChatGPT。

所以基于LLaMA的模型雖然很多，但是基本都可以放到上面3個框架當中。本文就沿著預訓練、監督微調、對齊(RW+RLHF)這一路徑來梳理一下LLaMA生態中的各個模型。

主要是點出這些模型處在大模型訓練的那一個階段，以及都做了哪些創新性的工作，方便你根據自己的興趣和資源來選擇使用哪一個，對中文支持比較好的也都有注明。

Stage1 預訓練: LLaMA 復現

RedPajama

參考LLaMA論文中的訓練數據，收集并且開源可商用。

https://github.com/togethercomputer/RedPajama-Data

Baichuan-7B(支持中文)

采用LLaMA的相同架構，在中文上做預訓練。可商用。

王小川這次做大模型的切入點其實挺不錯的，綁定到LLaMA的生態上，然后在中文上有所突破。可能也在構思新三級火箭了吧。

目前Baichuan可以算是第一個LLaMA中文預訓練模型，所以后面的工作都可以在這上面都走一遍，估計沒多久Baichuan-Alapca, Baichuan-Vicuna就都出來了。

https://github.com/baichuan-inc/baichuan-7B

OpenLLaMA

參考LLaMA的代碼，在Apache 2.0 license下的重新實現和訓練。使用了RedPajama訓練集合。

https://github.com/openlm-research/open_llama

Lit-LLaMA

參考LLaMA，在Apache 2.0 license下的只有代碼的重新實現。同時支持加載原始LLaMA和OpenLLaMA的權重。

https://github.com/Lightning-AI/lit-llama

Stage 2: 監督微調

因為預訓練模型本質上還是個續寫模型，所以并不能很好的滿足人們的需求，所以監督微調的作用就是微調模型產生理想的回復。

在監督微調這里，大家目標都是一樣的，但是做法有些不同，主要是有錢和沒錢的區別。

有錢你可以全參數微調，沒錢就只能使用一些低成本的方法，英文叫PEFT(Parameter-Efficient Fine-Tuning)。

PEFT確實是想我這種平民玩家的首選，但是有錢也可以用PEFT，它可以讓你微調更大的模型。比如我們就只能玩玩10B的，有點小錢用PEFT玩個幾十B的問題不大。

2.1 LLaMA + Instruction Finetuning(全量參數)

Alpaca

llama7b + self-instruct數據指令微調。算是最早邁出LLaMA+SFT這一步的模型。最開始并沒有提供權重，后來通過diff的方式給出，需要LLaMA原始模型才能恢復，github上有教程。

當時他們采用1張8卡A100(80G顯存)，52k的數據，訓練了3個小時。訓練成本大概是100刀。

https://github.com/tatsu-lab/stanford_alpaca

Alpaca衍生模型

BELLE(支持中文): 最早是基于BLOOM的，后來也支持LLaMA https://github.com/LianjiaTech/BELLE

openAlpaca: OpenLLaMA + databricks-dolly-15k dataset 進行指令微調 https://github.com/yxuansu/OpenAlpaca

gpt4-x-alpaca: 用GPT4的數據微調，數據集為GPTeacher https://huggingface.co/chavinlo/gpt4-x-alpaca

Vicuna

llama13b + ShareGPT對話數據，微調

研發團隊基于Vicuna發布了FastChat對話機器人。

和Alpaca一樣，受協議限制，vicuna模型公布的權重也是個delta，每個參數要加上llama原來的權重才是模型權重。

https://github.com/lm-sys/FastChat

Vicuna衍生模型

gpt4-x-vicuna-13b: 用GPT4的數據微調，數據集為GPTeacher https://huggingface.co/NousResearch/gpt4-x-vicuna-13b

WizardLM

采用了Evol-Instruct來構造指令，可以產生一些很難的指令.

深度演化包括五種操作：添加約束、深化、具體化、增加推理步驟并使輸入復雜化。

In-breadth Evolving 是突變，即根據給定的指令生成全新的指令

進化是通過提示+LLM來實現的。

https://github.com/nlpxucan/WizardLM

TüLU

使用LLaMA + Human/GPT data mix 微調

驗證了很多結論，論文值得一看。https://arxiv.org/abs/2306.04751

https://github.com/allenai/open-instruct

GPT4ALL

LLaMA用80w的GPT3.5的數據(code, story, conversation)微調而來。

https://github.com/nomic-ai/gpt4all

Koala

LLaMA13B基于ChatGPT Distillation Data和Open Source Data訓練而來。

具體數據見下面：

https://bair.berkeley.edu/blog/2023/04/03/koala/

OpenBuddy(支持中文)

基于LLaMA，Falcon, OpenLLaMA微調的，只說用了對話數據，細節沒透漏。

https://github.com/OpenBuddy/OpenBuddy

Pygmalion 7B

給予LLaMA微調，使用了不同來源的56MB 的對話數據，包含了人工和機器。

https://huggingface.co/PygmalionAI/pygmalion-7b

2.2 LLaMA + PEFT

PEFT目前最流行的是LoRA，挺巧妙的架構，可以看看https://arxiv.org/abs/2106.09685。

下面大多數的模型都是LLaMA+lora的架構，不只是文本，AIGC的頭部網站civitai.com上很多模型也都是基于lora的。

最近還出了QLoRA，在LoRA的基礎上加入了量化，進一步降低顯存的使用。https://arxiv.org/abs/2305.14314。

Baize

LLaMA + Lora

https://github.com/project-baize/baize-chatbot

LLaMA-Adapter

LLaMA + Adapter Layer

https://github.com/OpenGVLab/LLaMA-Adapter

CalderaAI/30B-Lazarus

似乎是多個LoRA的merge，但是沒太公布太多細節。

在huggingface的leaderboard上排名還挺靠前。

https://huggingface.co/CalderaAI/30B-Lazarus

Chinese-LLaMA-Alpaca(支持中文)

https://arxiv.org/pdf/2304.08177.pdf

LLaMA + 擴詞表 + lora

Chinese LLaMA是屬于局部參數預訓練

Stage1: frozen encoder，只用來訓練Embedding層。

Stage2: 只訓練Embedding, LM head, lora weights

在Chinese LLaMA的基礎上，仿照Alpaca訓練了Chinese Alpaca

https://github.com/ymcui/Chinese-LLaMA-Alpaca

Chinese-Vicuna(支持中文)

基于：https://github.com/tloen/alpaca-lora

lora + 中文instruction數據

chatv1的數據使用了50k中文指令+對話混合數據。

并沒有擴充詞表，據說Vicuna1.1并沒有擴充詞表，但是中文效果不錯。

https://github.com/Facico/Chinese-Vicuna

Stage 3: 對齊(LLaMA + FT + RHLF)

這部分可以說是把ChatGPT的路徑完整走了一遍。

StableVicuna

Vicuna = LLaMA + FT

StableVicuna = Vicuna + RLHF

https://github.com/Stability-AI/StableLM

StackLLaMA

SFT: LLaMA + Lora

RM: LLaMA + Lora + 分類

https://huggingface.co/blog/zh/stackllama

其他：LLaMA 推理優化

llama.cpp

用C/C++實現的推理，不依賴顯卡。

https://github.com/ggerganov/llama.cpp

GPTQ-for-LLaMA

4 bits quantization of LLaMA using GPTQ.

https://github.com/qwopqwop200/GPTQ-for-LLaMa

進NLP群—>加入NLP交流群

原文標題：其他：LLaMA 推理優化

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

閱讀全文

機器人(200958) 機器人(200958)
WINDOWS(87074) WINDOWS(87074)
操作系統(121702) 操作系統(121702)
ChatGPT(3870) ChatGPT(3870)

技術與市場：AI大模型的“Linux時刻”降臨

LLaMA 包括四個不同的參數版本（70 億/130 億/330 億/650 億），不支持商用，指令數據集基于 OpenAI，模型表現可與 GPT-3 持平或優于 GPT-3。其中，70 億和 130 億參數版擁有包含 1 萬億個標識符（Token）的預訓練數據集；

2023-06-01 16:43:10

1120

RISC -V跑大模型（一）

去年，ChatGPT的出現震驚了全世界，在短短幾個月的時間內，ChatGPT的月活躍用戶達到了1億。ChatGPT的成功讓許多人第一次知道了大語言模型（Large Language Model

2023-07-17 15:13:29

412

RISC-V 跑大模型（二）：LLaMA零基礎移植教程

這是RISC-V跑大模型系列的第二篇文章，主要教大家如何將LLaMA移植到RISC-V環境里。

2023-07-17 16:16:20

917

RISC-V 跑大模型（三）：LLaMA中文擴展

這是RISC-V跑大模型系列的第三篇文章，前面我們為大家介紹了如何在RISC-V下運行LLaMA，本篇我們將會介紹如何為LLaMA提供中文支持。

2023-07-17 17:15:47

495

英特爾一系列AI解決方案，為Llama 2大模型提供實力之選

英特爾廣泛的AI硬件組合及開放的軟件環境，為Meta發布的Llama 2模型提供了極具競爭力的選擇，進一步助力大語言模型的普及，推動AI發展惠及各行各業。 ? 大語言模型（LLM）在生成文本、總結

2023-07-25 09:56:26

736

基于Llama2和OpenVIN打造聊天機器人

Llama 2是 Meta 發布了其最新的大型語言模型，Llama2 是基于 Transformer 的人工神經網絡，以一系列單詞作為輸入，遞歸地預測下一個單詞來生成文本。

2023-08-06 11:06:30

523

llama.cpp代碼結構&調用流程分析

llama.cpp 的代碼結構比較直觀，如下所示，為整體代碼結構中的比較核心的部分的代碼結構

2023-11-07 09:23:27

756

解讀大模型FP量化的解決方案

在 LLaMA, BERT 以及 ViTs 模型上，4-bit 量化皆取得了遠超 SOTA 的結果。特別是，這篇文章展示了 4-bit 量化的 LLaMA-13B 模型，在零樣本推理任務上達到平均

2023-11-24 11:15:55

299

大模型筆記之gem5運行模型框架LLama介紹

LLama.cpp 支持x86，arm，gpu的編譯。

2024-01-22 09:10:16

317

AI大模型商業化，小i機器人華藏生態迎來“變現”

和一個產品支撐,以及三項服務保障。 ? 一個能力基座指的是華藏通用大模型具備文生圖、文修圖和圖生文等數百項通用大模型基礎能力。一個產品支撐指的是由生態開發板塊、生態應用板塊和生態運營板塊組成的華藏開發者平臺。其中在

2023-11-02 00:09:00

1090

2022年HarmonyOS/OpenHarmony生態觀察

一、鴻蒙生態世界快速構建升級中HarmonyOS鴻蒙2019年正式面世，當時消費者只能在華為的智慧屏上體驗；2020年，鴻蒙智聯-華為面向智能硬件生態伙伴全新品牌和開放平臺發布；2021年，智能手機

2023-01-19 13:10:06

生態穩定在214009和PRO/PSoC4-BLE模塊？

在214009模塊中，生態系統從深度睡眠中獲得穩定的時間是多少？以上來自于百度翻譯以下為原文What is the time it takes for the ECO to become stable from deepsleep in the 214009 module?

2018-08-28 14:52:58

今天閑來無事，把DC-DC電源芯片的使用大概梳理一下，同時呢，也讓自己加深一下印象，不至于別人突然考你的時候，首鼠兩端、舉棋不定，哈哈哈哈哈哈哈哈哈成語亂用了哈，承讓，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，，主要參考MPM3630 即美國芯源系統有限公司(Monolithic Power Sy...

2021-11-16 09:40:55

ERP、CRM實施中流程的梳理？

，我們辛辛苦苦地組織了公司流程梳理工作，各項流程都進行了圖示化，并將流程中的職責、權限、相關制度、標準都進行了清晰的界定。但是，公司領導及各部門并不認帳，他們認為該項工作人力、物力花費不少，雖然各項工作

2017-08-17 09:24:35

Labview中如何導入3D 的模型

Labview中如何導入3D 的模型，例如3Dmax生成的模型。嘗試過用.STL格式導入Labview。但是3D模型的材質以及一切特性都沒有了。只有灰色的輪廓。（單色模型）。如何在labview中導入3D模型、并且導入后保持原有顏色和材質、貼圖等？？

2014-01-26 13:13:13

OpenHarmony 技術與生態交流研討會成功舉辦

必選、同為數碼等 40 多位企業代表參加此次會議。會議伊始，鄭飛秘書長對各位嘉賓的到來表示了熱烈歡迎，他談到開源是軟件產業的活力之源，當前我國開源生態建設正在快速推進中，OpenHarmony 開源

2021-07-20 12:00:24

OpenHarmony現在有生態APP嗎？從哪里下載？

哪里能下載到OpenHarmony生態APP

2022-04-14 11:43:54

PCB SI/PI中添加IBIS模型后，sigxplorer中元件模型顯示unknown

cadence中dsp，fpga已經添加IBIS模型，為什么在sigxplorer中元件模型下顯示“unknown”

2015-03-29 17:10:16

PMSM的基本數學模型和各個坐標變換之間的關系

的的基本數學模型和各個坐標變換之間的關系，了解兩種常用坐標系變換之間的區別與聯系。二知識點當三相 PMSM 轉子磁路的結構不同時，電機的運行性能、控制方法、制造工藝和適用場合也會不同。目前，根...

2021-08-27 07:02:16

STM32 TIMER知識梳理

STM32定時器是 ST MCU 內部最基礎且常用的外設，實際應用尤為普遍。去年，電堂推出了《STM32 TIMER基礎及常規應用介紹》，為大家梳理了 STM32 TIMER 的龐大內容，涵蓋

2021-12-10 06:21:41

everspin生態系統和制造工藝創新解析

everspin生態系統和制造工藝創新

2021-01-01 07:55:49

multisim 中 MOSFET 如何修改器件參數模型，器件模型中的數據都是什么含義，是否有大神！！

2017-02-14 16:13:46

saber中IGBT模型如何設置

請教：saber中IGBT模型有若干種，具體參數如何設計？

2014-04-21 16:29:45

【EVB-335X-II申請】水庫生態檢測系統

分組成：水質檢測部分、水位檢測部分、水庫安防部分。具有以下功能：1、水量調度。（檢測水庫各個出水口的出水量，根據實際情況作出合理調度）2、保證最小生態徑流量目標（生態調度要滿足河流一定的生態需水要求,維持河流生態平衡,不允許時段下泄的徑流量小于最小生態徑流量,更不能造成河段斷流、干涸）

2015-10-21 09:21:02

【Thunderboard Sense試用體驗】之（三）梳理供電問題

紐扣電池、USB在內的多種方式，本節對電源供電過程中遇到的各種問題進行梳理，希望給大家以參考。1、電池供電問題描述：拿到開發板后，立馬安裝CR2032紐扣電池，發現信號指示燈不亮，手機掃描藍牙，也沒有

2017-06-16 11:17:09

【報名開啟】繁榮生態，人才先行︱首屆OpenHarmony人才生態大會即將在上海召開

共建單位代表等，介紹OpenHarmony社區生態及人才進展、展示OpenHarmony操作系統的技術革新、分享階段性技術成果，圍繞OpenHarmony人才生態發展中面臨的各種問題、挑戰與實踐，一同

2023-12-04 16:23:07

【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

預訓練語言模型。該模型最大的特點就是基于以較小的參數規模取得了優秀的性能，根據官網提供的信息，LLaMA的模型包含4個版本，最小的只有70億參數，最大的650億參數，但是其性能相比較之前的OPT

2023-12-22 10:18:11

一文幫你梳理Cortex與ARMv8等基礎概念

到底什么是Cortex、ARMv8、arm架構、ARM指令集、soc？一文幫你梳理基礎概念【科普】1. 從0開始學ARM-安裝Keil MDK uVision集成開發環境

2021-12-14 08:20:33

三相不控整流的數學模型

三相整流的模型簡單，但是具體的各個時刻的電流，電壓波形，在VSR電路中究竟是怎樣的。是否能用函數描述，各個不同時刻電流的波形。并用mathcad得出實際波形

2023-05-23 13:44:06

什么是STM32Cube生態系統？

2021-09-29 06:12:50

如何在Allegro中添加模型？

allegro中這個怎么樣添加模型？

2019-08-01 05:35:21

如何構建UVM寄存器模型并將寄存器模型集成到驗證環境中

），通常也叫寄存器模型，顧名思義就是對寄存器這個部件的建模。本文要介紹的內容，包括對UVM寄存器模型的概述，如何構建寄存器模型，以及如何將寄存器模型集成到驗證環境中。篇幅原因，將在下一篇文章再給出寄存器

2022-09-23 14:29:03

如何檢測開關電源中的各個元器件？

開關電源中的各個元器件是如何檢驗的？

2021-03-10 07:30:08

嵌入式系統概述知識梳理

2021-12-22 06:53:19

開發者如何快速加入鴻蒙生態？（學習方法+職業定位）

HarmonyOS/OpenHarmony開發者們在學習、成長中對自己的準確的定位，包括個人開發者、企業開發者、各個不同職能的開發者等對應的在鴻蒙生態中的各項具體的參與方式與路徑、各項具體的機會

2021-11-10 16:04:31

怎樣將matlab中的數學模型封裝成物理電氣模型

各位朋友，本人現在正在搭建雙饋異步電機的內部模型，但是要和外部的電氣模型連接起來，不知道怎樣把數學模型封裝成電氣模型啊，在MATLAB中，有個三相異步電機的原始電氣模型，打開里面的建模，是將數學模型封裝成電氣模型的，但是卻看不到是如何封裝的，希望各位多多幫忙啊，大家可以交流下！

2012-12-13 21:37:21

浩辰3D軟件中如何創建槽特征？3D模型設計教程！

，然后單擊新槽(2) 的路徑，最后單擊以放置新槽 (3)。可以每次一個或每個圍欄一個地添加更多槽，或者選擇多個路徑來同時創建多個槽。以上就是小編為大家梳理的浩辰3D軟件中槽特征的創建教程，在實際的3D模型設計過程中大家可以參考本篇教程來操作哦~想GET更多3D繪圖技巧嗎？那趕緊關注我吧！

2020-09-28 16:16:56

深度學習模型是如何創建的？

具有深度學習模型的嵌入式系統應用程序帶來了巨大的好處。深度學習嵌入式系統已經改變了各個行業的企業和組織。深度學習模型可以幫助實現工業流程自動化，進行實時分析以做出決策，甚至可以預測預警。這些AI

2021-10-27 06:34:15

物聯網時代下的MCU呈現出了新的應用生態

在物聯網應用發展中，MCU的應用生態也發生了一些改變，呈現出了新的應用生態。目前，物聯網應用基本都是將傳感終端連接到云端，基本遵循云－管－端的架構。MCU的應用一般是在“管”和“端”，管指的是連接通信的管道，端是設備終端或傳感終端。下圖是MCU在物聯網中應用生態的示意圖：物聯網應用中MCU應用生態示意圖

2019-07-15 06:43:05

電機控制開發中基于模型的設計

硬件平臺電機控制開發中基于模型的設計，需要先考慮目標硬件。硬件平臺由一個電機驅動、一個3相永磁電機和一臺裝有MATLAB、Simulink和IAR Embedded Workbench的個人電腦構成。圖

2018-06-21 11:50:12

請問模型編譯中是否支持模型的在線編譯？

模型編譯中是否支持模型的在線編譯？

2023-09-18 07:24:28

林地生態水文監測系統

林地生態水文監測系統FT-SWQX在森林資源保護的工作中有非常重要的作用，我們都知道，森林的保護和樹木的生長也是萬萬離不開水資源的支持的，而且森林的存在就像是地球的肺，是重要的循環和呼吸部分。通過

2021-05-21 17:27:38

PSR模型支持下重慶市主城區生態安全評價_黃鴻

2017-03-19 11:27:34

流域重金屬生態風險評估系統模型綜述

針對流域重金屬生態風險評價缺乏實時、有效的方法和監測技術的現狀，利用遙感和氣象數據構建合理準確的評估模型監控決策流域環境狀況，釆集和收集硏究區域流域內的氣象遙感以及土壤重金屬數據，并結合

2021-04-29 11:36:37

“伶荔”(Linly) 開源大規模中文語言模型

Linly-Chinese-LLaMA：中文基礎模型，基于 LLaMA 在高質量中文語料上增量訓練強化中文語言能力，現已開放 7B、13B 和 33B 量級，65B 正在訓練中。

2023-05-04 10:29:07

706

軟通動力成為文心千帆大模型平臺生態伙伴

在2023百度智能云合作伙伴大會·廣州站，28家合作伙伴與百度智能云簽約。軟通動力簽約文心千帆大模型平臺生態伙伴，軟通動力副總裁王峰出席并參與簽約儀式。軟通動力將與百度智能云推動大模型在工業互聯網、銀行、汽車等多個行業落地應用，賦能客戶數智化轉型，構建面向行業的智能應用。

2023-05-22 17:50:06

398

基于LLAMA的魔改部署

去訓練），并且和Vision結合的大模型也逐漸多了起來。所以怎么部署大模型是一個超級重要的工程問題，很多公司也在緊鑼密鼓的搞著。目前效果最好討論最多的開源實現就是LLAMA，所以我這里討論的也是基于 LLAMA的魔改部署。基于LLAMA的finetune模型

2023-05-23 15:08:47

4397

State of GPT：大神Andrej揭秘OpenAI大模型原理和訓練過程

你可以看到，Llama 的參數數量大概是 650 億。現在，盡管與 GPT3 的 1750 億個參數相比，Llama 只有 65 個 B 參數，但 Llama 是一個明顯更強大的模型，直觀地說，這是

2023-05-30 14:34:56

642

我在iPhone上裝了70億參數大模型，來自陳天奇團隊最新成果

目前可以測試的模型有羊駝家族（基于LLaMA）的RedPajama和Vicuna。可選模型參數分別為30億和70億，與很多在線Demo規模也相當了。

2023-06-07 16:12:00

301

擊敗LLaMA？史上最強「獵鷹」排行存疑，符堯7行代碼親測，LeCun轉贊

「我們在MMLU上復現了LLaMA 65B的評估，得到了61.4的分數，接近官方分數（63.4），遠高于其在Open LLM Leaderboard上的分數（48.8），而且明顯高于獵鷹（52.7）。」

2023-06-09 16:43:14

820

號稱「碾壓」LLaMA的Falcon實測得分僅49.08，HuggingFace決定重寫排行榜代碼

這是一組由 Meta 開源的大型語言模型，共有 7B、13B、33B、65B 四種版本。其中，LLaMA-13B 在大多數數據集上超過了 GPT-3（175B），LLaMA-65B 達到了和 Chinchilla-70B、PaLM-540B 相當的水平。

2023-06-11 11:24:20

421

智能開源大模型baichuan-7B技術改進

baichuan-7B 主要是參考LLaMA進行的改進，且模型架構與LLaMA一致。而在開源大模型中，LLaMA無疑是其中最閃亮的星，但LLaMA存在如下問題： LLaMA 原生僅支持 Latin

2023-06-17 14:14:28

706

RISC-V跑大模型（二）：LLaMA零基礎移植教程

這是RISC-V跑大模型系列的第二篇文章，主要教大家如何將LLaMA移植到RISC-V環境里。

2023-07-10 10:10:38

706

高通攜手Meta利用Llama 2賦能終端側AI應用

和服務相比，終端側AI部署能夠助力開發者以顯著降低的成本，提升用戶隱私保護、滿足用戶安全偏好、增強應用可靠性，并實現個性化。高通技術公司和Meta正在合作優化Meta Llama 2大語言模型直接在終端側的執行，無需僅依賴云服務。能夠在智能手機、PC、VR/AR頭顯和汽車等終

2023-07-19 10:00:02

323

高通攜手Meta利用Llama 2賦能終端側AI應用

高通計劃從2024年起，在旗艦智能手機和PC上支持基于Llama 2的AI部署，賦能開發者使用驍龍平臺的AI能力，推出激動人心的全新生成式AI應用。

2023-07-19 10:00:03

462

高通攜手Meta利用Llama 2賦能終端側AI應用

因此，高通技術公司計劃支持基于llama 2的終端ai部署，以創建新的、有趣的ai應用程序。通過這種方式，客戶、合作伙伴和開發者可以構建智能模擬器、生產力應用程序、內容制作工具和娛樂等的使用案例。驍龍?賦能實現的新終端ai體驗，即使在飛行模式下，也可以在沒有網絡連接的地區運行。

2023-07-19 10:26:38

345

微軟聯合Meta發布免費商業應用的開源AI模型Llama 2

在 Meta 看來，「開放的方法是當今人工智能模型開發的正確方法，特別是在技術快速發展的生成領域。通過公開提供人工智能模型，它們可以使每個人受益。為企業、初創企業、企業家和研究人員提供其開發的工具，這些工具的開發規模是他們自己難以構建的

2023-07-19 16:22:15

485

AI競賽追趕者聯盟？“云-邊”一體或成為AI應用閉環的必由之路

當地時間7月18日，Meta宣布，將發布其開源大模型LLaMA商用版本，新版本名為Llama 2。

2023-07-20 10:27:59

193

Meta推出免費大模型Llama 2，GPT要有危機感了

作為Meta首批合作伙伴之一，亞馬遜云科技宣布客戶可以通過Amazon SageMaker JumpStart來使用Meta開發的Llama 2基礎模型。

2023-07-21 16:10:59

904

Llama2的技術細節探討分析

模型結構為Transformer結構，與Llama相同的是采用RMSNorm歸一化、SwiGLU激活函數、RoPE位置嵌入、詞表的構建與大小，與Llama不同的是增加GQA（分組查詢注意力），擴增了模型輸入最大長度，語料庫增加了40%。

2023-07-23 12:36:54

1098

Llama 2性能如何

在幾乎所有基準上，Llama 2 70B 的結果均與谷歌 PaLM (540B) 持平或表現更好，不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。

2023-07-23 13:00:13

1118

英特爾一系列AI解決方案，為Llama 2大模型提供實力之選

英特爾廣泛的AI硬件組合及開放的軟件環境，為Meta發布的Llama 2模型提供了極具競爭力的選擇，進一步助力大語言模型的普及，推動AI發展惠及各行各業。大語言模型（LLM）在生成文本、總結和翻譯

2023-07-24 19:31:56

387

Llama 2 登陸 Azure 和 Windows，微軟與 Meta 拓展人工智能合作伙伴關系

和 Windows 上支持 Llama 2 大型語言模型（LLM）系列。Llama 2 旨在幫助開發者和組織構建生成式人工智能工具和體驗。Meta 和微軟共同致力于實現“讓人工智能惠及更多

2023-07-26 10:35:01

303

Meta推出Llama 2 免費開放商業和研究機構使用

與所有LLM一樣，Llama 2偶爾會產生不正確或不可用的答案，但Meta介紹Llama的論文聲稱，它在學術基準方面與OpenAI的GPT 3.5不相上下，如MMLU（衡量LLM在57門STEM科目中的知識）和GSM8K（衡量LLM對數學的理解）。

2023-08-02 16:17:25

410

爆火Llama 2一周請求下載超15萬，有人開源了Rust實現版本

500 行 C 語言就實現了對 Llama 2 baby 模型的推理。該項目可以在蘋果 M1 筆記本上每秒輸出 98 個 token。

2023-08-02 16:25:28

470

IBM 計劃在 watsonx 平臺上提供 Meta 的 Llama 2 模型

IBM 企業就緒的 AI 和數據平臺?watsonx?不斷推出新功能。IBM 宣布，計劃在 watsonx 的 AI 開發平臺?watsonx.ai?上納入?Meta?的 700?億參數 Llama

2023-08-09 20:35:01

314

壁仞科技與百度聯合發起飛槳+文心大模型硬件生態共創計劃

8月16日，壁仞科技在Wave Summit 2023深度學習開發者大會上正式宣布與百度聯合發起飛槳+文心大模型硬件生態共創計劃。雙方將共同推進在壁仞科技壁礪系列通用GPU產品

2023-08-17 10:52:19

239

【AI簡報20230818期】人形機器人問世：大模型加持；用AI微調AI，微軟全華班出品！

1. 騰訊云宣布全面支持Llama2等主流開源模型原文： https://t.cj.sina.com.cn/articles/view/1654203637/629924f5020010xw1

2023-08-18 18:15:03

746

Meta即將推出開源代碼生成平臺Code Llama，劍指OpenAI Codex

Code Llama 的卓越功能源自行業領先的 AI 算法。其核心模型由包含編程語言、編碼模式和最佳實踐的大規模數據集訓練而成。自然語言處理（NLP）技術則讓 Code Llama 有能力理解開發者的輸入，并生成與上下文相匹配的代碼建議。

2023-08-21 15:15:02

570

深入理解Llama模型的源碼案例

目前大部分開源LLM模型都是基于transformers庫來做的，它們的結構大部分都和Llama大同小異。

2023-08-23 11:44:07

1462

關于Llama 2的一切資源，我們都幫你整理好了

Meta 發布的 Llama 2，是新的 SOTA 開源大型語言模型（LLM）。Llama 2 代表著 LLaMA 的下一代版本，可商用。Llama 2 有 3 種不同的大小 —— 7B、13B 和 70B 個可訓練參數。

2023-08-23 15:40:09

674

MediaTek運用Meta Llama 2大語言模型，賦能終端設備生成式AI應用

2023 年 8 月 24 日 – MediaTek今日宣布利用Meta新一代開源大語言模型（LLM）Llama 2 以及MediaTek先進的AI處理器（APU）和完整的AI開發平臺

2023-08-24 13:41:03

225

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

2023-08-25 09:06:57

885

Meta將推出編程人工智能工具：Code Llama，免費提供

據路透社報道，meta計劃推出全新編程人工智能模型：Code Llama，可以根據文字提示來編寫計算機代碼，或協助開發者編程。這一AI工具將免費提供。

2023-08-25 11:39:00

493

Meta發布一種Code Llama工具用于生成新代碼和調試人工編寫工作

Meta公司表示，Meta發布了一種名為Code Llama的工具，該工具建立在其Llama 2大型語言模型的基礎上，用于生成新代碼和調試人工編寫的工作。 Code Llama將使用與Llama

2023-08-28 16:56:39

932

端側大模型到通用智能體——智能手機AI進化的下一場革命(一)

時隔半年后，Meta AI在周二發布了最新一代開源大模型Llama 2。相較于今年2月發布的Llama 1，訓練所用的token翻了一倍至2萬億，同時對于使用大模型最重要的上下文長度限制，Llama 2也翻了一倍。Llama 2包含了70億、130億和700億參數的模型。

2023-08-29 16:50:10

950

華為宣布全面建設盤古大模型全域協同生態

華為云盤古大模型主題論壇上，華為云EI服務產品部部長尤鵬宣布了建設盤古大模型全域協同生態的計劃。他表示，華為云將與各行各業的客戶和伙伴共同合作，共享盤古大模型帶來的行業AI新機遇。

2023-08-31 11:45:47

928

8G顯存一鍵訓練，解鎖Llama2隱藏能力！XTuner帶你玩轉大模型

針對 GPU 計算特點，在顯存允許的情況下，XTuner 支持將多條短數據拼接至模型最大輸入長度，以此最大化 GPU 計算核心的利用率，可以顯著提升訓練速度。例如，在使用 oasst1 數據集微調 Llama2-7B 時，數據拼接后的訓練時長僅為普通訓練的 50% 。

2023-09-04 16:12:26

1242

LLaMA微調顯存需求減半，清華提出4比特優化器

從 GPT-3，Gopher 到 LLaMA，大模型有更好的性能已成為業界的共識。但相比之下，單個 GPU 的顯存大小卻增長緩慢，這讓顯存成為了大模型訓練的主要瓶頸，如何在有限的 GPU 內存下訓練大模型成為了一個重要的難題。

2023-09-11 16:08:49

240

開源大模型Falcon（獵鷹） 180B發布 1800億參數

? 世界最強開源大模型 Falcon 180B 忽然火爆全網，1800億參數，Falcon 在 3.5 萬億 token 完成訓練，性能碾壓 Llama 2，登頂 Hugging Face 排行榜

2023-09-18 09:29:05

876

ChatGPT→LLaMA→Apple GPT：盤點國外大模型產業發展之路

大模型與AIGC為人工智能領域帶來了新變化。從當前大模型的發展趨勢看，大模型企業更傾向于搭建平臺，對傳統企業進行賦能。具體而言，大模型企業憑借對組織型用戶“痛點”的了解

2023-09-19 18:00:12

704

浪潮信息NF5468服務器LLaMA訓練性能

的浪潮信息NF5468服務器大幅提升了LLaMA大模型的微調訓練性能。目前該產品已具備交付能力，客戶可以進行下單采購。

2023-09-22 11:16:31

1813

怎樣使用QLoRA對Llama 2進行微調呢？

使用QLoRA對Llama 2進行微調是我們常用的一個方法，但是在微調時會遇到各種各樣的問題

2023-09-22 14:27:21

939

在線研討會 | 基于 LLM 構建中文場景檢索式對話機器人：Llama2 + NeMo

Llama2 的出現掀起了開源大模型的熱潮，相比于前身 Llama1，Llama2 的訓練數據多了 40%，經過了 2 萬億個標記的訓練，上下文長度也翻倍，token 從 2,048 增加到

2023-10-13 20:35:02

564

如何本地部署大模型

近期，openEuler A-Tune SIG在openEuler 23.09版本引入llama.cpp&chatglm-cpp兩款應用，以支持用戶在本地部署和使用免費的開源大語言模型，無需聯網也能使用！

2023-10-18 11:48:12

1365

華為云發布三大基礎方案和AI出海計劃加速大模型生態發展

，華為云重磅發布了基于盤古大模型打造的三大基礎解決方案和華為云AI出海計劃。華為云EI服務產品部部長尤鵬做開場致辭，分享了盤古大模型生態和昇騰AI云服務的最新進展和成果，他表示：“獨行快、眾行遠，華為云致力于打造開放、活力

2023-11-23 11:25:12

240

一種新穎的大型語言模型知識更新微調范式

我們使用LLAMA2-7B作為實驗的基礎模型。我們主要評估將舊知識更新為新知識的能力，因此模型將首先在舊知識上進行為期3個時期的微調。表1中F-Learning中設置的超參數λ分別取值為0.3、0.7、0.1和1.5。

2023-12-01 15:10:45

141

一種新大模型安全問題之隱式有害內容輸出

使用了LLaMA-13B來訓練模型和獎勵模型，使用BAD模型作為有害內容檢測模型。

2023-12-04 13:57:12

143

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數十億參數（B+）的預訓練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務，如文本生成、機器翻譯和自然語言理解等。

2023-12-04 15:51:46

356

優于10倍參數模型！微軟發布Orca 2 LLM

微軟發布 Orca 2 LLM，這是 Llama 2 的一個調優版本，性能與包含 10 倍參數的模型相當，甚至更好。

2023-12-26 14:23:16

247

Meta推出“性能最優”代碼生成AI模型Code Llama 70B

據悉，Code Llama工具于去年8月份上線，面向公眾開放且完全免費。此次更新的Code Llama 70B不僅能處理更多復雜查詢，其在HumanEval基準測試中的準確率高達53%，超越GPT-3.5的48.1%，然而與OpenAI公布的GPT-4準確率（67%）仍有一定差距。

2024-01-30 10:36:18

279

Meta推出最新版AI代碼生成模型Code Llama70B

Meta近日宣布了其最新版本的AI代碼生成模型Code Llama70B，并稱其為“目前最大、最優秀的模型”。這一更新標志著Meta在AI代碼生成領域的持續創新和進步。

2024-01-30 18:21:04

793

Meta發布開源大模型Code Llama 70B

近日，Meta宣布推出了一款新的開源大模型Code Llama 70B，這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型提供三種版本，并免費供學術界和商業界使用。

2024-01-31 09:24:18

311

Meta發布CodeLlama70B開源大模型

Meta發布CodeLlama70B開源大模型 Meta發布了開源大模型CodeLlama70B，號稱是CodeLlama系列體量最大、性能最強的大模型。 Code Llama 70B 有一個很出色

2024-01-31 10:30:18

879

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta 發布的 LLaMA 2，是新的 sota 開源大型語言模型 (LLM)。LLaMA 2 代表著 LLaMA 的下一代版本，并且具有商業許可證。

2024-02-21 16:00:21

246

已全部加載完成

搜索歷史

LLaMA生態中的各個模型梳理

評論