Databricks 發布了 Dolly 2.0,這是該公司于兩周前發布的一種訓練成本不到 30 美元,類似 ChatGPT 的大型語言模型 (LLM) Dolly 的改進版本。公告稱,Dolly 2.0 是第一個開源的指令跟隨型語言模型,它在人類生成的指令數據集上進行了微調,可用于研究和商業用途。
根據介紹,Dolly 1.0 使用了斯坦福大學 Alpaca 團隊使用 OpenAI API 創建的數據集進行訓練;該數據集包含 ChatGPT 的輸出,而其服務條款試圖阻止任何人創建與 OpenAI 競爭的模型。因此,Dolly 1.0 并不能用于商業用途。且據已知信息,目前所有現有的知名指令跟隨模型 (Alpaca, Koala, GPT4All, Vicuna) 都受到此限制,禁止商業使用。為了解決這個難題,Databricks 于是決定創建一個沒有商業用途限制的新數據集。
Dolly 2.0 是一個基于 EleutherAI pythia 模型系列的 12B 參數語言模型,并在透明且免費提供的數據集上進行了微調;該數據集稱為 databricks-dolly-15k,也已開源發布。Databricks 表示,他們正在開源整個 Dolly 2.0,包括訓練代碼、數據集和模型權重,所有這些都適合商業使用。這意味著任何組織都可以創建、擁有和定制強大的 LLM,這些 LLM 可以與人們交談,而無需支付 API 訪問費用或與第三方共享數據。
databricks-dolly-15k 包含來自數千名 Databricks 員工的 15,000 個高質量的人工生成的提示 / 響應對,專為指令調優大型語言模型而設計。且 databricks-dolly-15k 根據(Creative Commons Attribution-ShareAlike 3.0 Unported License)的許可條款,任何人都可以出于任何目的使用、修改或擴展此數據集,包括商業應用程序。
Databricks 稱這是 “第一個開源的、人工生成的指令語料庫,專門設計用于讓大型語言能夠展示 ChatGPT 的神奇交互性”。并補充到,雖然 databricks-dolly-15k 比訓練 Dolly 1.0 的數據集 Alpaca 小得多,但基于 EleutherAI 的 pythia-12b 生成的 Dolly 2.0 模型表現出高質量的指令遵循行為。另一方面, databricks-dolly-15k 是由專業人士生成的、質量很高,并且包含對大多數任務的長篇答案。
Databricks 表示,他們并沒有期望 Dolly 在有效性方面達到最先進水平。但確實希望 Dolly 和開源數據集將成為大量后續工作的種子,“這可能有助于引導出更強大的語言模型”。
“我們還認為,偏見、問責制和人工智能安全等重要問題應該由不同利益相關者組成的廣泛社區來解決,而不僅僅是少數大公司。開源數據集和模型鼓勵評論、研究和創新,這將有助于確保每個人都能從人工智能技術的進步中受益。”
審核編輯 :李倩
-
人工智能
+關注
關注
1791文章
46877瀏覽量
237614 -
語言模型
+關注
關注
0文章
508瀏覽量
10245 -
數據集
+關注
關注
4文章
1205瀏覽量
24648 -
LLM
+關注
關注
0文章
274瀏覽量
306
原文標題:Dolly 2.0發布,首個真正開放、可商用的指令調優LLM
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論