精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPT系列的“高仿” 最大可達GPT-3大小 自主訓練

工程師鄧生 ? 來源:凹非寺 ? 作者:蕭簫 ? 2021-02-13 09:24 ? 次閱讀

雖然GPT-3沒有開源,卻已經有人在復刻GPT系列的模型了。

例如,慕尼黑工業大學的Connor Leahy,此前用200個小時、6000RMB,復現了GPT-2。

又例如,基于150億參數版GPT-3的DALL·E模型剛出,來自康奈爾大學的 Philip Wang就開始復現 了。

但此前,還沒人能復現出GPT-3大小的大語言模型來。

不過,已經有人開始嘗試了。這是一個名為 GPT-Neo的項目,用于復現GPT系列的各種語言模型,當然也包括GPT-3。

作者表示,目前他們已經成功制造出GPT-2大小的模型。

從項目代碼的可擴展性來看,他們預計可以復刻出GPT-3大小的語言模型,甚至比GPT-3更大。

不僅如此,由于這是個開源的項目,大家還可以自主訓練這些模型 (將來也會包括GPT-3)。

目前,作者已經給出了詳細的訓練步驟。

消息一出,網友沸騰了:

要是真能復現,說不定會比現在的GPT-3還要更好用!

GPT系列的“高仿”項目

本質上,GPT-Neo有點像是GPT系列的“高仿”項目:

GPT-Neo中的各種模型,設計原理接近GPT系列,但代碼并不一樣。

作者們打算嘗試各種結構和注意力類型,最終擴展出GPT-3大小的大語言模型。

為了實現這一目標,他們從復現GPT系列的模型開始,不斷嘗試各種模型架構、和各種注意力機制的實現方式。

也就是說,GPT-Neo更像是一個實驗性質的項目,通過各種嘗試,擴展出更大的模型。

這里面,融合了各種讓模型變得“更大”的研究:

例如,多任務學習方法MoE (Mixture of Experts),采用多個專家的結構,將問題空間劃分為同質區域,然后采用分發器,決定問題應該問哪些專家。

又比如,具有線性復雜性的自注意力機制。

……

這個項目還在施工中,不過,連模型的訓練方式都準備好了。

項目計劃通過TPU或GPU,對大語言模型進行訓練。

為此,作者們已經基于Tensorflow-mesh (用于在GPU上訓練模型)、Deepspeed (用于在TPU上訓練模型)兩個項目,編寫了GPT-Neo的訓練代碼。

這兩個項目都可以擴展到大于GPT-3的大小,甚至還能更大。

因此,訓練GPT-3大小的模型,軟件理論上是可行的。

硬件上的問題,目前作者們還在思考明確的解決方案。如果將來真的做出了GPT-3大小的模型,他們打算先從谷歌那多要點免費資源,如果不行的話,就再說……

如何訓練GPT-Neo

當然,在TPU和GPU上訓練的方式有所不同。

如果使用TPU訓練的話,需要注冊一個谷歌云平臺,創建存儲空間,然后再搞個虛擬機,將模型放到TPU上訓練。

不過,如果你的GPU硬件足夠OK,也可以選擇直接訓練GPT-Neo,就不用設置一系列谷歌云了。

此外,也可以用谷歌Colab來訓練項目,它免費提供TPU-V8S處理器,訓練GPT的3XL (1.5B參數)版本綽綽有余。

訓練過程也不復雜,主要包括創建分詞器、數據集預處理、指定訓練數據集、選擇訓練配置、訓練模型幾個步驟。

在創建分詞器上,GPT-Neo目前提供一個Huggingface的預訓練GPT-2分詞器。不過,也可以訓練自己專屬的分詞器。

然后,對數據進行預處理,可以直接下載項目提供的數據,也可以使用自己的數據集。

在那之后,指定模型訓練所用的數據集,然后對訓練方式進行設置,例如優化算法、訓練步數等。

然后,指定硬件名稱、數量,就可以開始訓練模型了。

“只會用谷歌搜索的自動化團隊”

不過,對于GPT系列的項目復現,有網友并不看好。

網友認為,GPT-X系列項目,就像是一個由幾百人組成的自動化團隊,這幾百人 只會用谷歌搜索來干活,而且還沒辦法寫出最新的新聞事件報道。 (因為訓練數據無法一直更新)

它雖然是個非常有趣的研究,但目前卻還沒有一個“殺手級”應用,來讓GPT-3項目的存在變得更有意義。

當然,也有人認為,復現這一項目還是有意義的。

即使只是“幾百個只會用搜索引擎干活的團隊”,他們也需要快速給出某個問題的答案。

如何在大量零碎信息中, 高效地選出最優解,本身就是GPT-X項目的價值之一。畢竟如果只是幾百個“會用谷歌搜索”的人組成的團隊,是無法像GPT-3一樣,快速得出最佳答案的。

當然,也有一些程序員調侃,要是這個GPT-3項目真的被復現了,豈不是他們馬上就要失業了。

“我們總是在用谷歌搜索、和stackoverflow來解決問題。這不就是像GPT-3一樣,只會整合搜索引擎上的信息,來解決問題嗎?”

“該死,原來GPT-3竟然可以取代這么多程序員。”

目前,GPT-Neo的所有項目和代碼已開源。

想要上手一試、或是對項目感興趣的小伙伴,可以行動起來了~

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3256

    瀏覽量

    42420
  • 語言模型
    +關注

    關注

    0

    文章

    508

    瀏覽量

    10247
  • GPT
    GPT
    +關注

    關注

    0

    文章

    352

    瀏覽量

    15318
收藏 人收藏

    評論

    相關推薦

    一文解析人工智能中GPT-3 到底有多厲害?

    的 OpenAI 放出了 GPT-3 這個巨型 NLP 模型怪獸,包含 1750 億參數,比 2 月份微軟剛推出的全球最大深度學習模型 Turing NLG 大上十倍,是其前身 GPT-2 參數的 100 倍
    的頭像 發表于 03-19 14:19 ?2w次閱讀

    ChatGPT如何使用RLHF來克服GPT-3存在的問題

    ChatGPT 是 OpenAI 發布的最新語言模型,比其前身 GPT-3 有顯著提升。與許多大型語言模型類似,ChatGPT 能以不同樣式、不同目的生成文本,并且在準確度、敘述細節和上下文連貫性上具有更優的表現。
    發表于 03-10 09:41 ?830次閱讀

    GPT-3難以復現,為什么說PyTorch走上了一條“大彎路”?

    據 NVIDIA 估算,如果要訓練GPT-3 ,即使單個機器的顯存/內存能裝得下,用 8 張 V100 的顯卡,訓練時長預計要 36 年。
    發表于 05-19 11:06 ?1450次閱讀
    <b class='flag-5'>GPT-3</b>難以復現,為什么說PyTorch走上了一條“大彎路”?

    最大人工智能算法模型GPT-3問世

    OpenAI的一組研究人員最近發表了一篇論文,描述了GPT-3,這是一種具有1,750億個參數的自然語言深度學習模型,比以前的版本GPT-2100倍。該模型經過了將近0.5萬億個單詞的預訓練
    發表于 07-08 17:36 ?2309次閱讀

    如何在GPT-3中使用一個新詞或執行3位數運算?

    給予任何文本提示,GPT-3將返回一個文本完成,試圖匹配用戶給它的模式。用戶可以給它 “編程”,只需向它展示幾個希望它做的例子,它就會提供一篇完整的文章或故事,比如下面的文字,完全由GPT-3編寫。
    發表于 07-20 16:33 ?1531次閱讀

    如何打造中文版 GPT-3GPT-4 可能如何演化?

    既能問答、翻譯、寫文章,也能寫代碼、算公式、畫圖標。..。..OpenAI 2020 年 5 月推出的 GPT-3,因其神奇的通用性而走紅 AI 領域。
    的頭像 發表于 09-02 10:21 ?4738次閱讀

    史上最大AI模型GPT-3你要開始收費了 接下去可能用不起它了

    還記得前不久被捧上天的GPT-3么?那個只有被邀請的用戶才能測試使用的,號稱史上最大AI模型。 OpenAI的1,750億參數語言模型GPT-3在6月份發布的時候就備受關注,當時,猿妹還和大家分享了
    的頭像 發表于 09-25 11:38 ?3045次閱讀
    史上<b class='flag-5'>最大</b>AI模型<b class='flag-5'>GPT-3</b>你要開始收費了  接下去可能用不起它了

    GPT-3引發公眾的遐想 能根據文字產生圖片的AI!

    非常幼稚。可盡管如此,技術人員依然認為,創造了 GPT-3 的技術可能是通往更高級 AI 的必經之路。 GPT-3 使用大量文本數據進行了訓練,那么,假如同時使用文本和圖像數據進行訓練
    的頭像 發表于 10-09 18:30 ?2576次閱讀

    史上最大AI模型GPT-3強勢霸榜Github

    最近,GPT-3火了!相信你已經在網上看到各種有關GPT-3的演示。這個由OpenAI創建的大型機器學習模型,它不僅可以自己寫論文,還會寫詩歌,就連你寫的代碼都能幫你寫了。 ? 下面還是先讓你看看
    的頭像 發表于 01-06 17:06 ?2960次閱讀

    谷歌開發出超過一萬億參數的語言模型,秒殺GPT-3

    GPT-3問世僅僅不到一年的時間,Google重磅推出Switch Transformer,直接將參數量從GPT-3的1750億拉高到1.6萬億,并比之前最大的、由google開發的語言模型
    的頭像 發表于 01-27 16:26 ?2116次閱讀
    谷歌開發出超過一萬億參數的語言模型,秒殺<b class='flag-5'>GPT-3</b>

    Eleuther AI:已經開源了復現版GPT-3的模型參數

    GPT3終于開源!不過,不是官方開的(別打我 Eleuther AI推出的名為GPT-Neo的開源項目,于晨4點于twitter正式宣布:已經開源了復現版GPT-3的模型參數(1.3B和2.7B級別
    的頭像 發表于 03-31 17:46 ?3190次閱讀

    GPT/GPT-2/GPT-3/InstructGPT進化之路

    在預訓練階段,GPT 選擇 transformer 的 decoder 部分作為模型的主要模塊,transformer 是 2017年 google 提出的一種特征抽取模型,GPT 以多層 transformer 堆疊的方式構成
    的頭像 發表于 03-03 11:14 ?3710次閱讀

    MEANEST家庭自動化AI(使用GPT-3

    電子發燒友網站提供《MEANEST家庭自動化AI(使用GPT-3).zip》資料免費下載
    發表于 06-15 11:33 ?0次下載
    MEANEST家庭自動化AI(使用<b class='flag-5'>GPT-3</b>)

    盤古大模型和GPT3有哪些不同

    幾個方面來探討盤古大模型和GPT-3的不同之處。 一、概念定義差異 盤古大模型,簡稱PGM,是中國科學院計算機網絡信息中心所研發的一種大規模中文自然語言處理預訓練模型,它是以一種全新的方式來進行中文自然語言處理的。它可以像英文NLP預
    的頭像 發表于 08-30 18:28 ?1834次閱讀

    Jim Fan展望:機器人領域即將迎來GPT-3式突破

    英偉達科學家9月19日,科技媒體The Decoder發布了一則引人關注的報道,英偉達高級科學家Jim Fan在近期預測,機器人技術將在未來兩到三年內迎來類似GPT-3在語言處理領域的革命性突破,他稱之為機器人領域的“GPT-3時刻”。
    的頭像 發表于 09-19 15:13 ?538次閱讀