精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌訓練開發一個萬億參數的AI語言模型

lhl545545 ? 來源:比特網 ? 作者:Yu ? 2021-01-18 16:19 ? 次閱讀

參數機器學習算法的關鍵。它們是從歷史訓練數據中學到的模型的一部分。一般來說,在語言領域,參數的數量和復雜性之間的相關性非常好。例如,OpenAI的GPT-3是有史以來訓練了1750億個參數的最大語言模型之一,它可以進行原始類比、生成配方,甚至完成基本代碼。

近日,谷歌的研究人員開發了一種技術,并對其進行基準測試,他們聲稱這種技術能夠訓練包含超過一萬億參數的語言模型。他們表示,他們的1.6萬億參數模型是迄今為止最大的,比之前最大的谷歌開發的語言模型(T5-XXL)快了4倍。

研究人員指出,大規模訓練是建立強大模型的有效途徑。簡單的架構,大數據集和參數計數的支持,超越了更復雜的算法。但是,大規模的訓練雖然有效,但計算強度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer,一種“稀疏激活”技術,它只使用模型權重的子集,或轉換模型內輸入數據的參數。

Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法(廣泛應用于語言模型的數學運算)設計的硬件,如GPU和TPU。在研究人員的分布式訓練設置中,他們的模型將不同的權重分配到不同的設備上,這樣權重就會隨著設備數量的增加而增加,但在每個設備上都保持可管理的內存和計算空間。

在一項實驗中,研究人員使用32個TPU內核預先訓練了幾種不同的Switch?Transformer模型,這個語料是一個750GB大小的數據集,包含從Reddit、Wikipedia和其他網絡資源上獲取的文本。他們讓這些模型預測有15%的單詞被掩蓋的段落中遺漏的單詞,以及其他挑戰,比如檢索文本回答一系列越來越難的問題。

研究人員聲稱,與包含3950億個參數和64名專家的更小的模型(Switch-XXL)相比,他們發明的擁有2048名專家的1.6萬億參數模型(Switch-C)則“完全沒有訓練不穩定性”。

然而,在SQuAD的基準測試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6,研究人員將此歸因于微調質量、計算要求和參數數量之間的不明確關系。

在這種情況下,Switch?Transformer還是在許多下游任務上的效果有了提升。例如,在使用相同數量的計算資源的情況下,它可以使預訓練的速度提高了7倍以上。

同時研究人員證明,大型稀疏模型可以用來創建更小、更稠密的模型,這些模型可以對任務進行微調,其質量增益只有大型模型的30%?。

在一個測試中,一個?Switch?Transformer?模型被訓練在100多種不同的語言之間進行翻譯,研究人員觀察到其中101種語言都得到了普遍的改善。

在未來的工作中,研究人員計劃將Switch?Transformer應用于新的和不同的形態中去,包括圖像和文本。他們認為,模型稀疏性在一系列不同的媒體和多模態模型中都具有優勢。
責任編輯:pj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6142

    瀏覽量

    105095
  • 機器學習
    +關注

    關注

    66

    文章

    8377

    瀏覽量

    132407
  • 大數據
    +關注

    關注

    64

    文章

    8863

    瀏覽量

    137295
收藏 人收藏

    評論

    相關推薦

    從零開始訓練語言模型需要投資多少錢?

    ,前言 ? 在AI領域,訓練大型語言模型(LL
    的頭像 發表于 11-08 14:15 ?146次閱讀
    從零開始<b class='flag-5'>訓練</b><b class='flag-5'>一</b><b class='flag-5'>個</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>需要投資多少錢?

    語言模型如何開發

    語言模型開發復雜且細致的過程,涵蓋了數據準備、模型架構設計、
    的頭像 發表于 11-04 10:14 ?86次閱讀

    AI模型訓練數據來源分析

    學術機構、政府組織或企業公開發布,涵蓋了各種類型的數據,如圖像、文本、音頻、視頻等。例如: ImageNet :廣泛用于圖像識別任務的大規模圖像數據集。 Common Crawl :提供了大量的網頁抓取數據以供自然
    的頭像 發表于 10-23 15:32 ?368次閱讀

    如何訓練自己的AI模型

    訓練自己的AI模型復雜且耗時的過程,涉及多個關鍵步驟。以下是
    的頭像 發表于 10-23 15:07 ?592次閱讀

    英偉達Blackwell可支持10萬億參數模型AI訓練,實時大語言模型推理

    、NVLink交換機、Spectrum以太網交換機和Quantum InfiniBand交換機。 ? 英偉達稱,Blackwell擁有6項革命性技術,可支持多達10萬億參數模型進行AI
    的頭像 發表于 09-04 09:10 ?2824次閱讀

    蘋果承認使用谷歌芯片來訓練AI

    蘋果公司最近在篇技術論文中披露,其先進的人工智能系統Apple Intelligence背后的兩關鍵AI模型,是在谷歌設計的云端芯片上完
    的頭像 發表于 07-30 17:03 ?684次閱讀

    語言模型的預訓練

    隨著人工智能技術的飛速發展,自然語言處理(NLP)作為人工智能領域的重要分支,取得了顯著的進步。其中,大語言模型(Large Langu
    的頭像 發表于 07-11 10:11 ?386次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    類任務上表現出色,甚至在零樣本條件下也能取得良好效果。另類則需要逐步推理才能完成的任務,類似于人類的系統2,如數字推理等。然而,隨著參數量的增加,大語言模型在這類任務上并未出現質的飛
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    具有以下三非常顯著的特點,就是模型參數規模更大,訓練數據更多。當然,對計算資源的要求也會更
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    特定任務對模型進行微調。這種方法的成功不僅是自然語言處理發展的轉折點,還為許多現實世界的應用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    維基百科、網頁內容和書籍等,不僅掌握了語言的語法、語義和上下文信息,還能生成結構連貫、語義合理的句子和段落。大語言模型顯著特點是其龐大
    發表于 05-04 23:55

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    階段訓練的獎勵模型,對有監督微調模型對用戶提示詞補全結果的質量進行評估,與語言模型建模目標綜合
    發表于 03-11 15:16

    谷歌模型訓練軟件有哪些?谷歌模型訓練軟件哪個好?

    谷歌模型訓練方面提供了些強大的軟件工具和平臺。以下是幾個常用的谷歌模型
    的頭像 發表于 03-01 16:24 ?814次閱讀

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是種新的預訓練方法,源自谷歌
    的頭像 發表于 02-29 17:37 ?746次閱讀

    【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    訓練是MetaAI研究人員認為的種降低模型使用成本的方式。為了更好的效果,即便是LLaMA最小的70億參數的版本,其訓練使用的tokens
    發表于 12-22 10:18