精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

FAIR和谷歌大腦的合作研究,專注于“反向翻譯”方法

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-21 09:20 ? 次閱讀

FAIR和谷歌大腦的合作研究,專注于“反向翻譯”方法,用上億合成單語句子訓練NMT模型,在WMT’14 英語-德語測試集上達到35 BLEU的最優性能。論文在EMNLP 2018發表。

機器翻譯依賴于大型平行語料庫,即源語和目的語中成對句子的數據集。但是,雙語語料是十分有限的,而單語語料更容易獲得。傳統上,單語語料被用于訓練語言模型,大大提高了統計機器翻譯的流暢性。

進展到神經機器翻譯(NMT)的背景下,已經有大量的工作研究如何改進單語模型,包括語言模型融合、反向翻譯(back-translation/回譯)和對偶學習(dual learning)。這些方法具有不同的優點,結合起來能夠達到較高的精度。

Facebook AI Research和谷歌大腦的發表的新論文Understanding Back-Translation at Scale是這個問題的最新成果。這篇論文專注于反向翻譯(BT),在半監督設置中運行,其中目標語言的雙語和單語數據都是可用的。

反向翻譯首先在并行數據上訓練一個中間系統,該系統用于將目標單語數據轉換為源語言。其結果是一個平行的語料庫,其中源語料是合成的機器翻譯輸出,而目標語料是人類編寫的真實文本。

然后,將合成的平行語料添加到真實的雙語語料(bitext)中,以訓練將源語言轉換為目標語言的最終系統。

雖然這種方法很簡單,但已被證明對基于短語的翻譯、NMT和無監督MT很有效。

具體到這篇論文,研究人員通過向雙語語料中添加了數億個反向翻譯得到的句子,對神經機器翻譯的反向翻譯進行了大規模的研究。

實驗基于在WMT競賽的公共雙語語料上訓練的強大基線模型。該研究擴展了之前的研究(Sennrich et al. , 2016a ; Poncelas et al. , 2018) 對反譯法的分析,對生成合成源句的不同方法進行了全面的分析,并證明這種選擇很重要:從模型分布中采樣或噪聲beam輸出優于單純的beam search,在幾個測試集中平均 BLEU高1.7。

作者的分析表明,基于采樣或noised beam search的合成數據比基于argmax inference的合成數據提供了更強的訓練信號

文章還研究了受控設置中添加合成數據和添加真實雙語數據的比較,令人驚訝的是,結果顯示合成數據有時能得到與真實雙語數據不相上下的準確性。

實驗中,最好的設置是在WMT ’14 英語-德語測試集上,達到了35 BLEU,訓練數據只使用了WMT雙語語料庫和2.26億個合成的單語句子。這比在大型優質數據集上訓練的DeepL系統的性能更好,提高了1.7 BLEU。在WMT ‘14英語-法語測試集上,我們的系統達到了45.6 BLEU

合成源語句子

反向翻譯通常使用beam searchgreed search來生成合成源句子。這兩種算法都是識別最大后驗估計(MAP)輸出的近似算法,即在給定輸入條件下,估計概率最大的句子。Beam search通常能成功地找到高概率的輸出。

然而,MAP預測可能導致翻譯不夠豐富,因為它總是傾向于在模棱兩可的情況下選擇最有可能的選項。這在具有高度不確定性的任務中尤其成問題,例如對話和說故事。我們認為這對于數據增強方案(如反向翻譯)來說也是有問題的。

Beam search和greed search都集中在模型分布的頭部,這會導致非常規則的合成源句子,不能正確地覆蓋真正的數據分布。

作為替代方法,我們考慮從模型分布中采樣,并向beam search輸出添加噪聲。

具體而言,我們用三種類型的噪音來轉換源句子:以0.1的概率刪除單詞,以0.1的概率用填充符號代替單詞,以及交換在token上隨機排列的單詞。

模型和實驗結果

我們使用fairseq工具包在pytorch中重新實現了Transformer 模型。所有的實驗都是基于Big Transformer 架構,它的編碼器和解碼器都有6個block。所有實驗都使用相同的超參數。

實驗結果:不同反向翻譯生成方法的準確性比較

實驗評估首先比較了反向翻譯生成方法的準確性,并分析了結果。

圖1:在不同數量的反向翻譯數據上訓練的模型的準確性,這些數據分別通過greedy search、beam search (k = 5)和隨機采樣得到。

如圖1所示,sampling和beam+noise方法優于MAP方法,BLEU要高0.8-1.1。在數據量最大的設置下,sampling和beam+noise方法比bitext-only (5M)要好1.7-2 BLEU。受限采樣(top10)的性能優于beam 和 greedy,但不如非受限抽樣(sampling)或beam+noise。

圖2:對于不同的合成數據,每個epoch的Training perplexity (PPL)。

圖2顯示,基于greedy或beam的合成數據與來自采樣、top10、 beam+noise和bitext的數據相比更容易擬合。

表1

表1展示了更廣泛的測試集的結果(newstest2013-2017)。 Sampling和beam+noise 的表現大致相同,其余實驗采用sampling。

資源少 vs 資源多設置

接下來,我們模擬了一個資源缺乏的設置,以進一步嘗試不同的生成方法。

圖3:在80K、640K和5M句子對的bitext系統中添加來自beam search和sampling的合成數據時,BLEU的變化

圖3顯示,對于數據量較大的設置(640K和5.2M bitext),sampling比beam更有效,而對于資源少的設置(80K bitext)則相反。

大規模的結果

最后,我們擴展到非常大的設置,使用多達226M的單語句子,并且與先前的研究進行了比較。

表4:WMT英語-法語翻譯任務中,不同測試集上的Tokenized BLEU

表5:WMT英語-法語翻譯任務中,不同測試集上的De-tokenized BLEU (sacreBLEU)

表6:WMT 英語-德語 (En-De)和英語-法語 (En-Fr)在newstest2014上的BLEU。

表7:WMT英語-德語newstest17和newstest18上的非標記、不區分大小寫的sacreBLEU。

結論

反向翻譯是一種非常有效的神經機器翻譯數據增強技術。通過采樣或在beam輸出中添加噪聲來生成合成源句子,比通常使用的argmax inference 具有更高的精度。

特別是,在newstest2013-2017的WMT英德翻譯中,采樣和加入噪聲的beam比單純beam的平均表現好1.7 BLEU。這兩種方法都為資源缺乏的設置提供了更豐富的訓練信號。

此外,這一研究還發現,合成數據訓練的模型可以達到真實雙語語料訓練模型性能的83%。

最后,我們只使用公開的基準數據,在WMT ‘14英語-德語測試集上實現了35 BLEU的新的最優水平。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14873
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24641

原文標題:NLP重磅!谷歌、Facebook新研究:2.26億合成數據訓練神經機器翻譯創最優!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    電路反向研究。。

    本帖最后由 gk320830 2015-3-7 18:20 編輯 版主近期工作辭職了。準備干些抄板之類的活?!,F接受項目有pcb抄板,設計,電子項目原理設計與pcb布線。電路反向研究(即仿造。)。歡迎廣大好友來找我。。
    發表于 08-21 14:55

    人類首創能生成神經細胞的“迷你大腦”,更精確模擬神經網絡!

    `近日,凱斯西儲大學醫學院、紐約干細胞基金會(NYSCF)研究所和喬治華盛頓大學的研究人員聯合提出了一種新方法,通過人類胚胎干細胞培育生成3D版的“迷你大腦”。這些“迷你
    發表于 08-21 09:26

    程序員的大腦有什么不同?

    會激活大腦與工作記憶相關的區域。有研究表明,音樂家的大腦強化了工作記憶能力。我 夫人是一位技術代理,而我是她的技術顧問。在跟軟件開發者合作的這幾年當中,我們注意到其中的很多也是音樂人。
    發表于 10-25 10:09

    基于淺層句法信息的翻譯實例獲取方法研究

    翻譯實例庫是基于實例的機器翻譯系統的主要知識源。本文采用基于淺層句法分析的方法進行翻譯實例的獲取。首先根據淺層句法信息劃分源語言和目標語言的翻譯
    發表于 11-24 15:32 ?13次下載

    神奇大腦信號翻譯器 可將思想變語言

    神奇大腦信號翻譯器 可將思想變語言  據美國媒體報道,近日,美國科學家發明了一種可以實時翻譯大腦信號的技術,置入大腦內部的裝置
    發表于 12-25 10:12 ?1217次閱讀

    美國研制出大腦思維翻譯器欲將思想變語言

    美國研制出大腦思維翻譯器欲將思想變語言 據美國媒體報道,近日,美國科學家發明了一種可以實時翻譯大腦信號的技術,置入大腦內部的裝置以無線的方
    發表于 12-25 10:30 ?762次閱讀
    美國研制出<b class='flag-5'>大腦</b>思維<b class='flag-5'>翻譯</b>器欲將思想變語言

    谷歌翻譯對比有道翻譯東北話,高下立見!

    聽說谷歌翻譯正式回歸中國區,國內網民可無障礙使用。小編第一時間去下了個試用,想著怎么也得來個高能句子,刁難一下這個號稱加入了人工智能的Google翻譯官。
    發表于 03-30 14:13 ?1535次閱讀

    谷歌翻譯竟然預言世界末日?

    谷歌發言人Justin Burr在一封電子郵件中表示:“Google Translate從網絡上的翻譯范例學習,不使用‘私人信息’進行翻譯,系統甚至都無法訪問到這些內容?!?“這只是將無意義的話語輸入系統,導致產生的也是無意義的
    的頭像 發表于 07-23 09:07 ?4196次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>翻譯</b>竟然預言世界末日?

    谷歌翻譯加入離線AI翻譯功能,離線也能翻譯而且更準確

    更強、更方便使用的離線 AI 翻譯可不是微軟的專利,谷歌今天也宣布為旗下的翻譯應用加入相關功能,讓使用者的 Android 或 iOS 設備即使在沒有網絡連接的情況下,也可以通過離線的神經機器
    的頭像 發表于 08-13 15:56 ?5481次閱讀

    DARPA專注無需手術的神經技術研究,讓身體健全的士兵擁有超能力技術

    到目前為止,DARPA(美國國防部高級研究計劃局)的神經科學項目部(也稱為國防部瘋狂科學部門)一直專注可服務那些因身體或大腦殘疾回國的士
    發表于 09-16 10:17 ?2174次閱讀

    小扎邀請LeCun:FAIR誕生,與谷歌爭人才

    谷歌大腦(Google Brain)存在競爭,而且研究和代碼是孤立的。LeCun說:“因此,幾年后,谷歌或許會有人疑惑:我們為什么要花這么多錢?這不是我想要的情況?!保?/div>
    的頭像 發表于 11-10 10:31 ?2783次閱讀

    谷歌大腦開發人類翻譯器 打破AI黑盒新方式

    如果一個醫生告訴你需要做手術,你肯定會想知道為什么,進一步地,你會希望他給你一個就算沒學過醫也能聽得懂的明確解釋。谷歌大腦(Google Brain)的研究科學家Been Kim認為,我們應該對人工智能抱有同樣的期望。作為“可解
    的頭像 發表于 01-29 09:59 ?3140次閱讀

    谷歌宣布Android Things轉為專注智能音箱的平臺

    2016年底谷歌宣布了物聯網平臺Android Things,希望能夠用安卓連接所有物聯網設備。不過龐大的野心迎來了終結的一天,谷歌在2月13日發布博文,宣布Android Things轉為專注
    發表于 02-14 17:16 ?1118次閱讀

    谷歌希望為現實世界帶來更多機器人 專注更簡單的自動化工作

    據報道,谷歌希望為現實世界帶來更多機器人。但這家科技巨頭并沒有專注科幻傳奇的幻想,而是專注更簡單的自動化工作。例如能對特定物體進行分類的
    發表于 04-18 16:14 ?546次閱讀

    手語識別、翻譯及生成研究綜述

    ,而手語生成是根據口語或文本語句合成手語視頻。換言辶,手語識別翻譯與手語生成可視為互逆過程。文中綜述了手語硏究的最新進展,介紹了研究的背景現狀和面臨的挑戰;回顧了手語識別、翻譯和生成任務的典型
    發表于 04-08 10:20 ?25次下載
    手語識別、<b class='flag-5'>翻譯</b>及生成<b class='flag-5'>研究</b>綜述