精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌翻譯竟然預言世界末日?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-23 09:07 ? 次閱讀

“世界末日時鐘是23點57分。我們正在經歷世界上的戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。”這段驚悚的“預言”來自谷歌翻譯。2016年,谷歌宣布機器翻譯“重大突破”——神經機器翻譯(GNMT),將翻譯質量提高到接近人類筆譯的水平。然而,它將無意義的文本翻譯成怪異的宗教預言引起了新的恐慌。這次,要怪AI是“黑盒”,還是拖出谷歌員工來背鍋?

在Google Translate中鍵入“dog”一詞19次,然后選擇將這段無意義的文本從毛利語翻譯成英語,結果會怎樣?

彈出來的是一段看似亂碼宗教預言:

Doomsday Clock is three minutes at twelve We are experiencing characters and a dramatic developments in the world, which indicate that we are increasingly approaching the end times and Jesus’ return.

“世界末日時鐘還差3分鐘到12點。我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。”

這只是Reddit以及其他網站用戶從谷歌翻譯中挖掘出來的眾多怪異、有時甚至是不祥的翻譯的一個例子。將原文設為索馬里語,連續輸入“ag”一詞,這個字符串會被翻譯成“sons of Gershon”(革順的兒子),“name of the LORD”(上帝的名字),并且會引用圣經里的術語,例如“cubits”(肘,圣經中的度量衡)和Deuteronomy(《申命記》)。谷歌翻譯是谷歌已經推出10年的服務,現在可以翻譯超過100種語言。

在推特上,這些翻譯引起恐慌,有人甚至將這些奇怪的翻譯歸咎于鬼魂和惡魔。reddit上TranslateGate子論壇上有用戶推測,其中一些奇怪的翻譯輸出可能來自收集自電子郵件或私人消息的文本。

谷歌發言人Justin Burr在一封電子郵件中表示:“Google Translate從網絡上的翻譯范例學習,不使用‘私人信息’進行翻譯,系統甚至都無法訪問到這些內容。”“這只是將無意義的話語輸入系統,導致產生的也是無意義的內容的一種功能。”

對于這種怪異的輸出,有幾種可能的解釋。比如,這些惡意消息可能是心懷不滿的谷歌員工造成的,也可能是惡作劇用戶濫用“提供建議”按鈕造成的,該選項將接受用戶提供的有助于改善翻譯質量的建議。

罪魁禍首可能是神經機器翻譯

哈佛大學研究自然語言處理和計算機翻譯的助理教授Andrew Rush認為,內部的質量過濾器(quality filter)可能會捕捉到這種類型的惡意操作。Rush說,更有可能的是,這些奇怪的翻譯與2016年時谷歌翻譯的一個重大變化有關——它開始使用一種叫做“神經機器翻譯”的技術。

在神經機器翻譯中,使用一種語言的大量文本和另一種語言的相應譯文來訓練系統,以創建一個能夠在兩種語言之間相互翻譯的模型。Rush說,當系統被輸入無意義的文本時,它就會“產生幻覺”,生成怪異的輸出——就像谷歌的DeepDream視覺系統會產生可怕的圖像一樣。

谷歌DeepDream的作畫

“這些模型都是黑盒,你能找到多少訓練實例,它就能學到多少。” Rush說:“訓練實例中絕大部分看起來都像人類語言,因此當你給它一個新的實例時,它受到的訓練就是,不惜一切代價創造出一些看起來也像人類語言的東西。然而,如果你給它一些非常不同的東西,最好的翻譯將是一些看起來仍然流暢的文本,但根本與輸入無關。”

BBN Technologies的資深科學家、從事機器翻譯工作的Sean Colbath也同意,奇怪的輸出可能是由于Google Translate的算法試圖在混亂中尋找秩序。他還指出,這些產生最奇怪結果的語言——索馬里語、夏威夷語和毛利語——它們用于訓練的翻譯文本比英語或漢語等更廣泛使用的語言要小得多。因此,Colbath說,谷歌可能會使用《圣經》這類的宗教文本(《圣經》已經被翻譯成多種語言),用這些文本來訓練它的模型,導致產生宗教內容。

Rush也同意這種說法,如果谷歌使用《圣經》來訓練它的神經翻譯模型,那么就可以解釋一些奇怪的輸出了。事實上,索馬里語的幾個奇怪的翻譯版本與《舊約》中的某些章節很相似。比如《出埃及記》27:18提到“a hundred cubits”(長一 百肘),并且有幾節經文,包括《民數記》3:18討論了“sons of Gershon”(革順的兒子)。

谷歌發言人Justin Burr拒絕回答Google Translate的訓練數據是否包含宗教文本。

但有時候,確實感覺這個算法似乎在傳遞某種神秘的精神能量——它甚至會開笑話。

你看,用Google Translate翻譯“w hy ar e th e tran stla tions so wei rd”在索馬里語中的意思,它的輸出是,“這是一個讓它變得更好的好辦法”。

神經機器翻譯的主要問題

Philipp Koehn和Rebecca Knowles在2017年就這一主題撰寫了一篇精彩的關于神經機器翻譯的論文(文末附論文地址),現在仍然具有現實意義。在這里有必要總結一下:

1.神經機器翻譯(NMT)在處理領域之外的數據時的表現很糟:當前的機器翻譯系統會生成非常流暢的輸出,這些輸出與領域外數據的輸入無關。因此像Google翻譯這樣的通用機器翻譯系統在法律或金融等專業領域的表現尤其糟糕。與基于短語的系統等傳統方法相比,NMT系統的效果更差。有多差呢?請參閱下面的圖表。非對角線上元素是是用領域外數據訓練后的結果,綠色條代表NMT,藍色條代表基于短語的系統。

將機器翻譯系統在一個領域內(行)上訓練,并在另一個領域(列)上進行測試。

藍色:基于短語的系統 綠色:NMT

2.NMT在小數據集上表現不佳:一般而言,大多數機器學習都是這樣,但這個問題在NMT上尤為突出。 NMT的優點在于,隨著數據量的增加,它的表現要(比基于短語的機器翻譯)更好,但在數據量很低的情況下,NMT的表現確實更差。事實上,正如作者所說,“在資源條件較差的情況下,NMT會產生與輸入內容無關的流暢輸出。”這可能是Motherboard的文章探討的一些關于NMT表現奇怪的另一個原因。

3.NMT在罕見詞匯上的表現不佳:盡管比基于短語的翻譯的表現更好,但NMT對于罕見或未見過的詞語翻譯的表現不佳。對于存在大量變形詞的語言及大量命名實體的領域,這可能成為一個問題,因為變形詞和命名實體一般非常罕見。

上圖是我們即將出版的書的第2章部分內容的摘錄。例如,在土耳其語中,時不時就會遇到變形形式的詞。

如果單詞只被觀察到一次,就會被舍棄。字節成對編碼(byte-pair encoding)技術有助于解決這個問題,但有必要對此進行更詳細的研究。

4.長句的翻譯問題:對長句編碼及生成長句仍然是一個沒有解決的問題。 機器翻譯系統隨句子長度的增加,其表現會越來越糟,NMT系統尤其如此。使用注意力有幫助,但問題遠未“解決”。在許多領域,如法律領域,冗長復雜的句子是很常見的。

5.注意力(Attention)機制不等于簡單對齊:這是一個非常微妙但重要的問題。在傳統的SMT系統(如基于短語的MT)中,對齊翻譯為模型的檢測提供了有用的調試信息。但是注意機制不能被視為傳統意義上的對齊,即使論文經常將注意力機制作為“軟對齊”引起注意。在NMT系統中,除了源語言中的動詞之外,目標語言中的動詞也可以作為主語和賓語成分。

6.難以控制翻譯質量:每個單詞都有多種翻譯,典型的機器翻譯系統在源句的翻譯結構上表現很好。為了保持句子結構的大小合理,會使用集束搜索(beam search)。通過改變集束寬度,可以找到低概率但正確的平移。而對于NMT系統,調整集束的寬度似乎沒有任何影響,甚至可能會有不良影響。

當數據量很大時,NMT系統仍然很難被擊敗。關于神經網絡模型的黑盒性的討論也在繼續,今天的NMT模型(不論是基于LSTM還是Transformer)都會受此影響。這是一個活躍的研究領域,如果時間允許,我期待參加EMNLP關于該主題的研討會。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6142

    瀏覽量

    105096
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14873

原文標題:谷歌翻譯竟預言世界末日,專家解密神經翻譯6大難題

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    阿里國際發布翻譯大模型Marco

    近日,阿里國際正式推出了其翻譯大模型——Marco。這款模型已在阿里國際AI官網Aidge上線,并向全球用戶開放使用。
    的頭像 發表于 10-17 16:07 ?235次閱讀

    用邏輯和翻譯用例優化資產跟蹤器

    電子發燒友網站提供《用邏輯和翻譯用例優化資產跟蹤器.pdf》資料免費下載
    發表于 09-21 11:24 ?0次下載
    用邏輯和<b class='flag-5'>翻譯</b>用例優化資產跟蹤器

    使用邏輯和翻譯優化車身控制模塊(BCM)應用說明

    電子發燒友網站提供《使用邏輯和翻譯優化車身控制模塊(BCM)應用說明.pdf》資料免費下載
    發表于 09-11 11:30 ?0次下載
    使用邏輯和<b class='flag-5'>翻譯</b>優化車身控制模塊(BCM)應用說明

    英特爾銳炫顯卡助力游戲體驗升級

    日前,網易超自然開放世界游戲《七日世界》開啟全球公測,憑借獨特的新怪談世界觀以及區別于傳統“末日游戲”的細節設計,該游戲不僅穩居Steam愿望單前10,更是在公測前就已斬獲超2000萬
    的頭像 發表于 08-16 15:17 ?440次閱讀

    超ChatGPT-4o,國產大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評

    隨著AI工具的不斷增多,各家模型的能力也日益提升,現在無論哪款大模型幾乎都能夠處理各種翻譯難題。在AI浪潮當下,越來越多的論文和前沿信息需要快速翻譯和解讀,依賴傳統的翻譯工具依舊面臨“翻譯
    的頭像 發表于 07-14 08:04 ?128次閱讀
    超ChatGPT-4o,國產大模型<b class='flag-5'>竟然</b>更懂<b class='flag-5'>翻譯</b>,8款大模型深度測評|AI 橫評

    谷歌發布全新AI基礎世界模型Genie

    谷歌近日宣布推出其最新研發的AI基礎世界模型——Genie。這款模型擁有驚人的110億參數,其獨特之處在于,僅需一張圖片,便能生成一個充滿活力和交互性的虛擬世界。用戶可以在這個世界中逐
    的頭像 發表于 03-04 14:02 ?708次閱讀

    谷歌發布全新AI模型Genie

    谷歌近日發布了其全新的AI模型Genie,這一模型徹底改變了我們與數字世界的互動方式。Genie不僅可以接收文本提示、草圖或想法,還能將這些創意迅速轉化為一個可互動和玩耍的虛擬世界
    的頭像 發表于 02-28 18:25 ?1634次閱讀

    谷歌發布基礎世界模型Genie,世界模型領域競爭升溫

    繼OpenAI和Meta之后,谷歌也在世界模型領域公布了其最新進展。據谷歌官網介紹,Genie是一個基于互聯網視頻訓練的基礎世界模型,能夠從合成圖像、照片、草圖等多種來源生成多種動作可
    的頭像 發表于 02-28 18:20 ?1390次閱讀

    谷歌發布AI基礎世界模型Genie

    谷歌近日宣布了其生成式AI的全新里程碑——全新AI基礎世界模型Genie。這一創新技術允許用戶通過單張圖像提示,生成一個可玩的、交互式的虛擬環境,從而開啟了一個全新的數字體驗時代。
    的頭像 發表于 02-28 17:41 ?780次閱讀

    谷歌DeepMind重磅發布了基礎世界模型:Genie(精靈)

    大家都喜歡玩游戲吧?因為游戲最大的吸引力是讓我們逃避現實、幻想一個遠離我們眼前現實的世界,掌控這個虛擬的現實世界。現在,我們可以想象一下,如果我們有能力創造自己的世界,那該多好了。
    的頭像 發表于 02-28 10:45 ?835次閱讀
    <b class='flag-5'>谷歌</b>DeepMind重磅發布了基礎<b class='flag-5'>世界</b>模型:Genie(精靈)

    谷歌發布新型AI模型Genie

    近日,谷歌推出了一款革命性的AI模型——Genie。這款模型能夠將簡單的文本提示、草圖或初步想法迅速轉化為一個可以互動和游戲的虛擬世界。這一突破性的技術無疑將改變人們創建和體驗虛擬世界的方式。
    的頭像 發表于 02-28 10:05 ?699次閱讀

    谷歌交互世界模型重磅發布

    谷歌模型
    北京中科同志科技股份有限公司
    發布于 :2024年02月28日 09:13:06

    N9H20 GPIO上電竟然是高電平,有沒有辦法解決?

    一直很納悶,GPIO上電竟然是高電平。有沒有辦法解決,是不是要改動啟動程序才能解決問題?
    發表于 01-17 08:27

    TooliP - 智能專利文件翻譯工具,節省80%翻譯時間

    在面對專利文件的獨特要求,如高度嚴謹的術語和精準度時,其他普通翻譯工具往往顯得乏力。TooliP賦予用戶簡化流程并顯著節約時間的機會,平均能節省約80%的翻譯時間。
    的頭像 發表于 12-20 14:48 ?959次閱讀

    萬萬沒想到,二極管竟然還可以這樣用?

    萬萬沒想到,二極管竟然還可以這樣用?
    的頭像 發表于 12-15 09:28 ?306次閱讀
    萬萬沒想到,二極管<b class='flag-5'>竟然</b>還可以這樣用?