精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

合成語言數據集引起的爭議,部分源自不同研究社區間的溝通不暢

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-04 08:53 ? 次閱讀

編者按:Microsoft Semantic Machines資深研究科學家、UC Berkeley計算機科學博士Jacob Andreas指出,合成語言數據集引起的爭議,部分源自不同研究社區間的溝通不暢,應正視合成語言數據集的價值。

AI生態系統中,虛假語言數據集能起到什么作用嗎?(我說的“虛假語言”指的是像bAbI、CLEVR、Karthik的論文(arXiv:1506.08941)、DeepMind論文(arXiv:1710.09867)中所用的語言數據集。)基于這些數據集上的結果,聲稱各種學習架構可以“處理語言”引起了NLP社區的很多不滿。盡管很大程度上這是歷史悠久的夸大宣傳風氣所造成的惡果,我漸漸相信部分原因是兩個不同群組使用“語言數據”指代完全不同之物導致的溝通不暢。

本文關注指令遵循(instruction following)這一問題,但我覺得問題回答、生成之類的許多其他接地任務同樣存在類似的現象。(明確不在討論范圍內的是對虛假語言數據進行語言學分析的工作。這類工作根本和語言無關,要不就是分析特定模型類別的形式化表達能力,要不就是垃圾。)長時間以來,一個AI研究者眼中的指令遵循問題是像這樣的:

語言 -> 抽象 -> 行為

也就是說,我們從人們生成的任意表達開始,將其映射到某種清晰的結構化表示,接著基于該結構做出該如何行動的決策。由于一下子處理整個工作流過于困難,大多數情況下社區從不同端開始著手。(并不是所有人都這么干!在最近的端到端瘋狂之前,Stefanie Tellex和Branavan就嘗試處理整個工作流。)

“語言研究者”進行的是這樣的工作:

語言 -> 抽象

在這幅圖景中,語言來自外部世界——你不能控制其分布。你需要設計抽象語言,讓它能夠處理外部世界扔過來的任意表達(如果無法處理,至少也要優雅地失?。?。語言學家以邏輯的形式為我們提供了精良的抽象形式化,通過這種方式從抽象到行為不過是邏輯解釋。因此語言學家很容易就把抽象視為形式化語義,而把“抽象 -> 行為”視作其他人的問題。

數據收集自人類說話人,這些人不需要知道任何關于邏輯形式的東西。事實上,關于邏輯語言細節的決策通常是在收集初始注釋之后做出的?!罢Z言數據”和其他數據的區別恰恰是它們是由人類用戶生成的。(如果我們從虛假語法生成器生成數據,然后將其映射到邏輯形式,那么一般來說我們并沒有學到我們之前寫下的語法之外的任何東西。)

“策略研究者”(大致可以理解為從事強化學習、規劃、經典控制領域研究的人)做的工作是:

抽象 -> 行為

在這一圖景中,可接受的抽象的范圍取決于系統設計者——行為才牽涉真實世界的細節(物理等)。從“做10件特定事項中的一件”到“滿足STRIPS目標”都可以看成是抽象語言。具體來說,一個不支持所有可能目標的抽象語言的問題并不比無法一次性進行所有操作的遠程控制器大多少。(某種意義上說,Jonathan Berant和Percy Liang通過改寫進行語義解析的工作(aclweb/P14-1133)實際上可以歸入這類,而不是語言 -> 抽象那類,雖然他們仍然主張自己的工作是“真實語言”評估標準。)我原先難以領會的是,即使我們完全可以控制輸入分布,這類問題中的一些也非常困難。強化學習是困難的。規劃是困難的。這些抽象語言的有趣的組合性還有大量空間可供研究——如果我有某種目標的機構化表示,然后在結構的子集上訓練,能否推廣至剩余結構?我們還有很多事情做不到。

為了處理當前方法能夠解決的問題,數據源自生成,而非收集。構建抽象所依據的分布和相應推導的行為是手工設計的。這里沒有語言數據;這些工作中使用的數據和“語言數據”的區別在于,語言沒有精確的執行語義,而STRIPS之類的東西卻有。

近年來,這兩個社區漸漸匯合,因為世界看起來是這樣的:

語言 -> 行為

所有時刻,所有事情,都是端到端的。抽象并沒有消失,但存在于某個無法解釋的表示空間,而不是之前手工設計的形式化系統。這是一個大事件!語言研究者再也不必局限在一個他們有足夠的聰明才智可以構建足夠好的邏輯語言的世界之中。

而策略研究者(這正是麻煩開始之處)再也不用以任何特定形式化系統描述他們的任務了:他們只需要某種生成獎勵函數/目標檢驗以及相應的(可組合的?)描述前者的標識符的方法。所以他們生成由單詞序列構成的可解釋的字符串。沒有執行語義了,使用英語單詞:自然語言。這就是困惑的根源。

我相信這對兩個社區中的人而言,這都是一個重要的教訓:

對作為研究人員的策略研究者而言,請務必一定明確標明所用的輸入數據是合成數據。在這一點上,語言一詞已經令人絕望地被濫用了,但二元語法自然語言(natural language)還沒有:除非涉及真人,否則避免使用自然一詞(本文第一段提到的一些論文都應該感到羞愧)。

對作為評審人員的語言研究者而言,對合格的虛假語言數據集而言,提出“它是否解決了一個有趣的抽象 -> 行為問題?字符串是否以一種有趣的方式索引了目標行為類別?”這樣的問題來給出回應。對許多工作而言,這是一個比較合適的標準。

我認為我們仍舊處在可以基于虛假語言研究出很多東西的階段,即使對那些只在意人類生成語言的分布的人,也是如此。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據收集
    +關注

    關注

    0

    文章

    72

    瀏覽量

    11152
  • 生態系統
    +關注

    關注

    0

    文章

    701

    瀏覽量

    20709

原文標題:虛假語言:合成語言數據集的爭議和價值

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI語音處理-文字合成語音功能

    這篇文章就介紹華為云提供的語音合成服務使用方法,利用提供的API接口完成語合成功能,將合成的語音下載下來。
    的頭像 發表于 07-08 09:50 ?2036次閱讀
    AI語音處理-文字<b class='flag-5'>合成語</b>音功能

    成語大全 2008

    至今已有14個軟件盜用《成語大全》的數據資料。4、最開放的軟件,允許用戶增、編輯,有設計能力的可反匯編重新打造個性化的詞典;而且程序文件完全免費。5、功能最齊全,查詢方式多達18種,還有學習與游戲功能。6
    發表于 10-15 13:12

    基于波形音頻段處理的中文語音合成研究

    高,語音單元之間的過渡還不夠自然。因此,如何提高合成語音的自然度,使合成的語音更加流暢是語音合成的關鍵。本文針對這個問題從語音單元之間平穩過渡處理、分段處理和語氣處理三個方面進行了探討,并且將
    發表于 03-06 22:24

    適用于Java的嵌入式腳本語言是什么

    此文已由作者趙昕授權網易云社區發布。歡迎訪問網易云社區,了解更多網易技術產品運營經驗。fakescript輕量級嵌入式腳本語言 https://github.com/esrrhs
    發表于 12-23 08:17

    HarmonyOS原子化服務案例分享-成語心情

    一、案例說明成語,眾人皆說,成之于語;是漢語詞匯中定型的詞。成語多為四字,亦有三字,五字甚至七字以上。成語是中華傳統文化的一大特色,是中華文化中一顆璀璨的明珠。成語有很大一
    發表于 07-21 14:10

    PWM在合成語音輸出電路中的應用

    基于采用權電流D/A方式實現合成語音輸出方式有集成電阻離散性大、開關的非線性,以及功耗高等缺點,提出了利用脈沖寬度調制(PWM)技術的方法將數字語音信號直接轉換為脈沖寬
    發表于 05-16 11:53 ?45次下載

    VHDL并行語句(生成語句)使用練習

    實驗七、VHDL并行語句(生成語句)使用練習一? 實驗目的1掌握VHDL語言的基本描述語句的使用方法。2掌握VHDL語言的生成語句的使用方法。二? 實
    發表于 03-13 19:25 ?2629次閱讀
    VHDL并行語句(生<b class='flag-5'>成語</b>句)使用練習

    電流互感器的飽和區間定位研究_許峰

    電流互感器的飽和區間定位研究_許峰
    發表于 12-31 14:45 ?0次下載

    基于TMS320C6678的合成語音檢測算法

    針對合成語音檢測系統在大規模電信網應用中的實時性需求,在分析合成語音檢測原理和多核DSP任務并行的基礎上,提出了一種基于TMS320C6678的合成語音檢測算法并行實現方法,該方法實現了任務級并行
    發表于 11-14 14:47 ?15次下載
    基于TMS320C6678的<b class='flag-5'>合成語</b>音檢測算法

    基于移動傳感器網絡社區間能量均衡路由算法

    在資源受限的無線移動傳感器網絡( MWSN)中設計能效路由是一個挑戰性難題。針對移動傳感器網絡中社區間路由節點能量消耗過快的問題,提出了一種社區間能量均衡路由算法( ERAI)。設計了一個
    發表于 11-30 10:01 ?1次下載

    結合粗糙和距離動態模型的重疊社區發現方法

    的理論意義和實際價值。隨著復雜系統內個體的不斷變化,多個社區間岀現了重疊節點,有效且準確地挖掘社區中的重疊節點具有一定的挑戰性。為了有效發現社區中的重疊節點,提出了一種基于粗糙和距離
    發表于 05-08 15:33 ?0次下載

    采用人工智能技術的高質量合成語音開發和定制

      當涉及到高質量的合成語音開發和定制時,深度學習被證明是一個強大的工具。一家總部位于多倫多的初創公司, NVIDIA Inception 成員類似人工智能正在利用一種新的生成語音工具增加賭注,該工具能夠創建高質量的合成人工智能
    的頭像 發表于 04-08 09:28 ?1365次閱讀

    PyTorch教程16.4之自然語言推理和數據

    電子發燒友網站提供《PyTorch教程16.4之自然語言推理和數據.pdf》資料免費下載
    發表于 06-05 10:57 ?0次下載
    PyTorch教程16.4之自然<b class='flag-5'>語言</b>推理和<b class='flag-5'>數據</b><b class='flag-5'>集</b>

    語音合成數據的重要性:打造自然流暢的語音合成體驗

    和應用提供關鍵支持。 提供訓練基礎: 語音合成數據作為語音合成模型的訓練基礎,直接影響合成語音的質量。豐富、準確的語音合成數據可以幫助模型學習到更多的語音特征和模式,從而生成更自然、流
    的頭像 發表于 06-24 03:07 ?544次閱讀

    大模型數據:力量的源泉,進步的階梯

    的舞臺 大模型數據如廣袤的舞臺,為AI技術的展現提供了廣闊的空間。這些數據規模龐大,包容萬象,它們是AI進步的基石。無論是自然語言處理、
    的頭像 發表于 12-07 17:18 ?640次閱讀