亚洲精品无码专区在线播放_极品白嫩无套视频在线播放_少妇人妻无码专区在线视频_国产精品无卡毛片视频

人工智能領(lǐng)域的發(fā)展離不開(kāi)學(xué)者們的貢獻(xiàn)，然而隨著研究的進(jìn)步，越來(lái)越多的論文出現(xiàn)了「標(biāo)題黨」、「占坑」、「注水」等現(xiàn)象，暴增的頂會(huì)論文接收數(shù)量似乎并沒(méi)有帶來(lái)更多技術(shù)突破。最近，來(lái)自卡耐基梅隆大學(xué)的助理教授 Zachary C. Lipton 與斯坦福大學(xué)博士 Jacob Steinhardt 提交了一篇文章《Troubling Trends in Machine Learning Scholarship》，細(xì)數(shù)了近年來(lái)機(jī)器學(xué)習(xí)研究的幾大「怪現(xiàn)狀」。本文將在 7 月 15 日 ICML 2018 大會(huì)上的「Machine Learning: The Debates」研討會(huì)上接受討論。

1 引言

總體來(lái)說(shuō)，機(jī)器學(xué)習(xí)（ML）的研究人員正在致力于數(shù)據(jù)驅(qū)動(dòng)算法知識(shí)的創(chuàng)建與傳播。在一篇論文中提到，研究人員迫切地想實(shí)現(xiàn)下列目標(biāo)的任一個(gè)：理論性闡述可學(xué)習(xí)內(nèi)容、深入理解經(jīng)驗(yàn)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)或者構(gòu)建一個(gè)有高預(yù)測(cè)精度的工作系統(tǒng)。雖然確定哪些知識(shí)值得探究是很主觀(guān)的，但一旦主題確定，當(dāng)論文為讀者服務(wù)時(shí)，它對(duì)社區(qū)最有價(jià)值，它能創(chuàng)造基礎(chǔ)知識(shí)并盡可能清楚地進(jìn)行闡述。

什么樣的論文更適合讀者呢？我們可以列出如下特征：這些論文應(yīng)該（i）提供直觀(guān)感受以幫助讀者理解，但應(yīng)明確區(qū)別于已證明的強(qiáng)有力結(jié)論;（ii）闡述考量和排除其他假設(shè)的實(shí)證調(diào)查 [62];（iii）明確理論分析與直覺(jué)或經(jīng)驗(yàn)之間的關(guān)系 [64];（iv）利用語(yǔ)言幫助讀者理解，選擇術(shù)語(yǔ)以避免誤解或未經(jīng)證實(shí)的內(nèi)容，避免與其他定義沖突，或與其他相關(guān)但不同的概念混淆 [56]。

盡管經(jīng)常偏離這些理想條件，但機(jī)器學(xué)習(xí)近期仍然在持續(xù)進(jìn)步。在本文中，我們關(guān)注以下四種模式，在我們看來(lái)，這些模式是機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)下研究的傾向：

1. 無(wú)法區(qū)分客觀(guān)闡述和猜想。

2. 無(wú)法確定達(dá)到好效果的來(lái)源，例如，當(dāng)實(shí)際上是因?yàn)閷?duì)超參數(shù)微調(diào)而獲得好效果的時(shí)候，卻強(qiáng)調(diào)不必要修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

3. 數(shù)學(xué)性：使用令人混淆的數(shù)學(xué)術(shù)語(yǔ)而不加以澄清，例如混淆技術(shù)與非技術(shù)概念。

4. 語(yǔ)言誤用，例如，使用帶有口語(yǔ)的藝術(shù)術(shù)語(yǔ)，或者過(guò)多的使用既定的技術(shù)術(shù)語(yǔ)。

雖然這些模式背后的原因無(wú)法確定，但很可能包括社區(qū)大幅擴(kuò)張，導(dǎo)致審查人員數(shù)量不足，以及學(xué)術(shù)和短期成功衡量標(biāo)準(zhǔn)（如文獻(xiàn)數(shù)量、關(guān)注度、創(chuàng)業(yè)機(jī)會(huì)）之間經(jīng)常出現(xiàn)的錯(cuò)位激勵(lì)。雖然每種模式都提供了相應(yīng)的補(bǔ)救措施（呼吁「不要這樣做」），我們還是想討論一些關(guān)于社區(qū)如何應(yīng)對(duì)此類(lèi)趨勢(shì)的探索性建議。

隨著機(jī)器學(xué)習(xí)的影響擴(kuò)大，研究此類(lèi)論文的人員越來(lái)越多，包括學(xué)生、記者和決策者，這些考量也適用于更廣泛的讀者群體。我們希望通過(guò)更清晰精準(zhǔn)的溝通，加速研究步伐，減少新晉研究人員的入門(mén)時(shí)間，在公共討論中發(fā)揮建設(shè)性的作用。

有缺陷的學(xué)術(shù)研究可能會(huì)誤導(dǎo)大眾、阻礙未來(lái)研究、損害機(jī)器學(xué)習(xí)知識(shí)基礎(chǔ)。事實(shí)上，在人工智能的歷史上，甚至更廣泛的科學(xué)研究中，很多問(wèn)題都是循環(huán)往復(fù)的。1976 年，Drew McDermott [53] 就批判 AI 社區(qū)放棄了自律，并預(yù)言「如果我們不能批評(píng)自己，就會(huì)有別人來(lái)幫我們解決問(wèn)題」。類(lèi)似的討論在在 80 年代、90 年代和 00 年代反復(fù)出現(xiàn) [13,38,2]。在心理學(xué)等領(lǐng)域，糟糕的實(shí)驗(yàn)標(biāo)準(zhǔn)削弱了人們對(duì)該學(xué)科權(quán)威的信任 [14]。當(dāng)今機(jī)器學(xué)習(xí)的強(qiáng)勁潮流歸功于迄今為止大量嚴(yán)謹(jǐn)?shù)难芯浚ɡ碚撗芯?[22,7,19] 和實(shí)證研究 [34,25,5]。通過(guò)加強(qiáng)更明了的科學(xué)思考和交流，我們才可以維持社區(qū)目前所擁有的信任和投資。

2. 免責(zé)聲明

本文旨在激發(fā)討論，響應(yīng) ICML 機(jī)器學(xué)習(xí)辯論研討會(huì)關(guān)于論文的號(hào)召。雖然我們支持這里的觀(guān)點(diǎn)，但我們并不是要提供一個(gè)完整或平衡的觀(guān)點(diǎn)，也不是要討論機(jī)器學(xué)習(xí)這一科學(xué)領(lǐng)域的整體質(zhì)量。在復(fù)現(xiàn)性等許多方面，社區(qū)的先進(jìn)標(biāo)準(zhǔn)遠(yuǎn)遠(yuǎn)超過(guò)了十年前的水平。我們注意到，這些爭(zhēng)論是我們自己發(fā)起的，攻擊的也是我們自身，關(guān)鍵的自省都是我們自己人做出的，而不是來(lái)自局外人的攻擊。我們發(fā)現(xiàn)的這些弊病不是某個(gè)人或某個(gè)機(jī)構(gòu)獨(dú)有的。我們已經(jīng)身處這種模式之中，將來(lái)還會(huì)重蹈覆轍。揭示其中一種模式不會(huì)讓一篇論文變差或譴責(zé)論文的作者，但是我們相信，揭示這種模式之后，所有論文都會(huì)因避開(kāi)這種模式而得到質(zhì)量的提高。我們給出的具體例子將涉及（i）我們自身及（ii）那些我們仰慕的著名研究者或機(jī)構(gòu)，不會(huì)挑選那些容易受到本文嚴(yán)重影響的年輕學(xué)者或沒(méi)有機(jī)會(huì)與我們平等對(duì)話(huà)的研究者。身處這樣一個(gè)可以自由獲取知識(shí)、表達(dá)觀(guān)點(diǎn)的社區(qū)，我們感到非常欣慰。

3 不良趨勢(shì)

在下面的每個(gè)小節(jié)中，我們 (i) 首先描述一個(gè)趨勢(shì)；(ii) 然后提供幾個(gè)例子（包括抵制這一趨勢(shì)的正面例子）；最后解釋該趨勢(shì)帶來(lái)的后果。指出個(gè)別論文的弱點(diǎn)可能是一個(gè)敏感的話(huà)題。為了盡量減少這種情況，我們選擇了簡(jiǎn)短而具體例子。

3.1 解釋與推測(cè)

對(duì)新領(lǐng)域的研究往往涉及基于直覺(jué)的探索，這些直覺(jué)尚未融合成清晰的表達(dá)形式。于是推測(cè)成為作者表達(dá)直覺(jué)的一種手段，但是這種直覺(jué)可能還無(wú)法承受科學(xué)審查的所有壓力。然而，論文常以解釋為名行推測(cè)之實(shí)，然后由于科學(xué)論文的偽裝和作者假定的專(zhuān)業(yè)知識(shí)，這些推測(cè)被解釋為權(quán)威。

例如，[33] 圍繞一個(gè)內(nèi)部協(xié)變量轉(zhuǎn)移的概念形成了一個(gè)直觀(guān)的理論。關(guān)于內(nèi)部協(xié)變量轉(zhuǎn)移的論述從摘要開(kāi)始，似乎陳述了技術(shù)事實(shí)。然而，關(guān)鍵術(shù)語(yǔ)不夠清晰，最終無(wú)法得出一個(gè)真實(shí)值。例如，論文指出，通過(guò)減少訓(xùn)練過(guò)程中隱激活層分布的變化，批處理規(guī)范化可以獲得改進(jìn)。這種變化是用哪種散度衡量的？論文中沒(méi)有闡明，并且有些研究表明，這種對(duì)批處理規(guī)范化的解釋可能偏離了 [65] 的標(biāo)準(zhǔn)。然而，[33] 中給出的推測(cè)性解釋已經(jīng)被重復(fù)為一種事實(shí)，例如 [60] 中說(shuō)，「眾所周知，由于內(nèi)部協(xié)變量轉(zhuǎn)移問(wèn)題，深層神經(jīng)網(wǎng)絡(luò)很難優(yōu)化。」

我們也同樣對(duì)偽裝成推測(cè)的解釋感到不安。在 [72] 中，JS 寫(xiě)道，「無(wú)關(guān)特征的高維性和豐富性……給了攻擊者更多的空間來(lái)攻擊」，而沒(méi)有進(jìn)行任何實(shí)驗(yàn)來(lái)衡量維度對(duì)攻擊性的影響。在 [71] 中，JS 引入了直觀(guān)的覆蓋概念，但沒(méi)有對(duì)其進(jìn)行定義，并將其當(dāng)做一種解釋來(lái)運(yùn)用，如：「缺少覆蓋的一個(gè)表現(xiàn)是不確定性估計(jì)較差，無(wú)法生成高精度的預(yù)測(cè)。」回顧過(guò)去，我們希望交流不夠具體化的直覺(jué)，這些直覺(jué)對(duì)論文中的研究很重要，我們不愿把論點(diǎn)的核心部分看作推論。

與上述例子相反，[69] 把推測(cè)與事實(shí)區(qū)分開(kāi)來(lái)。這篇論文介紹了 dropout 正則化，詳細(xì)推測(cè)了 dropout 和有性繁殖之間的聯(lián)系，但「Motivation」一節(jié)明確地隔開(kāi)了這一討論。這種做法避免了混淆讀者，同時(shí)允許作者表達(dá)非正式的想法。

在另一正面例子中，[3] 提出了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實(shí)用指南。在這篇論文中，作者謹(jǐn)慎地表達(dá)了不確定性。該論文沒(méi)有把這些指南當(dāng)成權(quán)威性的東西，而是這樣表達(dá)：「雖然這些建議……來(lái)自多年的實(shí)驗(yàn)和一定程度的數(shù)學(xué)證明，但它們應(yīng)該受到挑戰(zhàn)。這是一個(gè)良好的起點(diǎn)……但沒(méi)有得到什么正式驗(yàn)證，留下許多問(wèn)題，可以通過(guò)理論分析或扎實(shí)的比較實(shí)驗(yàn)工作來(lái)回答」。

3.2 未能確定經(jīng)驗(yàn)成果的來(lái)源

機(jī)器學(xué)習(xí)同行評(píng)審過(guò)程重視技術(shù)創(chuàng)新。也許是為了讓審稿人滿(mǎn)意，許多論文強(qiáng)調(diào)了復(fù)雜的模型（這里提到的）和奇特的數(shù)學(xué)表達(dá)式（見(jiàn) 3.3）。雖然復(fù)雜的模型有時(shí)是合理的，但經(jīng)驗(yàn)上的進(jìn)步往往通過(guò)其它方式實(shí)現(xiàn)：巧妙的問(wèn)題公式、科學(xué)實(shí)驗(yàn)、優(yōu)化算法、數(shù)據(jù)預(yù)處理技術(shù)、廣泛的超參數(shù)調(diào)整，或者將現(xiàn)有方法應(yīng)用于有趣的新任務(wù)。有時(shí)，把提出的很多技術(shù)相結(jié)合可以獲得顯著的經(jīng)驗(yàn)結(jié)果。在這些情況下，作者有責(zé)任向讀者闡明實(shí)現(xiàn)文中的成果需要哪些技術(shù)。

但很多時(shí)候，作者提出了許多缺乏適當(dāng)變化的控制變量研究，掩蓋了經(jīng)驗(yàn)成果的來(lái)源。實(shí)際上，有時(shí)改善結(jié)果的原因只有一個(gè)變化而已。這會(huì)給人一種錯(cuò)誤的印象，認(rèn)為作者做了更多的工作（通過(guò)提出幾項(xiàng)改進(jìn)），而實(shí)際上他們做得并不夠（沒(méi)有進(jìn)行適當(dāng)?shù)淖兞靠刂疲４送猓@種做法會(huì)使讀者誤以為提出的所有改變都是必要的。

最近，Melis et al.[54] 闡明，很多已發(fā)表的改進(jìn)技術(shù)實(shí)際上要?dú)w功于超參數(shù)的調(diào)節(jié)，而這原本被認(rèn)為是在神經(jīng)網(wǎng)絡(luò)中進(jìn)行復(fù)雜創(chuàng)新的功勞。與此同時(shí)，自 1997 年以來(lái)幾乎沒(méi)有修改過(guò)的經(jīng)典 LSTM 排名第一。如果早點(diǎn)知道關(guān)于超參數(shù)調(diào)節(jié)的真相，而沒(méi)有受到其它干擾，AI 社區(qū)可能受益更多。深度強(qiáng)化學(xué)習(xí) [ 30 ] 和生成對(duì)抗網(wǎng)絡(luò) [ 51 ] 也遇到了類(lèi)似的評(píng)估問(wèn)題。更多關(guān)于經(jīng)驗(yàn)嚴(yán)謹(jǐn)性失誤及其后果的討論詳見(jiàn) [ 68 ]。

相比之下，許多論文對(duì) [ 41,45,77,82 ] 進(jìn)行了很好的控制變量分析，甚至追溯性地嘗試隔絕成果來(lái)源也可能導(dǎo)致新的發(fā)現(xiàn) [ 10,65 ]。此外，控制變量對(duì)于理解一種方法來(lái)說(shuō)既不是必要的也不是充分的，甚至在給定計(jì)算約束的情況下也是不切實(shí)際的。可以通過(guò)魯棒性檢查（如 [15]，它發(fā)現(xiàn)現(xiàn)有的語(yǔ)言模型處理屈折形態(tài)的效果很差）以及定性錯(cuò)誤分析 [40] 來(lái)理解方法。

旨在理解的實(shí)證研究甚至在沒(méi)有新算法的情況下也能起到啟發(fā)作用。例如，探究神經(jīng)網(wǎng)絡(luò)的行為可以識(shí)別它們對(duì)對(duì)抗干擾的易感性 [ 74 ]。細(xì)致的研究還經(jīng)常揭示挑戰(zhàn)數(shù)據(jù)集的局限性，同時(shí)產(chǎn)生更強(qiáng)的基線(xiàn)。[ 11 ] 研究了一項(xiàng)旨在閱讀理解新聞段落的任務(wù)，發(fā)現(xiàn) 73 % 的問(wèn)題可以通過(guò)看一個(gè)句子來(lái)回答，而只有 2 % 的問(wèn)題需要看多個(gè)句子（剩下 25 % 的例子要么模棱兩可，要么包含共指錯(cuò)誤）。此外，更簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)和線(xiàn)性分類(lèi)器的性能優(yōu)于此前在這項(xiàng)任務(wù)中評(píng)估過(guò)的復(fù)雜神經(jīng)結(jié)構(gòu)。本著同樣的精神，[ 80 ] 分析并構(gòu)建了視覺(jué)基因組場(chǎng)景圖數(shù)據(jù)集的強(qiáng)基線(xiàn)。

3.3 濫用數(shù)學(xué)

在寫(xiě)早期 PhD 論文的時(shí)候，經(jīng)驗(yàn)豐富的博士后會(huì)給我們（ZL）一些反饋：論文需要更多的方程式。博士后并沒(méi)有認(rèn)可我們提出的系統(tǒng)，但是傳達(dá)出一種審議研究工作的清晰方式。即使工作很難解釋?zhuān)嗟姆匠淌綍?huì)令評(píng)審者相信論文的技術(shù)深度。

數(shù)學(xué)是科學(xué)交流的重要工具，正確使用時(shí)可以傳遞精確與清晰的思考邏輯。然而，并非所有想法與主張都能使用精確的數(shù)學(xué)進(jìn)行描述，因此自然語(yǔ)言也同樣是一種不可或缺的工具，尤其是在描述直覺(jué)或經(jīng)驗(yàn)性聲明時(shí)。

當(dāng)數(shù)學(xué)聲明和自然語(yǔ)言表述混合在一起而沒(méi)有明確它們之間的關(guān)系時(shí)，觀(guān)點(diǎn)和理論都會(huì)受到影響：理論中的問(wèn)題用模糊的定義來(lái)覆蓋，而觀(guān)點(diǎn)的弱論據(jù)可以通過(guò)技術(shù)深度的出現(xiàn)而得到支持。我們將這種正式和非正式聲明之間的糾纏稱(chēng)為「濫用數(shù)學(xué)（mathiness）」。經(jīng)濟(jì)學(xué)家 Paul Romer 描述這種模式為：「就像數(shù)學(xué)理論一樣，濫用數(shù)學(xué)將符號(hào)和語(yǔ)言的混合，但濫用數(shù)學(xué)不會(huì)將兩者緊密聯(lián)系在一起，而是在自然語(yǔ)言表述與形式語(yǔ)言表述間留下了充足的空間 [64]。」

濫用數(shù)學(xué)表現(xiàn)在幾個(gè)方面：首先，一些論文濫用數(shù)學(xué)來(lái)傳遞技術(shù)的深度，他們只是將知識(shí)堆砌在一起而不是嘗試澄清論點(diǎn)。偽造定理是常見(jiàn)的手法，它們常被插入到論文中為實(shí)證結(jié)果提供權(quán)威性，即使定理的結(jié)論并不支持論文的主要主張。我們（JS）就犯過(guò)這樣的錯(cuò) [70]，其中對(duì)「staged strong Doeblin chains」的討論與提出的學(xué)習(xí)算法只有很少的相關(guān)性，但可能給讀者帶來(lái)理論的深度感。

在 Adam 優(yōu)化器的原論文 [35] 中，這個(gè)問(wèn)題無(wú)處不在。在引入具有強(qiáng)大經(jīng)驗(yàn)性性能的優(yōu)化器過(guò)程中，它還提供了凸優(yōu)化情況下的收斂性證明，這對(duì)于關(guān)注非凸優(yōu)化的的論文來(lái)說(shuō)不是必要的。這一個(gè)證明后來(lái)還被指出有錯(cuò)誤 [63]，并給出了新的證明。

第二個(gè)問(wèn)題是既非明確的形式化表述，也非明確的非形式化表述。例如在 [18] 中，作者表示優(yōu)化神經(jīng)網(wǎng)絡(luò)主干的困難不在極小值點(diǎn)，而在鞍點(diǎn)。這項(xiàng)工作引用了一篇關(guān)于高斯隨機(jī)場(chǎng)的統(tǒng)計(jì)物理學(xué)論文 [9]，該論文表示「高斯隨機(jī)場(chǎng)中所有局部極小值點(diǎn)的誤差與全局最小值點(diǎn)誤差非常相近」，相似的說(shuō)明在 [12] 中也有提到。這似乎是一個(gè)正式的聲明，但是并沒(méi)有一個(gè)具體的定理，也很難驗(yàn)證聲明的結(jié)果或確定其確切內(nèi)容。我們可以理解為，這個(gè)聲明表示在問(wèn)題參數(shù)為典型配置時(shí)，我們不知道是經(jīng)驗(yàn)性地在數(shù)值上極值與最值差距非常小，還是理論性地這個(gè)差距在高維空間中會(huì)慢慢消失。正式聲明將有助于澄清這一點(diǎn)，我們注意到 [18] 描述了極小值點(diǎn)比鞍點(diǎn)有更低的損失、更清楚的證明與經(jīng)驗(yàn)性的測(cè)試。

最后，一些論文以過(guò)于寬泛的方式引用理論，或者引用不是那么相關(guān)的定理。例如，通常我們引用「沒(méi)有免費(fèi)午餐定理」作為使用啟發(fā)式方法的理由，而這種啟發(fā)式方法通常是沒(méi)有理論保證的。

雖然補(bǔ)救濫用數(shù)學(xué)最好的方法就是避免它，但有一些論文會(huì)進(jìn)一步明確數(shù)學(xué)與自然語(yǔ)言之間的關(guān)系。最近有一篇論文 [8] 描述了反事實(shí)推理，它以扎實(shí)的方式涵蓋了大量的數(shù)學(xué)基礎(chǔ)，且與很多已應(yīng)用的經(jīng)驗(yàn)性問(wèn)題有非常多的明確聯(lián)系。此篇教程以明確地方式寫(xiě)給讀者，并幫助促進(jìn)新興社區(qū)研究機(jī)器學(xué)習(xí)的反事實(shí)推理。

3.4 濫用語(yǔ)言

我們明確了機(jī)器學(xué)習(xí)中三種濫用語(yǔ)言的方式：暗示性定義、技術(shù)術(shù)語(yǔ)過(guò)載和 suitcase words。

3.4.1 暗示性定義

在第一種方法中，新的技術(shù)術(shù)語(yǔ)創(chuàng)造出來(lái)可能就具有暗示性的口語(yǔ)語(yǔ)義，因此潛在的含義無(wú)需爭(zhēng)論。這常常體現(xiàn)在任務(wù)的擬人化特征（音樂(lè)合成 [59] 和閱讀理解 [31]）、技術(shù)的擬人化特征（好奇 [66] 和害怕 [48]）。很多論文以暗示人類(lèi)認(rèn)知的方式命名提出模型的組成部分，例如「思想向量」[36] 和「意識(shí)先驗(yàn)」[4] 等。我們的目的并不是消除所有這類(lèi)語(yǔ)言的學(xué)術(shù)文獻(xiàn)；如果命名比較合適，那么它可以傳遞靈感的來(lái)源。然而，當(dāng)暗示性術(shù)語(yǔ)指定了技術(shù)含義時(shí)，所有后續(xù)論文都別無(wú)選擇，只能接受該術(shù)語(yǔ)。

使用「人類(lèi)水平」的松散聲明描述經(jīng)驗(yàn)性結(jié)果，同樣描繪了對(duì)當(dāng)前能力的錯(cuò)誤認(rèn)識(shí)。以 [21] 中的「皮膚病專(zhuān)家水平的皮膚癌分類(lèi)模型」為例，與皮膚科醫(yī)生的對(duì)比掩蓋了分類(lèi)器和皮膚科醫(yī)生執(zhí)行根本不同任務(wù)的事實(shí)。真正的皮膚科醫(yī)生會(huì)遇到各種各樣的情況，并且盡管存在不可預(yù)測(cè)的變化，他們都必須完成工作。但是分類(lèi)器只在獨(dú)立同分布的測(cè)試數(shù)據(jù)上實(shí)現(xiàn)了較低的誤差。相比之下，[29] 表明分類(lèi)器在 ImageNet 圖像分類(lèi)任務(wù)上有人類(lèi)水平的性能更可信，因?yàn)樗⒉皇钦f(shuō)在目標(biāo)檢測(cè)等更廣泛的領(lǐng)域。即使在這種情況下，相比于不那么細(xì)致的 [21, 57, 75]，一篇更細(xì)致的論文可能并不足以使公眾討論重回正軌。流行的文章記敘將現(xiàn)代圖像分類(lèi)器描述為「超越人類(lèi)水平的性能，并有效證明更大的數(shù)據(jù)集導(dǎo)致更好的決策」[23]。盡管有證據(jù)表明這些分類(lèi)器依賴(lài)虛假的相關(guān)性，即將「穿紅衣服的亞洲人」誤分類(lèi)為乒乓球 [73]，但人們還是相信它們有超越人類(lèi)的準(zhǔn)確度。

深度學(xué)習(xí)論文并不是唯一遭受影響的領(lǐng)域，濫用語(yǔ)言困擾著 ML 非常多的子領(lǐng)域。[49] 中討論了機(jī)器學(xué)習(xí)公平性的最近文獻(xiàn)，其發(fā)現(xiàn)機(jī)器學(xué)習(xí)從復(fù)雜的法律學(xué)中借了大量的術(shù)語(yǔ)，例如使用「disparate impac」命名統(tǒng)計(jì)等價(jià)概念的簡(jiǎn)單方程。這導(dǎo)致了文獻(xiàn)中的「fairness」、「opportunity」和「discrimination」表示預(yù)測(cè)性模型的簡(jiǎn)單統(tǒng)計(jì)學(xué)特征，這樣會(huì)令忽略其中差異的研究者迷惑，也會(huì)令政策制定者誤解將道德納入機(jī)器學(xué)習(xí)的難易程度。

3.4.2 技術(shù)術(shù)語(yǔ)過(guò)載

誤用語(yǔ)言的第二個(gè)方式包括將具備準(zhǔn)確技術(shù)含義的術(shù)語(yǔ)用作不準(zhǔn)確或完全相反的意義。例如解卷積（deconvolution），它描述了反轉(zhuǎn)卷積的過(guò)程，但是現(xiàn)在在深度學(xué)習(xí)文獻(xiàn)中，該詞常用于指自編碼器和生成對(duì)抗網(wǎng)絡(luò)中的轉(zhuǎn)置卷積（transpose convolution，也叫 up-convolution）。在深度學(xué)習(xí)領(lǐng)域中，該術(shù)語(yǔ)首先出現(xiàn)于 [79]，其中它確實(shí)是指解卷積，但后來(lái)被過(guò)度一般化，指使用 upconvolution 的任意神經(jīng)架構(gòu) [78, 50]。此類(lèi)術(shù)語(yǔ)過(guò)載現(xiàn)象會(huì)導(dǎo)致持續(xù)的混淆。新機(jī)器學(xué)習(xí)論文中的 deconvolution 可能 (i) 指其原始意義，(ii) 描述 upconvolution，(iii) 嘗試解決混淆，如 [28]。

另一個(gè)例子是 generative model（生成模型），它原本指輸入分布 p(x) 或聯(lián)合分布 p(x,y) 的模型。而 discriminative model（判別模型）指標(biāo)簽的條件分布 p(y | x)。但是，近期的論文中「generative model」不準(zhǔn)確地意指生成逼真結(jié)構(gòu)化數(shù)據(jù)的任意模型。表面看來(lái)，這似乎與 p(x) 的定義一致，但它混淆了幾個(gè)缺陷：例如，GAN 或 VAE 無(wú)法執(zhí)行條件推斷（如，從 p(x2 | x1) 中采樣，x1 和 x2 是兩個(gè)不同的輸入特征）。后來(lái)這個(gè)術(shù)語(yǔ)被進(jìn)一步混淆，現(xiàn)在一些判別模型（discriminative model）指生成結(jié)構(gòu)化輸出的生成模型 [76]，我們?cè)?[47] 中犯了這個(gè)錯(cuò)誤。為了解決該混淆，并提供歷史背景，[58] 對(duì)規(guī)定的和隱性的生成模型進(jìn)行了區(qū)分。

再來(lái)看批歸一化（batch normalization），[33] 描述協(xié)變量偏移（covariate shift）為模型輸入分布的變化。而事實(shí)上，協(xié)變量偏移指一種特定類(lèi)型的偏移，盡管輸入分布 p(x) 可能確實(shí)出現(xiàn)變化，但標(biāo)注函數(shù) p(y|x) 沒(méi)有變化 [27]。此外，由于 [33] 的影響，Google Scholar 將 batch normalization 列為搜索「covariate shift」的第一個(gè)參考文獻(xiàn)就是 batch normalization（《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》）。

語(yǔ)言誤用的后果之一是我們可能通過(guò)將之前的未解決任務(wù)重新定義來(lái)掩蓋沒(méi)有進(jìn)展的事實(shí)。這通常與通過(guò)擬人化命名進(jìn)行的暗示性定義有關(guān)。語(yǔ)言理解（language understanding）和閱讀理解（reading comprehension）曾經(jīng)是 AI 的兩大挑戰(zhàn)，而現(xiàn)在指在特定數(shù)據(jù)集上的準(zhǔn)確預(yù)測(cè) [31]。

最后，我們討論機(jī)器學(xué)習(xí)論文中「suitcase words」的過(guò)度使用。這個(gè)詞由 Minsky 在 2007 年的書(shū)《The Emotion Machine》中創(chuàng)造，suitcase words 將多種意義的詞「打包」起來(lái)。Minsky 描述了心理過(guò)程例如意識(shí)、思維、注意力、情緒和感覺(jué)，并認(rèn)為這些過(guò)程可能沒(méi)有「共同的起因或來(lái)源」。很多機(jī)器學(xué)習(xí)中的術(shù)語(yǔ)都有這樣的現(xiàn)象。例如，[46] 注意到可解釋性并沒(méi)有普遍認(rèn)同的含義，通常對(duì)應(yīng)不相交的方法。結(jié)果，即使在論文的互相交流中，人們也可能理解的是不同的概念。

另一個(gè)例子，generalization 有特定的技術(shù)含義：「泛化」（從訓(xùn)練泛化到測(cè)試），和更加口語(yǔ)化的含義：更加接近于遷移的概念（從一個(gè)總體擴(kuò)展到另一個(gè)總體），或外部效度（從實(shí)驗(yàn)擴(kuò)展到現(xiàn)實(shí)世界）。合并這些概念將導(dǎo)致高估當(dāng)前系統(tǒng)的能力。

暗示性的定義和超載的術(shù)語(yǔ)也可能創(chuàng)造出新的 suitcase words。在研究公平性的文獻(xiàn)中，法律、哲學(xué)和統(tǒng)計(jì)學(xué)語(yǔ)言通常都過(guò)載，像 bias 這樣的變成 suitcase words 的術(shù)語(yǔ)在之后必須要分離。

在通用語(yǔ)和鼓舞人心的術(shù)語(yǔ)中，suitcase words 可以很有用。也許 suitcase words 反映了一個(gè)至關(guān)重要的聯(lián)合不同含義的概念。例如，人工智能一詞也許能打包成一個(gè)鼓舞人心的名詞來(lái)組織一個(gè)學(xué)術(shù)部門(mén)。另一方面，在技術(shù)觀(guān)點(diǎn)中使用 suitcase words 可能導(dǎo)致困惑。例如，[6] 寫(xiě)了一個(gè)涉及智能和優(yōu)化能力的等式（Box 4），隱含地假設(shè)這些 suitcase words 可以用一個(gè) 1 維標(biāo)量量化。

4. 對(duì)趨勢(shì)背后原因的思考

以上模式預(yù)示著某種趨勢(shì)嗎？如果答案是肯定的，其背后的原因又是什么？我們推測(cè)，這些模式將愈演愈烈，其背后的原因可能有以下幾點(diǎn)：面對(duì)進(jìn)步的自滿(mǎn)；社區(qū)的急劇擴(kuò)張；相關(guān)審議團(tuán)隊(duì)的匱乏；扭曲的激勵(lì)機(jī)制與評(píng)價(jià)成果的短期標(biāo)準(zhǔn)。

4.1 面對(duì)進(jìn)步的自滿(mǎn)

機(jī)器學(xué)習(xí)的快速發(fā)展有時(shí)會(huì)導(dǎo)致這樣一種態(tài)度：只要結(jié)果足夠有力，論點(diǎn)站不住腳也沒(méi)有關(guān)系。取得有力結(jié)果的作者可能感覺(jué)自己有權(quán)插入可以導(dǎo)出結(jié)果的任意未經(jīng)證實(shí)的東西（見(jiàn) 3.1），省略掉可能弄清楚這些因素的實(shí)驗(yàn)（見(jiàn) 3.2），采用夸張的術(shù)語(yǔ)（見(jiàn) 3.4），或?yàn)E用數(shù)學(xué)（見(jiàn) 3.3）。

同時(shí)，評(píng)價(jià)過(guò)程的單輪屬性可能讓評(píng)閱人感覺(jué)自己不得不接受具有有力結(jié)果的定量研究論文。實(shí)際上，即使論文被拒，其中的弱點(diǎn)可能也不會(huì)在下一輪中得到修補(bǔ)，甚至根本不會(huì)被注意到，因此評(píng)閱人最終可能會(huì)認(rèn)為：接受一篇有瑕疵的論文是最好的選擇。

4.2 成長(zhǎng)的痛苦

大約在 2012 年左右，由于深度學(xué)習(xí)方法的成功，機(jī)器學(xué)習(xí)社區(qū)急劇擴(kuò)張。盡管我們將社區(qū)的擴(kuò)張視為一種積極的發(fā)展，但這一擴(kuò)張也有其弊端。

為了保護(hù)年輕的研究者們，我們優(yōu)先選用自己和那些著名學(xué)者的論文。然而，新加入的研究者可能更容易受到這些模式的不良影響。例如，不了解既有術(shù)語(yǔ)的作者更容易用錯(cuò)或亂用論文語(yǔ)言（見(jiàn) 3.4）。另一方面，資深研究者可能也會(huì)陷入這些模式。

社區(qū)的急劇擴(kuò)張還會(huì)從兩個(gè)方面稀釋評(píng)論：一是提高提交論文與評(píng)閱人的比例，二是降低資深評(píng)閱人的比例。經(jīng)驗(yàn)不足的評(píng)閱人可能對(duì)架構(gòu)新奇性的要求更高，也更容易被偽造的定理所迷惑，并忽略嚴(yán)重而微妙的問(wèn)題，如誤用語(yǔ)言，從而加快上述幾種趨勢(shì)的發(fā)展。同時(shí)，資深但負(fù)擔(dān)過(guò)重的評(píng)閱人可能陷入「清單核對(duì)」的心理定勢(shì)，更加青睞公式化的論文，忽略更富有創(chuàng)意或思路更寬但不符合既有模板的論文。此外，工作量超負(fù)荷的評(píng)閱人可能沒(méi)有足夠的時(shí)間來(lái)修補(bǔ)或注意到論文中的所有問(wèn)題。

4.3 扭曲的激勵(lì)機(jī)制

給作者以不良激勵(lì)的不止是評(píng)閱人。隨著機(jī)器學(xué)習(xí)研究越來(lái)越受媒體關(guān)注，機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司也越來(lái)越普遍，在某種程度上，這一領(lǐng)域所獲得的激勵(lì)可以說(shuō)是媒體（「他們會(huì)寫(xiě)什么？」）或投資人（「他們的錢(qián)會(huì)投到哪里？」）給的。媒體煽動(dòng)了上述趨勢(shì)的幾種。對(duì)機(jī)器學(xué)習(xí)算法擬人化的表述為新聞報(bào)道提供了素材。以 [55] 為例，該文將自動(dòng)編碼稱(chēng)之為「模擬大腦」。暗示機(jī)器表現(xiàn)達(dá)到人類(lèi)水平的新聞會(huì)在報(bào)紙頭條上引起轟動(dòng)，如 [52]，該文在描述一種深度學(xué)習(xí)圖像字幕系統(tǒng)時(shí)稱(chēng)其「模仿人類(lèi)的理解水平」。投資人對(duì) AI 研究也頗有興趣，有時(shí)他們僅依據(jù)一篇論文就會(huì)為創(chuàng)業(yè)公司投資。根據(jù)我們（ZL）與投資人接觸的經(jīng)驗(yàn)，他們有時(shí)更青睞那些研究成果已經(jīng)被媒體報(bào)道的創(chuàng)業(yè)公司，這種資本激勵(lì)最終又歸功于媒體。我們注意到，最近投資人對(duì)智能會(huì)話(huà)機(jī)器人創(chuàng)業(yè)公司的興趣伴隨著報(bào)紙及其他媒體對(duì)對(duì)話(huà)系統(tǒng)及強(qiáng)化學(xué)習(xí)者的擬人化描述一起出現(xiàn)，盡管很難確定投資者的興趣和扭曲的激勵(lì)機(jī)制是否構(gòu)成因果關(guān)系。

5 建議

假設(shè)我們要對(duì)抗這些趨勢(shì)，該如何做呢？除了僅建議每個(gè)作者放棄這類(lèi)模式，我們從社區(qū)可以做些什么來(lái)提高實(shí)驗(yàn)實(shí)踐、闡述和理論水平呢？我們?nèi)绾尾拍芨菀椎奶釤捝鐓^(qū)內(nèi)的知識(shí)并消除研究人員和普羅大眾的誤解呢？下面根據(jù)我們的個(gè)人經(jīng)歷和印象提出一些初步的建議。

5.1 對(duì)作者的建議

我們鼓勵(lì)作者多問(wèn)「是什么起了作用？」和「為什么？」，而不是「有多好？」除了在特殊情況下的 [39]，原始的標(biāo)題數(shù)字對(duì)于科學(xué)進(jìn)步的價(jià)值是有限的，它并沒(méi)有表述出驅(qū)動(dòng)數(shù)據(jù)的原因。觀(guān)察并不意味著理論。在最有力的實(shí)證研究論文中有三種實(shí)踐方式：錯(cuò)誤分析、控制變量研究和魯棒性檢驗(yàn)（例如選擇超參數(shù)以及理想數(shù)據(jù)集）。這些做法每個(gè)人都可以使用，我們提倡大家廣泛使用。對(duì)于一些實(shí)例論文，我們建議讀者參考 §3.2 的內(nèi)容。[43] 還提供了更詳細(xì)的最佳經(jīng)驗(yàn)實(shí)踐調(diào)研。

合理的實(shí)證研究不應(yīng)該只局限于追蹤特定算法的經(jīng)驗(yàn)效果；即使沒(méi)有提出新的算法，它也可以產(chǎn)生新的見(jiàn)解。這里的例子可以證明：通過(guò)隨機(jī)梯度下降訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以適用于隨機(jī)分配的標(biāo)簽 [81]。這篇論文對(duì)模型復(fù)雜性的學(xué)習(xí)理論能力提出質(zhì)疑，試圖讓其解釋為什么神經(jīng)網(wǎng)絡(luò)可以泛化到未見(jiàn)過(guò)的數(shù)據(jù)。在另一個(gè)例子中，[26] 探索了深層網(wǎng)絡(luò)的損失表面，揭示了初始化和學(xué)習(xí)化參數(shù)間的參數(shù)空間直線(xiàn)路徑通常具有單調(diào)遞減的損失。

在撰寫(xiě)此論文時(shí)，我們希望能出現(xiàn)以下問(wèn)題：我是要依靠這種解釋做出預(yù)測(cè)還是讓系統(tǒng)正常工作？這可以很好地檢驗(yàn)是否包含這能取悅審核人員或者傳遞明確信息的定理。它還有助于檢查概念和說(shuō)明是否與我們自己的內(nèi)心想法相匹配。在數(shù)學(xué)寫(xiě)作方面，我們將建議讀者閱讀 Knuth，Larrabee 和 Roberts 的優(yōu)秀教程 [37]。

最后，弄清哪些問(wèn)題是開(kāi)放性的，哪些問(wèn)題是可以被解決的。這不僅能夠讓讀者更加清楚，還能鼓勵(lì)后續(xù)的工作，防止研究人員忽略那些假定（錯(cuò)誤）要被解決的問(wèn)題。

5.2 對(duì)出版商和評(píng)審人的建議

評(píng)審人可以通過(guò)問(wèn)這樣的問(wèn)題來(lái)明確自己的動(dòng)機(jī)：「如果作者的工作做的不夠好，我是否會(huì)接受這篇論文？」例如，一篇論文描述了一個(gè)簡(jiǎn)單的想法，雖然連帶了兩個(gè)負(fù)面的結(jié)果，卻能使性能得到改進(jìn)。這樣的文章應(yīng)該好于將三個(gè)想法結(jié)合在一起（沒(méi)有控制變量研究）產(chǎn)生相同改進(jìn)的文章。

現(xiàn)在的文獻(xiàn)以接收有缺陷的會(huì)議出版物為代價(jià)而迅速發(fā)展。補(bǔ)救的措施之一就是強(qiáng)調(diào)權(quán)威性的回顧調(diào)查，剔除夸大的聲明和無(wú)關(guān)的材料，改變擬人化名稱(chēng)以使記號(hào)、術(shù)語(yǔ)標(biāo)準(zhǔn)化等。盡管機(jī)器學(xué)習(xí)中的 Foundation 和 Trend 等已經(jīng)對(duì)此類(lèi)研究進(jìn)行追蹤，但我們認(rèn)為這方面仍然缺乏足夠強(qiáng)大的論文。

此外，我們認(rèn)為批判性寫(xiě)作應(yīng)該在機(jī)器學(xué)習(xí)會(huì)議上有所發(fā)聲。典型的 ML 會(huì)議論文選擇一個(gè)已有問(wèn)題（或提出一個(gè)新問(wèn)題），展示一個(gè)算法和／或分析，然后報(bào)告實(shí)驗(yàn)結(jié)果。盡管很多問(wèn)題可以通過(guò)這種方式解決，但是對(duì)于問(wèn)題或調(diào)查方法的正當(dāng)性，算法和實(shí)驗(yàn)都不足夠（和恰當(dāng)）。我們?cè)趽肀Ц吲行缘恼撌龇矫娌⒉还聠危涸?NLP 領(lǐng)域，今年的 COLING 大會(huì)號(hào)召論文「挑戰(zhàn)傳統(tǒng)思維」[1]。

關(guān)于同行評(píng)審有很多值得討論的地方。我們描述的問(wèn)題通過(guò)開(kāi)放性評(píng)審能夠得到緩解還是加劇？評(píng)審人系統(tǒng)與我們提倡的價(jià)值觀(guān)有多大的一致性？這些話(huà)題已經(jīng)在其他地方被詳細(xì)討論 [42, 44, 24]。

6 討論

常理來(lái)說(shuō)，我們不應(yīng)該在技術(shù)升溫時(shí)進(jìn)行干預(yù)：你不能質(zhì)疑成功！在此，我們用以下一些理由進(jìn)行反駁：首先，當(dāng)前文化的許多方面是機(jī)器學(xué)習(xí)成功的結(jié)果，而不是其原因。事實(shí)上，導(dǎo)致目前深度學(xué)習(xí)成功的許多論文都是仔細(xì)的實(shí)證研究，其描述了深度網(wǎng)絡(luò)訓(xùn)練的基本原則。這包括隨機(jī)連續(xù)超參數(shù)搜索的優(yōu)勢(shì)、不同激活函數(shù)的行為，以及對(duì)無(wú)監(jiān)督預(yù)訓(xùn)練的理解。

其次，有缺陷的學(xué)術(shù)氛圍已經(jīng)對(duì)研究界，以及更為廣泛的公眾群體產(chǎn)生了負(fù)面影響。在第三章中，我們已經(jīng)看到了不受支持的觀(guān)點(diǎn)已被人們引用了上千次，被稱(chēng)為改進(jìn)的譜系被簡(jiǎn)單的基線(xiàn)所推翻，數(shù)據(jù)集旨在測(cè)試高級(jí)語(yǔ)義推理，但實(shí)際上測(cè)試的是低級(jí)語(yǔ)法流暢性，術(shù)語(yǔ)混亂使得學(xué)術(shù)對(duì)話(huà)變得舉步維艱。

其中最后一個(gè)問(wèn)題也影響著公眾的判斷。歐洲議會(huì)曾通過(guò)一份報(bào)告，討論如何應(yīng)對(duì)「機(jī)器人產(chǎn)生自我意識(shí)」的問(wèn)題。盡管機(jī)器學(xué)習(xí)的研究者們并不向所有這些工作產(chǎn)生的誤解負(fù)責(zé)，但權(quán)威同行評(píng)審論文中的擬人化語(yǔ)言似乎至少負(fù)有一定的責(zé)任。

我們相信，解釋說(shuō)明以及科學(xué)和理論的嚴(yán)謹(jǐn)性對(duì)于科學(xué)進(jìn)步，和建立更廣泛的公眾有效對(duì)話(huà)至關(guān)重要。此外，由于機(jī)器學(xué)習(xí)技術(shù)將被應(yīng)用于醫(yī)療健康、法律自動(dòng)駕駛等重要領(lǐng)域，對(duì)于機(jī)器學(xué)習(xí)系統(tǒng)能力限制的知曉將讓我們能夠更加安全地部署 AI 技術(shù)。我們將通過(guò)討論一些對(duì)于上述觀(guān)點(diǎn)的反駁，及歷史背景來(lái)結(jié)束本文。

6.1 與之相對(duì)的考慮因素

針對(duì)上述建議也有很多需要考慮的因素。本文草稿的一些讀者曾指出：隨機(jī)梯度下降往往比梯度下降的收斂速度更快——換句話(huà)說(shuō)，或許更快節(jié)奏的、更喧鬧的過(guò)程讓我們拋棄了撰寫(xiě)「更干凈」論文的初衷，也加快了研究速度。例如，關(guān)于 ImageNet 數(shù)據(jù)集圖像分類(lèi)的突破性論文 [39] 提出了多種沒(méi)有控制變量研究的技術(shù)，其中一些隨后被確定是不必要的。然而，在研究提出時(shí)，其結(jié)果非常重要且實(shí)驗(yàn)計(jì)算成本高昂，等待控制變量完成可能不值得整個(gè)社區(qū)為之付出代價(jià)。

這讓我們擔(dān)心，高標(biāo)準(zhǔn)可能會(huì)阻礙創(chuàng)見(jiàn)的發(fā)布，因?yàn)檫@些創(chuàng)見(jiàn)往往非同尋常，而且可能是推測(cè)性的。在其他領(lǐng)域，如經(jīng)濟(jì)學(xué)，高標(biāo)準(zhǔn)導(dǎo)致學(xué)者可能需要數(shù)年才能完成一篇論文，冗長(zhǎng)的修訂周期必然會(huì)消耗可用于新研究的資源。

最后，也許專(zhuān)業(yè)化有其價(jià)值：創(chuàng)造新概念或建立新系統(tǒng)的研究者不一定會(huì)是那些仔細(xì)整理和提煉知識(shí)的人。

我們認(rèn)識(shí)到這些考慮的有效性，并且也認(rèn)識(shí)到這些標(biāo)準(zhǔn)有時(shí)過(guò)于嚴(yán)格。但是，在很多情況下，它們很容易實(shí)現(xiàn)，只需要幾天的實(shí)驗(yàn)和更仔細(xì)的寫(xiě)作。此外，我們將這些內(nèi)容作為強(qiáng)烈的啟發(fā)，而不是不可逾越的規(guī)則來(lái)呈現(xiàn)——如果不違反這些標(biāo)準(zhǔn)就無(wú)法分享新的想法，那么我們更愿意分享這個(gè)想法，而將標(biāo)準(zhǔn)放在一邊。此外，我們總會(huì)發(fā)現(xiàn)遵守這些標(biāo)準(zhǔn)的嘗試是值得的。總之，我們不相信研究界在前沿的推進(jìn)上實(shí)現(xiàn)了帕累托最優(yōu)狀態(tài)。

6.2 歷史經(jīng)驗(yàn)

實(shí)際上，在這里討論的問(wèn)題既不是機(jī)器學(xué)習(xí)所特有的，也不是目前這個(gè)時(shí)代所特有的：它們反映了整個(gè)學(xué)術(shù)界反復(fù)出現(xiàn)的問(wèn)題。早在 1964 年，物理學(xué)家 John R. Platt 在其關(guān)于強(qiáng)推理的論文 [62] 中就對(duì)于相關(guān)問(wèn)題進(jìn)行了討論，他在文中指出了對(duì)特定先驗(yàn)標(biāo)準(zhǔn)的遵守，這也為隨后分子生物學(xué)和高能物理，甚至其他領(lǐng)域的快速發(fā)展提供了能量。

在 AI 領(lǐng)域里，事情也是類(lèi)似的，正如第一章所述，Drew McDermott [53] 在 1976 年就一系列問(wèn)題批評(píng)了一個(gè)（主要是機(jī)器學(xué)習(xí)時(shí)代以前的）人工智能社區(qū)，批評(píng)內(nèi)容包括暗示定義，以及未能將猜測(cè)與技術(shù)主張分開(kāi)。1988 年，Paul Cohen 和 Adele Howe [13] 也指責(zé)一個(gè)人工智能社區(qū)「很少發(fā)布他們提出的算法的性能評(píng)估」，而只是描述了系統(tǒng)。他們建議為量化技術(shù)發(fā)展建立合理的指標(biāo)，并分析「它為什么有效？」、「在什么情況下它不起作用？」以及「如何讓設(shè)計(jì)決策合理化？」……這些問(wèn)題在今天仍然能引起我們的共鳴。

最后，在 2009 年，Armstrong 等人 [2] 討論了信息檢索研究的實(shí)證嚴(yán)謹(jǐn)性，并注意到很多論文都有與相同弱基線(xiàn)進(jìn)行比較的趨勢(shì)，這些改進(jìn)并沒(méi)有積累到有意義的經(jīng)驗(yàn)。

在其他領(lǐng)域，學(xué)術(shù)水平不受限制的下降導(dǎo)致了危機(jī)。2015 年的一項(xiàng)具有里程碑意義的研究表明，心理學(xué)文獻(xiàn)中很大一部分研究結(jié)果可能無(wú)法再現(xiàn) [14]。在一些歷史案例中，跟風(fēng)與缺乏規(guī)制的學(xué)術(shù)態(tài)度導(dǎo)致整個(gè)研究社區(qū)走進(jìn)了死胡同。例如，在 X 射線(xiàn)被發(fā)現(xiàn)之后，有人又提出了 N 射線(xiàn)（之后真相被揭穿）。

6.3 結(jié)束語(yǔ)

最后，讀者們可能認(rèn)為這些問(wèn)題是可以自我糾正的。我們同意這樣的觀(guān)點(diǎn)，但是，機(jī)器學(xué)習(xí)社區(qū)需要反復(fù)討論如何構(gòu)建合理的學(xué)術(shù)標(biāo)準(zhǔn)以實(shí)現(xiàn)這種自我修正。我們希望本文能夠?yàn)檫@樣的討論提供建設(shè)性貢獻(xiàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8377

瀏覽量
132408
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5492

瀏覽量
120977

原文標(biāo)題：機(jī)器學(xué)習(xí)近年來(lái)之怪現(xiàn)狀

文章出處：【微信號(hào)：gh_ecbcc3b6eabf，微信公眾號(hào)：人工智能和機(jī)器人研究院】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于FPGA的圖神經(jīng)網(wǎng)絡(luò)加速器解決方案

得益于大數(shù)據(jù)的興起和計(jì)算能力的快速提升，機(jī)器學(xué)習(xí)技術(shù)近年來(lái)經(jīng)歷了革命性的發(fā)展。

發(fā)表于 11-15 14:24 ?198次閱讀

【書(shū)籍評(píng)測(cè)活動(dòng)NO.51】具身智能機(jī)器人系統(tǒng) | 了解AI的下一個(gè)浪潮！

學(xué)習(xí)并優(yōu)化自己的行為，以更好地服務(wù)家庭成員。具身智能的發(fā)展如何？ 近年來(lái)，具身智能機(jī)器人的發(fā)展呈現(xiàn)出強(qiáng)勁勢(shì)頭，尤其是在智能化和自主決策能力方面。自 2010 年以來(lái)，具身智能機(jī)器人

發(fā)表于 11-11 10:20

基于深度學(xué)習(xí)的三維點(diǎn)云分類(lèi)方法

近年來(lái)，點(diǎn)云表示已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)之一，并廣泛應(yīng)用于自動(dòng)駕駛、虛擬現(xiàn)實(shí)、機(jī)器人等許多領(lǐng)域。雖然深度學(xué)習(xí)技術(shù)在處理常規(guī)結(jié)構(gòu)化的二維網(wǎng)格圖像數(shù)據(jù)方面取得了巨大成功，但在處理不規(guī)則、非結(jié)構(gòu)化的點(diǎn)云數(shù)據(jù)方面仍面臨著巨大挑戰(zhàn)。

發(fā)表于 10-29 09:43 ?211次閱讀

基于深度<b class='flag-5'>學(xué)習(xí)</b>的三維點(diǎn)云分類(lèi)方法

激光雷達(dá)技術(shù)的基于深度學(xué)習(xí)的進(jìn)步

信息。這使得激光雷達(dá)在自動(dòng)駕駛、無(wú)人機(jī)、機(jī)器人等領(lǐng)域具有廣泛的應(yīng)用前景。二、深度學(xué)習(xí)技術(shù)的發(fā)展深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支，它通過(guò)模擬人

發(fā)表于 10-27 10:57 ?300次閱讀

iC-Haus編碼器芯片在機(jī)器人中的應(yīng)用

近年來(lái)，機(jī)器人已成為行業(yè)的熱門(mén)趨勢(shì)。從工業(yè)自動(dòng)化到醫(yī)療設(shè)備，機(jī)器人的使用正在穩(wěn)步增加，機(jī)器人的新技術(shù)使它們?cè)谠絹?lái)越多的領(lǐng)域中應(yīng)用。

發(fā)表于 08-19 10:05 ?1281次閱讀

iC-Haus編碼器芯片在<b class='flag-5'>機(jī)器</b>人中的應(yīng)用

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

這本書(shū)以其系統(tǒng)性的框架和深入淺出的講解，為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí)，更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨

發(fā)表于 08-12 11:21

國(guó)產(chǎn)光電耦合器的現(xiàn)狀與未來(lái)展望

國(guó)產(chǎn)光電耦合器作為電子設(shè)備中重要的元器件之一，廣泛應(yīng)用于電路隔離、信號(hào)傳輸?shù)阮I(lǐng)域。近年來(lái)，隨著科技的不斷進(jìn)步，國(guó)產(chǎn)光電耦合器在技術(shù)水平和市場(chǎng)應(yīng)用方面取得了顯著發(fā)展。本文將探討國(guó)產(chǎn)光電耦合器的現(xiàn)狀、技術(shù)創(chuàng)新、市場(chǎng)環(huán)境及未來(lái)發(fā)展前景。

發(fā)表于 07-19 13:55 ?265次閱讀