人工智能領(lǐng)域的發(fā)展離不開(kāi)學(xué)者們的貢獻(xiàn),然而隨著研究的進(jìn)步,越來(lái)越多的論文出現(xiàn)了「標(biāo)題黨」、「占坑」、「注水」等現(xiàn)象,暴增的頂會(huì)論文接收數(shù)量似乎并沒(méi)有帶來(lái)更多技術(shù)突破。最近,來(lái)自卡耐基梅隆大學(xué)的助理教授 Zachary C. Lipton 與斯坦福大學(xué)博士 Jacob Steinhardt 提交了一篇文章《Troubling Trends in Machine Learning Scholarship》,細(xì)數(shù)了近年來(lái)機(jī)器學(xué)習(xí)研究的幾大「怪現(xiàn)狀」。本文將在 7 月 15 日 ICML 2018 大會(huì)上的「Machine Learning: The Debates」研討會(huì)上接受討論。
1 引言
總體來(lái)說(shuō),機(jī)器學(xué)習(xí)(ML)的研究人員正在致力于數(shù)據(jù)驅(qū)動(dòng)算法知識(shí)的創(chuàng)建與傳播。在一篇論文中提到,研究人員迫切地想實(shí)現(xiàn)下列目標(biāo)的任一個(gè):理論性闡述可學(xué)習(xí)內(nèi)容、深入理解經(jīng)驗(yàn)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)或者構(gòu)建一個(gè)有高預(yù)測(cè)精度的工作系統(tǒng)。雖然確定哪些知識(shí)值得探究是很主觀(guān)的,但一旦主題確定,當(dāng)論文為讀者服務(wù)時(shí),它對(duì)社區(qū)最有價(jià)值,它能創(chuàng)造基礎(chǔ)知識(shí)并盡可能清楚地進(jìn)行闡述。
什么樣的論文更適合讀者呢?我們可以列出如下特征:這些論文應(yīng)該(i)提供直觀(guān)感受以幫助讀者理解,但應(yīng)明確區(qū)別于已證明的強(qiáng)有力結(jié)論;(ii)闡述考量和排除其他假設(shè)的實(shí)證調(diào)查 [62];(iii)明確理論分析與直覺(jué)或經(jīng)驗(yàn)之間的關(guān)系 [64];(iv)利用語(yǔ)言幫助讀者理解,選擇術(shù)語(yǔ)以避免誤解或未經(jīng)證實(shí)的內(nèi)容,避免與其他定義沖突,或與其他相關(guān)但不同的概念混淆 [56]。
盡管經(jīng)常偏離這些理想條件,但機(jī)器學(xué)習(xí)近期仍然在持續(xù)進(jìn)步。在本文中,我們關(guān)注以下四種模式,在我們看來(lái),這些模式是機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)下研究的傾向:
1. 無(wú)法區(qū)分客觀(guān)闡述和猜想。
2. 無(wú)法確定達(dá)到好效果的來(lái)源,例如,當(dāng)實(shí)際上是因?yàn)閷?duì)超參數(shù)微調(diào)而獲得好效果的時(shí)候,卻強(qiáng)調(diào)不必要修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
3. 數(shù)學(xué)性:使用令人混淆的數(shù)學(xué)術(shù)語(yǔ)而不加以澄清,例如混淆技術(shù)與非技術(shù)概念。
4. 語(yǔ)言誤用,例如,使用帶有口語(yǔ)的藝術(shù)術(shù)語(yǔ),或者過(guò)多的使用既定的技術(shù)術(shù)語(yǔ)。
雖然這些模式背后的原因無(wú)法確定,但很可能包括社區(qū)大幅擴(kuò)張,導(dǎo)致審查人員數(shù)量不足,以及學(xué)術(shù)和短期成功衡量標(biāo)準(zhǔn)(如文獻(xiàn)數(shù)量、關(guān)注度、創(chuàng)業(yè)機(jī)會(huì))之間經(jīng)常出現(xiàn)的錯(cuò)位激勵(lì)。雖然每種模式都提供了相應(yīng)的補(bǔ)救措施(呼吁「不要這樣做」),我們還是想討論一些關(guān)于社區(qū)如何應(yīng)對(duì)此類(lèi)趨勢(shì)的探索性建議。
隨著機(jī)器學(xué)習(xí)的影響擴(kuò)大,研究此類(lèi)論文的人員越來(lái)越多,包括學(xué)生、記者和決策者,這些考量也適用于更廣泛的讀者群體。我們希望通過(guò)更清晰精準(zhǔn)的溝通,加速研究步伐,減少新晉研究人員的入門(mén)時(shí)間,在公共討論中發(fā)揮建設(shè)性的作用。
有缺陷的學(xué)術(shù)研究可能會(huì)誤導(dǎo)大眾、阻礙未來(lái)研究、損害機(jī)器學(xué)習(xí)知識(shí)基礎(chǔ)。事實(shí)上,在人工智能的歷史上,甚至更廣泛的科學(xué)研究中,很多問(wèn)題都是循環(huán)往復(fù)的。1976 年,Drew McDermott [53] 就批判 AI 社區(qū)放棄了自律,并預(yù)言「如果我們不能批評(píng)自己,就會(huì)有別人來(lái)幫我們解決問(wèn)題」。類(lèi)似的討論在在 80 年代、90 年代和 00 年代反復(fù)出現(xiàn) [13,38,2]。在心理學(xué)等領(lǐng)域,糟糕的實(shí)驗(yàn)標(biāo)準(zhǔn)削弱了人們對(duì)該學(xué)科權(quán)威的信任 [14]。當(dāng)今機(jī)器學(xué)習(xí)的強(qiáng)勁潮流歸功于迄今為止大量嚴(yán)謹(jǐn)?shù)难芯浚ɡ碚撗芯?[22,7,19] 和實(shí)證研究 [34,25,5]。通過(guò)加強(qiáng)更明了的科學(xué)思考和交流,我們才可以維持社區(qū)目前所擁有的信任和投資。
2. 免責(zé)聲明
本文旨在激發(fā)討論,響應(yīng) ICML 機(jī)器學(xué)習(xí)辯論研討會(huì)關(guān)于論文的號(hào)召。雖然我們支持這里的觀(guān)點(diǎn),但我們并不是要提供一個(gè)完整或平衡的觀(guān)點(diǎn),也不是要討論機(jī)器學(xué)習(xí)這一科學(xué)領(lǐng)域的整體質(zhì)量。在復(fù)現(xiàn)性等許多方面,社區(qū)的先進(jìn)標(biāo)準(zhǔn)遠(yuǎn)遠(yuǎn)超過(guò)了十年前的水平。我們注意到,這些爭(zhēng)論是我們自己發(fā)起的,攻擊的也是我們自身,關(guān)鍵的自省都是我們自己人做出的,而不是來(lái)自局外人的攻擊。我們發(fā)現(xiàn)的這些弊病不是某個(gè)人或某個(gè)機(jī)構(gòu)獨(dú)有的。我們已經(jīng)身處這種模式之中,將來(lái)還會(huì)重蹈覆轍。揭示其中一種模式不會(huì)讓一篇論文變差或譴責(zé)論文的作者,但是我們相信,揭示這種模式之后,所有論文都會(huì)因避開(kāi)這種模式而得到質(zhì)量的提高。我們給出的具體例子將涉及(i)我們自身及(ii)那些我們仰慕的著名研究者或機(jī)構(gòu),不會(huì)挑選那些容易受到本文嚴(yán)重影響的年輕學(xué)者或沒(méi)有機(jī)會(huì)與我們平等對(duì)話(huà)的研究者。身處這樣一個(gè)可以自由獲取知識(shí)、表達(dá)觀(guān)點(diǎn)的社區(qū),我們感到非常欣慰。
3 不良趨勢(shì)
在下面的每個(gè)小節(jié)中,我們 (i) 首先描述一個(gè)趨勢(shì);(ii) 然后提供幾個(gè)例子(包括抵制這一趨勢(shì)的正面例子);最后解釋該趨勢(shì)帶來(lái)的后果。指出個(gè)別論文的弱點(diǎn)可能是一個(gè)敏感的話(huà)題。為了盡量減少這種情況,我們選擇了簡(jiǎn)短而具體例子。
3.1 解釋與推測(cè)
對(duì)新領(lǐng)域的研究往往涉及基于直覺(jué)的探索,這些直覺(jué)尚未融合成清晰的表達(dá)形式。于是推測(cè)成為作者表達(dá)直覺(jué)的一種手段,但是這種直覺(jué)可能還無(wú)法承受科學(xué)審查的所有壓力。然而,論文常以解釋為名行推測(cè)之實(shí),然后由于科學(xué)論文的偽裝和作者假定的專(zhuān)業(yè)知識(shí),這些推測(cè)被解釋為權(quán)威。
例如,[33] 圍繞一個(gè)內(nèi)部協(xié)變量轉(zhuǎn)移的概念形成了一個(gè)直觀(guān)的理論。關(guān)于內(nèi)部協(xié)變量轉(zhuǎn)移的論述從摘要開(kāi)始,似乎陳述了技術(shù)事實(shí)。然而,關(guān)鍵術(shù)語(yǔ)不夠清晰,最終無(wú)法得出一個(gè)真實(shí)值。例如,論文指出,通過(guò)減少訓(xùn)練過(guò)程中隱激活層分布的變化,批處理規(guī)范化可以獲得改進(jìn)。這種變化是用哪種散度衡量的?論文中沒(méi)有闡明,并且有些研究表明,這種對(duì)批處理規(guī)范化的解釋可能偏離了 [65] 的標(biāo)準(zhǔn)。然而,[33] 中給出的推測(cè)性解釋已經(jīng)被重復(fù)為一種事實(shí),例如 [60] 中說(shuō),「眾所周知,由于內(nèi)部協(xié)變量轉(zhuǎn)移問(wèn)題,深層神經(jīng)網(wǎng)絡(luò)很難優(yōu)化。」
我們也同樣對(duì)偽裝成推測(cè)的解釋感到不安。在 [72] 中,JS 寫(xiě)道,「無(wú)關(guān)特征的高維性和豐富性……給了攻擊者更多的空間來(lái)攻擊」,而沒(méi)有進(jìn)行任何實(shí)驗(yàn)來(lái)衡量維度對(duì)攻擊性的影響。在 [71] 中,JS 引入了直觀(guān)的覆蓋概念,但沒(méi)有對(duì)其進(jìn)行定義,并將其當(dāng)做一種解釋來(lái)運(yùn)用,如:「缺少覆蓋的一個(gè)表現(xiàn)是不確定性估計(jì)較差,無(wú)法生成高精度的預(yù)測(cè)。」回顧過(guò)去,我們希望交流不夠具體化的直覺(jué),這些直覺(jué)對(duì)論文中的研究很重要,我們不愿把論點(diǎn)的核心部分看作推論。
與上述例子相反,[69] 把推測(cè)與事實(shí)區(qū)分開(kāi)來(lái)。這篇論文介紹了 dropout 正則化,詳細(xì)推測(cè)了 dropout 和有性繁殖之間的聯(lián)系,但「Motivation」一節(jié)明確地隔開(kāi)了這一討論。這種做法避免了混淆讀者,同時(shí)允許作者表達(dá)非正式的想法。
在另一正面例子中,[3] 提出了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實(shí)用指南。在這篇論文中,作者謹(jǐn)慎地表達(dá)了不確定性。該論文沒(méi)有把這些指南當(dāng)成權(quán)威性的東西,而是這樣表達(dá):「雖然這些建議……來(lái)自多年的實(shí)驗(yàn)和一定程度的數(shù)學(xué)證明,但它們應(yīng)該受到挑戰(zhàn)。這是一個(gè)良好的起點(diǎn)……但沒(méi)有得到什么正式驗(yàn)證,留下許多問(wèn)題,可以通過(guò)理論分析或扎實(shí)的比較實(shí)驗(yàn)工作來(lái)回答」。
3.2 未能確定經(jīng)驗(yàn)成果的來(lái)源
機(jī)器學(xué)習(xí)同行評(píng)審過(guò)程重視技術(shù)創(chuàng)新。也許是為了讓審稿人滿(mǎn)意,許多論文強(qiáng)調(diào)了復(fù)雜的模型(這里提到的)和奇特的數(shù)學(xué)表達(dá)式(見(jiàn) 3.3)。雖然復(fù)雜的模型有時(shí)是合理的,但經(jīng)驗(yàn)上的進(jìn)步往往通過(guò)其它方式實(shí)現(xiàn):巧妙的問(wèn)題公式、科學(xué)實(shí)驗(yàn)、優(yōu)化算法、數(shù)據(jù)預(yù)處理技術(shù)、廣泛的超參數(shù)調(diào)整,或者將現(xiàn)有方法應(yīng)用于有趣的新任務(wù)。有時(shí),把提出的很多技術(shù)相結(jié)合可以獲得顯著的經(jīng)驗(yàn)結(jié)果。在這些情況下,作者有責(zé)任向讀者闡明實(shí)現(xiàn)文中的成果需要哪些技術(shù)。
但很多時(shí)候,作者提出了許多缺乏適當(dāng)變化的控制變量研究,掩蓋了經(jīng)驗(yàn)成果的來(lái)源。實(shí)際上,有時(shí)改善結(jié)果的原因只有一個(gè)變化而已。這會(huì)給人一種錯(cuò)誤的印象,認(rèn)為作者做了更多的工作(通過(guò)提出幾項(xiàng)改進(jìn)),而實(shí)際上他們做得并不夠(沒(méi)有進(jìn)行適當(dāng)?shù)淖兞靠刂疲4送猓@種做法會(huì)使讀者誤以為提出的所有改變都是必要的。
最近,Melis et al.[54] 闡明,很多已發(fā)表的改進(jìn)技術(shù)實(shí)際上要?dú)w功于超參數(shù)的調(diào)節(jié),而這原本被認(rèn)為是在神經(jīng)網(wǎng)絡(luò)中進(jìn)行復(fù)雜創(chuàng)新的功勞。與此同時(shí),自 1997 年以來(lái)幾乎沒(méi)有修改過(guò)的經(jīng)典 LSTM 排名第一。如果早點(diǎn)知道關(guān)于超參數(shù)調(diào)節(jié)的真相,而沒(méi)有受到其它干擾,AI 社區(qū)可能受益更多。深度強(qiáng)化學(xué)習(xí) [ 30 ] 和生成對(duì)抗網(wǎng)絡(luò) [ 51 ] 也遇到了類(lèi)似的評(píng)估問(wèn)題。更多關(guān)于經(jīng)驗(yàn)嚴(yán)謹(jǐn)性失誤及其后果的討論詳見(jiàn) [ 68 ]。
相比之下,許多論文對(duì) [ 41,45,77,82 ] 進(jìn)行了很好的控制變量分析,甚至追溯性地嘗試隔絕成果來(lái)源也可能導(dǎo)致新的發(fā)現(xiàn) [ 10,65 ]。此外,控制變量對(duì)于理解一種方法來(lái)說(shuō)既不是必要的也不是充分的,甚至在給定計(jì)算約束的情況下也是不切實(shí)際的。可以通過(guò)魯棒性檢查(如 [15],它發(fā)現(xiàn)現(xiàn)有的語(yǔ)言模型處理屈折形態(tài)的效果很差)以及定性錯(cuò)誤分析 [40] 來(lái)理解方法。
旨在理解的實(shí)證研究甚至在沒(méi)有新算法的情況下也能起到啟發(fā)作用。例如,探究神經(jīng)網(wǎng)絡(luò)的行為可以識(shí)別它們對(duì)對(duì)抗干擾的易感性 [ 74 ]。細(xì)致的研究還經(jīng)常揭示挑戰(zhàn)數(shù)據(jù)集的局限性,同時(shí)產(chǎn)生更強(qiáng)的基線(xiàn)。[ 11 ] 研究了一項(xiàng)旨在閱讀理解新聞段落的任務(wù),發(fā)現(xiàn) 73 % 的問(wèn)題可以通過(guò)看一個(gè)句子來(lái)回答,而只有 2 % 的問(wèn)題需要看多個(gè)句子(剩下 25 % 的例子要么模棱兩可,要么包含共指錯(cuò)誤)。此外,更簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)和線(xiàn)性分類(lèi)器的性能優(yōu)于此前在這項(xiàng)任務(wù)中評(píng)估過(guò)的復(fù)雜神經(jīng)結(jié)構(gòu)。本著同樣的精神,[ 80 ] 分析并構(gòu)建了視覺(jué)基因組場(chǎng)景圖數(shù)據(jù)集的強(qiáng)基線(xiàn)。
3.3 濫用數(shù)學(xué)
在寫(xiě)早期 PhD 論文的時(shí)候,經(jīng)驗(yàn)豐富的博士后會(huì)給我們(ZL)一些反饋:論文需要更多的方程式。博士后并沒(méi)有認(rèn)可我們提出的系統(tǒng),但是傳達(dá)出一種審議研究工作的清晰方式。即使工作很難解釋?zhuān)嗟姆匠淌綍?huì)令評(píng)審者相信論文的技術(shù)深度。
數(shù)學(xué)是科學(xué)交流的重要工具,正確使用時(shí)可以傳遞精確與清晰的思考邏輯。然而,并非所有想法與主張都能使用精確的數(shù)學(xué)進(jìn)行描述,因此自然語(yǔ)言也同樣是一種不可或缺的工具,尤其是在描述直覺(jué)或經(jīng)驗(yàn)性聲明時(shí)。
當(dāng)數(shù)學(xué)聲明和自然語(yǔ)言表述混合在一起而沒(méi)有明確它們之間的關(guān)系時(shí),觀(guān)點(diǎn)和理論都會(huì)受到影響:理論中的問(wèn)題用模糊的定義來(lái)覆蓋,而觀(guān)點(diǎn)的弱論據(jù)可以通過(guò)技術(shù)深度的出現(xiàn)而得到支持。我們將這種正式和非正式聲明之間的糾纏稱(chēng)為「濫用數(shù)學(xué)(mathiness)」。經(jīng)濟(jì)學(xué)家 Paul Romer 描述這種模式為:「就像數(shù)學(xué)理論一樣,濫用數(shù)學(xué)將符號(hào)和語(yǔ)言的混合,但濫用數(shù)學(xué)不會(huì)將兩者緊密聯(lián)系在一起,而是在自然語(yǔ)言表述與形式語(yǔ)言表述間留下了充足的空間 [64]。」
濫用數(shù)學(xué)表現(xiàn)在幾個(gè)方面:首先,一些論文濫用數(shù)學(xué)來(lái)傳遞技術(shù)的深度,他們只是將知識(shí)堆砌在一起而不是嘗試澄清論點(diǎn)。偽造定理是常見(jiàn)的手法,它們常被插入到論文中為實(shí)證結(jié)果提供權(quán)威性,即使定理的結(jié)論并不支持論文的主要主張。我們(JS)就犯過(guò)這樣的錯(cuò) [70],其中對(duì)「staged strong Doeblin chains」的討論與提出的學(xué)習(xí)算法只有很少的相關(guān)性,但可能給讀者帶來(lái)理論的深度感。
在 Adam 優(yōu)化器的原論文 [35] 中,這個(gè)問(wèn)題無(wú)處不在。在引入具有強(qiáng)大經(jīng)驗(yàn)性性能的優(yōu)化器過(guò)程中,它還提供了凸優(yōu)化情況下的收斂性證明,這對(duì)于關(guān)注非凸優(yōu)化的的論文來(lái)說(shuō)不是必要的。這一個(gè)證明后來(lái)還被指出有錯(cuò)誤 [63],并給出了新的證明。
第二個(gè)問(wèn)題是既非明確的形式化表述,也非明確的非形式化表述。例如在 [18] 中,作者表示優(yōu)化神經(jīng)網(wǎng)絡(luò)主干的困難不在極小值點(diǎn),而在鞍點(diǎn)。這項(xiàng)工作引用了一篇關(guān)于高斯隨機(jī)場(chǎng)的統(tǒng)計(jì)物理學(xué)論文 [9],該論文表示「高斯隨機(jī)場(chǎng)中所有局部極小值點(diǎn)的誤差與全局最小值點(diǎn)誤差非常相近」,相似的說(shuō)明在 [12] 中也有提到。這似乎是一個(gè)正式的聲明,但是并沒(méi)有一個(gè)具體的定理,也很難驗(yàn)證聲明的結(jié)果或確定其確切內(nèi)容。我們可以理解為,這個(gè)聲明表示在問(wèn)題參數(shù)為典型配置時(shí),我們不知道是經(jīng)驗(yàn)性地在數(shù)值上極值與最值差距非常小,還是理論性地這個(gè)差距在高維空間中會(huì)慢慢消失。正式聲明將有助于澄清這一點(diǎn),我們注意到 [18] 描述了極小值點(diǎn)比鞍點(diǎn)有更低的損失、更清楚的證明與經(jīng)驗(yàn)性的測(cè)試。
最后,一些論文以過(guò)于寬泛的方式引用理論,或者引用不是那么相關(guān)的定理。例如,通常我們引用「沒(méi)有免費(fèi)午餐定理」作為使用啟發(fā)式方法的理由,而這種啟發(fā)式方法通常是沒(méi)有理論保證的。
雖然補(bǔ)救濫用數(shù)學(xué)最好的方法就是避免它,但有一些論文會(huì)進(jìn)一步明確數(shù)學(xué)與自然語(yǔ)言之間的關(guān)系。最近有一篇論文 [8] 描述了反事實(shí)推理,它以扎實(shí)的方式涵蓋了大量的數(shù)學(xué)基礎(chǔ),且與很多已應(yīng)用的經(jīng)驗(yàn)性問(wèn)題有非常多的明確聯(lián)系。此篇教程以明確地方式寫(xiě)給讀者,并幫助促進(jìn)新興社區(qū)研究機(jī)器學(xué)習(xí)的反事實(shí)推理。
3.4 濫用語(yǔ)言
我們明確了機(jī)器學(xué)習(xí)中三種濫用語(yǔ)言的方式:暗示性定義、技術(shù)術(shù)語(yǔ)過(guò)載和 suitcase words。
3.4.1 暗示性定義
在第一種方法中,新的技術(shù)術(shù)語(yǔ)創(chuàng)造出來(lái)可能就具有暗示性的口語(yǔ)語(yǔ)義,因此潛在的含義無(wú)需爭(zhēng)論。這常常體現(xiàn)在任務(wù)的擬人化特征(音樂(lè)合成 [59] 和閱讀理解 [31])、技術(shù)的擬人化特征(好奇 [66] 和害怕 [48])。很多論文以暗示人類(lèi)認(rèn)知的方式命名提出模型的組成部分,例如「思想向量」[36] 和「意識(shí)先驗(yàn)」[4] 等。我們的目的并不是消除所有這類(lèi)語(yǔ)言的學(xué)術(shù)文獻(xiàn);如果命名比較合適,那么它可以傳遞靈感的來(lái)源。然而,當(dāng)暗示性術(shù)語(yǔ)指定了技術(shù)含義時(shí),所有后續(xù)論文都別無(wú)選擇,只能接受該術(shù)語(yǔ)。
使用「人類(lèi)水平」的松散聲明描述經(jīng)驗(yàn)性結(jié)果,同樣描繪了對(duì)當(dāng)前能力的錯(cuò)誤認(rèn)識(shí)。以 [21] 中的「皮膚病專(zhuān)家水平的皮膚癌分類(lèi)模型」為例,與皮膚科醫(yī)生的對(duì)比掩蓋了分類(lèi)器和皮膚科醫(yī)生執(zhí)行根本不同任務(wù)的事實(shí)。真正的皮膚科醫(yī)生會(huì)遇到各種各樣的情況,并且盡管存在不可預(yù)測(cè)的變化,他們都必須完成工作。但是分類(lèi)器只在獨(dú)立同分布的測(cè)試數(shù)據(jù)上實(shí)現(xiàn)了較低的誤差。相比之下,[29] 表明分類(lèi)器在 ImageNet 圖像分類(lèi)任務(wù)上有人類(lèi)水平的性能更可信,因?yàn)樗⒉皇钦f(shuō)在目標(biāo)檢測(cè)等更廣泛的領(lǐng)域。即使在這種情況下,相比于不那么細(xì)致的 [21, 57, 75],一篇更細(xì)致的論文可能并不足以使公眾討論重回正軌。流行的文章記敘將現(xiàn)代圖像分類(lèi)器描述為「超越人類(lèi)水平的性能,并有效證明更大的數(shù)據(jù)集導(dǎo)致更好的決策」[23]。盡管有證據(jù)表明這些分類(lèi)器依賴(lài)虛假的相關(guān)性,即將「穿紅衣服的亞洲人」誤分類(lèi)為乒乓球 [73],但人們還是相信它們有超越人類(lèi)的準(zhǔn)確度。
深度學(xué)習(xí)論文并不是唯一遭受影響的領(lǐng)域,濫用語(yǔ)言困擾著 ML 非常多的子領(lǐng)域。[49] 中討論了機(jī)器學(xué)習(xí)公平性的最近文獻(xiàn),其發(fā)現(xiàn)機(jī)器學(xué)習(xí)從復(fù)雜的法律學(xué)中借了大量的術(shù)語(yǔ),例如使用「disparate impac」命名統(tǒng)計(jì)等價(jià)概念的簡(jiǎn)單方程。這導(dǎo)致了文獻(xiàn)中的「fairness」、「opportunity」和「discrimination」表示預(yù)測(cè)性模型的簡(jiǎn)單統(tǒng)計(jì)學(xué)特征,這樣會(huì)令忽略其中差異的研究者迷惑,也會(huì)令政策制定者誤解將道德納入機(jī)器學(xué)習(xí)的難易程度。
3.4.2 技術(shù)術(shù)語(yǔ)過(guò)載
誤用語(yǔ)言的第二個(gè)方式包括將具備準(zhǔn)確技術(shù)含義的術(shù)語(yǔ)用作不準(zhǔn)確或完全相反的意義。例如解卷積(deconvolution),它描述了反轉(zhuǎn)卷積的過(guò)程,但是現(xiàn)在在深度學(xué)習(xí)文獻(xiàn)中,該詞常用于指自編碼器和生成對(duì)抗網(wǎng)絡(luò)中的轉(zhuǎn)置卷積(transpose convolution,也叫 up-convolution)。在深度學(xué)習(xí)領(lǐng)域中,該術(shù)語(yǔ)首先出現(xiàn)于 [79],其中它確實(shí)是指解卷積,但后來(lái)被過(guò)度一般化,指使用 upconvolution 的任意神經(jīng)架構(gòu) [78, 50]。此類(lèi)術(shù)語(yǔ)過(guò)載現(xiàn)象會(huì)導(dǎo)致持續(xù)的混淆。新機(jī)器學(xué)習(xí)論文中的 deconvolution 可能 (i) 指其原始意義,(ii) 描述 upconvolution,(iii) 嘗試解決混淆,如 [28]。
另一個(gè)例子是 generative model(生成模型),它原本指輸入分布 p(x) 或聯(lián)合分布 p(x,y) 的模型。而 discriminative model(判別模型)指標(biāo)簽的條件分布 p(y | x)。但是,近期的論文中「generative model」不準(zhǔn)確地意指生成逼真結(jié)構(gòu)化數(shù)據(jù)的任意模型。表面看來(lái),這似乎與 p(x) 的定義一致,但它混淆了幾個(gè)缺陷:例如,GAN 或 VAE 無(wú)法執(zhí)行條件推斷(如,從 p(x2 | x1) 中采樣,x1 和 x2 是兩個(gè)不同的輸入特征)。后來(lái)這個(gè)術(shù)語(yǔ)被進(jìn)一步混淆,現(xiàn)在一些判別模型(discriminative model)指生成結(jié)構(gòu)化輸出的生成模型 [76],我們?cè)?[47] 中犯了這個(gè)錯(cuò)誤。為了解決該混淆,并提供歷史背景,[58] 對(duì)規(guī)定的和隱性的生成模型進(jìn)行了區(qū)分。
再來(lái)看批歸一化(batch normalization),[33] 描述協(xié)變量偏移(covariate shift)為模型輸入分布的變化。而事實(shí)上,協(xié)變量偏移指一種特定類(lèi)型的偏移,盡管輸入分布 p(x) 可能確實(shí)出現(xiàn)變化,但標(biāo)注函數(shù) p(y|x) 沒(méi)有變化 [27]。此外,由于 [33] 的影響,Google Scholar 將 batch normalization 列為搜索「covariate shift」的第一個(gè)參考文獻(xiàn)就是 batch normalization(《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》)。
語(yǔ)言誤用的后果之一是我們可能通過(guò)將之前的未解決任務(wù)重新定義來(lái)掩蓋沒(méi)有進(jìn)展的事實(shí)。這通常與通過(guò)擬人化命名進(jìn)行的暗示性定義有關(guān)。語(yǔ)言理解(language understanding)和閱讀理解(reading comprehension)曾經(jīng)是 AI 的兩大挑戰(zhàn),而現(xiàn)在指在特定數(shù)據(jù)集上的準(zhǔn)確預(yù)測(cè) [31]。
最后,我們討論機(jī)器學(xué)習(xí)論文中「suitcase words」的過(guò)度使用。這個(gè)詞由 Minsky 在 2007 年的書(shū)《The Emotion Machine》中創(chuàng)造,suitcase words 將多種意義的詞「打包」起來(lái)。Minsky 描述了心理過(guò)程例如意識(shí)、思維、注意力、情緒和感覺(jué),并認(rèn)為這些過(guò)程可能沒(méi)有「共同的起因或來(lái)源」。很多機(jī)器學(xué)習(xí)中的術(shù)語(yǔ)都有這樣的現(xiàn)象。例如,[46] 注意到可解釋性并沒(méi)有普遍認(rèn)同的含義,通常對(duì)應(yīng)不相交的方法。結(jié)果,即使在論文的互相交流中,人們也可能理解的是不同的概念。
另一個(gè)例子,generalization 有特定的技術(shù)含義:「泛化」(從訓(xùn)練泛化到測(cè)試),和更加口語(yǔ)化的含義:更加接近于遷移的概念(從一個(gè)總體擴(kuò)展到另一個(gè)總體),或外部效度(從實(shí)驗(yàn)擴(kuò)展到現(xiàn)實(shí)世界)。合并這些概念將導(dǎo)致高估當(dāng)前系統(tǒng)的能力。
暗示性的定義和超載的術(shù)語(yǔ)也可能創(chuàng)造出新的 suitcase words。在研究公平性的文獻(xiàn)中,法律、哲學(xué)和統(tǒng)計(jì)學(xué)語(yǔ)言通常都過(guò)載,像 bias 這樣的變成 suitcase words 的術(shù)語(yǔ)在之后必須要分離。
在通用語(yǔ)和鼓舞人心的術(shù)語(yǔ)中,suitcase words 可以很有用。也許 suitcase words 反映了一個(gè)至關(guān)重要的聯(lián)合不同含義的概念。例如,人工智能一詞也許能打包成一個(gè)鼓舞人心的名詞來(lái)組織一個(gè)學(xué)術(shù)部門(mén)。另一方面,在技術(shù)觀(guān)點(diǎn)中使用 suitcase words 可能導(dǎo)致困惑。例如,[6] 寫(xiě)了一個(gè)涉及智能和優(yōu)化能力的等式(Box 4),隱含地假設(shè)這些 suitcase words 可以用一個(gè) 1 維標(biāo)量量化。
4. 對(duì)趨勢(shì)背后原因的思考
以上模式預(yù)示著某種趨勢(shì)嗎?如果答案是肯定的,其背后的原因又是什么?我們推測(cè),這些模式將愈演愈烈,其背后的原因可能有以下幾點(diǎn):面對(duì)進(jìn)步的自滿(mǎn);社區(qū)的急劇擴(kuò)張;相關(guān)審議團(tuán)隊(duì)的匱乏;扭曲的激勵(lì)機(jī)制與評(píng)價(jià)成果的短期標(biāo)準(zhǔn)。
4.1 面對(duì)進(jìn)步的自滿(mǎn)
機(jī)器學(xué)習(xí)的快速發(fā)展有時(shí)會(huì)導(dǎo)致這樣一種態(tài)度:只要結(jié)果足夠有力,論點(diǎn)站不住腳也沒(méi)有關(guān)系。取得有力結(jié)果的作者可能感覺(jué)自己有權(quán)插入可以導(dǎo)出結(jié)果的任意未經(jīng)證實(shí)的東西(見(jiàn) 3.1),省略掉可能弄清楚這些因素的實(shí)驗(yàn)(見(jiàn) 3.2),采用夸張的術(shù)語(yǔ)(見(jiàn) 3.4),或?yàn)E用數(shù)學(xué)(見(jiàn) 3.3)。
同時(shí),評(píng)價(jià)過(guò)程的單輪屬性可能讓評(píng)閱人感覺(jué)自己不得不接受具有有力結(jié)果的定量研究論文。實(shí)際上,即使論文被拒,其中的弱點(diǎn)可能也不會(huì)在下一輪中得到修補(bǔ),甚至根本不會(huì)被注意到,因此評(píng)閱人最終可能會(huì)認(rèn)為:接受一篇有瑕疵的論文是最好的選擇。
4.2 成長(zhǎng)的痛苦
大約在 2012 年左右,由于深度學(xué)習(xí)方法的成功,機(jī)器學(xué)習(xí)社區(qū)急劇擴(kuò)張。盡管我們將社區(qū)的擴(kuò)張視為一種積極的發(fā)展,但這一擴(kuò)張也有其弊端。
為了保護(hù)年輕的研究者們,我們優(yōu)先選用自己和那些著名學(xué)者的論文。然而,新加入的研究者可能更容易受到這些模式的不良影響。例如,不了解既有術(shù)語(yǔ)的作者更容易用錯(cuò)或亂用論文語(yǔ)言(見(jiàn) 3.4)。另一方面,資深研究者可能也會(huì)陷入這些模式。
社區(qū)的急劇擴(kuò)張還會(huì)從兩個(gè)方面稀釋評(píng)論:一是提高提交論文與評(píng)閱人的比例,二是降低資深評(píng)閱人的比例。經(jīng)驗(yàn)不足的評(píng)閱人可能對(duì)架構(gòu)新奇性的要求更高,也更容易被偽造的定理所迷惑,并忽略嚴(yán)重而微妙的問(wèn)題,如誤用語(yǔ)言,從而加快上述幾種趨勢(shì)的發(fā)展。同時(shí),資深但負(fù)擔(dān)過(guò)重的評(píng)閱人可能陷入「清單核對(duì)」的心理定勢(shì),更加青睞公式化的論文,忽略更富有創(chuàng)意或思路更寬但不符合既有模板的論文。此外,工作量超負(fù)荷的評(píng)閱人可能沒(méi)有足夠的時(shí)間來(lái)修補(bǔ)或注意到論文中的所有問(wèn)題。
4.3 扭曲的激勵(lì)機(jī)制
給作者以不良激勵(lì)的不止是評(píng)閱人。隨著機(jī)器學(xué)習(xí)研究越來(lái)越受媒體關(guān)注,機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司也越來(lái)越普遍,在某種程度上,這一領(lǐng)域所獲得的激勵(lì)可以說(shuō)是媒體(「他們會(huì)寫(xiě)什么?」)或投資人(「他們的錢(qián)會(huì)投到哪里?」)給的。媒體煽動(dòng)了上述趨勢(shì)的幾種。對(duì)機(jī)器學(xué)習(xí)算法擬人化的表述為新聞報(bào)道提供了素材。以 [55] 為例,該文將自動(dòng)編碼稱(chēng)之為「模擬大腦」。暗示機(jī)器表現(xiàn)達(dá)到人類(lèi)水平的新聞會(huì)在報(bào)紙頭條上引起轟動(dòng),如 [52],該文在描述一種深度學(xué)習(xí)圖像字幕系統(tǒng)時(shí)稱(chēng)其「模仿人類(lèi)的理解水平」。投資人對(duì) AI 研究也頗有興趣,有時(shí)他們僅依據(jù)一篇論文就會(huì)為創(chuàng)業(yè)公司投資。根據(jù)我們(ZL)與投資人接觸的經(jīng)驗(yàn),他們有時(shí)更青睞那些研究成果已經(jīng)被媒體報(bào)道的創(chuàng)業(yè)公司,這種資本激勵(lì)最終又歸功于媒體。我們注意到,最近投資人對(duì)智能會(huì)話(huà)機(jī)器人創(chuàng)業(yè)公司的興趣伴隨著報(bào)紙及其他媒體對(duì)對(duì)話(huà)系統(tǒng)及強(qiáng)化學(xué)習(xí)者的擬人化描述一起出現(xiàn),盡管很難確定投資者的興趣和扭曲的激勵(lì)機(jī)制是否構(gòu)成因果關(guān)系。
5 建議
假設(shè)我們要對(duì)抗這些趨勢(shì),該如何做呢?除了僅建議每個(gè)作者放棄這類(lèi)模式,我們從社區(qū)可以做些什么來(lái)提高實(shí)驗(yàn)實(shí)踐、闡述和理論水平呢?我們?nèi)绾尾拍芨菀椎奶釤捝鐓^(qū)內(nèi)的知識(shí)并消除研究人員和普羅大眾的誤解呢?下面根據(jù)我們的個(gè)人經(jīng)歷和印象提出一些初步的建議。
5.1 對(duì)作者的建議
我們鼓勵(lì)作者多問(wèn)「是什么起了作用?」和「為什么?」,而不是「有多好?」除了在特殊情況下的 [39],原始的標(biāo)題數(shù)字對(duì)于科學(xué)進(jìn)步的價(jià)值是有限的,它并沒(méi)有表述出驅(qū)動(dòng)數(shù)據(jù)的原因。觀(guān)察并不意味著理論。在最有力的實(shí)證研究論文中有三種實(shí)踐方式:錯(cuò)誤分析、控制變量研究和魯棒性檢驗(yàn)(例如選擇超參數(shù)以及理想數(shù)據(jù)集)。這些做法每個(gè)人都可以使用,我們提倡大家廣泛使用。對(duì)于一些實(shí)例論文,我們建議讀者參考 §3.2 的內(nèi)容。[43] 還提供了更詳細(xì)的最佳經(jīng)驗(yàn)實(shí)踐調(diào)研。
合理的實(shí)證研究不應(yīng)該只局限于追蹤特定算法的經(jīng)驗(yàn)效果;即使沒(méi)有提出新的算法,它也可以產(chǎn)生新的見(jiàn)解。這里的例子可以證明:通過(guò)隨機(jī)梯度下降訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以適用于隨機(jī)分配的標(biāo)簽 [81]。這篇論文對(duì)模型復(fù)雜性的學(xué)習(xí)理論能力提出質(zhì)疑,試圖讓其解釋為什么神經(jīng)網(wǎng)絡(luò)可以泛化到未見(jiàn)過(guò)的數(shù)據(jù)。在另一個(gè)例子中,[26] 探索了深層網(wǎng)絡(luò)的損失表面,揭示了初始化和學(xué)習(xí)化參數(shù)間的參數(shù)空間直線(xiàn)路徑通常具有單調(diào)遞減的損失。
在撰寫(xiě)此論文時(shí),我們希望能出現(xiàn)以下問(wèn)題:我是要依靠這種解釋做出預(yù)測(cè)還是讓系統(tǒng)正常工作?這可以很好地檢驗(yàn)是否包含這能取悅審核人員或者傳遞明確信息的定理。它還有助于檢查概念和說(shuō)明是否與我們自己的內(nèi)心想法相匹配。在數(shù)學(xué)寫(xiě)作方面,我們將建議讀者閱讀 Knuth,Larrabee 和 Roberts 的優(yōu)秀教程 [37]。
最后,弄清哪些問(wèn)題是開(kāi)放性的,哪些問(wèn)題是可以被解決的。這不僅能夠讓讀者更加清楚,還能鼓勵(lì)后續(xù)的工作,防止研究人員忽略那些假定(錯(cuò)誤)要被解決的問(wèn)題。
5.2 對(duì)出版商和評(píng)審人的建議
評(píng)審人可以通過(guò)問(wèn)這樣的問(wèn)題來(lái)明確自己的動(dòng)機(jī):「如果作者的工作做的不夠好,我是否會(huì)接受這篇論文?」例如,一篇論文描述了一個(gè)簡(jiǎn)單的想法,雖然連帶了兩個(gè)負(fù)面的結(jié)果,卻能使性能得到改進(jìn)。這樣的文章應(yīng)該好于將三個(gè)想法結(jié)合在一起(沒(méi)有控制變量研究)產(chǎn)生相同改進(jìn)的文章。
現(xiàn)在的文獻(xiàn)以接收有缺陷的會(huì)議出版物為代價(jià)而迅速發(fā)展。補(bǔ)救的措施之一就是強(qiáng)調(diào)權(quán)威性的回顧調(diào)查,剔除夸大的聲明和無(wú)關(guān)的材料,改變擬人化名稱(chēng)以使記號(hào)、術(shù)語(yǔ)標(biāo)準(zhǔn)化等。盡管機(jī)器學(xué)習(xí)中的 Foundation 和 Trend 等已經(jīng)對(duì)此類(lèi)研究進(jìn)行追蹤,但我們認(rèn)為這方面仍然缺乏足夠強(qiáng)大的論文。
此外,我們認(rèn)為批判性寫(xiě)作應(yīng)該在機(jī)器學(xué)習(xí)會(huì)議上有所發(fā)聲。典型的 ML 會(huì)議論文選擇一個(gè)已有問(wèn)題(或提出一個(gè)新問(wèn)題),展示一個(gè)算法和/或分析,然后報(bào)告實(shí)驗(yàn)結(jié)果。盡管很多問(wèn)題可以通過(guò)這種方式解決,但是對(duì)于問(wèn)題或調(diào)查方法的正當(dāng)性,算法和實(shí)驗(yàn)都不足夠(和恰當(dāng))。我們?cè)趽肀Ц吲行缘恼撌龇矫娌⒉还聠危涸?NLP 領(lǐng)域,今年的 COLING 大會(huì)號(hào)召論文「挑戰(zhàn)傳統(tǒng)思維」[1]。
關(guān)于同行評(píng)審有很多值得討論的地方。我們描述的問(wèn)題通過(guò)開(kāi)放性評(píng)審能夠得到緩解還是加劇?評(píng)審人系統(tǒng)與我們提倡的價(jià)值觀(guān)有多大的一致性?這些話(huà)題已經(jīng)在其他地方被詳細(xì)討論 [42, 44, 24]。
6 討論
常理來(lái)說(shuō),我們不應(yīng)該在技術(shù)升溫時(shí)進(jìn)行干預(yù):你不能質(zhì)疑成功!在此,我們用以下一些理由進(jìn)行反駁:首先,當(dāng)前文化的許多方面是機(jī)器學(xué)習(xí)成功的結(jié)果,而不是其原因。事實(shí)上,導(dǎo)致目前深度學(xué)習(xí)成功的許多論文都是仔細(xì)的實(shí)證研究,其描述了深度網(wǎng)絡(luò)訓(xùn)練的基本原則。這包括隨機(jī)連續(xù)超參數(shù)搜索的優(yōu)勢(shì)、不同激活函數(shù)的行為,以及對(duì)無(wú)監(jiān)督預(yù)訓(xùn)練的理解。
其次,有缺陷的學(xué)術(shù)氛圍已經(jīng)對(duì)研究界,以及更為廣泛的公眾群體產(chǎn)生了負(fù)面影響。在第三章中,我們已經(jīng)看到了不受支持的觀(guān)點(diǎn)已被人們引用了上千次,被稱(chēng)為改進(jìn)的譜系被簡(jiǎn)單的基線(xiàn)所推翻,數(shù)據(jù)集旨在測(cè)試高級(jí)語(yǔ)義推理,但實(shí)際上測(cè)試的是低級(jí)語(yǔ)法流暢性,術(shù)語(yǔ)混亂使得學(xué)術(shù)對(duì)話(huà)變得舉步維艱。
其中最后一個(gè)問(wèn)題也影響著公眾的判斷。歐洲議會(huì)曾通過(guò)一份報(bào)告,討論如何應(yīng)對(duì)「機(jī)器人產(chǎn)生自我意識(shí)」的問(wèn)題。盡管機(jī)器學(xué)習(xí)的研究者們并不向所有這些工作產(chǎn)生的誤解負(fù)責(zé),但權(quán)威同行評(píng)審論文中的擬人化語(yǔ)言似乎至少負(fù)有一定的責(zé)任。
我們相信,解釋說(shuō)明以及科學(xué)和理論的嚴(yán)謹(jǐn)性對(duì)于科學(xué)進(jìn)步,和建立更廣泛的公眾有效對(duì)話(huà)至關(guān)重要。此外,由于機(jī)器學(xué)習(xí)技術(shù)將被應(yīng)用于醫(yī)療健康、法律自動(dòng)駕駛等重要領(lǐng)域,對(duì)于機(jī)器學(xué)習(xí)系統(tǒng)能力限制的知曉將讓我們能夠更加安全地部署 AI 技術(shù)。我們將通過(guò)討論一些對(duì)于上述觀(guān)點(diǎn)的反駁,及歷史背景來(lái)結(jié)束本文。
6.1 與之相對(duì)的考慮因素
針對(duì)上述建議也有很多需要考慮的因素。本文草稿的一些讀者曾指出:隨機(jī)梯度下降往往比梯度下降的收斂速度更快——換句話(huà)說(shuō),或許更快節(jié)奏的、更喧鬧的過(guò)程讓我們拋棄了撰寫(xiě)「更干凈」論文的初衷,也加快了研究速度。例如,關(guān)于 ImageNet 數(shù)據(jù)集圖像分類(lèi)的突破性論文 [39] 提出了多種沒(méi)有控制變量研究的技術(shù),其中一些隨后被確定是不必要的。然而,在研究提出時(shí),其結(jié)果非常重要且實(shí)驗(yàn)計(jì)算成本高昂,等待控制變量完成可能不值得整個(gè)社區(qū)為之付出代價(jià)。
這讓我們擔(dān)心,高標(biāo)準(zhǔn)可能會(huì)阻礙創(chuàng)見(jiàn)的發(fā)布,因?yàn)檫@些創(chuàng)見(jiàn)往往非同尋常,而且可能是推測(cè)性的。在其他領(lǐng)域,如經(jīng)濟(jì)學(xué),高標(biāo)準(zhǔn)導(dǎo)致學(xué)者可能需要數(shù)年才能完成一篇論文,冗長(zhǎng)的修訂周期必然會(huì)消耗可用于新研究的資源。
最后,也許專(zhuān)業(yè)化有其價(jià)值:創(chuàng)造新概念或建立新系統(tǒng)的研究者不一定會(huì)是那些仔細(xì)整理和提煉知識(shí)的人。
我們認(rèn)識(shí)到這些考慮的有效性,并且也認(rèn)識(shí)到這些標(biāo)準(zhǔn)有時(shí)過(guò)于嚴(yán)格。但是,在很多情況下,它們很容易實(shí)現(xiàn),只需要幾天的實(shí)驗(yàn)和更仔細(xì)的寫(xiě)作。此外,我們將這些內(nèi)容作為強(qiáng)烈的啟發(fā),而不是不可逾越的規(guī)則來(lái)呈現(xiàn)——如果不違反這些標(biāo)準(zhǔn)就無(wú)法分享新的想法,那么我們更愿意分享這個(gè)想法,而將標(biāo)準(zhǔn)放在一邊。此外,我們總會(huì)發(fā)現(xiàn)遵守這些標(biāo)準(zhǔn)的嘗試是值得的。總之,我們不相信研究界在前沿的推進(jìn)上實(shí)現(xiàn)了帕累托最優(yōu)狀態(tài)。
6.2 歷史經(jīng)驗(yàn)
實(shí)際上,在這里討論的問(wèn)題既不是機(jī)器學(xué)習(xí)所特有的,也不是目前這個(gè)時(shí)代所特有的:它們反映了整個(gè)學(xué)術(shù)界反復(fù)出現(xiàn)的問(wèn)題。早在 1964 年,物理學(xué)家 John R. Platt 在其關(guān)于強(qiáng)推理的論文 [62] 中就對(duì)于相關(guān)問(wèn)題進(jìn)行了討論,他在文中指出了對(duì)特定先驗(yàn)標(biāo)準(zhǔn)的遵守,這也為隨后分子生物學(xué)和高能物理,甚至其他領(lǐng)域的快速發(fā)展提供了能量。
在 AI 領(lǐng)域里,事情也是類(lèi)似的,正如第一章所述,Drew McDermott [53] 在 1976 年就一系列問(wèn)題批評(píng)了一個(gè)(主要是機(jī)器學(xué)習(xí)時(shí)代以前的)人工智能社區(qū),批評(píng)內(nèi)容包括暗示定義,以及未能將猜測(cè)與技術(shù)主張分開(kāi)。1988 年,Paul Cohen 和 Adele Howe [13] 也指責(zé)一個(gè)人工智能社區(qū)「很少發(fā)布他們提出的算法的性能評(píng)估」,而只是描述了系統(tǒng)。他們建議為量化技術(shù)發(fā)展建立合理的指標(biāo),并分析「它為什么有效?」、「在什么情況下它不起作用?」以及「如何讓設(shè)計(jì)決策合理化?」……這些問(wèn)題在今天仍然能引起我們的共鳴。
最后,在 2009 年,Armstrong 等人 [2] 討論了信息檢索研究的實(shí)證嚴(yán)謹(jǐn)性,并注意到很多論文都有與相同弱基線(xiàn)進(jìn)行比較的趨勢(shì),這些改進(jìn)并沒(méi)有積累到有意義的經(jīng)驗(yàn)。
在其他領(lǐng)域,學(xué)術(shù)水平不受限制的下降導(dǎo)致了危機(jī)。2015 年的一項(xiàng)具有里程碑意義的研究表明,心理學(xué)文獻(xiàn)中很大一部分研究結(jié)果可能無(wú)法再現(xiàn) [14]。在一些歷史案例中,跟風(fēng)與缺乏規(guī)制的學(xué)術(shù)態(tài)度導(dǎo)致整個(gè)研究社區(qū)走進(jìn)了死胡同。例如,在 X 射線(xiàn)被發(fā)現(xiàn)之后,有人又提出了 N 射線(xiàn)(之后真相被揭穿)。
6.3 結(jié)束語(yǔ)
最后,讀者們可能認(rèn)為這些問(wèn)題是可以自我糾正的。我們同意這樣的觀(guān)點(diǎn),但是,機(jī)器學(xué)習(xí)社區(qū)需要反復(fù)討論如何構(gòu)建合理的學(xué)術(shù)標(biāo)準(zhǔn)以實(shí)現(xiàn)這種自我修正。我們希望本文能夠?yàn)檫@樣的討論提供建設(shè)性貢獻(xiàn)。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8377瀏覽量
132408 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5492瀏覽量
120977
原文標(biāo)題:機(jī)器學(xué)習(xí)近年來(lái)之怪現(xiàn)狀
文章出處:【微信號(hào):gh_ecbcc3b6eabf,微信公眾號(hào):人工智能和機(jī)器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論