2010年以來(lái),基于機(jī)器學(xué)習(xí)(尤其是深度學(xué)習(xí))的預(yù)測(cè)算法在一些領(lǐng)域取得了極大的成功,比如說(shuō)圖像識(shí)別和機(jī)器翻譯。而我們把這些算法都稱作是人工智能(AI)。
不過(guò),深度學(xué)習(xí)成為這些領(lǐng)域的主流并不是一蹴而就的。在人工智能紛繁的歷史中,聯(lián)結(jié)主義(神經(jīng)網(wǎng)絡(luò)就屬于聯(lián)結(jié)主義)長(zhǎng)時(shí)間被符號(hào)主義所排斥。這篇論文通過(guò)符號(hào)主義和聯(lián)結(jié)主義之間的斗爭(zhēng),回溯了人工智能的歷史,以及最近深度學(xué)習(xí)的出現(xiàn)。
在這篇被Yan LeCun等多位大咖推薦的法語(yǔ)文章中,我們將看到,聯(lián)結(jié)主義的科研者們是如何使用大量的數(shù)據(jù)和強(qiáng)大的算力,一步步用控制論時(shí)代的自適應(yīng)推斷機(jī),并主導(dǎo)了符號(hào)主義提出的人工智能項(xiàng)目。
大數(shù)據(jù)文摘將全文翻譯如下,enjoy。
2012年10月 ECCV 會(huì)議中的一幕將成為計(jì)算機(jī)發(fā)展史上的一個(gè)傳奇。ECCV幾乎匯集了計(jì)算機(jī)視覺(jué)領(lǐng)域的所有優(yōu)秀的研究人員。
“所以在2012年 ECCV 組織的比賽中,誰(shuí)贏了?”
是Hinton,神經(jīng)網(wǎng)絡(luò)之父!
他給計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)了一場(chǎng)地震——他和他的學(xué)生提供的系統(tǒng)將傳統(tǒng)的方法打的一敗涂地,而之前他甚至在該領(lǐng)域鮮有研究。
他的學(xué)生Alex Krizhevsky提出的AlexNet類似于一個(gè)黑箱,Alex對(duì)這個(gè)黑箱說(shuō):“你給我好好訓(xùn)練,等可以得到好的結(jié)果了,就結(jié)束吧。”
當(dāng)時(shí)他們使用帶有 GPU 的機(jī)器進(jìn)行訓(xùn)練。但是和現(xiàn)在相比,機(jī)器的算力還是很有限的,但他們通過(guò)一些技巧使GPU之間的通信變得高效,并控制了通信的性能損耗。
這絕對(duì)是一個(gè)瘋狂的機(jī)器,否則它永遠(yuǎn)不會(huì)成功。
那個(gè)時(shí)候,計(jì)算機(jī)視覺(jué)領(lǐng)域的研究人員都在為 ImageNet 這個(gè)數(shù)據(jù)集感到興奮。這個(gè)數(shù)據(jù)集有120萬(wàn)張帶標(biāo)簽的圖片,共有1000多個(gè)類別,是衡量比較不同的模型的基準(zhǔn)。
第一名的錯(cuò)誤率是27.3%,第二名是27.18%,第三名是27.68%。而 Hinton 他們使用了AlexNet:“我們跑的模型很深,我們的錯(cuò)誤率是17%”,這個(gè)錯(cuò)誤率比之前最優(yōu)模型減少了10%。Alex 這個(gè)穿黃衣服的極客,他做到了!他宣布結(jié)果,房間里的所有人都震驚了。
他也不能解釋為什么要使用這樣的技巧,他只是造了一個(gè)黑箱,然后讓它自己訓(xùn)練,而他甚至對(duì)這個(gè)領(lǐng)域一無(wú)所知。在那里,他對(duì)面是李飛飛,而Yann LeCun坐在房間里面,正站起來(lái)準(zhǔn)備回答問(wèn)題。(李飛飛是計(jì)算機(jī)教授,斯坦福SAIL 實(shí)驗(yàn)室的負(fù)責(zé)人。Yann LeCun 現(xiàn)在是Facebook FAIR 實(shí)驗(yàn)室的負(fù)責(zé)人,同時(shí)也是神經(jīng)網(wǎng)絡(luò)的奠基人之一。)
計(jì)算機(jī)視覺(jué)領(lǐng)域的人試圖反駁 “這樣做是不行的,物體識(shí)別不能用這種方式來(lái)做……” 這些技術(shù)最終都落地了,這大概是因?yàn)樗鼈兡陌l(fā)展了十年然后厚積薄發(fā)吧。
很多人想探究這類方法取得這么好結(jié)果的深層原因。
深度學(xué)習(xí)可以看作一個(gè)黑箱,它有很深的結(jié)構(gòu),一億個(gè)參數(shù)。它通過(guò)大量的數(shù)據(jù)進(jìn)行訓(xùn)練,然后震驚了整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域。“如果輸入的圖片有一些擾動(dòng),你的模型還能給出一樣的結(jié)果嗎?”,有人問(wèn)。
Alex 自己也無(wú)法回答這個(gè)問(wèn)題。還是 LeCun 作出了回答:“這個(gè)模型能處理這個(gè)問(wèn)題,是因?yàn)椤薄eCun 非常高興,李飛飛問(wèn)他“Yann,這個(gè)模型和你在80年代發(fā)明的模型有根本上的不同嗎”,Yann 回答說(shuō):“不,它們完全一樣,并且它贏得了所有的比賽。”
深度學(xué)習(xí)在圖像分類任務(wù)的成功改變了其相關(guān)技術(shù)在科學(xué)社區(qū)長(zhǎng)期邊緣化的境況。在這個(gè)令人吃驚的結(jié)果后面,是對(duì)這個(gè)新方法有效性的質(zhì)疑,對(duì)傳統(tǒng)方法未來(lái)的擔(dān)憂,對(duì)這個(gè)新闖入者理論知識(shí)缺乏的嘲笑,對(duì)新方法帶來(lái)的改變的疑惑……自2010年以來(lái),神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算機(jī)領(lǐng)域產(chǎn)生了深刻的影響,比如說(shuō):信號(hào)處理,語(yǔ)音處理,自然語(yǔ)言處理。這個(gè)新的方法可以直接把原始數(shù)據(jù)作為輸入,而不需要人工提取特征。它還可以通過(guò)大量的數(shù)據(jù)來(lái)優(yōu)化模型,產(chǎn)生令人矚目的結(jié)果。圖1 簡(jiǎn)單展示了這個(gè)轉(zhuǎn)變:由假設(shè)演繹模型變成了歸納模型。
計(jì)算過(guò)程,程序,模型的規(guī)則,在舊的系統(tǒng)中需要人工設(shè)置,而在這個(gè)新的系統(tǒng)中它們則成了學(xué)習(xí)的目標(biāo)。圖1 就展示了這種轉(zhuǎn)變。
符號(hào)主義 vs 聯(lián)結(jié)主義
神經(jīng)網(wǎng)絡(luò)在2012年的 ECCV 取得了巨大的成功,但它并不是什么新東西。利用強(qiáng)大的算力,以及大量的數(shù)據(jù),現(xiàn)在已經(jīng)可以滿足控制論的一些要求。只是最近用于描述這些技術(shù)的術(shù)語(yǔ)是人工智能( AI )。
John McCarthy 于1956年提出了人工智能這一概念。目前在機(jī)器學(xué)習(xí)領(lǐng)域,尤其是深度學(xué)習(xí)領(lǐng)域,預(yù)測(cè)算法正在取得重大進(jìn)展,但把這些技術(shù)歸于人工智能并不嚴(yán)謹(jǐn)。在歷史上,神經(jīng)網(wǎng)絡(luò)(以前叫聯(lián)結(jié)主義)長(zhǎng)時(shí)間被符號(hào)主義所鄙視。這兩種方法之間的緊張關(guān)系在人工智能剛誕生并與控制論劃清界限時(shí)就開(kāi)始了。
符號(hào)主義的學(xué)派以認(rèn)知主義為基礎(chǔ)構(gòu)成了AI的初步框架:認(rèn)知就是通過(guò)對(duì)有意義的表示符號(hào)進(jìn)行推導(dǎo)計(jì)算。然而,聯(lián)結(jié)主義認(rèn)為認(rèn)知可以看作大規(guī)模并行計(jì)算, 這些計(jì)算在類似于人腦的神經(jīng)網(wǎng)絡(luò)中進(jìn)行,這些神經(jīng)元集體協(xié)作并相互作用(Andler,1992)。這兩種思想下造出的“智能”機(jī)器區(qū)別是巨大的。
今天我們正在目睹科技史的一個(gè)偉大的逆轉(zhuǎn):之前在人工智能領(lǐng)域被邊緣化的聯(lián)結(jié)主義重新回歸。就像Michael Jordan (2018) 諷刺的那樣:“維納提出的方法卻披著McCarthy發(fā)明的術(shù)語(yǔ)的外衣”。維納提出了控制論,我們現(xiàn)在使用的神經(jīng)網(wǎng)絡(luò)就可以看作控制論,而人工智能(AI)這個(gè)術(shù)語(yǔ)是 McCarthy 發(fā)明的。
為了講清楚這些互相交叉的理論方法,首先我們可以根據(jù) Web of Science(WoS)收集的出版物數(shù)據(jù)來(lái)進(jìn)行統(tǒng)計(jì)。觀察提到“人工智能”,“符號(hào)主義”,“聯(lián)結(jié)主義”文章作者的共引網(wǎng)絡(luò)就夠了。
我們可以在圖2中看到我們將在本文中將提到的主要人物的名字,他們已經(jīng)根據(jù)不同的科學(xué)社區(qū)進(jìn)行了區(qū)分。在聯(lián)結(jié)主義社區(qū)的中心是 Rumelhart, LeCun 和 Hinton。他們是深度學(xué)習(xí)的奠基者。他們周圍也有很多其他研究人員 (Holland, Hopfield), 還有一些人為傳統(tǒng)的機(jī)器學(xué)習(xí)方法作出了極大貢獻(xiàn),如 Breiman, Mitchell 和 Vapnik。在符號(hào)主義那邊,核心人物如McCarthy, Minsky, Simon et Newell可以看作 AI 的創(chuàng)立者。他們周圍也圍繞著一群人,如 Dreyfus, Searle, Brooks,他們?yōu)檎J(rèn)知模型、專家系統(tǒng)等等做出了重要貢獻(xiàn)。
圖3
如果我們看從1935年到2005年出版的 AI 論文,聯(lián)結(jié)主義和符號(hào)主義之間的斗爭(zhēng)似乎更加直觀。在圖3中,我們看到了最初聯(lián)結(jié)主義和控制論的誕生。然后,從20世紀(jì)60年代初開(kāi)始,符號(hào)主義主導(dǎo)和定義了人工智能。最后,直到20世紀(jì)90年代中期,在人工智能的第二個(gè)寒冬之后,聯(lián)結(jié)主義開(kāi)始使用深度學(xué)習(xí)的名頭在科學(xué)出版物中占據(jù)主導(dǎo)地位。
為了對(duì)人工智能系統(tǒng)有個(gè)整體的認(rèn)識(shí),我們引入三個(gè)詞語(yǔ),世界(monde),計(jì)算器(calculateur),以及視野(horizon)。這些詞在不同的情況下有不同的含義:世界可以是:環(huán)境/輸入/數(shù)據(jù)/知識(shí)數(shù)據(jù),計(jì)算器可以是:計(jì)算/程序/模型/代理(agent),視野可以是:目標(biāo)函數(shù)/結(jié)果/輸出。
我們講,這個(gè)預(yù)測(cè)系統(tǒng)安裝了一個(gè)計(jì)算器來(lái)根據(jù)世界計(jì)算一個(gè)視野。在 AI 的歷史中,世界,計(jì)算器,和視野的實(shí)體一直不停的變化。對(duì)這三部分的架構(gòu),研究人員還提出了種種截然不同的方式。AI 從符號(hào)主義轉(zhuǎn)向聯(lián)結(jié)主義并不是突然發(fā)生的結(jié)果,也不是說(shuō)一種比另一種更有效。這個(gè)轉(zhuǎn)變過(guò)程是不同方法和科學(xué)社區(qū)之間的重新組合與競(jìng)爭(zhēng)。這也影響了計(jì)算技術(shù),所需要處理的數(shù)據(jù)格式,目標(biāo),以及需要解決的問(wèn)題 (Latour, 1987)。現(xiàn)在我們稍微總結(jié)一下這些概念:符號(hào)主義的研究人員嘗試著人工設(shè)計(jì)計(jì)算器,世界,和視野。而聯(lián)結(jié)主義的研究人員則相反,他們嘗試把計(jì)算器清空了,讓世界來(lái)自己得出它的視野。
控制論和最開(kāi)始的聯(lián)結(jié)主義
神經(jīng)網(wǎng)絡(luò)起源于早期的計(jì)算機(jī)以及控制論,雖然最開(kāi)始它并不是叫這個(gè)名字,我們叫它聯(lián)結(jié)主義。
神經(jīng)網(wǎng)絡(luò)這個(gè)詞由神經(jīng)學(xué)家 Warren McCulloch 和 邏輯學(xué)家 Walter Pitts 在 1943 年提出,最初含義是指給人腦的神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)學(xué)建模。那篇文章一直被深度學(xué)習(xí)的文章引用至今,甚至可以看作聯(lián)結(jié)主義的起源。
從圖3我們可以清楚的看到,在控制論的早期階段,聯(lián)結(jié)主義一直占據(jù)著主導(dǎo)地位。那篇文章所描述的是:神經(jīng)元接受不同的輸入,然后會(huì)計(jì)算出一個(gè)加權(quán)和。如果這個(gè)加權(quán)和超過(guò)一個(gè)閾值,會(huì)激發(fā)這個(gè)神經(jīng)元。當(dāng)時(shí)這個(gè)概念并沒(méi)有和人工智能聯(lián)系起來(lái),“人工智能”這個(gè)詞語(yǔ)還不存在。直到1949年神經(jīng)學(xué)家 Donald O. Hebb 才把神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)聯(lián)系起來(lái)。他發(fā)現(xiàn)神經(jīng)元之間通過(guò)突觸信息被激活可以看作一個(gè)學(xué)習(xí)過(guò)程。受此影響,神經(jīng)網(wǎng)絡(luò)模型變成了控制論的一個(gè)重點(diǎn),并成了第一臺(tái)“智能”機(jī)器的計(jì)算器的核心 (Dupuy, 2005)。
世界和計(jì)算器之間的耦合
這類系統(tǒng)的特點(diǎn)在于它們與環(huán)境(世界)之間緊密耦合,以至于沒(méi)有必要為它們的計(jì)算器配備特別的部分。控制論提議直接弄一個(gè)簡(jiǎn)單的黑箱,將這個(gè)黑箱的學(xué)習(xí)與視野聯(lián)系起來(lái),通過(guò)測(cè)量世界和機(jī)器行為的誤差來(lái)調(diào)節(jié)黑箱里的參數(shù)。這種機(jī)器智能行為主要基于信息,而不同于人工智能誕生時(shí)用的符號(hào)主義(Triclot,2008)。這個(gè)信息所指的是編碼之前的信號(hào)。根據(jù) Shannon 的信息論,信息被視為一種純粹的形式,它表示 “事物中的有序程度或結(jié)構(gòu)”(Triclot,2008)。
然后,控制論將其計(jì)算的視野定義為對(duì)世界的輸入和輸出的比較。在Norbert Wiener 的防空導(dǎo)彈制導(dǎo)系統(tǒng)里,預(yù)測(cè)裝置的訓(xùn)練過(guò)程就是通過(guò)比較目標(biāo)有效軌跡與上一步的預(yù)測(cè)軌跡之間的區(qū)別,然后不斷更新系統(tǒng)。
這個(gè)設(shè)備可以根據(jù)給定的數(shù)據(jù)對(duì)計(jì)算器進(jìn)行更新,然后收斂到最佳的結(jié)果。負(fù)反饋系統(tǒng)(將輸出誤差變?yōu)樽赃m應(yīng)系統(tǒng)的新的輸入)就變成了控制論的主要部分。這也參考了當(dāng)時(shí)的行為心理學(xué)(Skinner,1971),參考了生物器官的一些行為,機(jī)器可以根據(jù)環(huán)境信號(hào)來(lái)進(jìn)行自適應(yīng),而不需要在內(nèi)部給它設(shè)置一些規(guī)則,總之智能需要有自我學(xué)習(xí)能力。
Arturo Rosenblueth, Norbert Wiener 和 Julian Bigelow 在 1943 年定義了控制論的基本原理,他們想象一個(gè)能夠自我糾錯(cuò)的機(jī)器,通過(guò)概率的方法根據(jù)目標(biāo)以及所犯的錯(cuò)誤對(duì)結(jié)果進(jìn)行修正,這就是一個(gè)自適應(yīng)的過(guò)程。以嚴(yán)格的“消除主義”思想,控制論里的系統(tǒng)可以沒(méi)有意圖,計(jì)劃,或推理的概念(Galison,1994)。
Ross Ashby (1956, p. 110) 把系統(tǒng)的計(jì)算器部分描述是一個(gè)黑箱,控制論里的預(yù)測(cè)系統(tǒng)的配置與世界和計(jì)算器緊密相關(guān),它的視野是系統(tǒng)對(duì)自己的自適應(yīng)優(yōu)化。 20世紀(jì)50年代的控制論系統(tǒng)(Homeostat,Adaline等)由于算力限制,只能算是實(shí)驗(yàn)室里的一個(gè)玩具,但現(xiàn)在隨著算力的提高以及更多的數(shù)據(jù),深度學(xué)習(xí)可以更有效地配置訓(xùn)練這個(gè)黑箱。
感知機(jī)和聯(lián)結(jié)主義系統(tǒng)
McCulloch和Pitts提出的神經(jīng)網(wǎng)絡(luò)給計(jì)算機(jī)視覺(jué)領(lǐng)域提供了一種特別適合的解決方案,用計(jì)算機(jī)配備這些原始的自適應(yīng)機(jī)器。在20世紀(jì)50年代后期,神經(jīng)網(wǎng)絡(luò)經(jīng)歷了一次重大的發(fā)展,進(jìn)入了一個(gè)類腦機(jī)器計(jì)劃。
聯(lián)結(jié)主義受到了很多其它工作的啟發(fā),包括 Bernard Widrow 的 Adaline,斯坦福大學(xué) Charles Rosen 的 Shakey, Pandemonium, Oliver Selfridge 的混合系統(tǒng) (1960)。康奈爾大學(xué)的心理學(xué)家和計(jì)算機(jī)學(xué)家 Frank Rosenblatt 提出的感知機(jī)可以算是一個(gè)真正的聯(lián)結(jié)主義系統(tǒng),并且成為了計(jì)算器產(chǎn)生智能行為的標(biāo)志。這種用于圖像識(shí)別的系統(tǒng)受到了很多關(guān)注,并從美國(guó)海軍(ONR)獲得了大量資金。
Frank Rosenblatt 設(shè)計(jì)的機(jī)器受 McCulloch 和 Pitts 提出的神經(jīng)網(wǎng)絡(luò)的啟發(fā),同時(shí)增加了學(xué)習(xí)機(jī)制。在感知機(jī)疊加的各層中,輸入神經(jīng)元模擬視網(wǎng)膜活動(dòng),輸出神經(jīng)元對(duì)系統(tǒng)識(shí)別的“特征”進(jìn)行分類,只有中間的隱藏層才能學(xué)習(xí)。
與 McCulloch 和 Pitts 提出的“下行”組織不同,F(xiàn)rank Rosenblatt 提出采用自下而上的方法,用學(xué)習(xí)機(jī)制統(tǒng)計(jì)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。在軟件實(shí)現(xiàn)感知機(jī)之后,F(xiàn)rank Rosenblatt 將開(kāi)始構(gòu)建硬件版本的感知機(jī):Mark I,它將400個(gè)用光電設(shè)備組成神經(jīng)元。 突觸權(quán)重由電位計(jì)編碼,并且學(xué)習(xí)期間的權(quán)重變化由電動(dòng)機(jī)執(zhí)行。由于當(dāng)時(shí)的技術(shù)限制,這類物理實(shí)現(xiàn)的感知機(jī)還是很罕見(jiàn)的。并且,由于人工智能另一個(gè)分支, 符號(hào)主義的發(fā)展,這部分研究趨于停滯。
符號(hào)主義
Dartmouth, John McCarthy 和 Marvin Minsky 在1956年達(dá)特茅斯舉行的會(huì)議中提出了人工智能(AI) 這個(gè)詞語(yǔ),用來(lái)反對(duì)早期控制論里的聯(lián)結(jié)主義 (Dupuy, 2005)。他們覺(jué)得機(jī)器根據(jù)輸入和輸出進(jìn)行自適應(yīng)調(diào)整是不夠的, “符號(hào)主義” 人工智能的目標(biāo)是把人工定義的程序算法和規(guī)則放入計(jì)算機(jī)系統(tǒng)中,這樣可以從更高一級(jí)來(lái)操縱系統(tǒng)。所以AI誕生之初對(duì)聯(lián)結(jié)主義的一些觀點(diǎn)是排斥的。如圖3所示,符號(hào)主義從19世紀(jì)60年代中期到90年代初,一直在人工智能領(lǐng)域占主導(dǎo)地位。
符號(hào)主義的最初工作由 Herbert Simon 和 Allen Newell 在19世紀(jì)50年代推動(dòng)。1956年,他們寫了第一個(gè)人工智能程序 Logic Theorist ,讓機(jī)器來(lái)模擬做決策的過(guò)程。這個(gè)程序完成的任務(wù)也經(jīng)常被人工智能的研究人員使用。他們宣布: “這個(gè)圣誕節(jié)我們發(fā)明了一個(gè)有思維的機(jī)器”。從1956年到70年代初,推理模型都是早期AI的核心。這個(gè)領(lǐng)域的研究迅速被一小部分機(jī)構(gòu)和人給統(tǒng)治:MIT (Minsky, Papert), Carnegie Mellon (Simon, Newell) 和 Stanford University (McCarthy)。
盡管這個(gè)研究圈子內(nèi)部有一些分歧,但是他們幾乎壟斷了 AI 研究的一切,包括資金以及大型計(jì)算機(jī)的使用權(quán)。從1964 到 1974,ARPA和空軍用于研究人工智能75%的資金都被他們拿走了。他們的項(xiàng)目也爭(zhēng)取到了當(dāng)時(shí)為數(shù)不多的算力資源。在ARPA,受益于 Joseph Licklider的堅(jiān)定支持,符號(hào)主義項(xiàng)目獲得了科研資金,同時(shí)也可以通過(guò)在軍事系統(tǒng)上的應(yīng)用來(lái)驗(yàn)證系統(tǒng)的合理性。在19世紀(jì)60年代初,繼承自控制論的聯(lián)結(jié)主義方法由于 Frank Rosenblatt 提出的感知機(jī)產(chǎn)生了一股熱潮。盡管還是一名學(xué)生,他開(kāi)發(fā)出了一個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng) Snarc(1951)。
Marvin Minsky 說(shuō)符號(hào)主義所領(lǐng)導(dǎo)的具有優(yōu)美數(shù)學(xué)的AI正面臨著“神秘”,“被浪漫主義氣氛包圍”的自組織系統(tǒng)和聯(lián)結(jié)主義的挑戰(zhàn) (Minsky et Papert, 1969)。通過(guò)對(duì)單層感知機(jī)的分析,他和 Simon Papert 證明了神經(jīng)網(wǎng)絡(luò)不能實(shí)現(xiàn)異或(XOR)操作,所以覺(jué)得它們是沒(méi)有未來(lái)的。正如 Mikel Olazaran (1996) 所介紹的,Minsky 和 Papert 的策略是通過(guò)流行的符號(hào)主義來(lái)對(duì)人工智能進(jìn)行定義。即使這本書(shū)的造成的影響可能并不是作者的本意,其后果也將是不可改變的:在1971年 Frank Rosenblatt 英年早逝之后,神經(jīng)網(wǎng)絡(luò)被拋棄,相關(guān)項(xiàng)目的資金資助被停止,神經(jīng)網(wǎng)絡(luò)離開(kāi)了人工智能領(lǐng)域。
對(duì)符號(hào)進(jìn)行操作的空間
符號(hào)主義的機(jī)器的主要特征是打破了與世界的耦合,并賦予了計(jì)算器一個(gè)自主的推理空間。在這個(gè)完全對(duì)計(jì)算器開(kāi)放的編程空間里可對(duì)符號(hào)進(jìn)行操作。
20世紀(jì)50年代建立的馮·諾伊曼架構(gòu),就是這樣一個(gè)空間。設(shè)計(jì)于計(jì)算導(dǎo)彈彈道的ENIAC(1946)本想在硬件中給機(jī)器“編程”,但后來(lái)分離了軟件和硬件,軟件用執(zhí)行基于符號(hào)的邏輯運(yùn)算,而硬件是機(jī)器的物理結(jié)構(gòu) (von Neumann, 1945) 。
于是一個(gè)獨(dú)立于硬件,專門用于程序的空間產(chǎn)生了。硬件變成“計(jì)算程序的中央化通用型自動(dòng)機(jī)”(Goldstine,1972,pp.198-199),而編程,根據(jù)艾倫·圖靈(2004,p.21),變成了“文書(shū)工作”。Paul Edwards(1996)表明,接近人類語(yǔ)言的高級(jí)編程語(yǔ)言的出現(xiàn)(再編譯成0/1形式的機(jī)器語(yǔ)言)使分離物理機(jī)器和符號(hào)機(jī)器成為可能。人工智能從此可以說(shuō)是關(guān)于機(jī)器的思想的科學(xué)。編程語(yǔ)言也是人工智能對(duì)計(jì)算機(jī)科學(xué)的最早貢獻(xiàn)之一。
符號(hào)操作空間的出現(xiàn)與認(rèn)知科學(xué)的出現(xiàn) (1956) 有關(guān)。認(rèn)知科學(xué)反對(duì)行為主義心理學(xué)極其控制論的“黑箱”概念,它的任務(wù)是賦予機(jī)器抽象和邏輯能力。認(rèn)知科學(xué)也與聯(lián)結(jié)主義不同,不關(guān)心生理學(xué)和人的行為,只關(guān)注推理。計(jì)算思想的理論,基于二元論,被構(gòu)建出來(lái):假設(shè)精神狀態(tài)可以同時(shí)被物理地和符號(hào)地描述;物理式描述,如對(duì)信息的一系列物理性處理,符號(hào)式描述,包括符號(hào)操作,機(jī)械操作,比較,層次、推斷 (Andler,2016) 。這一假說(shuō)也稱為“物理符號(hào)系統(tǒng)”,假設(shè)思想不能直接與世界交流,但世界在思想內(nèi)部的表示和思想所為可以被嵌在程序中的符號(hào)描述和組織。
一個(gè)“玩具”世界
符號(hào)主義機(jī)器的世界只是一個(gè)舞臺(tái)背景,機(jī)器把它的邏輯原則的語(yǔ)法投射到世界:國(guó)際象棋,跳棋游戲(Arthur Samuel),幾何定理證明 (Herbert Gelertne),就像電子游戲的背景。 第一波人工智能的特點(diǎn)是發(fā)明了簡(jiǎn)化的空間,空間形式需要機(jī)器去認(rèn)識(shí)和改動(dòng),例如Marvin Minsky的計(jì)算機(jī)環(huán)境Microscope (MAC) 或Terry Winograd的著名語(yǔ)言SHLURDU。 想象一個(gè)虛構(gòu)的空間,只有幾個(gè)房間幾個(gè)物體,Shakey機(jī)器人在其中移動(dòng),一個(gè)“玩具空間”,其中的物體可以很容易地被聯(lián)系到語(yǔ)法,語(yǔ)法經(jīng)過(guò)計(jì)算會(huì)產(chǎn)生相應(yīng)的系統(tǒng)行為。
如果計(jì)算器投射它自己的世界,這也是因?yàn)樗髨D把自己本身融入視野。正是在這個(gè)意義上,AI能夠以“強(qiáng)者”的姿態(tài)回歸,因?yàn)榻o予系統(tǒng)的目標(biāo)是它自己的,可以從模型的邏輯推理中推導(dǎo)出來(lái)。巧妙的塑造系統(tǒng)語(yǔ)法的語(yǔ)言都是推論,它們把各種操作層層組織,每個(gè)操作都是對(duì)實(shí)體的基礎(chǔ)變換,都是一次正確計(jì)算基礎(chǔ)上的推論(Andler,1990,p100)。 如決策樹(shù),中間邏輯鏈,目標(biāo)和子目標(biāo)分解,中途/末尾分析(analyse moyen/fin) 。
合理的計(jì)算視野包含在程序的語(yǔ)法中。機(jī)器可以解決實(shí)際問(wèn)題,找到正確的解,或做出適當(dāng)?shù)臎Q策,而不需要給它正確答案(比如機(jī)器學(xué)習(xí)中的樣本),因?yàn)橐?guī)則可以通過(guò)遵循計(jì)算器的推理推導(dǎo)出來(lái)。推理原則的語(yǔ)法和被操縱對(duì)象的語(yǔ)義都內(nèi)置在計(jì)算器中,可能會(huì)在正確的推理中彼此混淆,但也可以或多或少確定下來(lái)——以人工的代價(jià):“智能”世界是由設(shè)計(jì)師實(shí)現(xiàn)的,受到監(jiān)督,精準(zhǔn),明確,因此理性就是它的視野。是,在機(jī)房,這些機(jī)器能夠達(dá)到一定的性能,但一旦向它們展現(xiàn)整個(gè)世界,它們很快就會(huì)變得盲目和愚蠢。
人工智能的第一個(gè)冬天
20世紀(jì)70年代早期,人工智能進(jìn)入了它的第一個(gè)冬天,聯(lián)結(jié)主義和符號(hào)主義的項(xiàng)目都將凍結(jié)。 兩個(gè)流派都承諾得過(guò)多,而結(jié)果遙遙無(wú)期。 聯(lián)結(jié)主義一邊,F(xiàn)rank Rosenblatt的感知機(jī)被過(guò)早公之于眾。在《激動(dòng)人心的智能機(jī)器》新聞中,紐約時(shí)報(bào)報(bào)道“電子計(jì)算機(jī)雛形出現(xiàn),海軍希望它能走,說(shuō),看,寫,制造自己,甚至擁有自我意識(shí)”。
符號(hào)主義一邊,以Herbert Simon和Marvin Minsky為首,不切實(shí)際的宣言很快被否定掉了。翻譯俄語(yǔ)的翻譯器、滲透進(jìn)敵人戰(zhàn)線的機(jī)器人,坦克和飛機(jī)駕駛員的語(yǔ)音指揮系統(tǒng),宏圖面對(duì)的現(xiàn)實(shí)是:“智能系統(tǒng)” 還只是機(jī)房里的游戲。1966年,國(guó)家研究委員會(huì)削減了機(jī)器翻譯的預(yù)算,隨后一系列撤回落到了對(duì)人工智能的財(cái)務(wù)和學(xué)術(shù)支持上:Minsky和Papert在麻省理工學(xué)院的micromonde項(xiàng)目,斯坦福大學(xué)的Shakey機(jī)器人, DARPA的SUR語(yǔ)音識(shí)別計(jì)劃……英格蘭,1973年,重要的Lighthill報(bào)告發(fā)表,勸說(shuō)人們停止對(duì)AI的公共資助。
在資金危機(jī)頻發(fā)的情況下,推理邏輯模型的項(xiàng)目奄奄一息,批評(píng)越來(lái)越多。 1965年,Rand委托哲學(xué)家Hubert Dreyfus撰寫了一篇關(guān)于人工智能的報(bào)告,名為“煉金術(shù)和人工智能”,發(fā)表了一個(gè)有力的論證:“計(jì)算機(jī)不能做什么”(Dreyfus,1972) , 第一版就大獲成功。Hubert Dreyfus對(duì)建造人工智能的爭(zhēng)論迅速大大削弱了推理規(guī)則可以給機(jī)器“智能”的想法。 對(duì)邏輯規(guī)則的闡釋完全忽視了知覺(jué)有身體的,位置的,隱性的,顯性的,集體性的,語(yǔ)境的,也忽視了人類對(duì)行為的決策。
第一代“叛徒”出現(xiàn),他們批評(píng)、質(zhì)疑自己曾有的希望:Joseph Weizenbaum, 先驅(qū)Eliza,SHRDLU的設(shè)計(jì)者 Terry Winograd。“智能”機(jī)器與美妙的邏輯規(guī)則,確定性語(yǔ)法和理性的目標(biāo)吻合,但這樣的機(jī)器的世界并不存在。
人工智能第二波浪潮:專家的世界
然而,人工智能將在20世紀(jì)80年代迎來(lái)第二個(gè)春天,“專家系統(tǒng)”對(duì)符號(hào)主義機(jī)器架構(gòu)進(jìn)行了重大修訂。
通過(guò)訪問(wèn)更強(qiáng)大的計(jì)算機(jī),將更多信息輸入計(jì)算機(jī)的內(nèi)存,重生得以實(shí)現(xiàn)。 然后,“玩具”世界被專家的智識(shí)構(gòu)成的“專業(yè)知識(shí)簿”取代。第二代AI與可以世界的外延相互作用,而世界的外延并非由程序員設(shè)計(jì)塑造:它現(xiàn)在由來(lái)自不同領(lǐng)域的專家的知識(shí)組成,這些知識(shí)轉(zhuǎn)化為陳述性命題,用盡可能自然的語(yǔ)言表達(dá) (Winograd,1972),以便用戶可以通過(guò)提問(wèn)來(lái)互動(dòng) (Goldstein,Papert,1977)。
根據(jù)Edward Feigenbaum為DENDRAL(第一個(gè)識(shí)別材料化學(xué)成分的專家系統(tǒng))提出的術(shù)語(yǔ),待計(jì)算世界的外延導(dǎo)致了符號(hào)主義機(jī)器的架構(gòu)改變,分離了計(jì)算器構(gòu)成的“推理引擎”和稱為“生產(chǎn)系統(tǒng)”的一系列可能的世界。知識(shí)的數(shù)據(jù)庫(kù)是一個(gè)可修改的“如果 ... 那么”型規(guī)則的列表(例如:“如果發(fā)熱,那么[搜索感染]”),它們與推理引擎分離,推理引擎用于決定何時(shí)、如何應(yīng)用規(guī)則。
規(guī)則的圣殿
早期僵化的計(jì)算主義想發(fā)明一個(gè)不切實(shí)際的抽象宇宙,受到諸多的批評(píng)。現(xiàn)在人工智能研究將從最高層開(kāi)始,理解,抽象,然后完成一個(gè)概念系統(tǒng),來(lái)操作這些新的知識(shí)庫(kù)。然后,這個(gè)符號(hào)主義的項(xiàng)目以超過(guò)必要的建模,不完備的推理和啟發(fā)式的算法,在專家的幫助下,更接近用戶的世界。這種計(jì)算器編程的特征在于放松邏輯運(yùn)算符(語(yǔ)法),而構(gòu)建過(guò)密的表示知識(shí)的概念網(wǎng)絡(luò)(語(yǔ)義)。借用關(guān)于思想模塊性的討論(Fodor,1983),計(jì)算器將推理過(guò)程分解為基本的模塊,分解為交互的“代理(agent)”,這些“代理”可以自主地用不同方式使用知識(shí)和做出推斷。因此,第二波符號(hào)主義人工智能的主要?jiǎng)?chuàng)新構(gòu)思產(chǎn)生于知識(shí)庫(kù)、知識(shí)庫(kù)衍生出的有啟發(fā)式意義的語(yǔ)義結(jié)構(gòu)。
越來(lái)越多的輸入知識(shí)和越來(lái)越復(fù)雜的概念網(wǎng)絡(luò)推動(dòng)了另一個(gè)轉(zhuǎn)變:推理規(guī)則變得有條件,并且可以被概率化。對(duì)于John McCarthy的顯式邏輯方法,Marvin Minsky和Samuel Papert在20世紀(jì)70年代堅(jiān)持了另一個(gè)觀點(diǎn):正確/錯(cuò)誤的二分法過(guò)于僵化。人們更傾向使用啟發(fā)式的而非邏輯性的處理,因此真/假的分類不如有效/無(wú)效的分類。我們主要通過(guò)近似,簡(jiǎn)化和合理的直覺(jué)來(lái)走向真理,而這些直覺(jué)實(shí)際上是虛假的(Minsky et Papert, 1970, p. 41)。
在專家制定的數(shù)千條規(guī)則中,可能會(huì)發(fā)生這樣的情況:從一個(gè)固定的前提(IF ...)出發(fā),第二個(gè)命題(THEN ......)有一定概率為真。概率化使我們能夠放寬人工智能早期確定性的推理形式,于是進(jìn)入機(jī)器的知識(shí)變得更實(shí)際,更多樣化,更矛盾,滲透進(jìn)了更多概率(Nilsson,2010,p.475)。“有效/無(wú)效”代替了“真/假”,那么計(jì)算機(jī)的目標(biāo)與其說(shuō)是邏輯真理,不如說(shuō)是對(duì)系統(tǒng)給出的答案的正確性,相關(guān)性或可能性的估計(jì)。但是,這種估計(jì)不再有計(jì)算機(jī)的規(guī)則的內(nèi)在支持, 必須求助于外部的專家,由專家為機(jī)器學(xué)習(xí)提供示例和反例。
推斷概率化逐漸滲透到AI領(lǐng)域,以執(zhí)行程序員無(wú)法“手動(dòng)”實(shí)現(xiàn)的任務(wù)(Carbonnell etc,1983)。在TomMitchell(1977)的工作之后,學(xué)習(xí)機(jī)制可總結(jié)為一種統(tǒng)計(jì)學(xué)方法:計(jì)算機(jī)自動(dòng)生成假設(shè)空間內(nèi)的最佳模型。學(xué)習(xí)機(jī)制“探索”計(jì)算器生成的各種假設(shè)模型,在邏輯推論上進(jìn)行推理(概念簡(jiǎn)化,包含關(guān)系,反演推導(dǎo)),搜索合理的假設(shè)。進(jìn)行推斷性推理,消除候選假設(shè)的統(tǒng)計(jì)方法在此基礎(chǔ)上成熟和發(fā)展,例如決策樹(shù)(后來(lái)產(chǎn)生了隨機(jī)森林)或貝葉斯網(wǎng)絡(luò)(可以因果主義地定義變量之間的依賴關(guān)系)(Domingos, 2015)。然而,從20世紀(jì)90年代初開(kāi)始,數(shù)據(jù)越來(lái)越多,卻沒(méi)有組織起來(lái),不是被標(biāo)記的變量,也不是相互依賴的概念,很快它們將失去可懂度。然后,我們將看到人工智能學(xué)習(xí)從“探索”向“優(yōu)化”轉(zhuǎn)變(Cornuéjols et al., 2018,p.22),這將使規(guī)則的圣殿崩潰。
要計(jì)算的數(shù)據(jù)的量和數(shù)據(jù)的現(xiàn)實(shí)意義不斷增加,歸納機(jī)制轉(zhuǎn)向了計(jì)算器內(nèi)部。如果數(shù)據(jù)不再反映類別,變量之間的依賴關(guān)系,概念網(wǎng)絡(luò),那么,為了求得目標(biāo)函數(shù),歸納機(jī)制將基于優(yōu)化標(biāo)準(zhǔn)得出正確的分布(Cornuéjols et al. , 2018, p. 22)。 待學(xué)習(xí)世界的構(gòu)成轉(zhuǎn)變,研究人員修改歸納的方法,并提出完全不同的機(jī)器架構(gòu)。這種轉(zhuǎn)變隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展加速,但轉(zhuǎn)折點(diǎn)其實(shí)已藏于人工智能要學(xué)習(xí)的世界。 由于數(shù)據(jù)越來(lái)越“去符號(hào)化”,歸納機(jī)制構(gòu)建模型時(shí)不再關(guān)注初始數(shù)據(jù)結(jié)構(gòu),而是優(yōu)化因子 (Mazières, 2016)。計(jì)算的視野不再是計(jì)算器的內(nèi)部,而是世界從外部給出的值 - 而且通常非常“人類”: 這個(gè)圖像是否包含(或不包含)犀牛? 這個(gè)用戶是否在這樣的鏈接上點(diǎn)擊(或不點(diǎn)擊)?答案也就是優(yōu)化的標(biāo)準(zhǔn),必須將其輸入計(jì)算器,才能發(fā)現(xiàn)貼切的“模型”。 因此新的機(jī)器學(xué)習(xí)方法(如SVM,神經(jīng)網(wǎng)絡(luò))變得更加有效,但也變得難以理解,就如決策樹(shù)的發(fā)明者LéoBreiman(2001)所指出。
由專家系統(tǒng)建設(shè)者建造的崇高圣殿沒(méi)有實(shí)現(xiàn)承諾,它們太復(fù)雜,而且性能非常有限。原本充滿活力的市場(chǎng)大幅崩潰,有前途的人工智能公司也破產(chǎn)了。20世紀(jì)80年代,計(jì)算成本的降低和計(jì)算能力的提高給了超級(jí)計(jì)算機(jī)新的機(jī)會(huì),這些計(jì)算機(jī)曾被符號(hào)主義者擱置,那時(shí)符號(hào)主義者統(tǒng)治著各種大型IT項(xiàng)目 (Fleck, 1987, p. 153)。將人工智能限于符號(hào)主義的大學(xué)學(xué)術(shù)圈的控制力越來(lái)越弱,在語(yǔ)音合成,模式識(shí)別等領(lǐng)域,專家系統(tǒng)獲得的成果很少。在20世紀(jì)90年代初,符號(hào)主義的AI非常弱,以至于這個(gè)術(shù)語(yǔ)幾乎從研究中消失了。 完成無(wú)限長(zhǎng)的顯性規(guī)則目錄,讓機(jī)器懂得人類知覺(jué)、語(yǔ)言和推理的千萬(wàn)微妙之處,愈發(fā)成為一項(xiàng)不可能的,荒唐的,無(wú)效的任務(wù)(Collins, 1992 ; Dreyfus, 2007).
深度學(xué)習(xí)的分布式表示
正是在這種背景下,20世紀(jì)60年代末開(kāi)始流亡的聯(lián)結(jié)主義方法在20世紀(jì)80年代和90年代回歸和興起,這個(gè)復(fù)興時(shí)期,理論和算法都有巨大創(chuàng)造。1979年6月在La Jolla ,加州,Geoff Hinton和James Anderson組織召開(kāi)了一個(gè)會(huì)議,會(huì)議上,一個(gè)聚集了生物學(xué)家、物理學(xué)家和計(jì)算機(jī)科學(xué)家的跨學(xué)科研究小組建議重新審視心理過(guò)程極具分布式和并行性的特點(diǎn)。
1986年,該小組以并行分布式處理(Parallel Distributed Processing,PDP)之名,出版了兩卷成果。這一術(shù)語(yǔ)常用來(lái)洗脫聯(lián)結(jié)主義的惡名 (Rumelhart et al. , 1986b)。 不同于計(jì)算機(jī)的序列式操作和符號(hào)主義的推理方法,PDP基于認(rèn)知的微觀結(jié)構(gòu),通過(guò)利用神經(jīng)元隱喻的特點(diǎn),繪制反模式:基本單元通過(guò)巨大的網(wǎng)絡(luò)連接在一起; 知識(shí)不是統(tǒng)計(jì)性存儲(chǔ)的,而是依靠各單元之間的連接;各單元通過(guò)0-1激活機(jī)制實(shí)現(xiàn)相互通信(<我們的系統(tǒng)中貨幣不是符號(hào),而是激勵(lì)和抑制>,p.132) ;這些激活一直并行進(jìn)行,而非遵循一系列步驟; 信息流沒(méi)有控制中心; 一個(gè)子路徑不影響另一個(gè)子路徑,但一個(gè)子系統(tǒng)會(huì)生成計(jì)算中需滿足的約束,進(jìn)而調(diào)整其他子系統(tǒng)的行為。
由機(jī)器執(zhí)行的操作類似于松弛操作,其中計(jì)算迭代地進(jìn)行,直到取得某個(gè)滿足大量弱約束的近似值 (< 系統(tǒng)安裝出解決方案,而非計(jì)算出解決方案>,p.135)。由聯(lián)結(jié)主義者的構(gòu)思物生成了許多內(nèi)部表示,這些表示可能是高層級(jí)的,但它們是“亞符號(hào)的”,統(tǒng)計(jì)的,分布式的 (Smolensky, 1988)。如上,聯(lián)結(jié)主義方法并不簡(jiǎn)單,而是一種非常有野心的智能架構(gòu),可以顛覆認(rèn)知計(jì)算。
“一開(kāi)始,在20世紀(jì)50年代,像馮·諾伊曼和圖靈這樣的人不相信符號(hào)主義人工智能,Geoff Hinton解釋,人腦更能給他們啟發(fā)。不幸的是,他們都死得太年輕,他們的聲音沒(méi)有被聽(tīng)到。
在人工智能開(kāi)始時(shí),人們絕對(duì)相信我們所需要的智能的形式是一種符號(hào)主義的形式,不完全是邏輯的,但類似邏輯的東西:智能的本質(zhì)是推理。現(xiàn)在的觀點(diǎn)完全不同:思想只是表示神經(jīng)元活動(dòng)的大型向量。我相信那些認(rèn)為思想可以用符號(hào)表示的人犯了一個(gè)大錯(cuò)。輸入一串字符,輸出一串字符,如此,字串成為顯而易見(jiàn)的事物表現(xiàn)方式,于是他們認(rèn)為兩種狀態(tài)之間必然有一個(gè)字串,或者類似字串的東西。我認(rèn)為兩者之間的關(guān)系與字串無(wú)關(guān)! 思想只不過(guò)是一些大型的,可以表示因果的向量。它們會(huì)產(chǎn)生其他大型向量,這和傳統(tǒng)的AI的觀點(diǎn)完全不同。 “
如果現(xiàn)在新一批的神經(jīng)網(wǎng)絡(luò)的使用者少些參考這種認(rèn)知論,由于他們沒(méi)有經(jīng)歷過(guò)長(zhǎng)輩們禁受的排斥和嘲弄,他們將形成一個(gè)堅(jiān)持不懈追求聯(lián)結(jié)主義事業(yè)的團(tuán)體。在輸入和輸出字串之間需要插入的,不是對(duì)思想的編程模型,而是基本單元構(gòu)成的網(wǎng)絡(luò),可以根據(jù)輸入輸出調(diào)整參數(shù)的網(wǎng)絡(luò)。 盡可能地,這個(gè)網(wǎng)絡(luò)需要“獨(dú)自完成一切”,這恰恰需要許多人工的技巧。
聯(lián)結(jié)主義的算法重構(gòu)
收到John Hopfield工作的啟發(fā),他提出通過(guò)賦予每個(gè)神經(jīng)元獨(dú)立更新其價(jià)值的能力來(lái)修訂Perceptron模型,物理學(xué)家Terry Sejnowski和英國(guó)心理學(xué)家Geoff Hinton將在1980年代早期發(fā)展用于神經(jīng)網(wǎng)絡(luò)的新的多層架構(gòu)(成為Boltzmann機(jī)器),設(shè)計(jì)者是Nettalk,一個(gè)具有三層神經(jīng)元和18000個(gè)突觸的系統(tǒng),能夠?qū)⑽谋巨D(zhuǎn)換為發(fā)聲的句子。
但這次復(fù)興的真正亮點(diǎn)是算法的設(shè)計(jì),即隨機(jī)梯度反向傳播(《反向傳播》),這使得計(jì)算系數(shù)權(quán)重成為可能。除了對(duì)Minsky和Papert(1969)的評(píng)論之外,作者還表示,當(dāng)它提供多個(gè)層次時(shí),可以簡(jiǎn)單地訓(xùn)練一個(gè)神經(jīng)元網(wǎng)絡(luò);這些附加的神經(jīng)元層可以用來(lái)學(xué)習(xí)非線性函數(shù)。該算法通過(guò)獲取網(wǎng)絡(luò)損失函數(shù)的導(dǎo)數(shù)并“傳播”誤差來(lái)修正基礎(chǔ)網(wǎng)絡(luò)(網(wǎng)絡(luò)下層)的系數(shù),在接近控制論機(jī)器的精神中,輸出誤差被“傳播”到輸入。
通過(guò)一種通用算法來(lái)優(yōu)化所有類型的神經(jīng)網(wǎng)絡(luò),20世紀(jì)80年代和90年代是一個(gè)非凡的創(chuàng)造性時(shí)期,它記錄了聯(lián)結(jié)主義的更新。最初成功之一的例子是Yann Lecun創(chuàng)造的,他對(duì)AT&T貝爾實(shí)驗(yàn)室(Lecun等人,1989)的郵政編碼進(jìn)行了識(shí)別,卷積技術(shù)就是AT&T貝爾實(shí)驗(yàn)室發(fā)明出來(lái)的。通過(guò)使用美國(guó)郵政服務(wù)數(shù)據(jù)庫(kù),他設(shè)法帶動(dòng)多層網(wǎng)絡(luò)來(lái)識(shí)別包裹上的郵政編碼。
他這種方法的成功,正在成為神經(jīng)網(wǎng)絡(luò)在銀行業(yè)(支票金額)和郵政行業(yè)中首次廣發(fā)的工業(yè)用途之一。然后遵循一系列建議來(lái)適應(yīng)更多隱藏層,使地圖鏈接(編碼器)復(fù)雜化,使優(yōu)化功能(RELU)多樣化,在網(wǎng)絡(luò)層中集成儲(chǔ)存器(循環(huán)網(wǎng)絡(luò)和LSTM),根據(jù)網(wǎng)絡(luò)的無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)(信念網(wǎng)絡(luò))等部分進(jìn)行混合 (Kurenkov, 2015 )。用非常具有創(chuàng)意的方式,測(cè)試許多以不同方式布線神經(jīng)元之間關(guān)系的架構(gòu)來(lái)探索其屬性。
“它不是很突出,但效率更高!”
雖然這些算法為當(dāng)今深度學(xué)習(xí)的大多數(shù)方法提供了基礎(chǔ),但它們的發(fā)明并不是立即成功的。從1995年到2007年,機(jī)構(gòu)支持變得非常罕見(jiàn),論文在會(huì)議上被拒絕,取得的成果仍然有限。 計(jì)算機(jī)視覺(jué)研究人員說(shuō):“他們經(jīng)歷了一次寒冬,實(shí)際上,在當(dāng)時(shí),沒(méi)有人可以運(yùn)行這些機(jī)器。世界上有五個(gè)實(shí)驗(yàn)室,他們知道,我們跑不了這些機(jī)器。” 圍繞在杰夫·辛頓,亞·萊卡和約書(shū)亞·本焦周圍的技術(shù)研究者們,形成了一個(gè)孤立卻團(tuán)結(jié)的小團(tuán)體,他們主要是給加拿大高級(jí)研究所(CIFAR)提供支持。他們的處境變得比1992年的原始技術(shù)學(xué)習(xí)更加困難了,支持向量機(jī)(SVM) - 也被稱為“核方法”,是非常有效的小數(shù)據(jù)集。已經(jīng)處于人工智能禁令之下,聯(lián)結(jié)主義者們發(fā)現(xiàn)自己已經(jīng)處于人工智能學(xué)習(xí)社區(qū)的邊緣。
“那時(shí),如果你說(shuō)你正在做一個(gè)神經(jīng)元網(wǎng)絡(luò),你的論文就無(wú)法順利通過(guò)。直到2010年,就像這樣,一直存在。我記得,LeCun,我們作為被邀請(qǐng)的老師去了實(shí)驗(yàn)室,我們不得不全身心投入和他一起吃飯。沒(méi)有人想去那里。我向你發(fā)誓這是很倒霉的事情。他哭了,因?yàn)樗恼撐谋籆VPR拒絕了,他的東西不夠潮流,也不性感,所以大家會(huì)去看時(shí)髦的東西。他們需要掌握核心,SVM的事情。所以LeCun他說(shuō):“我有一個(gè)10層的神經(jīng)網(wǎng)絡(luò),它們是并行的。” 他們對(duì)他說(shuō),“真的假的?你確定嗎?有新東西嗎?“因?yàn)楫?dāng)你提出一個(gè)神經(jīng)網(wǎng)絡(luò),這次它有10層,但它沒(méi)有比別機(jī)器的更好。這就很糟糕了!所以他說(shuō),“是的(新的),但沒(méi)有足夠的數(shù)據(jù)!”
在與神經(jīng)網(wǎng)絡(luò)的少數(shù)推動(dòng)者相對(duì)立的指責(zé)中,一個(gè)個(gè)論證接連不斷地被打翻。
“他們(那些SVM的支持者)總是說(shuō),”你的東西不是很突出,它只是一瞬間!“另一位研究員說(shuō)。他們口中只有那個(gè)。我們提交了論文,然后他們說(shuō):“它不夠突出不夠優(yōu)秀!” 他們都是數(shù)學(xué)很好的人,癡迷于優(yōu)化,在他們的生活中從沒(méi)有見(jiàn)過(guò)這個(gè)東西!多年來(lái),我們都有接觸。所以說(shuō),我們可以完全不用在意他們。”
由于其非線性構(gòu)成,神經(jīng)網(wǎng)絡(luò)無(wú)法保證在損失函數(shù)的優(yōu)化階段,可以找到整體最小值;它可以很好地聚集到局部最小值。在2005 - 2008年,真正的政策是由一小群的“神經(jīng)元的陰謀”的開(kāi)始的(馬科夫,2015年,第150頁(yè)),為了說(shuō)服機(jī)器學(xué)習(xí)社區(qū),他們也是“<凸>炎癥”流行病的患者(LeCun,2007)。所以在2007年,他們的論文被NIPS拒絕,他們組織了一個(gè)衛(wèi)星會(huì)議,把與會(huì)者用汽車送到溫哥華凱悅酒店,捍衛(wèi)了由SVM最早提出的方法。 Yann LeCun演講說(shuō):“誰(shuí)害怕非凸函數(shù)?” 通過(guò)研究了幾個(gè)結(jié)果后得出,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)要比SVM好,他認(rèn)為,線性模型對(duì)理論要求的過(guò)于接近,無(wú)法想象創(chuàng)新的計(jì)算架構(gòu),并關(guān)注其他優(yōu)化方法。當(dāng)然,非常簡(jiǎn)單的隨機(jī)梯度下降算法并不能保證可以收斂到整體的最小值,但是“當(dāng)經(jīng)驗(yàn)證據(jù)表明,如果你沒(méi)有理論上的保證,它只是意味著該理論是不合適的……如果因此,你就不得不將凸性拋出窗外,那太好了! (LeCun,2017,11'19)。
“這些創(chuàng)意總是很瘋狂”,這場(chǎng)爭(zhēng)議的一位參與者評(píng)論道。“最初,對(duì)于這群人,這群有創(chuàng)意的人,這是一場(chǎng)騷動(dòng)。然后直到那些不在人工智能圈子的人的到來(lái)。在優(yōu)化方面,人們已經(jīng)花了十年時(shí)間來(lái)尋找一種更巧的凸方法,來(lái)解決復(fù)雜的問(wèn)題,但這是非常昂貴的(算力上)。這并不枯燥,但完全干涸了,這方面有成千上萬(wàn)的論文,當(dāng)大量的數(shù)據(jù)到來(lái)時(shí),所有的機(jī)器都不工作了!”
將世界轉(zhuǎn)變?yōu)橄蛄?/p>
因此,聯(lián)結(jié)主義者將通過(guò)實(shí)驗(yàn)室的新數(shù)據(jù)流來(lái)選擇最佳計(jì)算方法,從而改變關(guān)于凸性的科學(xué)爭(zhēng)議。為了面對(duì)大數(shù)據(jù),用于預(yù)測(cè)的機(jī)器的架構(gòu)將被轉(zhuǎn)變。這與傳統(tǒng)的小型的校準(zhǔn)的高度人工的數(shù)據(jù)集完全不同。因?yàn)椋诖舜螤?zhēng)辯中,以大數(shù)據(jù)為依托,社會(huì)和網(wǎng)絡(luò)服務(wù)的發(fā)展產(chǎn)生了一些新的工程問(wèn)題,如垃圾郵件的檢測(cè),用于推薦的協(xié)同過(guò)濾技術(shù),股票預(yù)測(cè),信息搜索或社交網(wǎng)絡(luò)分析。
在這個(gè)工業(yè)前提下,新的數(shù)據(jù)科學(xué)的統(tǒng)計(jì)方法借用并開(kāi)發(fā)了機(jī)器學(xué)習(xí)技術(shù)(貝葉斯,決策樹(shù),隨機(jī)森林等)。但是,很顯然,面對(duì)數(shù)據(jù)的量和異質(zhì)性特點(diǎn),更準(zhǔn)確說(shuō)是“驗(yàn)證”技巧,有必要使用更多的“試探性”和歸納的方法(杜克,1962年)。因此,在與行業(yè)接觸中(最初是AT&T,然后是谷歌,F(xiàn)acebook和百度),神經(jīng)網(wǎng)絡(luò)的陰謀者將遇到問(wèn)題:計(jì)算能力和數(shù)據(jù)上的,這些問(wèn)題給他們機(jī)會(huì)去展示他們的機(jī)器的潛力,并將他們的觀點(diǎn)加諸科學(xué)爭(zhēng)議。他們將引出一個(gè)新的判準(zhǔn):當(dāng)這些預(yù)測(cè)適用于“真實(shí)”世界時(shí),預(yù)測(cè)是有效的。
新聯(lián)結(jié)主義者首先要求在爭(zhēng)辯中加入自己的術(shù)語(yǔ)。他們解釋說(shuō),有必要區(qū)別“淺層”架構(gòu)(如SVM)的“寬度”與神經(jīng)元分層架構(gòu)的“深度”。他們可以證明深度優(yōu)于寬度:當(dāng)數(shù)據(jù)和尺寸增加時(shí),只有深度是可計(jì)算的并且可以設(shè)法捕獲數(shù)據(jù)特征的多樣性。所有凸(函數(shù)),因?yàn)樗麄儯琒VM不能給出大型數(shù)據(jù)集一個(gè)好的結(jié)果:維數(shù)增長(zhǎng)太快,并無(wú)法估量,不好的對(duì)預(yù)測(cè)產(chǎn)生了相當(dāng)大擾動(dòng),非線性方法的線性化的解,導(dǎo)致系統(tǒng)失去學(xué)習(xí)復(fù)雜表征的能力(Bengio和LeCun,2007)。
聯(lián)結(jié)主義者設(shè)法說(shuō)服人們,最好是犧牲計(jì)算的可理解性,犧牲嚴(yán)格控制的優(yōu)化,換取對(duì)新的數(shù)據(jù)的復(fù)雜性更好的感知。隨著訓(xùn)練數(shù)據(jù)量的急劇增加,存在有許多局部最小值。在機(jī)器學(xué)習(xí)這種緊張爭(zhēng)辯的核心中,一個(gè)潛臺(tái)詞是無(wú)所不在:它實(shí)驗(yàn)室里,模型才是線性的,世界,“真實(shí)世界”,由之產(chǎn)生的數(shù)據(jù)圖像,聲音,文字和文本的數(shù)字化,它是非線性的。它是嘈雜的,信息是冗余的,數(shù)據(jù)流沒(méi)有被歸類為齊次變量的屬性,也并不清晰和易于構(gòu)造,有些樣本甚至是錯(cuò)誤的。
“一個(gè)AI”,Yoshua Bengio等人寫道(2013年),“必須從根本上了解我們周圍的世界,而我們認(rèn)為,這是可以實(shí)現(xiàn)的。這就是為什么<深層>架構(gòu)比<淺層>架構(gòu)更容易計(jì)算和更具“表現(xiàn)力”的原因(Lecun和Bengio,2007)。降低可理解性,讓計(jì)算器捕捉到更復(fù)雜的世界,關(guān)于凸性的爭(zhēng)論表明,歸納性機(jī)器的產(chǎn)出絕不是憑天真的經(jīng)驗(yàn), 它是一個(gè)大量工作的結(jié)果, 有必要說(shuō)服他們重新看待計(jì)算器和世界之間的關(guān)系。
此外,為了使這些數(shù)據(jù)能運(yùn)用到科學(xué)爭(zhēng)辯中,有必要從源頭上增加科研數(shù)據(jù)集的大小。
在1988年關(guān)于字符識(shí)別的文章中,Yann LeCun使用了9,298個(gè)手寫體的郵政編碼。自2012年以來(lái)就被用在字符識(shí)別的數(shù)據(jù)庫(kù)mnist包括了 60, 000個(gè)標(biāo)記為黑白的圖像, 每個(gè)28像素。它已經(jīng)證明了神經(jīng)網(wǎng)絡(luò)的有效性,但比起其他技術(shù),比如SVM,還是不能贏得支持。另外,科學(xué)界將利用互聯(lián)網(wǎng)的優(yōu)勢(shì),來(lái)產(chǎn)生更大的數(shù)據(jù)集和構(gòu)建機(jī)器學(xué)習(xí)任務(wù)。這種系統(tǒng)的,廣泛的,盡可能基礎(chǔ)的數(shù)字?jǐn)?shù)據(jù)捕獲,讓Hubert Dreyfus的格言更具意義,“世界上最好的模型就是世界本身” (dreyfus, 2007, p1140)。正如人工智能的異端們長(zhǎng)期倡導(dǎo)的那樣,代表性存在于世界的數(shù)據(jù)中,而不是計(jì)算器的內(nèi)部。(布魯克斯,1988年)。
IMAGEnet的誕生,在這方面堪稱典范。
該數(shù)據(jù)集用于文章最初提出的挑戰(zhàn),由LI Feifei最初建立(Deng et al,2009)。該數(shù)據(jù)庫(kù)目前包括1400萬(wàn)個(gè)圖像,其元素已被手動(dòng)標(biāo)注了21841個(gè)類,分類基于自動(dòng)語(yǔ)言處理中另一個(gè)經(jīng)典數(shù)據(jù)庫(kù)Wordnet的層次結(jié)構(gòu)。為了完成這項(xiàng)巨大的工作(鑒定各圖像,圖像的區(qū)別在于圖中由人工繪制的方塊),有必要通過(guò)Mechanical Turk, 將眾多的任務(wù)交給成千上萬(wàn)的標(biāo)注器。(su et al, 2012; jaton, 2017)。從9298 到1400萬(wàn)個(gè)數(shù)據(jù),數(shù)據(jù)量和數(shù)據(jù)維度天翻地覆。同時(shí)伴隨的還有計(jì)算器功耗的指數(shù)增長(zhǎng),這將由并行化計(jì)算和GPU的發(fā)展解決 (圖 6)。
2009年, 顯卡上實(shí)現(xiàn)了反向傳播算法, 從而神經(jīng)網(wǎng)絡(luò)的速度提高了 70倍 (raina et al, 2009)。今天有 5 000個(gè)樣本的分類學(xué)習(xí)很常見(jiàn),但這很快就會(huì)變成幾百萬(wàn)個(gè)樣本的數(shù)據(jù)集。數(shù)據(jù)集的指數(shù)增長(zhǎng)同樣伴隨著計(jì)算器架構(gòu)的改變:網(wǎng)絡(luò)中的神經(jīng)元數(shù)量每2.4年翻一番(Goodfellow et al,2016,p27)。
但是,聯(lián)結(jié)主義者還將采用另一種數(shù)據(jù)轉(zhuǎn)換,通過(guò)執(zhí)行稱為“嵌入”的操作將它們粒化并將其轉(zhuǎn)換為可計(jì)算的格式。神經(jīng)網(wǎng)絡(luò)要求計(jì)算器的輸入采用向量的形式。因此,世界必須用純數(shù)字向量的表示形式進(jìn)行編碼。某些對(duì)象 (如圖像) 自然分解為向量, 而其他對(duì)象需要 "嵌入" 矢量空間, 然后才有可能通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算或分類。這一技術(shù)的原型來(lái)自文本。為了將單詞輸入神經(jīng)網(wǎng)絡(luò), word2vec 技術(shù) 將單詞"嵌入" 到一個(gè)向量空間中, 并測(cè)量它與語(yǔ)料庫(kù)中其他單詞的距離 (mikolov et al, 2013)。因此,這些詞在數(shù)百維的空間中有了位置。
這種表示的優(yōu)點(diǎn)在于這種轉(zhuǎn)換可提供許多操作。在這個(gè)空間中位置接近的兩個(gè)詞在語(yǔ)義上也是相似的,我們說(shuō)這種表示是分布式的:“appartement”的向量[-0.2,0.3,-4.2,5.1 ...]會(huì)接近“home”[-0.2,0.3,-4.0,5.1 ...]。語(yǔ)義接近度不是從符號(hào)分類推導(dǎo)出來(lái)的,而是從文本材料的所有詞的統(tǒng)計(jì)鄰域推導(dǎo)出來(lái)的。因此,這些向量可以有利地替換它們所代表的單詞以解決復(fù)雜的任務(wù),例如文檔的自動(dòng)分類,翻譯或自動(dòng)摘要。因此,連接主義機(jī)器的設(shè)計(jì)者正在進(jìn)行非常人工的操作,將數(shù)據(jù)轉(zhuǎn)換到另一個(gè)系統(tǒng)。如果說(shuō)語(yǔ)言處理首創(chuàng)性地將單詞“嵌入”向量空間,那么今天我們正在目睹嵌入的全過(guò)程,該過(guò)程逐步擴(kuò)展到所有應(yīng)用程序領(lǐng)域:有了graph2vec,網(wǎng)絡(luò)成為了向量空間中簡(jiǎn)單的點(diǎn),paragraph2vec ——文本,movie2vec——電影,sense2vec——單詞含義,mol2vec——分子結(jié)構(gòu),等等。用Yann LeCun的話說(shuō),聯(lián)結(jié)主義機(jī)器設(shè)計(jì)者的目標(biāo)是將世界變成一個(gè)向量(world2vec)。
從模型到架構(gòu)
因此,必須從計(jì)算器中扣除現(xiàn)在由數(shù)據(jù)多樣性和數(shù)據(jù)量帶來(lái)的真實(shí)的波動(dòng)。 因此,神經(jīng)架構(gòu)的設(shè)計(jì)者將在計(jì)算器中事先“有意”地插入明確的規(guī)則,以便預(yù)先識(shí)別,表征或聚合數(shù)據(jù)。
“這背后有一種力量,”該領(lǐng)域的一位研究人員說(shuō),“ 有一股浪潮,數(shù)據(jù)浪潮,一股巨大的帶走一切的浪潮。 這完全打破了人類建模的所有思想潮流。 我在多個(gè)領(lǐng)域工作過(guò),應(yīng)用,語(yǔ)音,寫作,文本,社交數(shù)據(jù)等,每次我都是做一樣的事情。 人們?cè)幸粋€(gè)時(shí)期想將知識(shí)放進(jìn)他的系統(tǒng)中,這種想法已被掃地出門。系統(tǒng)性的! 這已經(jīng)持續(xù)了三十年,逐個(gè)領(lǐng)域。 就是這樣。 你知道,這很有意思。 與那些一生都相信社會(huì)主義政權(quán)然后崩潰的人一樣......這是同樣的事情。”
從2000年代末開(kāi)始,以一種非常不安定的心情,看到一種沒(méi)有理論做依托的技術(shù),將取代多年來(lái)耐心進(jìn)行的建模工作,并連續(xù)地征服信號(hào),聲音,圖像和自動(dòng)翻譯的社區(qū)。一個(gè)領(lǐng)域接著一個(gè)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)的計(jì)算贏在轉(zhuǎn)換到操作網(wǎng)絡(luò)中的權(quán)重分布的效率,這是以前科學(xué)活動(dòng)的主要焦點(diǎn):特征工程和模式識(shí)別。這些技術(shù)包括“手動(dòng)”編寫算法以識(shí)別初始數(shù)據(jù)的特征。該提取過(guò)程通過(guò)簡(jiǎn)化特征與問(wèn)題或目的之間的關(guān)系來(lái)促進(jìn)學(xué)習(xí)。日益強(qiáng)大的自動(dòng)化將允許統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)獲得計(jì)算器內(nèi)部建模器的功能(見(jiàn)上文)。但神經(jīng)網(wǎng)絡(luò)正在激化這一運(yùn)動(dòng),從特征提取過(guò)程轉(zhuǎn)向所謂的端到端過(guò)程:從“原始”數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)向樣本“標(biāo)記”。
此舉的一個(gè)示例是本文開(kāi)頭縮略圖中使用的卷積原理。計(jì)算機(jī)視覺(jué)社區(qū)已經(jīng)開(kāi)發(fā)了非常精細(xì)的提取方法,以識(shí)別圖像中的邊緣,角落,對(duì)比度過(guò)渡和興趣點(diǎn),并將它們與詞袋相關(guān)聯(lián)。這些操作現(xiàn)在由給定的卷積網(wǎng)絡(luò)的特定結(jié)構(gòu)隱式支持: 將圖像鋪成小的像素切片, 這些像素被分配到分離的神經(jīng)元片段, 然后再將它們?cè)诹硪粚咏M裝。而不是建模一只犀牛, 或概括像素塊的特點(diǎn)來(lái)預(yù)測(cè)犀牛的形狀, 幾千張犀牛照片在圖像中移動(dòng), 身體的一部分被切斷, 從角度和不同的位置。
相比不知道如何處理縮放,轉(zhuǎn)換或旋轉(zhuǎn)問(wèn)題的預(yù)處理程序,這能更好地描繪概念 "犀牛" 對(duì)神經(jīng)元的影響。數(shù)據(jù)與其特征的關(guān)系不是需要的, 而是獲得的。神經(jīng)網(wǎng)絡(luò)做很好的提取特征, 邊緣往往被第一層神經(jīng)元 "看到", 角落是另一個(gè), 元素更復(fù)雜的形式在最后, 但這些操作, 沒(méi)有被明確實(shí)施, 這是網(wǎng)絡(luò)在體系結(jié)構(gòu)約束下出現(xiàn)的效應(yīng)。
因此,計(jì)算“參數(shù)”的預(yù)處理已轉(zhuǎn)變?yōu)橛?jì)算器的“超參數(shù)”的定義。人工建模的部分越少,歸納機(jī)器的結(jié)構(gòu)就越復(fù)雜。完全連接的神經(jīng)網(wǎng)絡(luò)什么都不產(chǎn)生。因此有必要對(duì)其進(jìn)行雕刻,以使其架構(gòu)適應(yīng)委托給它的學(xué)習(xí)任務(wù):隱藏層數(shù),每層神經(jīng)元數(shù),連接方式,激活函數(shù)選擇,初始系數(shù),目標(biāo)函數(shù)的選擇,向模型顯示所有學(xué)習(xí)數(shù)據(jù)的次數(shù)等。這些設(shè)置可能會(huì)通過(guò)試錯(cuò)調(diào)整。
例如,剪枝(pruning),包括移除神經(jīng)元以查看是否會(huì)改變網(wǎng)絡(luò)的性能,丟棄(dropout), 在學(xué)習(xí)階段, 不發(fā)送信號(hào)輸入層中的一些神經(jīng)元或隨機(jī)隱藏的層, 以避免過(guò)擬合(overfitting) 。這些方法、技巧和工藝規(guī)定為社區(qū)的許多討論提供了素材, 并保持了工藝的特征 (domingos, 2012年)。面對(duì)特征提取的數(shù)學(xué)改進(jìn),神經(jīng)網(wǎng)絡(luò)的生成因而可以被看作黑客的工作,看作一個(gè)有天賦的程序員練習(xí)黑魔法一般的技能的活動(dòng)。
“他們,也就是那些與Hinton一起的人,采取了一些措施來(lái)完成所有功能的提取以獲取原始圖像。這很瘋狂,因?yàn)樗侵噩F(xiàn)的一件事,但是以探索的方式! 他們制造了一個(gè)難以想象的復(fù)雜系統(tǒng),他們能夠讓它們發(fā)揮作用。 你從這些人那里拿論文來(lái)看,我很害怕,我太老了! 伙計(jì)們,他們跟你說(shuō)話,好像他們是在編程。 他們沒(méi)有用對(duì)我有意義的三個(gè)方程進(jìn)行描述。
但在5行里,他們會(huì)向你描述一個(gè)超復(fù)雜的東西。 所以,這意味著他創(chuàng)建了一個(gè)架構(gòu),在這個(gè)架構(gòu)中,他將100個(gè)元素彼此放在一起,并且每個(gè)元素要連接它們,你有十種可能的選擇。 他和它游戲,發(fā)動(dòng)它。 這是一個(gè)黑客,這是一個(gè)黑客的工作!”
因此,超參數(shù)是一個(gè)可解釋性的新要求可以活動(dòng)的地方。這些數(shù)據(jù)不是“自己說(shuō)話”,而是受制于無(wú)法從數(shù)據(jù)中學(xué)習(xí)的架構(gòu),現(xiàn)在集中了大部分的AI研究。在NIPS會(huì)議上,有一篇值得注意的論文,它提出了一個(gè)新架構(gòu),就像對(duì)行星命名一樣,研究人員進(jìn)行了系統(tǒng)地命名,就像一群好奇的動(dòng)物。通過(guò)從模型轉(zhuǎn)向架構(gòu),有了表達(dá)研究人員創(chuàng)造性的地方,創(chuàng)造性也是他們的設(shè)計(jì)所需要的技能和品質(zhì)。
這還為新的數(shù)據(jù)科學(xué)家,黑客和程序員提供開(kāi)放且易于操作的工具,以進(jìn)入以前非常封閉的AI生產(chǎn)者領(lǐng)域。通過(guò)改變預(yù)測(cè)機(jī)器的架構(gòu),聯(lián)結(jié)主義者推動(dòng)了人工智能的社交世界:首先,因?yàn)椤罢鎸?shí)的”數(shù)據(jù)集,特別是來(lái)自數(shù)字行業(yè)的數(shù)據(jù),已經(jīng)(部分)取代了學(xué)術(shù)實(shí)驗(yàn)室的“玩具”數(shù)據(jù)集,還因?yàn)椋a(chǎn)聯(lián)結(jié)主義機(jī)器所需的專業(yè)知識(shí)是軟件開(kāi)發(fā)的技能,但不是前幾代AI需要的開(kāi)發(fā)技能。
歸納的工作
智能機(jī)器的發(fā)展軌跡剛剛相繼在四個(gè)背景中進(jìn)行了總結(jié),顯示了它們架構(gòu)的深刻變革。 這些設(shè)備的世界,計(jì)算器和視野都經(jīng)過(guò)了深刻的改造,這些組件之間的聯(lián)系正在塑造那些提供與智能,推理和預(yù)測(cè)明顯不同的定義的設(shè)備。
然而,整體動(dòng)態(tài)出現(xiàn)在這個(gè)動(dòng)蕩歷史中。 計(jì)算并制造心靈的唯物主義項(xiàng)目今天已經(jīng)走上了堅(jiān)定的聯(lián)結(jié)主義道路。 目前成功的歸納機(jī)器只不過(guò)是一個(gè)術(shù)語(yǔ)或已找到的一個(gè)“解決方案”。 盡管他們的能力很強(qiáng),但深度學(xué)習(xí)技術(shù)遠(yuǎn)遠(yuǎn)不能滿足一般人工智能項(xiàng)目的要求,就像“符號(hào)主義者”一直以來(lái)的指責(zé)。 但是在本文敘述的軌跡中特別指出, 如果不做大量雄心勃勃的工作來(lái)改變兩者之間的平衡, 這種預(yù)測(cè)性演算的歸納重組就無(wú)法實(shí)現(xiàn)。
在計(jì)算器的輸入上,首先,世界的構(gòu)成經(jīng)歷了原子化和顆粒化的深刻運(yùn)動(dòng)。數(shù)據(jù)封裝組成的關(guān)系,全局樣式等的許多規(guī)律,它們必須由計(jì)算器,而不是程序員來(lái)識(shí)別,因此,歸納工作的第一個(gè)特征是以盡可能最基本的形式將數(shù)據(jù)引入系統(tǒng)數(shù)據(jù):像素,而非形式;頻率,而非音素;字母,而非字;點(diǎn)擊,而非用戶聲明;行為,而非類別......(Cardon,2017)。數(shù)據(jù)是否是異質(zhì)的,冗余的,常常不正確的,這些都不再是問(wèn)題,每一個(gè)新的信號(hào)都可以作為構(gòu)成聯(lián)結(jié)主義機(jī)器世界輸入的矩陣的新列被添加。
這一整體變動(dòng)的第二個(gè)特征是計(jì)算器活動(dòng)的先驗(yàn)?zāi)P偷南Вㄟ@種現(xiàn)象通常被描述為“理論的終結(jié)”(Anderson,2008)),有利于模型的概率在假設(shè)空間中越來(lái)越大,當(dāng)考慮到數(shù)據(jù)的變化維度時(shí),模型的更激進(jìn)的分布散布在神經(jīng)元網(wǎng)絡(luò)的多個(gè)層。這是早期人工智能的巨大野心,用于模擬推理,同時(shí)為計(jì)算機(jī)科學(xué)研究做出重大貢獻(xiàn)。
聯(lián)結(jié)主義機(jī)器已經(jīng)將人工智能的挑戰(zhàn)從解決抽象問(wèn)題、正統(tǒng)認(rèn)知科學(xué)的目標(biāo),轉(zhuǎn)變?yōu)榇罅棵舾行盘?hào)中的特征歸納。歸納生成工作的第二個(gè)特點(diǎn)是實(shí)現(xiàn)了顛覆AI計(jì)算系統(tǒng)的條件,以輸出程序而不是輸入程序。盡管如此,神經(jīng)網(wǎng)絡(luò)并沒(méi)有使“理論”消失。他們只是將其轉(zhuǎn)向計(jì)算器架構(gòu)的超參數(shù),同時(shí)讓“理論”這一概念少了一些“符號(hào)主義”的含義。
這一問(wèn)題使預(yù)測(cè)過(guò)程的理解和可解釋性上的挑戰(zhàn)尤其敏感 (burrel, 2016;cardon, 2015)。由于許多工作需要在復(fù)雜的系統(tǒng)上完成,毫無(wú)疑問(wèn), 我們必須學(xué)會(huì)使可感知的, 適當(dāng)?shù)暮涂梢傻男问降慕>哂懈嗟膶傩?(線性,可讀性、完整性、經(jīng)濟(jì)性等)。在這些屬性中,我們使用了——非常 "符號(hào)主義" 的——社會(huì)科學(xué)中模型的<可理解性>的概念。
第三個(gè)變動(dòng)與計(jì)算器的視野有關(guān)。符號(hào)主義AI設(shè)計(jì)出的智能機(jī)器給予了理性和邏輯的預(yù)期目標(biāo) – 內(nèi)植于計(jì)算的理性,這讓AI的推動(dòng)者認(rèn)為,機(jī)器是“自主的”在聯(lián)結(jié)主義模型中,計(jì)算的視野不屬于計(jì)算器,而是屬于給了它有標(biāo)注樣本的世界。輸出,由人類產(chǎn)生,符號(hào)化和加入了偏差的輸出,這些輸出組成了聯(lián)結(jié)主義機(jī)器最有價(jià)值的數(shù)據(jù)之一。歸納產(chǎn)生工作的第三個(gè)特點(diǎn)是通過(guò)更新控制論機(jī)器反射的自適應(yīng)預(yù)期來(lái)建立對(duì)世界本身的預(yù)測(cè)性能: 系統(tǒng)與環(huán)境一起計(jì)算安裝新型的反饋循環(huán)。總而言之,面對(duì)這些越來(lái)越具創(chuàng)新的新機(jī)器,我們還不夠富有想象力。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4764瀏覽量
100542 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8864瀏覽量
137304 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5493瀏覽量
120980
原文標(biāo)題:學(xué)界 | Yan LeCun強(qiáng)推的AI簡(jiǎn)史:兩大流派世紀(jì)之爭(zhēng),神經(jīng)網(wǎng)絡(luò)華麗回歸
文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論