在2018清潔發(fā)展國際融資論壇上,北京交通大學(xué)人工智能研究院常務(wù)副院長、教授于劍先生從專業(yè)角度回顧了人工智能的發(fā)展歷程,并介紹了深度學(xué)習(xí)的適用范圍和所面臨的問題。他指出,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域最引人注目的研究方向,但沒有任何一種算法可以解決機(jī)器學(xué)習(xí)所有的應(yīng)用。
深度學(xué)習(xí)算法的分類
深度學(xué)習(xí)在早期被稱為神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種特殊的學(xué)習(xí)方式,在神經(jīng)網(wǎng)絡(luò)領(lǐng)域,人們將學(xué)習(xí)定義為“基于經(jīng)驗(yàn)數(shù)據(jù)的函數(shù)估計(jì)問題”。需要指出,這樣的學(xué)習(xí)定義雖然非常片面,但對于神經(jīng)網(wǎng)絡(luò)而言已經(jīng)夠用了。如此一來,如何構(gòu)造函數(shù),并應(yīng)用經(jīng)驗(yàn)數(shù)據(jù)將其估計(jì)出來,就成了神經(jīng)網(wǎng)絡(luò)面臨的首要問題。
學(xué)習(xí)算法的分類有很多種。一種分類方式是將學(xué)習(xí)算法分為傻瓜型學(xué)習(xí)算法與專家型學(xué)習(xí)算法。所謂傻瓜型學(xué)習(xí)算法,就是任何人使用得到的結(jié)果都差別不大的學(xué)習(xí)算法。所謂專家型學(xué)習(xí)算法,就是專家與普通人使用得到的結(jié)果差別巨大的學(xué)習(xí)算法,每個(gè)人得出的結(jié)果很難一致。當(dāng)然,中間還有一些處于兩者之間的學(xué)習(xí)算法,既不是純傻瓜型的也是不純專家型的。
另一種學(xué)習(xí)算法分類,是黑箱算法和白箱算法。所謂黑箱算法,是指使用者難以明白學(xué)習(xí)算法學(xué)到的知識,特別是其學(xué)習(xí)到的知識難以解釋。所謂白箱算法,是指使用者容易明白學(xué)習(xí)算法學(xué)到的知識,特別是其學(xué)習(xí)到的知識可以解釋清楚。
有了以上四個(gè)概念之后,我們就可以回顧早期的神經(jīng)網(wǎng)絡(luò)是如何發(fā)展成今天的深度學(xué)習(xí)的了。
早期神經(jīng)網(wǎng)絡(luò)無法解決非線性問題
神經(jīng)網(wǎng)絡(luò)第一個(gè)成熟算法是線性感知器算法,該算法是白箱、傻瓜型算法,特點(diǎn)是節(jié)點(diǎn)為恒同映射,不同層次節(jié)點(diǎn)間的關(guān)系是線性組合關(guān)系,優(yōu)點(diǎn)是解釋性好,如線性可分的時(shí)候,可以證明迭代有限步就收斂。這個(gè)算法在當(dāng)時(shí)得到了很大的支持,拿到了大批基金。
但很遺憾,在1969年,Minsky與Papert提出的一個(gè)著名的反例——異或問題,給了線性感知器算法致命一擊。世界的問題大多是非線性問題,而線性感知器算法連非線性問題中最簡單的“異或問題”都解決不了,由此可以推斷其實(shí)際用處不大。從此以后的10多年時(shí)間里,在國際上,無論是東方還是西方,無論是前蘇聯(lián)還是日本、美國,看到神經(jīng)網(wǎng)絡(luò)都視之為騙子,不再給予支持,這也直接導(dǎo)致了神經(jīng)網(wǎng)絡(luò)第一個(gè)冬天的到來。
多層前饋神經(jīng)網(wǎng)絡(luò)的崛起與失敗
早期的神經(jīng)網(wǎng)絡(luò)不成功是因?yàn)槭蔷€性的,如果改成非線性是不是好一點(diǎn)呢?到1982年以后,Hopfield發(fā)了好幾篇文章,證明了非線性網(wǎng)絡(luò)的有用性。這時(shí)候的神經(jīng)網(wǎng)絡(luò)已經(jīng)是典型的黑箱、專家型算法了。
多層前饋神經(jīng)網(wǎng)絡(luò)非常成功的應(yīng)用在了郵政編碼的識別中。20世紀(jì)80年代是美國郵政最發(fā)達(dá)的年代,當(dāng)時(shí)通訊幾乎全都是紙質(zhì)的,有大量的信件需要發(fā)送,工作量特別大。人們希望用機(jī)器代替,就用了郵政編碼的自動(dòng)分撿系統(tǒng),可以做到三分之二正確識別,剩下三分之一拒識的由人分撿,這樣大大減輕了工作量。
這時(shí)候神經(jīng)網(wǎng)絡(luò)有很大的改變,取得了很大的進(jìn)展,節(jié)點(diǎn)使用非線性函數(shù),訓(xùn)練時(shí)間長,一般為三層:輸入層、隱層、輸出層。主要是證明了神經(jīng)網(wǎng)絡(luò)的萬有逼近定理:“如果一個(gè)隱層包含足夠的多神經(jīng)元,多層前饋神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任意預(yù)定的連續(xù)函數(shù)”。在神經(jīng)網(wǎng)絡(luò)采用的學(xué)習(xí)定義下,該定理證明了神經(jīng)網(wǎng)絡(luò)的萬能性。由此,當(dāng)時(shí)人們甚至認(rèn)為神經(jīng)網(wǎng)絡(luò)可以無所不能。據(jù)說,1988年IJCNN(國際神經(jīng)網(wǎng)絡(luò)聯(lián)合會(huì)議)曾經(jīng)貼出一個(gè)瘋狂的標(biāo)語,稱:“人工智能已死,神經(jīng)網(wǎng)絡(luò)萬歲”。
但是,當(dāng)人瘋狂的時(shí)候就要挨揍了。如果有其他算法比神經(jīng)網(wǎng)絡(luò)性能好一點(diǎn),解釋性強(qiáng)一些,就一定能將神經(jīng)網(wǎng)絡(luò)打入冷宮。這樣的事情真的發(fā)生了,1995年支持向量機(jī)(SVM)橫空出世,該算法比神經(jīng)網(wǎng)絡(luò)算法解釋性好,其幾何解釋干凈漂亮,性能比當(dāng)時(shí)的三層神經(jīng)好一些。這時(shí)候神經(jīng)網(wǎng)絡(luò)進(jìn)入了第二個(gè)冬天,好在這個(gè)冬天并沒有第一個(gè)那么冷,基金支持并沒有徹底斷絕,能不能拿到基金,主要看人品和運(yùn)氣。
突破三層的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)迎來春天
但是SVM也有缺陷,它主要是處理小數(shù)據(jù)的,是小樣本學(xué)習(xí)的典范算法。而到了2008年以后,我們迎來了大數(shù)據(jù)時(shí)代,各行各業(yè)都有大量的數(shù)據(jù),而且電腦的計(jì)算能力也大幅度地提高了,因此SVM在很多領(lǐng)域?qū)㈦y以適用。以往的神經(jīng)網(wǎng)絡(luò)基本上都是三層的,原因是四層以上的神經(jīng)網(wǎng)絡(luò)會(huì)遇到數(shù)據(jù)量、計(jì)算力不足和梯度消失等問題。如果以上三個(gè)問題能夠解決,就能為深度學(xué)習(xí)奠定很好的基礎(chǔ)。
到2010年左右,人們通過采用新的激勵(lì)函數(shù),逐漸克服了梯度消失或者發(fā)散問題,加之?dāng)?shù)據(jù)量和計(jì)算力的不斷提高,深度學(xué)習(xí)迎來了蓬勃發(fā)展。這使得化名為深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)研究進(jìn)入了另一個(gè)春天。
我們現(xiàn)在所說的深度學(xué)習(xí),可以理解為層數(shù)高于三層的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)最重要的區(qū)別是:神經(jīng)網(wǎng)絡(luò)的主流算法考慮時(shí)空數(shù)據(jù)的局部相關(guān)性較少,大多時(shí)候假設(shè)特征之間的獨(dú)立性;而深度學(xué)習(xí)的主流算法基本考慮了時(shí)空數(shù)據(jù)的局部相關(guān)性,如CNN,RNN,LSTM等。深度學(xué)習(xí)可以使學(xué)習(xí)能力提高,而訓(xùn)練樣本并不需要增加太多。
到2016年,神經(jīng)網(wǎng)絡(luò)深度就已經(jīng)達(dá)到1207層。隨著深度的提高,算法的錯(cuò)誤率可以快速減少。深度學(xué)習(xí)避開了單純的特征提取過程,給出了一種將學(xué)習(xí)和表示合二為一的范式。這種方式導(dǎo)致深度學(xué)習(xí)在有人監(jiān)督學(xué)習(xí)中非常成功,同時(shí)在自監(jiān)督學(xué)習(xí)中也取得了很大的成功,但在一般意義上的無監(jiān)督學(xué)習(xí)中還沒有取得成功。
深度學(xué)習(xí)并非萬能,仍有局限
深度學(xué)習(xí)不僅是目前熱度最高的人工智能研究方向,也是工業(yè)應(yīng)用最廣泛的學(xué)習(xí)范式,但深度學(xué)習(xí)也有其局限性。沒有免費(fèi)午餐的定理指出,沒有任何一種算法可以解決機(jī)器學(xué)習(xí)所有的應(yīng)用。深度學(xué)習(xí)也有很多“不能”的地方。比如,深度學(xué)習(xí)和人類學(xué)習(xí)相比,人用不了多么大的樣本就可以學(xué)習(xí),但是深度學(xué)習(xí)用的樣本比較多。
此外,由于深度學(xué)習(xí)屬于黑箱型算法,人類將無法知曉算法做出決策的原因與依據(jù)。它適用于各種低風(fēng)險(xiǎn)甚至無風(fēng)險(xiǎn)性任務(wù),包括搜素引擎和AlphaGo等棋牌游戲,這類任務(wù)即使發(fā)生錯(cuò)誤,后果也不嚴(yán)重,并不要求算法去解釋這些錯(cuò)誤為什么會(huì)發(fā)生。
但對于高風(fēng)險(xiǎn)任務(wù),包括無人駕駛、醫(yī)療手術(shù)等,一旦發(fā)生錯(cuò)誤,由于成本巨大,必須能夠分析出發(fā)生錯(cuò)誤的原因,以避免類似錯(cuò)誤再次發(fā)生,此時(shí),深度學(xué)習(xí)在解釋性方面將存在弊端。
總而言之,深度學(xué)習(xí)的表示能力超強(qiáng),因此,在不要求解釋的學(xué)習(xí)任務(wù)中,深度學(xué)習(xí)的性能在可見的將來將一直占優(yōu)。但是,在要求解釋的學(xué)習(xí)任務(wù)里,深度學(xué)習(xí)將不是一個(gè)值得期待的工具。
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5493瀏覽量
120998
原文標(biāo)題:深度學(xué)習(xí)的能與不能
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論