何謂“機(jī)器學(xué)習(xí)”,學(xué)界尚未有統(tǒng)一的定義。本文摘取Tom Mitchell、Christopher M. Bishop、去年出版的《深度學(xué)習(xí)》和側(cè)重實(shí)戰(zhàn)的《數(shù)據(jù)挖掘》,總結(jié)了四種機(jī)器學(xué)習(xí)主流定義。更好地研究“機(jī)器學(xué)習(xí)”,并繼續(xù)擴(kuò)展和完善它的定義,也有助于我們理解機(jī)器學(xué)習(xí)的本質(zhì)。
你或許已經(jīng)讀過(guò)許多關(guān)于機(jī)器學(xué)習(xí)的深度和和半深度的文章,并探討了機(jī)器學(xué)習(xí)與眾多其他主題的關(guān)系。在討論如此復(fù)雜的概念時(shí),回到最初的一些共同參考資料總是一個(gè)好主意;問(wèn)題是,對(duì)于機(jī)器學(xué)習(xí)這樣的主題,存在無(wú)數(shù)這樣的參考資料。
所以我想,為什么不研究一下這些參考點(diǎn)呢?
這是一篇不那么嚴(yán)肅的帖子,旨在探討機(jī)器學(xué)習(xí)的本質(zhì)。
話(huà)不多說(shuō),作為一個(gè)看似屬于語(yǔ)義學(xué)的練習(xí),讓我們來(lái)探索一下關(guān)于機(jī)器學(xué)習(xí)的定義。
Tom Mitchell:根據(jù)優(yōu)化過(guò)程抽象定義機(jī)器學(xué)習(xí)
第一個(gè)定義,是我個(gè)人最喜歡的,來(lái)自著名的計(jì)算機(jī)科學(xué)家、機(jī)器學(xué)習(xí)研究者,卡內(nèi)基梅隆大學(xué)的 Tom Mitchell 教授。
對(duì)于某類(lèi)任務(wù) T 和性能度量 P,如果一個(gè)計(jì)算機(jī)程序在 T 上以 P 衡量的性能隨著經(jīng)驗(yàn) E 而自我完善,那么我們稱(chēng)這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn) E 中學(xué)習(xí)。[1]
Mitchell 的這個(gè)定義在機(jī)器學(xué)習(xí)領(lǐng)域是眾所周知的,并且經(jīng)受了時(shí)間的考驗(yàn)。這句話(huà)首次出現(xiàn)在他 1997 年出版的Machine Learning一書(shū)中。
這句話(huà)對(duì)我個(gè)人產(chǎn)生了很大的影響,多年來(lái)我多次提到它,并在碩士論文中引用了這個(gè)定義。在 Goodfellow, Bengio & Courville 最近出版的權(quán)威著作《深度學(xué)習(xí)》(Deep Learning) 的第 5 章中,這段引文也占據(jù)了突出位置,成為該書(shū)對(duì)學(xué)習(xí)算法的解釋的出發(fā)點(diǎn)。
下圖是 Mitchell 定義的圖示:
圖 1:The Mitchell Paradigm
“花書(shū)”《深度學(xué)習(xí)》:論計(jì)算在機(jī)器學(xué)習(xí)中的重要性
說(shuō)到 Goodfellow、Bengio 和 Courville,就不得不提他們合著的《深度學(xué)習(xí)》,這本書(shū)對(duì)機(jī)器學(xué)習(xí)是這樣定義的:
機(jī)器學(xué)習(xí)本質(zhì)上屬于應(yīng)用統(tǒng)計(jì)學(xué),更多地關(guān)注如何用計(jì)算機(jī)統(tǒng)計(jì)地估計(jì)復(fù)雜函數(shù),不太關(guān)注為這些函數(shù)提供置信區(qū)間。[2]
Mitchell 對(duì)機(jī)器學(xué)習(xí)的定義在應(yīng)用中不再適用;它側(cè)重于優(yōu)化過(guò)程的具體組成部分,這些組成部分通常與機(jī)器學(xué)習(xí)有關(guān),但它沒(méi)有規(guī)定應(yīng)該如何在實(shí)踐中接近它。
《深度學(xué)習(xí)》中對(duì)機(jī)器學(xué)習(xí)的定義在本質(zhì)上要規(guī)范得多,它指出計(jì)算能力得到了利用 (實(shí)際上強(qiáng)調(diào)了對(duì)計(jì)算能力的使用),而傳統(tǒng)的統(tǒng)計(jì)概念置信區(qū)間則不再?gòu)?qiáng)調(diào)。
實(shí)戰(zhàn)數(shù)據(jù)挖掘:“學(xué)習(xí)”必須是有意地去學(xué)習(xí)
在我看來(lái),另一個(gè)特別值得注意的關(guān)于機(jī)器學(xué)習(xí)的定義來(lái)自 Witten, Frank & Hall 所著的《數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)》,這是我第一本完整閱讀了的關(guān)于這個(gè)主題的書(shū)。
《數(shù)據(jù)挖掘》這本書(shū)很少涉及數(shù)學(xué),但有很多實(shí)用性的解釋。對(duì)于剛進(jìn)入機(jī)器學(xué)習(xí)領(lǐng)域的人,“數(shù)據(jù)挖掘” 很長(zhǎng)一段時(shí)間是我的首選推薦。
作者對(duì)機(jī)器學(xué)習(xí)最初定義有點(diǎn)零散,他們?cè)噲D在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的背景中將學(xué)習(xí)、性能和知識(shí)這些概念編織在一起。但其中一些語(yǔ)句值得注意:
我們感興趣的是在新的情況下得到性能的改進(jìn),或至少有性能改進(jìn)的潛力。
當(dāng)系統(tǒng)以一種使它們?cè)谖磥?lái)表現(xiàn)更好的方式改變自己的行為時(shí),它們就會(huì)學(xué)習(xí)。
學(xué)習(xí)意味著思考和目標(biāo)。學(xué)習(xí)必須是有意地去學(xué)習(xí)。
經(jīng)驗(yàn)表明,在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的許多應(yīng)用中,所獲得的顯式知識(shí)結(jié)構(gòu)、結(jié)構(gòu)描述,至少與在新實(shí)例中表現(xiàn)良好的能力同等重要。人們經(jīng)常使用數(shù)據(jù)挖掘來(lái)獲取知識(shí),而不僅僅是用來(lái)預(yù)測(cè)。
“數(shù)據(jù)挖掘”這個(gè)術(shù)語(yǔ)被用作機(jī)器學(xué)習(xí)的補(bǔ)充術(shù)語(yǔ)。上面引用的語(yǔ)句出自這本書(shū)的第三版,出版于 2011 年,當(dāng)時(shí)數(shù)據(jù)挖掘這個(gè)詞比現(xiàn)在更有吸引力;即使不說(shuō)是引用自數(shù)據(jù)挖掘的書(shū),上面所寫(xiě)的內(nèi)容對(duì)機(jī)器學(xué)習(xí)本身也適用。
Witten, Frank & Hall 為機(jī)器學(xué)習(xí)的定義提供了一個(gè)不同的角度:Mitchell 專(zhuān)注于優(yōu)化過(guò)程的特定組成部分,Goodfellow, Bengio & Courville 傾向于一種更規(guī)范的定義,并強(qiáng)調(diào)計(jì)算能力的相對(duì)重要性,這個(gè)定義則嘗試側(cè)重 “l(fā)earning” 的哪些方面在機(jī)器學(xué)習(xí)過(guò)程中是類(lèi)似和重要的。
上面引用的語(yǔ)句還提供了一個(gè)重要的點(diǎn),兼具實(shí)用性和哲學(xué)性,即最后一段,指出獲得知識(shí)和使用這些知識(shí)的能力都是機(jī)器學(xué)習(xí)的重要方面。
Christopher Bishop:從算法的角度定義
最后,讓我們來(lái)看 Christopher Bishop 在《模式識(shí)別和機(jī)器學(xué)習(xí)》一書(shū)中對(duì)機(jī)器學(xué)習(xí)的定義。值得注意的是,Bishop 沒(méi)有開(kāi)門(mén)見(jiàn)山地定義這個(gè)術(shù)語(yǔ),但是很好地隱式地提供了以算法為中心的機(jī)器學(xué)習(xí)的定義 (在一個(gè)數(shù)字分類(lèi)任務(wù)中討論到):
機(jī)器學(xué)習(xí)算法的結(jié)果表示為一個(gè)函數(shù) y (x),它以一個(gè)新的數(shù)字的圖像 x 作為為輸入,產(chǎn)生向量 y,與 target vector 的形式相同。
函數(shù) y (x) 的精確形式是在訓(xùn)練階段(trainingphase) 確定的,也稱(chēng)為學(xué)習(xí)階段 (learningphase),以訓(xùn)練數(shù)據(jù)為基礎(chǔ)。
一旦模型被訓(xùn)練出來(lái),就可以用來(lái)判斷新的數(shù)字圖像 (新樣本) 對(duì)應(yīng)的標(biāo)簽,這些新樣本的集合被稱(chēng)為測(cè)試集。
正確分類(lèi)與訓(xùn)練集不同的新樣本的能力叫做泛化(generalization)。在實(shí)際應(yīng)用中,輸入向量的可變性使得訓(xùn)練數(shù)據(jù)只能包含所有可能輸入向量的很小一部分,因此泛化是模式識(shí)別的一個(gè)中心目標(biāo)。[4]
首先,除了我們討論的機(jī)器學(xué)習(xí)是有監(jiān)督學(xué)習(xí),而不是無(wú)監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí) (或其他形式的機(jī)器學(xué)習(xí)) 外,上面的引用對(duì) “模式識(shí)別” 沒(méi)有更多的解釋。
其次,也是更重要的一點(diǎn),這是唯一對(duì)機(jī)器學(xué)習(xí)所需步驟逐步處理的定義,無(wú)論這些步驟在這個(gè)例子中可能多么簡(jiǎn)短。
同樣有趣的是,隨后的頁(yè)面,以及 Bishop 的書(shū)一半的篇幅概述了許多額外的機(jī)器學(xué)習(xí)概念,并將它們很好地結(jié)合在一起,提供了具有可讀性的介紹,而不至于陷入數(shù)學(xué)的困境 (書(shū)中的其余部分解釋了數(shù)學(xué))。
這樣,我們已經(jīng)有四種方法來(lái)定義機(jī)器學(xué)習(xí):一種是根據(jù)它的優(yōu)化過(guò)程,抽象地定義它機(jī)器學(xué)習(xí);第二種更有規(guī)范性,并指出計(jì)算在機(jī)器學(xué)習(xí)中的重要性;第三定義側(cè)重于“學(xué)習(xí)”的哪些方面在機(jī)器學(xué)習(xí)過(guò)程中是類(lèi)似的和重要的;最后一個(gè)定義從算法的角度概述了機(jī)器學(xué)習(xí)。
這些定義都不是不正確,但都不完整。探討先驅(qū)者和受人尊敬的研究人員所認(rèn)為的 “機(jī)器學(xué)習(xí)”,將擴(kuò)展我們自己對(duì)機(jī)器學(xué)習(xí)的定義。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8377瀏覽量
132406 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5492瀏覽量
120975
原文標(biāo)題:機(jī)器學(xué)習(xí)的本質(zhì)是什么?
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論