近年來,人工智能的強勢崛起,特別是剛剛過去的AlphaGo和韓國九段棋手李世石的人機大戰,讓我們領略到了人工智能技術的巨大潛力。數據是載體,智能是目標,而機器學習是從數據通往智能的技術途徑。因此,機器學習是數據科學的核心,是現代人工智能的本質。
通俗地說,機器學習就是從數據中挖掘出有價值的信息。數據本身是無意識的,它不能自動呈現出有用的信息。怎樣才能找出有價值的東西呢?第一步要給數據一個抽象的表示;接著基于表示進行建模;然后估計模型的參數,也就是計算;為了應對大規模的數據所帶來的問題,我們還需要設計一些高效的實現手段,包括硬件層面和算法層面。統計是建模的主要工具和途徑,而模型求解大多被定義為一個優化問題,特別是,頻率派方法其實就是一個優化問題。而貝葉斯模型的計算則往往牽涉蒙特卡洛(Monte Carlo)隨機抽樣方法。因此,機器學習是計算機科學和統計學的交叉學科。
借鑒計算機視覺理論創始人馬爾(Marr)的關于計算機視覺的三級論定義,我把機器學習也分為三個層次:初級、中級和高級。初級階段是數據獲取以及特征的提取。中級階段是數據處理與分析,它又包含三個方面:首先是應用問題導向,簡單地說,它主要應用已有的模型和方法解決一些實際問題,我們可以理解為數據挖掘;其次,根據應用問題的需要,提出和發展模型、方法和算法以及研究支撐它們的數學原理或理論基礎等,這是機器學習學科的核心內容;第三,通過推理達到某種智能。高級階段是智能與認知,即實現智能的目標。數據挖掘和機器學習本質上是一樣的,其區別是數據挖掘更接近于數據端,而機器學習則更接近于智能端。
統計與計算
今年剛被選為美國科學院院士的卡內基梅隆大學統計系教授沃塞曼(Larry Wasserman)寫了一本名字非常霸道的書:《統計學完全教程》(All of Statistics)。這本書的引言部分有一個關于統計學與機器學習非常有趣的描述。沃塞曼認為,原來統計是在統計系,計算機是在計算機系,這兩者是不相來往的,而且互相都不認同對方的價值。計算機學家認為那些統計理論沒有用,不解決問題,而統計學家則認為計算機學家只是在“重新發明輪子”,沒有新意。然而,他認為現在情況改變了,統計學家認識到計算機學家正在做出的貢獻,而計算機學家也認識到統計的理論和方法論的普遍性意義。所以,沃塞曼寫了這本書,可以說這是一本為統計學者寫的計算機領域的書,為計算機學者寫的統計領域的書。
現在大家達成了一個共識:如果你在用一個機器學習方法,而不懂其基礎原理,這是一件非??膳碌氖虑椤U怯捎谶@個原因,目前學術界對深度學習還是心存疑慮的。盡管深度學習已經在實際應用中展示出其強大的能力,但其中的原理目前大家還不是太清楚。
計算機學家通常具有強大的計算能力和解決問題的直覺,而統計學家擅長于理論分析和問題建模,因此,兩者具有很好的互補性。Boosting、支持向量機(SVM)、集成學習和稀疏學習是機器學習界也是統計界在近十年或者是近二十年來最為活躍的方向,這些成果是統計界和計算機科學界共同努力成就的。例如,數學家瓦普尼克(Vapnik) 等人早在20世紀60年代就提出了支持向量機的理論,但直到計算機界于90年代末發明了非常有效的求解算法,并隨著后續大量優秀實現代碼的開源,支持向量機現在成為了分類算法的一個基準模型。再比如,核主成分分析(Kernel Principal Component Analysis, KPCA)是由計算機學家提出的一個非線性降維方法,其實它等價于經典多維尺度分析(Multi-Dimensional Scaling, MDS)。而后者在統計界是很早就存在的,但如果沒有計算機界重新發現,有些好的東西可能就被埋沒了。
世界上公認最好的兩個統計系來自加州大學伯克利分校和斯坦福大學。加州大學伯克利分校是美國統計學的發源地之一,可以說是當今統計學和機器學習的中心,其機器學習領域的教授通常同時在計算機系和統計系都有正式職位。已故的布萊曼(Leo Breiman)教授是統計機器學習的主要奠基人,他是眾多統計學習方法的主要貢獻者,比如Bagging、分類回歸樹(CART)、隨機森林以及非負garrote稀疏模型等。布萊曼是喬丹(Michael Jordan)教授的伯樂,當初是他力主把喬丹從麻省理工學院引進到伯克利分校的??梢哉f,伯克利分校的統計系成就了喬丹,反過來他也為伯克利分校的統計學發展創造了新的活力,為機器學習領域培養了一大批優秀的學者,建立了無可代替的功勛。
斯坦福大學統計系的一個主要方向就是統計學習,比如《統計學習基礎》(Elements of statistical learning)一書就是統計系幾位著名教授撰寫的。斯坦福大學計算機科學系的人工智能方向一直在世界占主導地位,特別是在不確定推理、概率圖模型、概率機器人等領域成就斐然。他們的網絡公開課“機器學習”、“概率圖模型”以及“人工智能”等讓全世界學者受益。有意思的是,斯坦福大學和伯克利分校具有令人羨慕的合作競爭關系。一年一度的聯合統計學日是兩校統計系的交流平臺。伯克利分校教授布萊曼和斯坦福大學教授弗萊德曼(Jerome Friedman)合作建立了許多重要統計學習模型。此外,兩校教授羅素(Stuart Russell)和諾維格(Peter Norvig)合作的《人工智能:一種現代的方法》(Artificial Intelligence: A Modern Approach)一書是人工智能的集大成。
卡內基梅隆大學是一個非常獨特的學校,它并不是美國傳統的常春藤大學??梢哉f,它是以計算機科學為立校之本,是世界第一個建立機器學習系的學校。米歇爾(Tom Mitchell)教授是機器學習的早期建立者之一和守護者,他一直為該校本科生講授“機器學習”課程。這個學校的統計學同樣也是一流,是貝葉斯統計學的世界研究中心。
在機器學習領域,多倫多大學有著舉足輕重的地位,它的機器學習研究組云集了一批世界級的學者,在《科學》(Science)和《自然》(Nature)發表多篇開創性的論文,實屬罕見。辛頓(Geoffrey Hinton)教授是偉大的思想家,更是實踐者。他是神經網絡的建立者之一,是誤差反向傳播(BP)算法和深度學習的主要貢獻者。正是由于他的不懈努力,神經網絡迎來了大爆發。尼爾(Radford Neal)教授是辛頓的學生,他在貝葉斯統計領域,特別是在蒙特卡洛馬爾科夫鏈模擬方法(MCMC)方面做出了一系列的重要工作,還開源了許多貝葉斯統計方法程序包,并一直致力于優化R語言。
評論
查看更多