機器學習的發展歷程
對于20世紀90年代以前的發展歷程,我認識不夠,了解不深,覺得當時機器學習處于發展的相對平淡期。而20世紀90年代中期到21世紀00年代中期是機器學習發展的黃金時期,主要標志是學術界涌現出一批重要成果,比如,基于統計學習理論的支持向量機、隨機森林和Boosting等集成分類方法,概率圖模型,基于再生核理論的非線性數據分析與處理方法,非參數貝葉斯方法,基于正則化理論的稀疏學習模型及應用等等。這些成果奠定了統計學習的理論基礎和框架。
然而,機器學習在21世紀00年代末也經歷了一個短暫的徘徊期。那時我在加州大學伯克利分校的博士后工作結束,正面臨找工作,導師喬丹教授和我進行了多次交流,他一方面認為機器學習正處于困難期,工作職位已趨于飽滿,另一方面他向我一再強調,把統計學引入到機器學習的思路是對的,因為以統計學為基礎的機器學習作為一個學科其地位已經被奠定。主要問題是機器學習是一門應用學科,它需要在工業界發揮作用,能為他們解決實際問題。幸運的是,這個時期很快就過去了。
現在我們可以理直氣壯地說機器學習已經成為計算機科學和人工智能的主流學科。這主要體現在下面三個標志性的事件。
第一,2010年2月,加州大學伯克利分校教授喬丹和卡內基梅隆大學教授米歇爾同時當選美國工程院院士,同年5月份,喬丹教授又當選為美國科學院院士。隨后幾年,概率圖模型專家科勒(Daphne Koller)當選為美國工程院院士,理論計算機學家和機器學習專家、Boosting的主要建立者之一夏皮爾(Robert Schapire)當選為美國工程院院士和科學院院士。期間,斯坦福大學的統計學家弗萊德曼和提布施瓦尼(Robert Tibshirani)、伯克利分校的華裔統計學家郁彬,以及卡內基梅隆大學統計學家沃塞曼也先后被選為美國科學院院士。這是一個非常有趣的現象,因為這些學者都在機器學習領域做出了非常重要的貢獻,比如弗萊德曼的工作包括分類回歸樹、多元自適應回歸(Multivariate Adaptive Regression Splines, MARS)和梯度推進機(Gradient Boosting Machines, GBM)等經典機器學習算法,而提布施瓦尼是最小絕對收縮和選擇算子(Least Absolute Shrinkage and Selection Operator, LASSO)的提出者。此外,優化算法專家鮑德(Stephen Boyd)當選美國工程院院士,他和范登貝格(Lieven Vandenberghe)的合著《凸優化》(Convex Optimization)可以說風靡機器學習界。今年,機器學習專家、深度學習的領袖、多倫多大學教授辛頓以及該校統計學習專家瑞德(Nancy Reid)分別被選為美國工程院和科學院的外籍院士。
喬丹教授在當時我祝賀他當選為院士時的回信中說,如果以他當選院士這種方式來看待機器學習獲得學術界的認同會更有意義。因此,我理解在美國一個學科能否被接納為主流學科的一個重要標志是,其代表科學家能否被選為院士。我們知道米歇爾是機器學習早期建立者之一,而喬丹是統計機器學習的主要奠基者之一。
第二,2011年的圖靈獎授予了加州大學洛杉磯分校教授珀爾(Judea Pearl),他主要的研究領域是概率圖模型和因果推理,這是機器學習的基礎問題。圖靈獎通常頒給純理論計算機學者,或者早期建立計算機架構或框架的學者。而把圖靈獎授予珀爾教授具有方向標的意義。此外,去年《科學》和《自然》雜志連續發表了4篇關于機器學習的綜述論文。而且,近幾年在這兩個雜志上發表的計算機學科論文幾乎都來自機器學習領域。
第三,機器學習切實能被用來幫助工業界解決問題。特別是當下的熱點,比如說深度學習、AlphaGo、無人駕駛汽車、人工智能助理等對工業界的巨大影響。當今IT的發展已從傳統的微軟模式轉變到谷歌模式。傳統的微軟模式可以理解為制造業,而谷歌模式則是服務業。谷歌搜索完全是免費的,服務社會,他們的搜索做得越來越極致,同時創造的財富也越來越豐厚。
財富蘊藏在數據中,而挖掘財富的核心技術則是機器學習,因此谷歌認為自己是一家機器學習公司。深度學習作為當今最有活力的機器學習方向,在計算機視覺、自然語言理解、語音識別、智力游戲等領域的顛覆性成就,造就了一批新興的創業公司。工業界對機器學習領域的人才有大量的需求。不僅僅需要代碼能力強的工程師,也需要有數學建模和解決問題的科學家。
最近有一本尚未出版的書《數據科學基礎》(Foundation of Data Science),作者之一霍普克洛夫特(John Hopcroft)是圖靈獎得主。在這本書前沿部分,提到了計算機科學的發展可以分為三個階段:早期、中期和當今。早期就是讓計算機可以運行起來,其重點在于開發程序語言、編譯技術、操作系統,以及研究支撐它們的數學理論。中期是讓計算機變得有用,變得高效,重點在于研究算法和數據結構。第三個階段是讓計算機具有更廣泛的應用,發展重點從離散類數學轉到概率和統計。我曾經和霍普克洛夫特交談過幾次,他認為計算機科學發展到今天,機器學習是核心。他正在讀機器學習和深度學習方面的書,并計劃為本科生講授機器學習課程。
現在計算機界戲稱機器學習為“全能學科”,它無所不在。除了有其自身的學科體系外,機器學習還有兩個重要的輻射功能。一是為應用學科提供解決問題的方法與途徑。對于一個應用學科來說,機器學習的目的就是把一些難懂的數學翻譯成讓工程師能夠寫出程序的偽代碼。二是為一些傳統學科,比如統計、理論計算機科學、運籌優化等找到新的研究問題。因此,大多數世界著名大學的計算機學科把機器學習或人工智能列為核心方向,擴大機器學習領域的教師規模,而且至少要保持兩三個機器學習研究方向具有一流競爭力。有些計算機專業有1/3甚至1/2的研究生選修機器學習或人工智能。
機器學習現在已成為統計學的一個主流方向,許多著名大學的統計系紛紛從機器學習領域招聘教授,比如斯坦福大學統計系新進的兩位助理教授來自機器學習專業。計算在統計領域已經變得越來越重要,傳統多元統計分析是以矩陣分解為計算工具,現代高維統計則是以優化為計算工具。
機器學習發展的啟示
機器學習的發展歷程告訴我們:發展一個學科需要一個務實的態度。時髦的概念和名字無疑對學科的普及有一定的推動作用,但學科的根本還是所研究的問題、方法、技術和支撐的基礎等,以及為社會產生的價值。
“機器學習”是個很酷的名字,簡單地按照字面理解,它的目的是讓機器能像人一樣具有學習能力。但在其十年的黃金發展期,機器學習界并沒有過多地炒作“智能”或者“認知”,而是關注于引入統計學等來建立學科的理論基礎,面向數據分析與處理,以無監督學習和有監督學習為兩大主要的研究問題,提出和開發了一系列模型、方法和計算算法等,切實地解決了工業界所面臨的一些實際問題。近幾年,因為大數據的驅動和計算能力的極大提升,一批面向機器學習的底層架構先后被開發出來。神經網絡其實在20世紀80年代末或90年代初就被廣泛研究,但后來沉寂了。近幾年,基于深度學習的神經網絡強勢崛起,給工業界帶來了深刻的變革和機遇。深度學習的成功不是源自腦科學或認知科學的進展,而是因為大數據的驅動和計算能力的極大提升。
機器學習的發展詮釋了多學科交叉的重要性和必要性。然而這種交叉不是簡單地彼此知道幾個名詞或概念就可以的,是需要真正的融會貫通。統計學家弗萊德曼早期從事物理學研究,他是優化算法大師,而且他的編程能力同樣令人贊嘆。喬丹教授既是一流的計算機學家,又是一流的統計學家,而他的博士專業為心理學,他能夠承擔起建立統計機器學習的重任。辛頓教授是世界最著名的認知心理學家和計算機科學家。雖然他很早就成就斐然,在學術界聲名鵲起,但他依然始終活躍在一線,自己寫代碼。他提出的許多想法簡單、可行又非常有效,被稱為偉大的思想家。正是由于他的睿智和身體力行,深度學習技術迎來了革命性的突破。這些學者非常務實,從不提那些空洞無物的概念和框架。他們遵循自下而上的方式,從具體問題、模型、方法、算法等著手,一步一步實現系統化。
可以說機器學習是由學術界、工業界、創業界(或競賽界)等合力造就的。學術界是引擎,工業界是驅動,創業界是活力和未來。學術界和工業界應該有各自的職責和分工。學術界的職責在于建立和發展機器學習學科,培養機器學習領域的專門人才;而大項目、大工程更應該由市場來驅動,由工業界來實施和完成。
評論
查看更多