來源:《中國人工智能學會通訊》
作者:雷濤
轉自:中國人工智能學會?
一、什么是人工智能
(一)圖靈測試
圖靈測試在 20 世紀 50 年代已經提出,那時沒有計算機。圖靈測試指測試者與被測試者(一個人或一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試后,如果機器讓平均每個參與者做出超過 30% 的誤判,那么這臺機器就通過了測試,并被認為具有人類智能。以前有一些人可能不理解,但到今天就很明白,像小度音箱如果你連問三次今天溫度怎樣,它的回答是一樣的;但你問家人同一個問題三遍,他的回答可能是“你是否有毛病 ? 一個問題問三遍”,這就是人和機器的區別。圖靈曾經預測,人類用 50 年左右的時間可能完成圖靈測試, 但是實際結果不太理想,人類用了 60 多年的時間才完成了圖靈測試。
(二)人工智能的應用
人工智能的應用領域非常廣泛,如人臉識別和跟蹤、遙感影像中的目標檢測、醫學領域中的病灶識別和分類、材料領域的新材料發現。除此之外,人工智能在機器人領域的應用更為廣泛 , 對機器人的發展而言 , 從機械角度來講,目前的機器人靈活度和穩定度已經做的非常好,比在機器人腦部方面的進展要快 , 然而決定機器人水平的主要依據是其智能水平。這和人一樣,醫院神經科的醫生地位通常更高,因為神經科的病人特別多;且這些病相對來講比較難治療,因為人腦結構非常復雜。所以從人工智能類腦計算出發,實現仿人機器人還有漫長的路要走。
人工智能也是影視娛樂領域的一個重要話題,典型代表是 2004 年的好萊塢電影《我,機器人》,影片中對人工智能有超前認識,講的是機器和人最終的區別是情感區別。如果有一天機器也有情感會怎樣?顯然 , 推進人工智能發展 , 預測人工智能的未來需要工科與人文社科研究人員共同努力和協調發展。
二、人工智能背后的技術原理
(一)機器學習
今天人工智能發展的如火如荼,核心原因是機器學習理論。我們要研究人工智能無非就是做一個仿人機器人,讓機器達到和人幾乎一樣的功能。人之所以聰明,最根本的原因是會學習。怎么教會機器學習?從我們小時候教育的過程就可以理解機器和人學習的過程。小學一年級學習加法時,老師課后會布置大量作業,做錯了很正常 , 繼續修改就行;通過大量訓練和糾錯 , 到小學三年級大家就掌握了加法的本質原理 , 基本不會犯錯了 , 那么學習的目的就達到了。
人對世界的認知就是一個學習過程,這個學習有一個特點是小樣本學習,需要較少的例子就可以學會 ( 當然存在特殊情況 , 智力有問題的人通常難以有效學習 )。比如人對貓和狗的識別,通常看幾張圖片就認識了。機器怎么學習?例如利用機器學習的方法可以對圖像進行分類,然而當模型過于簡單(智力水平低)時,訓練好的模型只能識別常規的貓和狗,如果對圖像進行各種退化處理或者尺度放縮及形變,模型往往會出錯,而人通常可以應對各種外界環境的干擾做出正確識別。這就說明一個問題,人的大腦學習是很聰明的過程,看兩三張照片就掌握了規律,是小樣本學習。機器要完成對貓和狗的正確識別,需要海量訓練樣本(圖片),同一張圖在訓練前需要做各種尺度、旋轉、仿射變換等(數據增強策略),只有輸入大量圖片機器才能有效掌握識別貓和狗的規律。如同班上聰明的學生通常只需做兩三道題就能掌握這種類型題,而智力水平低的學生需要做幾百道同類型的題才能掌握規律,當前的機器學習好比智力水平較低的學生。
第二個區別,魯棒性。比如給機器一個辨別色盲的照片,機器大概率會出錯,因為它應對各種新情況能力較弱,而人應對外界環境變化的能力遠高于機器。目前的深度學習技術在魯棒性方面已經有了明顯改進,比如人臉識別,回顧 10 年前的人臉識別系統,戴口罩根本無法識別,而現在可以正確識別,說明當前的機器學習水平已經比過去提高很多。機器學習還有一個重要概念是泛化能力,比如我現在認識你,你帶了一個小伙子來了,我說這是你兒子,因為和你長的像;而機器通常對它沒有見過的東西,出錯概率比人要高的多。如果我們訓練好一個模型,機器可以對這張圖片進行一個正確識別;而像漫畫形式的,機器出錯的概率就非常高。
學習的過程就是總結規律、反復糾錯的過程。小學生如果錯一個字老師可能會讓他寫幾十遍,說明大腦可以被認為是一個模型,這個模型本來不健全,通過不斷學習,模型穩定后就不再出錯,這是一個反復糾錯的過程。機器也一樣,現在的人臉識別模型就是一個復雜函數,里面有很多參數,只要調整參數值整個判別函數就變了。所以,我們要學習模型里不同參數值,參數初始值是隨意給的,而機器學習在第一次的學習過程中(例如 1+1=3),錯了就對參數進行修改;第二次學習過程中又一個樣本學習錯了(例如 2+5=9),繼續再修正參數;一直下去,直到發現它能連續多次正確就不再修改模型里的參數,這是學習的最基本過程。
圖 1 誤差函數的變化
機器學習涉及到的三要素是數據、模型和算法。比如要對一些圖片進行識別,把貓識別出來,就需要大量樣本,就好比學生學習需要大量題庫,如果題庫都沒有做過,怎么可能掌握基本知識,所以樣本可以認為是最基本的素材。進入大數據時代,由于計算機成像技術的快速發展,獲取圖像、語音、文本的方式越來越簡單,因此各種媒體數據量不斷增加。其次是模型。模型很簡單,就是一個函數。例如,我們可以看到一個簡單函數、一個復雜函數,簡單函數是線性的;復雜函數是非線性的。簡單函數可以認為是一個智力水平低的小孩,辨別能力差表現在這個分類的模型很簡單;復雜模型類似于一個智力水平很高的科學家,對各種各樣的事都可以做出正確判斷和處理,這就是簡單模型和復雜模型的區別。深度學習的過程就是要把簡單模型變成復雜模型,這樣就不容易出錯。機器學習最后一個要素是學習算法,例如同樣一個班的學生,為什么有的學生成績好,有的學生成績不好,就是因為學習方法不同,這是有差異的。在實際過程中也是一樣的,我們在訓練模型時用不同算法去做,效率不同,有時訓練機器 2 小時就可以收斂,有時訓練 10~20 個小時還不能收斂。所以,選擇一個很好的算法很重要。
(二)機器學習系統
以人臉識別為例,首先進行數據收集,需要收集大量的人臉數據,被稱為歷史數據。歷史數據包括訓練數據和驗證數據,訓練數據相當于我們平時做的題庫;驗證數據相當于模擬考試。對模型學習的過程中就是對它的參數不斷進行調整。調整的方法是,對錯的東西進行懲罰,不斷把錯的東西變成正確的。等題庫里的題做完了就開始驗證,通過驗證發現成績還是不行,說明老師有問題,或者說家長有問題,或者學習的環境有問題,這些外界因素就如同模型的超參數。通過調整這些超參數后再進行學習,直到成績可以了,就能夠參加最終測試。
(三)神經網絡
機器學習里有很多種方法和工具,其中最核心的就是神經網絡。生物學家發現,人腦本身就是一個復雜網絡,如何模擬人腦的網絡去工作,這是科學家一直奮斗的目標。這方面的工作可以追溯到上世紀三四十年代,模擬人腦的功能網絡。從最早的感知器,到今天的深度學習,其原理都是在模擬人的大腦工作機理。人的大腦大約有 860 億個神經元。基于神經元的工作機理,數學家們將其抽象為人工神經元數學模型,這是人腦工作最基本的機理,這個工作機理就是加權求和的過程。比如開會投票,六個評委每個人打分,最后的打分結果不是直接求平均值,而是帶有權重的平均。由于線性運算難以表達復雜模型,因此神經元還涉及到是否激活的問題,這個激活是個非線性運算。因此一個神經元首先通過加權求和的線性運算;其次通過一個非線性運算;最終輸出結果,這就是神經元的最終工作流程。
神經網絡經歷了三次熱潮,同時也經歷了二次寒冬。圖靈在 1936 年提出圖靈機,人工智能從此開始進入第一次熱潮。隨著計算機技術的發展,人工智能也在不斷向前發展。到 1974 年經歷了一次寒冬,因為最早的神經網絡只能對線性可分的數據進行分類,學者們就認為神經網絡應用具有較大的局限性,而專家系統可以解決更為復雜的問題。直到 BP 神經網絡出現后,其成功地解決了線性不可分數據的正確分類,神經網絡迎來了第二次熱潮。1987 年,由于神經網絡需要更多的訓練數據,且識別精度有限,而支持向量機(SVM)是小樣本學習方法,且表現出更好的分類性能,因此神經網絡一度被質疑,進入了第二次寒冬。直到 2006 年,因為神經網絡層的設計不能太深,而人腦的工作機理是深層網絡,中間的參數是指數級增長,計算量和模型的復雜性也都是指數級增長;以往的神經網絡很難進行深層設計,原因在于無法進行有效訓練,而 Hinton 提出深度學習的概念,通過逐層訓練結合微調的方式實現了深層網絡的訓練,由此人工智能進入了第三次黃金時代。
進入深度學習時代后,人工智能迎來快速發展,在傳統的 BP 神經網絡中,我們通常需要人工進行特征提取,然后設計神經網絡實現數據分類或回歸。比如做人臉識別,實際上是想辦法把一個人臉的照片轉換成一個向量,在非深度學習的時代這個過程被稱為手工提取特征。提取人臉特征后,要對這些特征進行分類,因此需要訓練一個分類器,整個提取特征和特征分類分開執行,而深度學習可以把這兩個任務融為一體,讓機器全部自動學習。尤其是怎么把人臉變成一個向量讓機器自己學習,而不需要人幫助,這就是深度學習和傳統機器學習最本質的區別,因為它能夠自動學習,所以學習出來的特征往往比人工設計的特征要好很多。
深度學習是信息時代的必然產物。21 世紀是大數據時代,隨著成像技術的發展,我們對圖像數據、視頻數據和文本數據的獲取很容易,數據獲取方式更為簡單,獲取大數據集變得越來越容易。有了數據,還要有算力。所謂訓練過程就是計算過程,以前訓練一個模型要兩天,到現在 2 個小時就可以結束。有了數據和算力,還要有算法進行支撐。進入深度學習后,可以設計深度學習模型,尤其是各種學習理論做支撐。三者同時發展,就有了今天人工智能高速發展的結果。
深度學習的代表性方法是深度神經網絡。深度神經網絡最大的成功在于分層表達,當前的深度神經網絡可以做到幾千層。層的作用就是認知的過程,層越多模型就越復雜,表達能力就越強。比如進行數字識別,第一層里對這個數字的認識就是不同顏色塊,說它有什么特征我不知道;第二層就有一種高級信息,有形狀和紋理;第三層就是高級語義信息。深度學習繁榮發展的歷程。李飛飛的主要貢獻是整理了一個圖像庫 ImageNet,里面大概有1500萬張圖像,而且對很多圖像做了標注(共標注了大約 120 萬張圖像)。有了這個超級大庫后,學者們就可以驗證深度學習的有效性。沒有大數據作支撐,無法驗證各種深度模型的好壞。因此自 2010 年后,學者們相繼參加 ImageNet 比賽,直到 2017 年圖像分類錯誤率已降到了非常低的量級,比賽停止。
三、人工智能技術現狀
首先是數據的現狀,GPT 的訓練數據大約 80萬張網頁,GPT-2 的訓練數據大概 800 萬張網頁,GPT-3 的訓練數據達到 45TB。大數據一旦到來后,只有大公司高投入才能做這樣的事情。現在的機器學習方法有監督式學習和非監督式學習兩大類。所謂監督式學習分為分類和回歸兩個問題。回歸問題預測的是一個數值,比如天氣預報、股票開盤價預測。機器學習里的兩大任務,無非就是分類問題和回歸問題。監督學習類似于我們的課堂教育,由老師教給你,錯了馬上指出,不斷讓你糾錯。這樣的學習方式成本高,要交學費,還需要很多老師;非監督學習相反,不需要老師、課堂,自學成才。通常非監督學習不如監督學習,因為自學成才的人較少,而且難度大。但是非監督學習是我們奮斗的目標,讓機器能自動學習,而不是不斷教它。
介于監督學習和非監督學習中間的是弱監督學習,其分為三種,第一種是不完整的監督,做標記時只有一部分進行標記。比如一套題庫中,10 套有答案,10 套沒有答案,這是不完整監督。第二種是不確切監督。給一個大概的答案,可以很具體地標貓和狗,但也可以籠統地標為動物;類似于老師不教步驟,只講方法。第三種是不正確監督,即老師也有講錯題的時候。
深度學習繁榮發展。谷歌是全球最大的互聯網公司,一直走在人工智能領域的最前端,近年來先后提出了 Transformer、Bert 等。除了谷歌,2017 年微軟投入 10 億美金給 OpenAI 做研發,從而促進了該公司在人工智能領域的崛起,尤其是 GPT-3 的提出,實現了人工智能大踏步前進。除了 OpenAI 公司,還有很多公司也做的非常好,例如蘋果、華為的諾亞方舟、京東的探索研究院等。
人工智能的發展可以分為弱人工智能、強人工智能和超人工智能三個層次。個人粗略認為,2020年以前人工智能一直處于弱人工智能。所謂弱人工智能就是下棋、人臉識別這種單項任務。強人工智能就是類人的活動,尤其是多任務執行,例如機器人可以實現自己編程序、語音聊天、自動駕駛等。現在已經步入了強人工智能時代。未來的人工智能應該步入的是超人工智能。所謂超人工智能就是在各領域全面超越人類,或者超過我們的大腦。
人工智能現在存在的問題主要表現在三個方面,一是模型很大,參數量多,內存消耗高;二是數據標注成本較高;三是多任務執行比較難。現在能見到的機器人有送菜機器人、巡警機器人、撿垃圾機器人,一個機器人能不能完成所有的功能?所以多任務執行比較困難。最大問題是它的計算量太大,耗能方面目前是一個嚴重問題。AlphaGO 下一盤棋的電費大約 3 000 美元。拋開 AlphaGO 我們看GPT-3,它的參數量是 1 750 億,人類只有大約 860億神經元。這個模型訓練一次成本很高,用電需要19 萬度,碳排放是 8.5 萬公斤,相當于一輛車從月球開到地球一個來回的碳排放。在碳中和的年代,如何發展人工智能?顯然未來我們需要有新的技術作支撐。
四、工智能技術的應用
人工智能如果可以全面用于無人駕駛,會產生非常大的經濟效益,但也可能存在很多問題。現在百度、小米都在造汽車,考慮的是未來的新能源及自動駕駛,成本很低。人工智能在醫療領域,從商業價值來講是最有意義的一個應用。在疾病預測和影像分析領域,人工智能已經表現出明顯的優勢,尤其某些診斷已全面超過人類,如青光眼的篩查比人類專家水平還高。考慮到責任問題,人工智能在醫學里只能作為輔助手段,為醫生提供各種參考,最終診斷由醫生確定。
成果應用 1:智慧醫療
在智慧醫療方面,我們開發了一套面向肝功能輔助評估的在線分析系統,輸入病人肝臟影像后,直接可以打出結構化報告,如果依賴人工去做,傳統方法需要 1~2 天才能完成。因此這套影像分析系統可以極大提高醫生的工作效率。
成果應用 2:金屬及泡沫材料屬性分析
根據金屬材料掃描電鏡圖像,研究金屬材料單物理屬性,需要分析其中的孔洞分布,手動去量通常非常困難,通過人工智能的方法可以做一個有統計意義的分析結果。我們利用計算機視覺技術成功幫助材料研究人員自動分析金屬材料屬性,為他們提供非常客觀的測量數據,誤差率降低了一個數量級。此外,對網狀結構的泡沫材料(中間的孔洞更多)也可進行智能分析。
成果應用 3:智能地層驅油分析
通過給地層注入水(紅色是油的分布,藍色是水,背景是地層)后可以把油驅出,這就是采油的原理。實際中,研究人員把地層結構做成芯片放到實驗室,用照相機進行拍照分析地層中水驅油的變化。我們做了一個智能系統可以分析油路走向,通過之前和之后的圖像對比,利用人工智能技術找出前后的變化趨勢,找到油路的走向,幫助工作人員找到最佳取油路徑。
五、人工智能的未來
人工智能的未來是可信人工智能、超級深度學習和量子機器學習。
京東探索研究院聯合中國信通院在 2021 年發布了可信人工智能白皮書。為什么是可信人工智能?比如無人駕駛必須要識別街區場景,如果各種標識牌上貼了小廣告,這種情況下智能車通常就會識別錯誤,發生的后果可能會很嚴重。這個責任怎么去劃分?所以這方面有很多問題,比如可信可視、多元包容等。
當前,數據不斷在增長,模型參數也在增長,計算機的計算性能也在增長。因為有計算性能做支撐,所以不害怕數據增長和模型提升,未來的深度學習可以執行的任務非常多,學習能力也很強,能夠達到接近人的學習能力,最終實現整體人工智能產業鏈的布局。
量子機器學習。中國科技大學潘建偉教授開發出國內第一臺量子計算機,其計算性能是現有計算機的 1 億倍。發展量子計算機是人工智能未來的方向,因為計算效率高、功耗低。
六、結束語
“破山中賊易,破心中賊難”。發展科學技術比較容易,但人想戰勝內心深處邪惡的想法比較困難,從技術角度的發展,人工智能技術一旦掌握在一些少數的有邪惡想法人的手里,人類就會面臨災難。所以人工智能技術未來的發展,尤其是在倫理道德方面的發展,是我們要重點關注的方面。
審核編輯:湯梓紅
評論
查看更多