7月7日,全球人工智能和機器人峰會在深圳如期舉辦,由CCF中國計算機學會主辦、雷鋒網與香港中文大學(深圳)承辦的這次大會共聚集了來自全球30多位AI領域科學家、近300家AI明星企業。 當今AI和機器人革命浪潮下,包括我國在內的各國政府和投資界,都意識到推動這兩個領域各個方面的全球協作、迎接機遇與挑戰的重要性。而擁有完備制造產業鏈、作為改革開放窗口的深圳,則是推動AI與機器人行業產、學、研跨界協作的理想中心?;谶@樣的時代背景,「CCF-GAIR」應運而生。
山世光,中科院計算所研究員、博導,基金委優青,CCF青年科學獎獲得者,現任中科院智能信息處理重點實驗室常務副主任,中科視拓創始人、董事長兼CTO。他的研究領域為計算機視覺和機器學習。已在國內外刊物和學術會議上發表論文200余篇,其中CCF A類論文60余篇,論文被谷歌學術引用10000余次。曾應邀擔任過ICCV,ACCV,ICPR,FG,ICASSP等國際會議的領域主席,現任IEEE,TIP,CVIU,PRL,Neurocomputing,FCS等國際學術刊物的編委。研究成果獲2005年度國家科技進步二等獎,2015年度國家自然科學二等獎,CVPR2008 Best Student Poster Award Runner-up獎。
如何看待這次AI熱潮?
谷歌AlphaGo與李世石的世紀之戰,讓人工智能(AI)這個話題再度火爆起來。山世光博士早在20年前就開始做AI領域中的計算機視覺技術研究,在這次GAIR大會分享中,他結合自己過去的科研經歷和行業觀察,分別從四個不同的角度分析,給出了他對此次AI熱潮的一些看法:
從方法論角度看:過去幾十年流行的人類專家知識驅動的AI方法論被數據驅動的AI方法論全面取代。這里的數據主要指有監督的大數據。人類智能的產生是不是也完全基于有監督的大數據學習而來尚不得而知。從這個意義上講,計算智能和人類智能之間的差異也不得而知。
從學術角度來看:雖然有監督大數據驅動的方法論在某些領域已經構建出了超越人類智能的AI,但基于有監督大數據的深度學習是否構建機器智能時代充分且必要的基礎性方法?他個人認為至少是不充分的,需要新的方法論。
從算法角度來看:主要得益于兩個方法:一是深度學習,二是增強學習。增強學習被大家所熟知是因為AlphaGo在圍棋上戰勝了人類最強的棋手。但實際上增強學習在很多場景下是不能用的,至少目前在視覺和語音處理等任務中尚未得到有效的應用。而深度學習可類比人類學習方法里的歸納學習,卻不適合演繹學習。深度學習是否可以廣泛應用于推理類任務尚不得而知。
從做計算機視覺的角度來講:包括智能視頻監控、考勤門禁等在內的安防應用以及醫療讀圖、基于視覺的汽車輔助駕駛等都是計算機視覺技術落地的方向,商業化產品已經雨后春筍般涌上市場。
關于演講主題中的X表示什么意思,山世光博士在接下來的演講中給出了X數據的五個含義,分別是:第一,大數據;第二,小數據;第三,臟數據;第四,無監督數據;第五,是增廣,通過增廣獲得更大的數據集。下面的分享實錄中會有對各個含義的詳細解讀。
為什么要做X數據驅動?
山世光博士將深度學習算法、強大算力、大數據比作AI革命背后的“三駕馬車”,而這“三駕馬車“背后的現實問題是金錢投資,需要非常厲害的牛人做深度學習算法、搭建更加強大的計算力平臺以及收集更多的數據。其中數據收集和標注的成本日趨昂貴,所以他們希望在這方面看看能不能做點什么。
關于SeetaVision視覺技術
人臉識別:SeetaVision的多姿態人臉檢測技術是在標準人臉檢測評測集FDDB上最好的方法之一。在100個誤檢的情況下,SeetaVision的檢測率達到了92%。此外還研發了檢測加速技術,從而可以在嵌入式設備上實現實時的多姿態人臉檢測。第二個人臉核心技術是面部關鍵特征點的定位,SeetaVision實現了81個關鍵特征點的超實時檢測與跟蹤。SeetaVison人臉識別具體應用包括人證一致性驗證,員工考勤與打卡、黑白名單目標人檢測等。
手勢識別:SeetaVision可以實現實時的手語翻譯,就像語音識別一樣,把1000常用詞形成的手語句子翻譯成自然語言文本?;诖?,視拓目前已經和美的合作,將其應用于智能家居中。
情感計算:SeetaVision的基本表情識別率超過85%,基于普通攝像頭的心率估計也非常接近醫療設備的檢測結果。
視頻結構化:面向智能視頻監控類應用,SeetaVision實現了嵌入式設備上的實時人車跟蹤,準確度超過85%。
無人機視覺:針對無人機地面目標檢測任務,SeetaVision實現了高清視頻中地面車輛等目標的實時檢測
分類與跟蹤。
山世光博士還表示,中科視拓的終極目標是讓AI知人知面看世界,給每個AI裝上智慧的眼睛,讓它看清在跟誰交互,周圍環境如何,以及正在發生什么事情。而面對目前市場上已有多家做人臉識別等視覺技術的創業公司,如何才能在競爭中脫穎而出,山世光博士表示,將SeetaVision的商業模式定位為“開源賦能“,走差異化競爭路線,重點關注與行業客戶之間的深度合作。
在大會分享的最后,山世光博士對AI未來發展需要注意哪些問題做了一些總結,他認為:
其一,魯棒性可能是AI和視覺智能一個最致命的問題。其二,AI的成長需要多模態協同,不能單靠視覺智能或語音智能等。其三,如何基于小數據甚至是零數據準確完成各類視覺任務,還需要大量的深入研究。
以下是山世光博士在CCF-GAIR 2017的現場實錄,AI科技評論做了不改動原意的編輯:
我今天報告的題目是《X數據驅動的Seeta平臺與技術》,可能大家都在想X是什么,這里我們暫時認為X就是一個問號。在接下里的報告中,我會從X數據入手,來重點介紹一下我們所做的工作。
其實我們大家都非常深切的體會到,我們正在邂逅一場前所未有的人工智能技術革命和應用的井噴。在這樣的一個狀態下,它的背后是有“三駕馬車”或者“三個引擎”,就是深度學習算法、強大算力以及大數據,這些因素的共同作用才產生了這一輪新的AI熱潮。
我這次報告的題目為什么叫“X數據驅動”,主要從數據角度出發,來看對AI產業能做什么事。
這一輪人工智能的熱潮,從方法論的角度來講,主要是源自AI研究范式的變遷。即從人類專家知識驅動的方法論到數據驅動的方法論的變遷。我們指的數據,其實是特指有監督的大數據:一方面是數據量必須足夠大,另一方面這些數據還必須是帶有內容標簽的。人類智能的本質同現在的計算智能之間的差異,在目前而言還是不得而知。因此我們非常有必要從學術角度來探討,數據驅動或者有監督的大數據驅動這樣一種方法論,是否會是我們構建整個機器智能時代的基礎設施。
當然,在目前這種有監督大數據驅動的方法論條件下,在某些領域確實已經出現AI超越人類智能的情況。這一輪AI熱潮,從算法角度,主要得益于兩個東西:一是深度學習、二是增強學習。增強學習被大家熟知是因為AlphaGo在圍棋上戰勝了人類最強的棋手。實際上增強學習并不是放之四海皆可用的方法,它在很多場景下是不能用的,特別是在視覺和語音等場景下并沒有得到非常有效的應用。因為它需要AI能夠自動的判斷對錯,比如說下圍棋或者一個游戲,做得好或者不好,算法是可以自動去判斷好或者不好、對或者錯的。像我們的視覺、聽覺這樣的一些問題,比如說做人臉識別,AI算法本身識別錯了,它是不能夠知道自己識別錯了的,識別對了它自己也不知道,所以很難形成一個迭代的自我增強過程。如果是硬去迭代,很可能會學偏學傻,乃至走火入魔。
所以增強學習在這些問題上并沒有得到非常好的應用。深度學習目前適合解決我稱之為“好數據肥沃”的領域,而且通常只對應于人類學習方法里的歸納學習。然而,人類的學習除了歸納學習之外,還有演繹推理。針對演繹推理,深度學習則存在嚴重短板。舉個演繹推理的例子,比如說《幾何原本》,是歐幾里德從5條公理推演出來的。想用深度學習做這類自動推演,目前來看是完全沒有希望的。當然,這是一個很極端的例子,但我們在日常生活中是需要大量推理的,深度學習在這一點上,目前來看也沒有太多可以有作為的地方。
李開復老師在過去一段時間多次提及,在未來10年可能人工智能會取代10種職業50%的工作。我不知道大家怎么去看,我個人覺得保姆可能還是很難取代的,也許醫生更有可能會被取代。從我們做計算機視覺的角度來講,醫療讀圖是一個很重要的方向。對于做人臉識別或者圖像識別的人來說,保安則是我們更感興趣的群體,在未來10年,也許不是50%,而是80%的保安,會被一些自動的系統所取代。比如說我們的一個企業客戶,用我們的人臉識別技術做單位的門禁和考勤,在1萬個員工的情況下,可以實現不需要員工卡自動做識別、開門和考勤的系統,我想可能未來真的不需要一個保安坐在那兒了。
我和我的學生們在去年8月,基于計算所在視覺信息處學習方面的研究成果做了一個公司,叫做中科視拓,形成了一個產學研聯合體,一起開發SeetaVision技術。我們的目標是讓AI能知人識面看世界,讓每個AI都長上智慧的眼睛,讓它看清它在跟誰交流、了解周圍正在發生什么事情,以便智能地應對這些場景。
我們主要的底層技術,就是在機器學習特別是深度學習理論、方法與技術?;谶@些機器學習的方法,在人臉識別、情感計算、視頻結構化和無人機視覺等方面,我們有自己的一些布局。我們過去的積累包括在這些領域的競賽中,取得一些最好的成績,其中包括人臉識別、手勢識別、行人檢測、圖像搜索等等任務。我們剛才也提到,業界已經有像商湯、Face++等等有很多前輩公司,比我們早走了多年。我們在商業模式上也希望不斷探索新的路徑。當前階段,我們采取”開源賦能“的差異化做法與一些重點客戶開展了深度合作。
所謂的開源,是指我們可以給B端客戶提供源碼級的引擎技術。更進一步的是賦能,我們可以提供生成這些引擎的引擎技術。通俗地講,我們不但賣雞蛋,還賣下蛋的雞,這是完全不同的合作模式。去年8月中科視拓開源了Seetaface人臉識別引擎,它雖然不是業界最好的人臉技術,但提供了一個優秀的基準,從而顯著地提升了業界基準水平,也為一些公司提供了參照。有很多客戶把Seetaface代碼用到產品中,并進而與我們建立了更深度的合作。
在這里我也展示我們的一些核心技術:
多視角人臉檢測技術
在人臉檢測方面實現多姿態的檢測,在FDDB上是最好的方法之一。其實人臉檢測大家都非常熟悉,就是我們把這個畫面有多少個人臉找出來。FDDB也是在這個領域里面被廣泛采用的標準評測,我們在100個誤檢時達到了接近93%的檢測率。另外,我們還實現了很多加速的方法,實現人臉的快速檢測,包括在一些嵌入式設備上實現實時的檢測。
面部關鍵點定位技術
面部關鍵點定位技術,是指在檢測到人臉的基礎上,實現一面部關鍵點的定位。我們的技術可以定位80多個面部特征點,當然我們也可以定位更多,但數目并不是關鍵。我們已實現超實時的特征點定位,在相關的數據庫中我們也取得了最好的成績。基于這些技術,我們落地了一些人臉識別應用,包括1:1的人證比對、網紋身份證照片人臉驗證、以及人臉考勤系統等。與簡單人證比對相比,在公安的應用場景,身份證查驗中心會把照片加一個網紋,再傳回來,而我們則需要首先把網紋去掉,再跟現場人員比較看看是不是這個人。目前我們的算法是可以正確判斷的。在人臉考勤方面,技術已經成功應用,可以實現1萬員工的考勤和門禁,在誤識率約為1%的情況下,可以達到95%以上的正確識別率。
情感計算與心率估計
此外我們公司還在情緒感知方面有一些積累,可以實現85%以上的表情識別率。SeetaVision還可以實現準確的心律估計,這里的心律估計是指通過攝像頭拍攝人臉部視頻來估計人的心跳次數。只要攝像條件好,即可準確估計。
手勢識別與視頻結構化分析
我們還有一些手勢識別的技術,以及手語實時翻譯技術。手語識別是指,用手語打一句話,把手語實時翻譯成文本,我們目前已經和美的合作,實現對一些基本手勢的準確識別,用于智能家居控制。
此外在視頻結構化分析方面,我們也可以實現人車的跟蹤,在TX1上做到準確度85%以上的實時檢測。
無人機視覺技術
我們還有一個方向是在做無人機視覺,能夠實現地面車輛目標檢測,以及地面車輛的實時跟蹤。左圖是地面車輛目標檢測。每個綠框都是我們檢測出來的車輛。我們特意選了一個堵車的場景,在目標如此小且密集的情況下,人為識別都是有很多困難的,但我們的算法能夠實現接近90%精度的檢測。右邊的視頻是實現跟蹤,能夠實現對地面上車輛的實時跟蹤。
下面我回到報告的主題上來,即X數據驅動,針對X是什么,我想講幾種不同的場景。
第一,X=大,就是大數據驅動的視覺引擎的設計?,F在,無論大公司還是小公司,都是在拼命的收集數據,進行深度學習模型的優化和訓練。我們在人臉方面有百萬級人數的億級人臉數據,每個人又進一步有很多不同的場景和照片。我們在車輛和行人方面也有千萬量級的圖像和視頻,我們對這些數據做了大量的標注,如:人的頭部、軀干和四肢的標注信息。在無人機視覺方面,我們大概三四個月時間,就積累了百萬量級的無人機視覺數據,可以實現對車輛目標以及車輛類型的檢測和估計。在大數據的條件下,類似于人的熟能生巧和見多識廣,見得多你就可以積累出來非常多的經驗。
第二,X=小,在很多場景下,我們人類獲得智能的能力并沒有依賴于大量的數據學習,反而是一些小數據。所以在小數據的情況下,如何使得我們的算法也能夠有效果。
最通常的思路是做遷移學習,所謂遷移學習最簡單的是做Finetune,我們把一個已經訓練好的模型,再用小量的數據做調整和優化,使得它適應這些小數據所代表的應用場景。例如:我們在2015年參加感知年齡估計的競賽并取得了亞軍。我們采用的算法是首先在人臉識別的數據庫里面,利用百萬級的數據做訓練,再用幾萬量級真實年齡的數據做Finetune,最后在競賽方提供的感知年齡的測試數據集上,取得了非常好的效果。
在表情識別方面,我們在2014年參加了一個競賽,因為沒有大量的表情數據,因此,我們采用人臉識別的數據做訓練,直接拿人臉識別的特征來做,最后也是取得第一名的成績??梢娢覀兒芏嗟娜蝿?,特別是相關的任務,是可以運用相關領域的數據來實現遷移的。
另外一個例子,比如面部特征點定位,要用到在面部標注點的數據集。現在學術界或者工業界可能會有很多不同類型的數據,比如一個數據集可能是68個點、另外一個數據集是74個點,它們之間的定義是不一樣的,如何把它合并起來,使它變大,從而形成更好的算法,也是一個很值得關注的方向。
我們的一個博士生就做了這樣的一個算法,利用預測填補和深度回歸的方式解決問題,其背后也是深度學習的方法以及一些適應性的調整。
另外一個例子,手機上會有越來越多的攝像頭,這些攝像頭有可能是彩色的、也有可能是黑白的、還有可能是深度的,還有可能是近紅外的。這些攝像頭采集的數據,如何實現共用,這也是一個非常值得研究的話題。比如說在RGB-D數據集不足的情況下,如何基于大量的RGB數據來完成跨模態的融合,以實現更好的結果。
首先通過不同模態的數據分別建立深度學習的模型,之后再通過共有的網絡去實現它們的融合,再反饋回來調整每個模塊的深度模型,最終可以實現不同模態數據之間的跨模態的比對以及融合利用。
這種方式其實也是在利用小數據和大數據的關系,在小數據條件下更好地學習算法模型。利用這樣的一種方式,我們在去年2016CVPR上發布的模型,實現了彩色和深度信息之間的融合,乃至比對。這就是第二個X=小數據。
第三,X=臟,還有很多情況下是臟數據。所謂的臟數據,比如在百度圖片搜索“成龍”,確實會反饋很多成龍的照片,但是也會有大量的不是成龍的照片。而我們又不想雇1000個人大量的數據把它標注出來,干脆就基于有噪聲的數據實現機器學習。所以我們在今年提出具有“自糾錯學習”能力的深度學習方法,在深度學習的過程中,一邊去學習算法,一邊去估計哪些樣本的標簽可能是錯誤的,我們把一些可能錯誤的標簽修正過來,從而得到更好的算法。利用這種策略,我們發現,即使加了40%或者60%的錯誤標簽,我們的算法也能夠實現不錯的深度學習效果。
X=臟,這個臟還可能有另外一層含義,比如說有遮擋的情況。我們也提出了一個算法,在這個任務里面,我們能夠把面部的遮擋部分、臟的部分補出來,補出來之后再去實現感知。把這兩個過程迭代起來,形成聯合的學習,這個工作發表在去年的CVPR上面,也是取得了非常不錯的效果。
第四,X還可能是無監督數據。所謂的無監督數據是指沒有標簽可以利用的數據。想象一個場景,比如我們手里面有大量東方人的有標簽數據,但是有標簽的黑人數據相對較少,而我們可以在網上找到大量的無標簽的黑人數據,我們如何能夠利用這些沒有標簽的數據進行識別,這是一個很重要的問題。因為只用東方人的數據做訓練,去識別黑人效果會非常差,反過來也是一樣,所以我們要進行模型的調整,以實現從東方人數據到無監督的黑人數據的遷移。我們這方面的工作發表在ICCV2015上面。
第五,X還可以是增廣數據,即通過對已有少量數據進行修改的方式,來生成大量數據。人類有一種能力叫做舉一反三,比如說給大家一張平面的照片,可能看到這張很帥的照片之后,你就會浮想聯翩,怎么浮想呢?可能會想這個人從側面看是什么樣子,他笑起來是什么樣子,他戴上眼鏡會變成什么樣子,我們具備這種能力。我們能不能讓機器也有這樣的能力,從一張照片增廣出大量數據,用于學習。這里示例的是我們基于三維模型的方法做數據增廣的效果,我們可以生成這位帥哥在不同視角條件下的照片。
完成這個任務,另外一種方法是采用這兩年非?;鸬腉AN方法。輸入最左側的照片,用GAN可以生成不同表情的照片。還可以有更加復雜的,比如說帶上眼鏡,加上胡子等等。當然這個也是有條件的,并不是說每張照片都可以做得這么好,基于GAN生成的人臉圖像是不是能夠用于提升算法,目前還是存疑的。
總結一下,X等于什么呢?大數據、小數據、無監督數據、臟數據、或者通過增廣的方式,實現更大量數據的收集。其實還有一個非常重要的角度,就是類比人,人在很多時候都是自尋煩惱,當然不是自尋煩惱,是自尋數據。例如,在我們觀察一個物體的時候,如果從一個角度不能全面觀察,我們會移動來收集不同視角的數據,這種主動收集數據的能力,是現階段AI系統升級為自主AI系統的必備能力,特別是對自主無人機和機器人。
此外,從整個視覺智能的宏觀角度來說,我們現在已經非常清晰的看到,魯棒性是視覺智能乃至整個AI的核心問題之一,即如何能夠實現萬無一失。其實,現在像人臉識別的場景下,有些情況下我們已經做到萬無一失,但是仍有很多實際應用的場景,例如智能駕駛等領域,我們需要的是百萬無一失,意味著我們需要百萬分之一的錯誤率。在這樣的條件下,才能夠有更加廣泛的應用。在這種情況下,是不是僅有大數據就足夠,這一點還存有疑問。
我們類比人類的發育成長過程,人類具備兩個特性:一是多模態數據協同;二是基于小樣本的自主學習。
多模態數據協同
人類的多模態數據協同是指什么呢?對于人來說,除了眼睛之外,我們有很多其它信息來對我們的智力發育提供幫助,包括語音、姿態、動作、以及背后有大量的知識庫作支撐。因此,人本身是需要一個多模態系統協同工作的魯棒AI,這帶給我們一個思路,AI的成長和發育也需要多模態。
基于小樣本的自主學習
對人的智能發育來說,我們生來就有“大腦”,有所謂的智商,我們從一出生的時候,神經系統基本上發育的差不多,到3歲就基本發育完畢。也就是說,人類作為一種高級生物,經過數百萬年甚至更長的時間進化出了這樣的一個”先天腦“模型。假設我們拿深度學習作為一個模型來類比,相當于人在出生的時候,祖先已經幫我們利用大量數據訓練出了一個深度學習模型。
在后期的成長過程中,其實是對這個深度模型基于小數據的不斷調整和適應性的優化。所以說,我們認為AI發育的非常重要的一點,就是如何基于小數據甚至是0數據完成智能的發育和后天的學習。比如說我跟大家描述一下某個人長成什么樣子,你并沒有見過這個人,你并沒有見過這個人的照片,我們稱為0數據,你如何能夠識別這個人,是對AI的一個挑戰。類似這樣的應用場景,將來會有非常多的研究空間。
綜上,從人類智能的角度出發來看AI,AI要想在更多的場景下實現強大的視覺能力,還需要基于小數據乃至0數據情況下的自主學習能力、以及多模態的數據協同能力,這兩種能力為AI的發育提供了可能性,也為AI真正理解世界并服務人類提供了可能
評論