今年中秋節(jié)這天,年近九十的數(shù)學(xué)家邁克爾·阿蒂亞貼出了自己證明黎曼猜想的論文,引發(fā)熱烈討論。復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授張軍平的這篇文章內(nèi)容與黎曼猜想無關(guān),而是想探討一下黎曼主攻的幾何學(xué)與人工智能的關(guān)系,討論視覺中的距離錯覺問題。
這兩天朋友圈在瘋傳黎曼猜想被破解的消息,2018年9月24日中秋節(jié)這天,官科、拿過菲爾茲獎和阿貝爾獎,但已年近90的數(shù)學(xué)家邁克爾·阿蒂亞貼出了其證明。
因?yàn)槔杪孪胧且话俣嗄昵皵?shù)學(xué)家希爾伯特列出的23個數(shù)學(xué)最難問題之一,也是現(xiàn)今克雷數(shù)學(xué)研究所懸賞的世界七大數(shù)學(xué)難題之一;因?yàn)榭赡芙沂舅財(cái)?shù)的分布規(guī)律,也因?yàn)榭赡苡绊懍F(xiàn)有密碼學(xué)的研究,大家都很亢奮。不過從眾多評論來看,這個嘗試可能不得不遺憾地說不是太成功。但考慮到阿蒂亞年事已高,估計(jì)沒誰敢當(dāng)面懟他。盡管如此,老先生老驥伏櫪、志在千里的鉆研精神還是值得我輩學(xué)習(xí)的。
作為始作俑者,黎曼可能壓根也沒想到自己的猜想能對100多年后的密碼學(xué)有所幫助。因?yàn)檠芯克財(cái)?shù)在“科學(xué)的皇后”——數(shù)學(xué)里被認(rèn)為是最純的數(shù)學(xué),是與應(yīng)用毫無關(guān)系的數(shù)學(xué)。這種純性讓數(shù)論成為了“數(shù)學(xué)的皇后”。所以,正常情況下,數(shù)學(xué)的鄙視鏈?zhǔn)遣辉试S他去推測素?cái)?shù)分布在密碼學(xué)中的應(yīng)用的。
據(jù)說,站在數(shù)學(xué)鄙視鏈頂端的純數(shù)學(xué)研究者,通常是看不起學(xué)應(yīng)用數(shù)學(xué)的;而學(xué)應(yīng)用數(shù)學(xué)的,會看不起學(xué)統(tǒng)計(jì)的。在人工智能熱潮下,學(xué)統(tǒng)計(jì)的又看不起研究機(jī)器學(xué)習(xí)的;而學(xué)機(jī)器學(xué)習(xí)的會看不起做多媒體的;而做多媒體的又看不起做數(shù)據(jù)庫的。純做密碼學(xué)研究的,鄙視鏈應(yīng)該在應(yīng)用數(shù)學(xué)與機(jī)器學(xué)習(xí)方向之間,哪會被才高八斗的黎曼看上?
能看上黎曼的自然也是大牛,當(dāng)年是德國數(shù)學(xué)家高斯看中了他并理解了他的幾何學(xué)觀點(diǎn)。今天要講的也不是黎曼猜想,而是黎曼的幾何學(xué)觀點(diǎn)與人工智能的關(guān)系。
當(dāng)年,黎曼申請來到哥廷根大學(xué)做無薪講師,就是學(xué)校不提供固定薪水、講了課才有薪水的教師。初來乍到,來場學(xué)術(shù)報告是必需的。當(dāng)時的學(xué)術(shù)委員會從黎曼推薦的三個選題中選了一個他最意外的題目,要他以“關(guān)于幾何學(xué)的基本假設(shè)”為主題來做就職報告。
那個時候,公元前三世紀(jì)希臘亞歷山大里亞學(xué)派的創(chuàng)始者歐幾里德編寫的數(shù)學(xué)巨著《幾何原本》中的五條公設(shè)中,連大猩猩都很痛恨的第五公設(shè),就是“平行線沒有香蕉(相交)”的第五公設(shè),已經(jīng)被羅伯切夫斯基于1830年證明不成立。他認(rèn)為在一個平面上,過已知直線外一點(diǎn)至少有兩條直線與該直線不相交。由此開創(chuàng)了非歐幾里得幾何,雖然他的理論在其死后12年才逐漸被認(rèn)可。
而黎曼開創(chuàng)的非歐幾何則斷言,在平面上,任何兩條直線都必然相交。他們的發(fā)現(xiàn),最終奠定了非歐幾何的數(shù)學(xué)基礎(chǔ)。直觀來說,就是以前以為是可以用直線測量準(zhǔn)確距離的世界,現(xiàn)在居然要彎了。
既然彎了,那就很容易找到相交的可能。比如從籃球的頂部到底部,讓螞蟻沿著表面爬,它只能爬出曲線,且總是相交的。在這個籃球曲面上測得的“直線”距離就只能是彎的,稱為測地線(Geodesic)。
在黎曼用了七周時間準(zhǔn)備的報告中,他希望在能用直線測距離的歐氏空間和非歐空間之間找到合理的銜接。于是,他假定非歐空間可以由好幾個局部歐氏空間拼接而成的,提出了多個(英文的前綴是mani)折或?qū)?英文的詞根是fold)的概念,即流形(manifold,對應(yīng)的德語是mannigfaltigkeit)。
簡單且不嚴(yán)格來說,就是流形可以用一塊塊的小粘土以任意形式粘在一起來表征,但每塊局部的粘土又跟我們常見的歐氏空間是一致的,如圖1所示。至于相鄰粘土塊之間的聯(lián)接關(guān)系,則要把連續(xù)性、光滑性、可微性、抽象性等眾多深奧概念考慮進(jìn)來,這樣便成了多數(shù)人只能看懂目錄的微分流形。
圖1局部歐氏與黎曼流形:二維流形或曲面M上的一個局部p (橙色區(qū)域)與歐氏空間中的黃色區(qū)域等價。
后來,愛因斯坦知道后,如獲至寶。便找了當(dāng)年他提出狹義相對論時,用到過的洛侖茲變換的數(shù)學(xué)家洛倫茲本人,請他幫助學(xué)習(xí)微分流形基礎(chǔ)。在他的幫助下,最終愛因斯坦基于加速度下的不變性原理提出了廣義相對論,將牛頓提出的萬有引力歸結(jié)為是彎曲空間的外在表現(xiàn),開啟了宇觀物理學(xué)。
不過,那個時候,計(jì)算機(jī)還沒誕生,也沒人會意識到黎曼提出的流形與人工智能有什么關(guān)系。
感知的流形方式
回到人的智力發(fā)育上討論這一關(guān)系的存在性。兒童在發(fā)育過程中,空間感是逐漸形成的。在他學(xué)習(xí)觀察世界的過程中,一個需要掃除的認(rèn)知障礙是遮擋。有心理學(xué)家做過實(shí)驗(yàn),在小孩面前放一個屏障,然后將小孩面前的玩具移到屏障后。小孩會感覺很吃驚,但卻不會繞到屏障后去尋找玩具。這說明在發(fā)育的初始階段,小孩缺乏對三維空間尤其是空間深度的理解。經(jīng)過一段時間后,他的這種障礙會消除,對物體空間能力的辯識也明顯加強(qiáng)。
圖2旋轉(zhuǎn)不變性
于是,兒童啟蒙課本中便會出現(xiàn)這樣一個新的測試題。放一個奇形怪狀的積木,然后給幾個不同旋轉(zhuǎn)角度的形狀,其中一個或多個是該積木旋轉(zhuǎn)后的真實(shí)圖像,也有不是的,讓小朋友自己去判斷和識別哪些是原來的積木旋轉(zhuǎn)過來的。令人驚奇地是,小朋友慢慢都會學(xué)會如何處理這種旋轉(zhuǎn),并能準(zhǔn)確判斷。這種旋轉(zhuǎn)不變性能力的獲得,在格式塔心理學(xué)中有過相應(yīng)的觀察和描述。該現(xiàn)象似乎在告訴我們,人的大腦能對每一個見到的物品進(jìn)行自動的旋轉(zhuǎn)。
那么,人是如何記憶這些見過的物品,并實(shí)現(xiàn)自動旋轉(zhuǎn)的呢?格式塔心理學(xué)中沒有給出終極答案。
而認(rèn)知心理學(xué)則對記憶給了一種可能解釋,叫原型說(prototype),即某個概念都會以原型的形式存儲在記憶中,神經(jīng)心理學(xué)進(jìn)一步給了假設(shè)性的支持,稱記憶是存儲在離散吸引子(discrete attractor)上。盡管這一解釋維持了相當(dāng)長的時間,但并沒有就為什么大腦可以實(shí)現(xiàn)自動旋轉(zhuǎn)給出圓滿答案。
2000年的時候,普林斯頓大學(xué)教授Sebastian Seung和賓州大學(xué)教授Daniel Lee在《Science》上發(fā)了篇論文。他們認(rèn)為人是以流形方式來記憶的。以視覺感知為例,假定人的視網(wǎng)膜只有三個視神經(jīng)元,不考慮顏色的變化,每個神經(jīng)元能感受一定的光強(qiáng)變化,那么看到一個母親的人臉后,視神經(jīng)元上會有三個響應(yīng)。
如果三個視神經(jīng)元是相互獨(dú)立無關(guān)的,那就可以把每一個視神經(jīng)元看成一個維度,就會有一個由三個維度張成的歐氏空間。如果把只是做了側(cè)向角度變化的、母親的照片讀入這個的空間,那三張圖3所示的圖像在此空間會有何規(guī)律呢?
理論上講,如果只做了側(cè)向角度變化,那這個變化就是三張圖像的內(nèi)在控制量。只有一個變量,但又不見得會是直線,所以,母親的照片按角度的順序連起來,就會是一條曲線。類似的,如果把小朋友側(cè)向角度變化的照片也輸進(jìn)來,那同樣在這個三維空間會是一條曲線。但可能與母親的不在同一條曲線上。如果這個假設(shè)成立,那么記憶就可能是沿著這兩條不同的曲線來分別還原和生成不同角度的母親和小孩圖像。也就能部分解釋,為什么人只用看陌生人一兩眼,就能認(rèn)出其在不同角度時的面容。
圖3母親和小孩的流形感知方式,假定眼睛只有三個視神經(jīng)元,母親小孩均只有一個自由度,即左右轉(zhuǎn)頭。[1]
如果再進(jìn)一步,假設(shè)母親小孩有兩個自由度的變化,如左右、上下角度的變化,那這兩個維度的變化在三維空間上可以張成無數(shù)條曲線的合集,即曲面。在流形的術(shù)語中,曲線可以稱為一維流形,而曲面則為二維流形。
如果假定變化再豐富點(diǎn),比如角度的變化有上下角度、左右角度;還有表情的變化,真實(shí)和細(xì)微的微表情,光照的變化,年齡的變化等諸如此類的,我們把這些變化的維度稱為人臉變化的內(nèi)在維度,是真正需要記憶的。
相比較于人眼里上億的視神經(jīng)元總數(shù)來說,這些內(nèi)在維度可以張成的空間比上億維神經(jīng)元張成的空間要小非常非常多。我們便可以在曲面的名字上再加個超字來刻畫,叫超曲面,也稱為低維流形。考慮到輸入進(jìn)來的信息是通過神經(jīng)元的,所以,又能名字叫得更學(xué)術(shù)點(diǎn),稱其為嵌套在高維空間(視神經(jīng)元空間)的低維流形。
與經(jīng)典的原型學(xué)說的主要不同在于,假設(shè)用于記憶的離散吸引子能被替換成了連續(xù)吸引子,于是存儲在大腦里的原型便不再是一個點(diǎn),而可能是一條曲線、一個曲面甚至超曲面。視覺看到的任何內(nèi)容,都會從不同途徑收斂到這個連續(xù)吸引子上,并在此吸引子上實(shí)現(xiàn)對不同角度和不同內(nèi)在維度的外推。這在某種意義上既解釋記憶的方式,又解釋了自動旋轉(zhuǎn)問題。因此,黎曼流形的構(gòu)造有可能解決格式塔心理學(xué)中提及的“旋轉(zhuǎn)不變性”問題。
圖4左:離散吸引子;右:連續(xù)吸引子[1]
那能否讓計(jì)算機(jī)也實(shí)現(xiàn)類似的自我旋轉(zhuǎn)或推理能力呢?如果能實(shí)現(xiàn),也許就往人工智能方向邁進(jìn)了一小步。
關(guān)于流形學(xué)習(xí)的研究
以人臉為例,先看下最初的人臉識別技術(shù)。早期的做法是遵循歐氏空間距離,按最短直線距離來評判。這樣做的不足是沒有處理好不同角度、不同光照的人臉識別。試想想,如圖5所示的不同角度的A,以及相同正臉的B,假如識別是基于相同像素位置的光強(qiáng)差異平方總和的最小值來實(shí)現(xiàn),那哪兩張會更近呢?顯然相同角度的A和B距離會更近。這就是歐氏距離直接用于人臉識別的不足。
圖5不同角度的兩個人的照片
為什么計(jì)算機(jī)沒有人腦的旋轉(zhuǎn)不變性呢?圖6顯示了一組人臉在攝像機(jī)前僅進(jìn)行平移而保持其它性質(zhì)不變的圖像集。如果把每個像素視為一個維度,則每張照片可視為高維空間的點(diǎn),則多次采集的多個人的照片集合看成是該空間的點(diǎn)云。通過某些簡單的統(tǒng)計(jì)策略總結(jié)出前三個主要的維數(shù),再將點(diǎn)云投影到這個三維空間并兩兩描繪出來,便有了圖6的曲線圖。
圖6人臉內(nèi)在維度示例[2]
不難發(fā)現(xiàn),只控制了角度旋轉(zhuǎn)的圖像序列變成了一條又一條的曲線,這正是我們上面討論的曲線,一維流形。實(shí)際上,如果限定采集時的變量為人臉到攝像機(jī)前的遠(yuǎn)近變化,結(jié)果也是一樣。這一實(shí)驗(yàn)部分印證了人臉圖像的內(nèi)在控制變量是低的。因此,如果希望計(jì)算機(jī)能對不同角度的人臉有合理的推測功能,和還原格式塔心理學(xué)中的旋轉(zhuǎn)不變性時,找到流形結(jié)構(gòu)并依照它的規(guī)則來辦事就很自然了。
圖7各種復(fù)雜的流形結(jié)構(gòu):瑞士卷(Swissroll);右:雙螺旋線
但是,數(shù)據(jù)形成的流形結(jié)構(gòu)并非只有曲線一種情況,它可能會有如圖7所示的瑞士卷的復(fù)雜結(jié)構(gòu)。他可能還不止一個,比如兩個卷在一起的雙螺旋線。那么,要想利用經(jīng)典又好使的歐氏距離來解決問題,可行的方案之一就是把它們攤平或拉平,這樣,我們待分析的數(shù)據(jù)所處的空間就是歐氏空間了。于是,有大量的流形學(xué)習(xí)的工作便在此基礎(chǔ)上展開了。
最經(jīng)典的兩篇是與《流形的感知方式》幾乎同時于2000年發(fā)表在Science上。因?yàn)橛?jì)算機(jī)科學(xué)的工作很少有發(fā)Science的,能發(fā)在上面,則有可能引導(dǎo)大方向的研究。所以,這三項(xiàng)工作被視為引領(lǐng)了2000年后流形學(xué)習(xí)發(fā)展的奠基之作。
其想法現(xiàn)在來看的話,其實(shí)并不復(fù)雜。首先兩篇文章都引入了鄰域的概念,也就是局部情況下,流形等同于歐氏空間,因此,短程距離用歐氏度量來計(jì)算是合理的。
不同的是,Tenenbaum的工作是從測地線距離的計(jì)算來考慮的。
試想如果有一張紙,紙上有三個點(diǎn),A、B和C,AB比AC在紙面上更近。但如果把紙彎成圖8的形狀,再按直線距離來算時,AC就會更近。但按流形的定義,AC這條路徑是不能出現(xiàn)的,因?yàn)檫@個紙就是一個空間,是一個不能為二維螞蟻逃脫的空間。因此,更合理的計(jì)算方式是把圖8右圖的紅色曲線長度,即測地線精確算出來。
圖8 測地線距離和局部等度規(guī)(Isomap)算法 [3]
但測地線是在連續(xù)意義定義的,要根據(jù)離散的數(shù)據(jù)點(diǎn)來算的話,Tenenbaum等找了個平衡,提出了基于圖距離的局部等度規(guī)算法。他們假定鄰域內(nèi)的點(diǎn)與點(diǎn)之間相連的距離都等于1,鄰域以外的距離都強(qiáng)設(shè)為0。因?yàn)榱餍慰梢杂扇舾蓚€小的鄰域來粘合構(gòu)成,而相鄰的鄰域總會有部分的重疊,那么,如果把所有距離為1的都連條邊出來,則原來的數(shù)據(jù)點(diǎn)就構(gòu)成了一張連通圖。而遠(yuǎn)點(diǎn)的距離或者所謂的測地線距離,就可以通過連通的邊的最短距離來近似了,如圖8中圖所示。于是,就可以為所有的點(diǎn)建立一個相似性或距離矩陣。有了這個矩陣,再通過統(tǒng)計(jì)方法就能找到其主要的幾個方向了,即攤平的低維子空間,如圖8右圖所示,藍(lán)色的測地線距離就為紅色的圖距離近似了。
而Roweis和Laul當(dāng)時則從另一角度來嘗試恢復(fù)這個平坦的空間。他假定鄰域內(nèi)的數(shù)據(jù)點(diǎn)會相互保持一種幾何關(guān)系,關(guān)系的緊密程度由權(quán)重來決定,權(quán)重的總和等于1。同時,他假定這個權(quán)重誘導(dǎo)的關(guān)系在平坦空間會與觀測的空間保持一致,即局部結(jié)構(gòu)不變。當(dāng)然,還得防止數(shù)據(jù)在還原到低維的平坦空間時不致于坍縮至一點(diǎn)去。基于這些假設(shè),很自然地就把優(yōu)化方程寫了出來,并獲得了不用迭代求解的閉式解,即局部線性嵌入算法,如圖9所示。
算法比較直白,但兩篇文章都發(fā)現(xiàn)了類似于圖3和圖4的現(xiàn)象,即約簡到二維平面后,數(shù)據(jù)的分布具有物理意義的。比如,手旋轉(zhuǎn)杯的動作會沿水平方向連續(xù)變化,人臉圖像的姿態(tài)和表情會在兩個垂直的軸上分別連續(xù)變化。而這種情況,以前的算法似乎是找不到的。除此以外,這兩篇工作的成果又很好地與“感知的流形方式”吻合了。
圖9 局部線性嵌入(LLE)算法[4]
還有一點(diǎn),鄰域的大小決定了流形的表現(xiàn)。按幾何學(xué)大牛Spivak的說法,鄰域如果和整個歐氏空間一樣大的,那歐氏空間本身就是流形[5]。所以,流形學(xué)習(xí)的研究并非是一個很特別、很小眾的方向,它是對常規(guī)歐氏空間下研究問題的一般性推廣。
于是,從2000年開始,國內(nèi)外對流形學(xué)習(xí)的研究進(jìn)入了高潮,希望能找到更有效的發(fā)現(xiàn)低維平坦空間的方法。比如希望保持在投影到平坦空間后三點(diǎn)之間角度不變的保角算法;比如希望保持二階光滑性不變的海森方法;比如希望保持長寬比不變的最大方差展開方法;比如希望保持局部權(quán)重比不變的拉普拉斯算法等。不過何種方法,都在嘗試還原或保持流形的某一種性質(zhì)。也有考慮數(shù)據(jù)本身有噪導(dǎo)致結(jié)構(gòu)易被誤導(dǎo)的,比如我們經(jīng)常在星際旅行中提到的蟲洞現(xiàn)象,如圖10。它可以將原本隔得很遠(yuǎn)的兩個位置瞬間拉近。在數(shù)據(jù)分析中,稱蟲洞為捷近或短路邊(shortcut),是需要避免的,不然會導(dǎo)致還原的空間是不正常甚至錯誤的。
圖10將圖8中的A和C連接的蟲洞或短路邊(Shortcut)問題
除了找空間外,流形的一些性質(zhì)也被自然地作為約束條件加入到各種人工智能或機(jī)器學(xué)習(xí)的優(yōu)化算法里。即使是現(xiàn)在盛行深度學(xué)習(xí)研究中,流形的概念也被很時髦地引了進(jìn)來。如生成對抗網(wǎng)在2014年最初提出的時候,YannLeCun就指出希望對抗的數(shù)據(jù)處在數(shù)據(jù)流形中能量相對高的位置,而真實(shí)數(shù)據(jù)則位于流形能量相對低的位置,這樣,就有可能讓生成對抗網(wǎng)獲得更好的判別能力。
?
圖11 生成對抗網(wǎng)中的流形;左:高能量值;右:低能量值 [6]
關(guān)于流形學(xué)習(xí)的思考
雖然流形學(xué)習(xí)在認(rèn)知、機(jī)器學(xué)習(xí)方面都有很好的可解釋性,不過這幾年隨著深度學(xué)習(xí)的盛行,與它相關(guān)的文獻(xiàn)在相對份量上正慢慢減少。一個原因是,由于這一波人工智能的熱潮主要是產(chǎn)業(yè)界開始的,而產(chǎn)業(yè)界對預(yù)測的重視程度遠(yuǎn)高于可解釋性。所以,不管學(xué)術(shù)界還是產(chǎn)業(yè)界都把重心放到如何通過優(yōu)化深度學(xué)習(xí)模型的結(jié)構(gòu)和參數(shù)優(yōu)化去了。
正如我之前強(qiáng)調(diào)過的,過分關(guān)心預(yù)測性能的同時,必然會犧牲可解釋性。因?yàn)榍罢哧P(guān)心個例,后者需要統(tǒng)計(jì)。兩者是一個矛盾,類似于測不準(zhǔn)定理中的速度和位置的關(guān)系。從目前的情況來看,犧牲的可能還不止流形學(xué)習(xí)這一種具有可解釋性的方法。盡管大家在討論數(shù)據(jù)的時候,還會時不時說下流形,但最多也只是扔個概念出來,并沒有太多實(shí)質(zhì)性的融入。
再回到人的大腦來看,雖然之前也提到了流形的感知方式,但是否存在實(shí)證還不是完全的明確,Seung和Lee也只是做了些間接的推測。一方面,是測量技術(shù)的不足,因?yàn)楝F(xiàn)在都是采用腦電圖描記器(EEG)或磁共振成像(MRI)技術(shù)來檢測大腦信號的,本身就缺乏這種連續(xù)性的關(guān)聯(lián),要尋找是否大腦中存在流形記憶確實(shí)有難度。
另一方面,我們的大腦里面真有一個彎曲的流形記憶空間呢?真是以連續(xù)而非離散吸引子形式存在嗎?如果是的,那與現(xiàn)在深度學(xué)習(xí)的預(yù)測模型的做法應(yīng)該是不同的,其差別就如同飛機(jī)和鳥。
也許,找尋這個問題的答案,和黎曼猜想的破解是一樣的困難。
-
幾何
+關(guān)注
關(guān)注
0文章
37瀏覽量
12338 -
人工智能
+關(guān)注
關(guān)注
1791文章
46896瀏覽量
237664 -
視覺
+關(guān)注
關(guān)注
1文章
146瀏覽量
23896
原文標(biāo)題:愛犯錯的智能體:談?wù)劺杪餍闻c視覺距離錯覺問題
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論