自監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠從很少的數(shù)據(jù)中學(xué)習(xí)知識(shí),這樣才能識(shí)別和理解世界上更微妙、更不常見的表示形式。
近年來,AI 產(chǎn)業(yè)在開發(fā)“可以從大量經(jīng)過細(xì)致標(biāo)記的數(shù)據(jù)中學(xué)習(xí)的 AI 系統(tǒng)”這個(gè)研究領(lǐng)域上取得了巨大進(jìn)步。這種監(jiān)督學(xué)習(xí)的范式在訓(xùn)練專業(yè)模型方面有著非常好的成績(jī),這類模型在完成它們針對(duì)訓(xùn)練的任務(wù)時(shí)表現(xiàn)頗為出色。不幸的是,只靠監(jiān)督學(xué)習(xí),人工智能領(lǐng)域的前景是有局限的。
監(jiān)督學(xué)習(xí)是構(gòu)建更智能的通用模型道路上面臨的一個(gè)瓶頸。這種通用模型可以無需大量標(biāo)記數(shù)據(jù)就執(zhí)行多種任務(wù)并獲得新技能。實(shí)際上,想要標(biāo)記世界上的所有事物是不可能做到的。還有一些任務(wù)根本沒有足夠的標(biāo)記數(shù)據(jù),例如針對(duì)一些資源匱乏的語言的翻譯系統(tǒng)。如果 AI 系統(tǒng)能夠超越訓(xùn)練數(shù)據(jù)集所指定內(nèi)容的范疇,對(duì)現(xiàn)實(shí)做出更深入、更細(xì)致的理解,那么它們就會(huì)有更多用途,并最終發(fā)展出更接近人類的 AI 智能。
在嬰兒時(shí)期,我們主要通過觀察來了解世界是如何運(yùn)轉(zhuǎn)的。我們學(xué)習(xí)諸如事物恒久性和重力之類的概念,從而形成了關(guān)于世界中各種事物的通用預(yù)測(cè)模型。隨著我們成長(zhǎng),我們開始觀察世界,對(duì)其采取行動(dòng),再次觀察并建立假設(shè),以通過嘗試和錯(cuò)誤來解釋我們的行為是如何改變環(huán)境的。
一個(gè)可行的假設(shè)是,關(guān)于世界的通行知識(shí),或者說常識(shí),構(gòu)成了人類和動(dòng)物具備的生物智能的主要基礎(chǔ)。這種常識(shí)能力對(duì)于人類和動(dòng)物來說都是天然存在的,但是自 AI 研究起步以來,它一直都是一項(xiàng)未解決的挑戰(zhàn)。從某種意義上說,常識(shí)就是人工智能領(lǐng)域的暗物質(zhì)。
常識(shí)可以幫助人們學(xué)習(xí)新技能,而無需為每項(xiàng)任務(wù)都做大量的教學(xué)指導(dǎo)。例如,我們只需向小孩子展示幾張母牛的畫像,他們最后就能識(shí)別出他們看到的任何母牛。相比之下,受監(jiān)督學(xué)習(xí)訓(xùn)練的 AI 系統(tǒng)需要許多母牛圖像的樣本,即便如此也可能無法識(shí)別出特殊情況下的母牛(例如躺在沙灘上的牛)。
在幾乎沒有監(jiān)督的情況下,人們是如何在大約 20 個(gè)小時(shí)的練習(xí)中學(xué)會(huì)駕駛汽車的呢?相比之下,全自動(dòng)駕駛系統(tǒng)為什么需要?jiǎng)佑梦覀冏顑?yōu)秀的 AI 系統(tǒng),接受來自人類駕駛員的數(shù)千小時(shí)數(shù)據(jù)的訓(xùn)練?簡(jiǎn)單的答案是,人類依賴的是他們之前獲得的有關(guān)世界運(yùn)作方式的背景知識(shí)。
我們?nèi)绾巫寵C(jī)器也能做到這一點(diǎn)呢?
我們相信,自監(jiān)督學(xué)習(xí)(self-supervised learning,SSL)是建立這種背景知識(shí),并在 AI 系統(tǒng)中建立一種近似常識(shí)形式的最有前途的方法之一。
自監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠從很少的數(shù)據(jù)中學(xué)習(xí)知識(shí),這樣才能識(shí)別和理解世界上更微妙、更不常見的表示形式。自監(jiān)督學(xué)習(xí)在自然語言處理(NLP)領(lǐng)域取得了顯著的成就,包括 Collobert-Weston 2008 模型、Word2Vec、GloVE、fastText,以及最近的 BERT、RoBERTa、XLM-R 等成果。與僅以監(jiān)督方式做訓(xùn)練的系統(tǒng)相比,以這種方式進(jìn)行預(yù)訓(xùn)練的系統(tǒng)所提供的性能要高得多。
我們最新的研究項(xiàng)目 SEER 利用了 SwAV 等方法,在一個(gè)包含十億張隨機(jī)未標(biāo)記圖像的大型網(wǎng)絡(luò)上做預(yù)訓(xùn)練,進(jìn)而在各種視覺任務(wù)集上獲得了最頂尖的準(zhǔn)確性水平。這一進(jìn)展表明,自監(jiān)督學(xué)習(xí)也可以勝任復(fù)雜現(xiàn)實(shí)環(huán)境中的 CV 任務(wù)。
在這篇文章中,我們會(huì)向大家分享為什么自監(jiān)督學(xué)習(xí)可能有助于解鎖智能研究領(lǐng)域的暗物質(zhì),以及 AI 產(chǎn)業(yè)下一個(gè)前沿領(lǐng)域的細(xì)節(jié)。我們還將重點(diǎn)介紹關(guān)于 AI 系統(tǒng)中自監(jiān)督學(xué)習(xí)和推理的一些最有希望的新方向,包括在不確定環(huán)境下用于預(yù)測(cè)的基于能量的模型、聯(lián)合嵌入方法和潛在變量架構(gòu)。
自監(jiān)督學(xué)習(xí)是預(yù)測(cè)性學(xué)習(xí)
自監(jiān)督學(xué)習(xí)是利用數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)來從數(shù)據(jù)本身獲取監(jiān)督信號(hào)的。一般來說,自監(jiān)督學(xué)習(xí)使用的技術(shù)是根據(jù)輸入的任何觀察到的或非隱藏的部分,來預(yù)測(cè)輸入的任何未觀察到的或隱藏的部分(或?qū)傩裕?。例如,?NLP 中很常見的例子是,我們可以隱藏句子的一部分,并從其余單詞中預(yù)測(cè)隱藏的單詞。我們還可以根據(jù)當(dāng)前幀(觀察到的數(shù)據(jù))預(yù)測(cè)視頻中的過去幀或未來幀(隱藏?cái)?shù)據(jù))。由于自監(jiān)督學(xué)習(xí)使用的是數(shù)據(jù)本身的結(jié)構(gòu),因此它可以在多種共現(xiàn)模式(例如視頻和音頻)和大型數(shù)據(jù)集中利用各種監(jiān)督信號(hào),而無需依賴標(biāo)記。
在自監(jiān)督學(xué)習(xí)中,訓(xùn)練系統(tǒng)以從輸入的可見部分(綠色)預(yù)測(cè)輸入的隱藏部分(灰色)
由于自監(jiān)督學(xué)習(xí)是由監(jiān)督信號(hào)推動(dòng)的,因此與之前使用的術(shù)語“無監(jiān)督學(xué)習(xí)”相比,“自監(jiān)督學(xué)習(xí)”這個(gè)術(shù)語更容易被接受。無監(jiān)督學(xué)習(xí)是一個(gè)定義不清、具有誤導(dǎo)性的術(shù)語,讓人覺得這種學(xué)習(xí)根本用不到監(jiān)督。實(shí)際上,自監(jiān)督學(xué)習(xí)并不是無監(jiān)督的,因?yàn)樗褂玫姆答佇盘?hào)比標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法要多得多。
自監(jiān)督的語言與視覺學(xué)習(xí)
自監(jiān)督學(xué)習(xí)對(duì) NLP 產(chǎn)生了特別深遠(yuǎn)的影響,使我們能夠在大型的未標(biāo)記文本數(shù)據(jù)集上訓(xùn)練 BERT、RoBERTa、XLM-R 等模型,然后將這些模型用于下游任務(wù)。這些模型在自監(jiān)督階段進(jìn)行預(yù)訓(xùn)練,然后針對(duì)特定任務(wù)(例如分類文本主題)進(jìn)行微調(diào)。在自監(jiān)督的預(yù)訓(xùn)練階段,系統(tǒng)會(huì)顯示一段簡(jiǎn)短的文本(通常包含 1,000 個(gè)單詞),其中一些單詞已被屏蔽或替換。系統(tǒng)經(jīng)過訓(xùn)練可以預(yù)測(cè)被屏蔽或替換的單詞。通過這種方式,系統(tǒng)學(xué)會(huì)了表示文本的含義,這樣它就可以很好地填寫“正確的”單詞,或者說在上下文中有意義的單詞。
預(yù)測(cè)輸入的缺失部分是 SSL 預(yù)訓(xùn)練的更常見的任務(wù)之一。要完成諸如“()在非洲草原上追趕()”這樣的句子,系統(tǒng)必須知道獅子或獵豹可以追捕羚羊或牛羚,但貓是在廚房而非熱帶草原中追逐老鼠的。訓(xùn)練的結(jié)果是,系統(tǒng)學(xué)會(huì)了如何表示單詞的含義、單詞在句子中的作用以及整段文本的含義。
但是,這些技術(shù)不能輕松擴(kuò)展到新領(lǐng)域,例如 CV 上。盡管 SSL 取得了令人鼓舞的早期成果,但它尚未在計(jì)算機(jī)視覺方面帶來我們?cè)?NLP 領(lǐng)域中看到的那種改進(jìn)(盡管這種情況將會(huì)改變)。
主要原因是,在圖像的預(yù)測(cè)任務(wù)中表示不確定性要比在單詞中表示不確定性困難得多。當(dāng)系統(tǒng)無法準(zhǔn)確預(yù)測(cè)缺失的單詞時(shí)(是“獅子”還是“獵豹”?),系統(tǒng)可以對(duì)詞匯表中所有可能的單詞打出分?jǐn)?shù)或概率:“獅子”“獵豹”和其他一些掠食者拿到高分,詞匯表中其他單詞的得分都較低。
規(guī)模這么大的訓(xùn)練模型還需要一種在運(yùn)行時(shí)和內(nèi)存方面都有很高效率,而又不影響準(zhǔn)確性的模型架構(gòu)。幸運(yùn)的是,F(xiàn)AIR 在架構(gòu)設(shè)計(jì)領(lǐng)域的最新創(chuàng)新催生了一個(gè)新的模型家族,名為 RegNets,可以完全符合這些需求。RegNet 模型都是 ConvNet,能夠擴(kuò)展到數(shù)十億甚至可能是數(shù)萬億的參數(shù),并且可以進(jìn)行針對(duì)優(yōu)化以適應(yīng)不同的運(yùn)行時(shí)和內(nèi)存限制。
但是,當(dāng)我們預(yù)測(cè)視頻中丟失的幀或圖像中缺少的色塊時(shí),我們不知道如何有效地表示不確定性。我們無法列出所有可能的視頻幀,也無法給每個(gè)可能的視頻幀打出分?jǐn)?shù),因?yàn)樗鼈兊臄?shù)量是無限的。盡管這一問題限制了視覺領(lǐng)域中 SSL 帶來的性能改進(jìn),但諸如 SwAV 之類的新 SSL 技術(shù)開始打破視覺任務(wù)中的準(zhǔn)確性記錄。SEER 系統(tǒng)就是一個(gè)最佳證明,它使用了一個(gè)經(jīng)過數(shù)十億樣本訓(xùn)練的大型卷積網(wǎng)絡(luò)。
對(duì)預(yù)測(cè)中的不確定性建模
為了更好地理解這一挑戰(zhàn),我們首先需要了解與 NLP 相比,CV 中預(yù)測(cè)不確定性及其建模的方式。在 NLP 中,缺失單詞的預(yù)測(cè)工作需要計(jì)算詞匯表中每個(gè)可能單詞的預(yù)測(cè)分?jǐn)?shù)。雖然詞匯量本身很大,并且預(yù)測(cè)缺失單詞會(huì)帶來一些不確定性,但系統(tǒng)可以生成詞匯表中所有可能單詞的列表以及該位置可能出現(xiàn)單詞的概率估計(jì)。典型的機(jī)器學(xué)習(xí)系統(tǒng)會(huì)將預(yù)測(cè)問題視為分類問題,并使用巨大的所謂的 softmax 層來計(jì)算每個(gè)結(jié)果的分?jǐn)?shù),進(jìn)而將原始分?jǐn)?shù)轉(zhuǎn)換為單詞的概率分布以實(shí)現(xiàn)上述目的。使用這種技術(shù),只要存在有限數(shù)量的可能結(jié)果,預(yù)測(cè)的不確定性就可以通過所有可能結(jié)果的概率分布來表示。
相比之下,在 CV 領(lǐng)域中,預(yù)測(cè)視頻中“丟失”的幀、圖像中缺少的塊或語音信號(hào)中缺失片段的類似任務(wù)需要對(duì)高維連續(xù)對(duì)象做預(yù)測(cè),而不是對(duì)離散結(jié)果做預(yù)測(cè)。給定的視頻幀后面可以跟隨的視頻幀有無數(shù)種合理的可能。系統(tǒng)不可能明確表示所有可能的視頻幀并為它們給出預(yù)測(cè)分?jǐn)?shù)。實(shí)際上,我們可能永遠(yuǎn)也沒有適當(dāng)?shù)乇硎靖呔S連續(xù)空間(例如所有可能視頻幀的集合)上概率分布的技術(shù)。
這似乎是一個(gè)棘手的問題。
自監(jiān)督方法的統(tǒng)一視角
基于能量的模型(energy-based model,EBM)這一統(tǒng)一框架為 SSL 提供了一種思路。EBM 是一種可訓(xùn)練的系統(tǒng),在給定兩個(gè)輸入 x 和 y 的情況下,它能告訴我們它們彼此之間的不相容程度。例如,x 可以是一段短視頻剪輯,而 y 可以是另一個(gè)建議的視頻剪輯。機(jī)器會(huì)告訴我們 y 在多大程度上是 x 的良好后續(xù)。為了指出 x 和 y 之間的不相容程度,機(jī)器會(huì)生成一個(gè)稱為能量的數(shù)字。如果能量較低,則認(rèn)為 x 和 y 相互趨于相容;否則,x 和 y 被認(rèn)為是不相容的。
基于能量的模型(EBM)測(cè)量觀測(cè)值 x 與建議的預(yù)測(cè)值 y 之間的相容性。如果 x 和 y 相容,則能量很小。如果它們不相容,則能量較大。
EBM 的訓(xùn)練過程包括兩部分:(1)向其展示 x 和 y 相容的示例并對(duì)其進(jìn)行訓(xùn)練以產(chǎn)生一個(gè)較低的能量(2)找到一種方法來確保對(duì)于特定 x,與 x 不相容的 y 值產(chǎn)生的能量比與 x 相容的 y 值更高。第一部分很簡(jiǎn)單,但第二部分就是困難所在。
為了進(jìn)行圖像識(shí)別,我們的模型將 x 和 y 這兩個(gè)圖像作為輸入。如果 x 和 y 是同一圖像的略有變形的版本,則用它們訓(xùn)練該模型以使其輸出產(chǎn)生低能量。例如,x 可以是一輛汽車的照片,而 y 可以是同一輛汽車的照片,只是在一天中的不同時(shí)間從稍有不同的位置拍攝的,因此相比 x 中的汽車,y 中的汽車可以移動(dòng)、旋轉(zhuǎn)、更大、更小,或者顯示的顏色和陰影略有不同。
聯(lián)合嵌入,暹羅網(wǎng)絡(luò)
一種特別適合這一用途的深度學(xué)習(xí)架構(gòu)是所謂的暹羅網(wǎng)絡(luò)或稱聯(lián)合嵌入(joint embedding)架構(gòu)。這個(gè)想法可以追溯到 Geoff Hinton 實(shí)驗(yàn)室和 Yann LeCun 小組的論文(1990 年代初,這里和這里;2000 年代中,這里,這里,和這里)。它過去一直沒得到很好的重視,但自 2019 年底以來重新成為了熱門話題。聯(lián)合嵌入架構(gòu)由同一網(wǎng)絡(luò)的兩個(gè)相同(或幾乎相同)的副本組成。一個(gè)網(wǎng)絡(luò)用 x 輸入,另一個(gè)網(wǎng)絡(luò)用 y 輸入。這些網(wǎng)絡(luò)生成稱為嵌入(embedding)的輸出向量,分別表示 x 和 y。第三個(gè)模塊將這些網(wǎng)絡(luò)頭對(duì)頭連接起來,將能量計(jì)算為兩個(gè)嵌入向量之間的距離。當(dāng)模型看到同一圖像的不同變形版本時(shí),可以輕松調(diào)整網(wǎng)絡(luò)參數(shù),以使它們的輸出靠得更近。這將確保網(wǎng)絡(luò)生成對(duì)象的幾乎相同的表示(或嵌入),而不管該對(duì)象的特定視圖是什么樣子。
聯(lián)合嵌入架構(gòu)。頂部的函數(shù) C 產(chǎn)生一個(gè)標(biāo)量能量,該標(biāo)量能量測(cè)量由共享相同參數(shù)(w)的兩個(gè)相同的雙胞胎網(wǎng)絡(luò)生成的表示向量(嵌入)之間的距離。當(dāng) x 和 y 是同一圖像的稍有不同的版本時(shí),系統(tǒng)經(jīng)過訓(xùn)練以生成一個(gè)低能量,這迫使模型為兩個(gè)圖像生成相似的嵌入向量。困難的部分是訓(xùn)練模型,以便為不同的圖像生成高能量(即,不同的嵌入)。
困難在于當(dāng) x 和 y 是不同的圖像時(shí),如何確保網(wǎng)絡(luò)生成高能量,即不同的嵌入向量。如果沒有特定的方法,這兩個(gè)網(wǎng)絡(luò)可能會(huì)愉快地忽略它們的輸入,并始終生成相同的輸出嵌入。這種現(xiàn)象稱為崩潰。當(dāng)發(fā)生崩潰時(shí),x 和 y 不匹配的能量不會(huì)比 x 和 y 匹配的能量更高。
有兩種避免崩潰的技術(shù):對(duì)比方法和正則化方法。
基于能量的 SSL 的對(duì)比方法
對(duì)比方法基于以下簡(jiǎn)單思想:構(gòu)造不相容的 x 和 y 對(duì),并調(diào)整模型的參數(shù),以使相應(yīng)的輸出能量較大。
用對(duì)比方法訓(xùn)練 EBM 的方法包括同時(shí)降低訓(xùn)練集中相容的(x,y)對(duì)的能量(由藍(lán)點(diǎn)表示),提高挑選出來的不相容的(x,y)對(duì)的能量(以綠點(diǎn)表示)。在這個(gè)簡(jiǎn)單的示例中 x 和 y 都是標(biāo)量,但在實(shí)際情況下,x 和 y 可以是具有數(shù)百萬個(gè)維度的圖像或視頻。找出讓能量按照預(yù)期方式漲落的不相容對(duì)是一大挑戰(zhàn),需要龐大的計(jì)算資源。
通過屏蔽或替換某些輸入詞來訓(xùn)練 NLP 系統(tǒng)的方法屬于對(duì)比方法的類別。但是它們不使用聯(lián)合嵌入架構(gòu)。取而代之的是,他們使用了一種預(yù)測(cè)架構(gòu),其中模型直接生成 y 的預(yù)測(cè)。模型從文本 y 的一個(gè)完整段開始,然后通過屏蔽某些單詞來破壞它,以生成觀察值。損壞的輸入將輸入到一個(gè)大型神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以重現(xiàn)原始文本 y。未損壞的文本將被重建為自身(低重建錯(cuò)誤),而已損壞的文本將被重建為自身的未損壞版本(較大的重建錯(cuò)誤)。如果將重建錯(cuò)誤解釋為一種能量,它將具有所需的屬性:“干凈”文本的能量較低,而“損壞”文本的能量較高。
訓(xùn)練模型以恢復(fù)輸入的損壞版本的一般性技術(shù)被稱為降噪自動(dòng)編碼器。這個(gè)想法的早期形式可以追溯到 1980 年代,2008 年由蒙特利爾大學(xué)的 PascalVincent 和同事們復(fù)興。這一理念被 Collobert 和 Weston 引入 NLP 領(lǐng)域,并由我們?cè)诠雀璧耐性?BERT 論文中發(fā)揚(yáng)光大。
屏蔽語言模型是降噪自動(dòng)編碼器的一個(gè)實(shí)例,它本身是對(duì)比自監(jiān)督學(xué)習(xí)的一個(gè)實(shí)例。變量 y 是一個(gè)文本段;x 是文本中某些單詞被屏蔽的版本。網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以重建未損壞的文本。
正如我們之前指出的,這種類型的預(yù)測(cè)架構(gòu)只能對(duì)給定的輸入生成單個(gè)預(yù)測(cè)。由于模型必須能夠預(yù)測(cè)多個(gè)可能的結(jié)果,因此預(yù)測(cè)結(jié)果不是單個(gè)單詞集,而是針對(duì)每個(gè)缺失單詞位置的詞匯表中各個(gè)單詞的分?jǐn)?shù)系列。
但是我們不能對(duì)圖像使用這種技術(shù),因?yàn)槲覀儫o法枚舉所有可能的圖像。存在解決這一問題的方法嗎?簡(jiǎn)單的回答就是不存在。在這個(gè)方向上有一些有趣的想法,但是它們尚未產(chǎn)生與聯(lián)合嵌入架構(gòu)一樣好的結(jié)果。一種有趣的途徑是潛在變量(latent-variable)預(yù)測(cè)架構(gòu)。
潛在變量預(yù)測(cè)架構(gòu)。給定一個(gè)觀測(cè)值 x,該模型必須能夠生成一組由圖中的 S 形色帶表示的多個(gè)相容預(yù)測(cè)。當(dāng)潛在變量 z 在一個(gè)用灰色正方形表示的集合內(nèi)變化時(shí),輸出在該組合理的預(yù)測(cè)范圍內(nèi)變化。
潛在變量預(yù)測(cè)模型包含一個(gè)額外的輸入變量(z)。之所以稱其為潛在,是因?yàn)橄到y(tǒng)從未觀察到它的值。對(duì)于經(jīng)過適當(dāng)訓(xùn)練的模型,由于潛在變量在給定的集合上變化,因此輸出預(yù)測(cè)在與輸入 x 相容的合理預(yù)測(cè)的集合上變化。
可以使用對(duì)比方法來訓(xùn)練潛在變量模型。生成對(duì)抗網(wǎng)絡(luò)(GAN)就是一個(gè)很好的例子。批評(píng)者(或稱鑒別器)可以被視為計(jì)算能量,該能量指示輸入 y 是否看起來不錯(cuò)。生成器網(wǎng)絡(luò)經(jīng)過訓(xùn)練以生成對(duì)比樣本,批評(píng)者被訓(xùn)練到對(duì)比樣本以關(guān)聯(lián)高能量。
但是對(duì)比方法有一大問題:它們的訓(xùn)練效率很低。在諸如圖像之類的高維空間中,一張圖像與另一張圖像的區(qū)別可以有很多表現(xiàn)形式。找到涵蓋所有可能與給定圖像不同之處的對(duì)比圖像集合幾乎是不可能的任務(wù)。就像托爾斯泰名著《安娜·卡列尼娜》中的名言:“幸福的家庭都是相似的;不幸的家庭都有自己的不幸。”看來,這一規(guī)則也適用于任何高維對(duì)象系列。
怎樣才能在不顯著提高許多不相容對(duì)的能量的情況下,確保不相容對(duì)的能量高于相容對(duì)的能量呢?
基于能量的 SSL 的非對(duì)比方法
應(yīng)用于聯(lián)合嵌入架構(gòu)的非對(duì)比方法可能是目前 SSL 視覺領(lǐng)域中最熱門的話題。這個(gè)領(lǐng)域還有大片需要探索的未知事物,但它似乎很有希望。
聯(lián)合嵌入的非對(duì)比方法包括 DeepCluster、ClusterFit、MoCo-v2、SwAV、SimSiam、Barlow Twins、來自 DeepMind 的 BYOL 等等。他們使用各種技巧,例如為一組相似的圖像計(jì)算虛擬目標(biāo)嵌入(DeeperCluster、SwAV、SimSiam),或者通過架構(gòu)或參數(shù)向量來讓兩種聯(lián)合嵌入架構(gòu)出現(xiàn)細(xì)微差異(BYOL、MoCo)。BarlowTwins 則試圖最小化嵌入向量各個(gè)分量之間的冗余。
從長(zhǎng)遠(yuǎn)來看,也許更好的選擇是設(shè)計(jì)潛在變量預(yù)測(cè)模型的非對(duì)比方法。主要的障礙是它們需要一種方法來最小化潛在變量的容量。容納潛在變量變化的集合大小限制了消耗低能量的輸出的大小。通過最小化這一大小,可以自動(dòng)以正確的方式來排布能量。
這種方法的一個(gè)成功例子是變分自編碼器(Variational Auto-Encoder,VAE),其將潛在變量設(shè)為“模糊”,從而限制了其容量。但是,尚未證明 VAE 可以為下游的視覺任務(wù)提供良好的表示。另一個(gè)成功的例子是稀疏建模(sparse modeling),但其用例僅限于簡(jiǎn)單的架構(gòu)。似乎沒有完美的方法可以限制潛在變量的容量。
未來幾年我們面臨的挑戰(zhàn)可能是為潛在變量基于能量的模型設(shè)計(jì)非對(duì)比方法,這種方法應(yīng)該能成功生成圖像、視頻、語音和其他信號(hào)的良好表示形式,并在不需要大量標(biāo)記數(shù)據(jù)的情況下在下游監(jiān)督任務(wù)中獲得最佳性能。
推進(jìn)視覺領(lǐng)域的自監(jiān)督學(xué)習(xí)
最近,我們創(chuàng)建并開源了一種稱為 SEER 的,具有十億參數(shù)的自監(jiān)督 CV 新模型,它已被證明可有效處理復(fù)雜的高維圖像數(shù)據(jù)。它基于應(yīng)用于卷積網(wǎng)絡(luò)架構(gòu)(ConvNet)的 SwAV 方法,可以用大量隨機(jī)圖像訓(xùn)練,而無需任何元數(shù)據(jù)或注釋。ConvNet 足夠大,可以從龐大而復(fù)雜的數(shù)據(jù)中捕獲和學(xué)習(xí)每個(gè)視覺概念。在對(duì) 10 億張隨機(jī)、未標(biāo)記和未整理的公共 Instagram 圖像集合進(jìn)行預(yù)訓(xùn)練,并在 ImageNet 上進(jìn)行了監(jiān)督微調(diào)之后,SEER 的表現(xiàn)超過了最先進(jìn)的自監(jiān)督系統(tǒng),在 ImageNet 上的 top-1 準(zhǔn)確度達(dá)到了 84.2%。
這些結(jié)果表明,我們可以將自監(jiān)督的學(xué)習(xí)范式拓展到計(jì)算機(jī)視覺領(lǐng)域。
在 Facebook 應(yīng)用自監(jiān)督學(xué)習(xí)
在 Facebook,我們不僅在多個(gè)領(lǐng)域通過基礎(chǔ)、開放的科學(xué)研究推進(jìn)自監(jiān)督學(xué)習(xí)技術(shù),我們還將這項(xiàng)前沿工作應(yīng)用到了生產(chǎn)中,以快速提高我們平臺(tái)安全性產(chǎn)品中內(nèi)容理解系統(tǒng)的準(zhǔn)確度,
像我們的預(yù)訓(xùn)練語言模型 XLM 這樣的自監(jiān)督領(lǐng)域研究正在為 Facebook 上的許多重要應(yīng)用程序提供動(dòng)力——包括主動(dòng)檢測(cè)仇恨言論的系統(tǒng)。我們已經(jīng)部署了 XLM-R,該模型利用了我們的
RoBERT 架構(gòu),以改進(jìn)我們?cè)?Facebook 和 Instagram 上針對(duì)多種語言的仇恨語音分類器,這樣即使在訓(xùn)練數(shù)據(jù)很少的語言中我們也可以實(shí)現(xiàn)仇恨語音檢測(cè)。
近年來,自監(jiān)督學(xué)習(xí)的進(jìn)展讓我們倍感鼓舞,盡管要讓這種方法幫助我們發(fā)現(xiàn) AI 智能的暗物質(zhì)還有很長(zhǎng)的路要走。自監(jiān)督是通往人類水平智能的道路上的重要一步,但這一步背后肯定有許多積累,所謂千里之行始于足下。因此,我們?cè)谂εc更大范圍內(nèi)的 AI 社區(qū)合作,以實(shí)現(xiàn)我們?cè)谖磥淼哪骋惶靹?chuàng)造出具有人類智能的機(jī)器的目標(biāo)。我們的研究已公開發(fā)布并在頂級(jí)會(huì)議上發(fā)表。我們還組織了研討會(huì)并發(fā)布了一些庫,以幫助加快這一領(lǐng)域的研究。
編輯:lyn
-
AI
+關(guān)注
關(guān)注
87文章
30136瀏覽量
268411 -
人工智能
+關(guān)注
關(guān)注
1791文章
46853瀏覽量
237551 -
nlp
+關(guān)注
關(guān)注
1文章
487瀏覽量
22011
原文標(biāo)題:圖靈獎(jiǎng)得主 Yann LeCun 最新文章 :自監(jiān)督學(xué)習(xí),人工智能世界的“暗物質(zhì)”
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論