亚洲无码午夜免费观看视频_人人爽亚洲美女精品久久久_99精品国产免费观看视频

自監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠從很少的數(shù)據(jù)中學(xué)習(xí)知識(shí)，這樣才能識(shí)別和理解世界上更微妙、更不常見的表示形式。

近年來，AI 產(chǎn)業(yè)在開發(fā)“可以從大量經(jīng)過細(xì)致標(biāo)記的數(shù)據(jù)中學(xué)習(xí)的 AI 系統(tǒng)”這個(gè)研究領(lǐng)域上取得了巨大進(jìn)步。這種監(jiān)督學(xué)習(xí)的范式在訓(xùn)練專業(yè)模型方面有著非常好的成績(jī)，這類模型在完成它們針對(duì)訓(xùn)練的任務(wù)時(shí)表現(xiàn)頗為出色。不幸的是，只靠監(jiān)督學(xué)習(xí)，人工智能領(lǐng)域的前景是有局限的。

監(jiān)督學(xué)習(xí)是構(gòu)建更智能的通用模型道路上面臨的一個(gè)瓶頸。這種通用模型可以無需大量標(biāo)記數(shù)據(jù)就執(zhí)行多種任務(wù)并獲得新技能。實(shí)際上，想要標(biāo)記世界上的所有事物是不可能做到的。還有一些任務(wù)根本沒有足夠的標(biāo)記數(shù)據(jù)，例如針對(duì)一些資源匱乏的語言的翻譯系統(tǒng)。如果 AI 系統(tǒng)能夠超越訓(xùn)練數(shù)據(jù)集所指定內(nèi)容的范疇，對(duì)現(xiàn)實(shí)做出更深入、更細(xì)致的理解，那么它們就會(huì)有更多用途，并最終發(fā)展出更接近人類的 AI 智能。

在嬰兒時(shí)期，我們主要通過觀察來了解世界是如何運(yùn)轉(zhuǎn)的。我們學(xué)習(xí)諸如事物恒久性和重力之類的概念，從而形成了關(guān)于世界中各種事物的通用預(yù)測(cè)模型。隨著我們成長(zhǎng)，我們開始觀察世界，對(duì)其采取行動(dòng)，再次觀察并建立假設(shè)，以通過嘗試和錯(cuò)誤來解釋我們的行為是如何改變環(huán)境的。

一個(gè)可行的假設(shè)是，關(guān)于世界的通行知識(shí)，或者說常識(shí)，構(gòu)成了人類和動(dòng)物具備的生物智能的主要基礎(chǔ)。這種常識(shí)能力對(duì)于人類和動(dòng)物來說都是天然存在的，但是自 AI 研究起步以來，它一直都是一項(xiàng)未解決的挑戰(zhàn)。從某種意義上說，常識(shí)就是人工智能領(lǐng)域的暗物質(zhì)。

常識(shí)可以幫助人們學(xué)習(xí)新技能，而無需為每項(xiàng)任務(wù)都做大量的教學(xué)指導(dǎo)。例如，我們只需向小孩子展示幾張母牛的畫像，他們最后就能識(shí)別出他們看到的任何母牛。相比之下，受監(jiān)督學(xué)習(xí)訓(xùn)練的 AI 系統(tǒng)需要許多母牛圖像的樣本，即便如此也可能無法識(shí)別出特殊情況下的母牛（例如躺在沙灘上的牛）。

在幾乎沒有監(jiān)督的情況下，人們是如何在大約 20 個(gè)小時(shí)的練習(xí)中學(xué)會(huì)駕駛汽車的呢？相比之下，全自動(dòng)駕駛系統(tǒng)為什么需要?jiǎng)佑梦覀冏顑?yōu)秀的 AI 系統(tǒng)，接受來自人類駕駛員的數(shù)千小時(shí)數(shù)據(jù)的訓(xùn)練？簡(jiǎn)單的答案是，人類依賴的是他們之前獲得的有關(guān)世界運(yùn)作方式的背景知識(shí)。

我們?nèi)绾巫寵C(jī)器也能做到這一點(diǎn)呢？

我們相信，自監(jiān)督學(xué)習(xí)（self-supervised learning，SSL）是建立這種背景知識(shí)，并在 AI 系統(tǒng)中建立一種近似常識(shí)形式的最有前途的方法之一。

自監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠從很少的數(shù)據(jù)中學(xué)習(xí)知識(shí)，這樣才能識(shí)別和理解世界上更微妙、更不常見的表示形式。自監(jiān)督學(xué)習(xí)在自然語言處理（NLP）領(lǐng)域取得了顯著的成就，包括 Collobert-Weston 2008 模型、Word2Vec、GloVE、fastText，以及最近的 BERT、RoBERTa、XLM-R 等成果。與僅以監(jiān)督方式做訓(xùn)練的系統(tǒng)相比，以這種方式進(jìn)行預(yù)訓(xùn)練的系統(tǒng)所提供的性能要高得多。

我們最新的研究項(xiàng)目 SEER 利用了 SwAV 等方法，在一個(gè)包含十億張隨機(jī)未標(biāo)記圖像的大型網(wǎng)絡(luò)上做預(yù)訓(xùn)練，進(jìn)而在各種視覺任務(wù)集上獲得了最頂尖的準(zhǔn)確性水平。這一進(jìn)展表明，自監(jiān)督學(xué)習(xí)也可以勝任復(fù)雜現(xiàn)實(shí)環(huán)境中的 CV 任務(wù)。

在這篇文章中，我們會(huì)向大家分享為什么自監(jiān)督學(xué)習(xí)可能有助于解鎖智能研究領(lǐng)域的暗物質(zhì)，以及 AI 產(chǎn)業(yè)下一個(gè)前沿領(lǐng)域的細(xì)節(jié)。我們還將重點(diǎn)介紹關(guān)于 AI 系統(tǒng)中自監(jiān)督學(xué)習(xí)和推理的一些最有希望的新方向，包括在不確定環(huán)境下用于預(yù)測(cè)的基于能量的模型、聯(lián)合嵌入方法和潛在變量架構(gòu)。

自監(jiān)督學(xué)習(xí)是預(yù)測(cè)性學(xué)習(xí)

自監(jiān)督學(xué)習(xí)是利用數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)來從數(shù)據(jù)本身獲取監(jiān)督信號(hào)的。一般來說，自監(jiān)督學(xué)習(xí)使用的技術(shù)是根據(jù)輸入的任何觀察到的或非隱藏的部分，來預(yù)測(cè)輸入的任何未觀察到的或隱藏的部分（或?qū)傩裕?。例如，?NLP 中很常見的例子是，我們可以隱藏句子的一部分，并從其余單詞中預(yù)測(cè)隱藏的單詞。我們還可以根據(jù)當(dāng)前幀（觀察到的數(shù)據(jù)）預(yù)測(cè)視頻中的過去幀或未來幀（隱藏?cái)?shù)據(jù)）。由于自監(jiān)督學(xué)習(xí)使用的是數(shù)據(jù)本身的結(jié)構(gòu)，因此它可以在多種共現(xiàn)模式（例如視頻和音頻）和大型數(shù)據(jù)集中利用各種監(jiān)督信號(hào)，而無需依賴標(biāo)記。

在自監(jiān)督學(xué)習(xí)中，訓(xùn)練系統(tǒng)以從輸入的可見部分（綠色）預(yù)測(cè)輸入的隱藏部分（灰色）

由于自監(jiān)督學(xué)習(xí)是由監(jiān)督信號(hào)推動(dòng)的，因此與之前使用的術(shù)語“無監(jiān)督學(xué)習(xí)”相比，“自監(jiān)督學(xué)習(xí)”這個(gè)術(shù)語更容易被接受。無監(jiān)督學(xué)習(xí)是一個(gè)定義不清、具有誤導(dǎo)性的術(shù)語，讓人覺得這種學(xué)習(xí)根本用不到監(jiān)督。實(shí)際上，自監(jiān)督學(xué)習(xí)并不是無監(jiān)督的，因?yàn)樗褂玫姆答佇盘?hào)比標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法要多得多。

自監(jiān)督的語言與視覺學(xué)習(xí)

自監(jiān)督學(xué)習(xí)對(duì) NLP 產(chǎn)生了特別深遠(yuǎn)的影響，使我們能夠在大型的未標(biāo)記文本數(shù)據(jù)集上訓(xùn)練 BERT、RoBERTa、XLM-R 等模型，然后將這些模型用于下游任務(wù)。這些模型在自監(jiān)督階段進(jìn)行預(yù)訓(xùn)練，然后針對(duì)特定任務(wù)（例如分類文本主題）進(jìn)行微調(diào)。在自監(jiān)督的預(yù)訓(xùn)練階段，系統(tǒng)會(huì)顯示一段簡(jiǎn)短的文本（通常包含 1，000 個(gè)單詞），其中一些單詞已被屏蔽或替換。系統(tǒng)經(jīng)過訓(xùn)練可以預(yù)測(cè)被屏蔽或替換的單詞。通過這種方式，系統(tǒng)學(xué)會(huì)了表示文本的含義，這樣它就可以很好地填寫“正確的”單詞，或者說在上下文中有意義的單詞。

預(yù)測(cè)輸入的缺失部分是 SSL 預(yù)訓(xùn)練的更常見的任務(wù)之一。要完成諸如“（）在非洲草原上追趕（）”這樣的句子，系統(tǒng)必須知道獅子或獵豹可以追捕羚羊或牛羚，但貓是在廚房而非熱帶草原中追逐老鼠的。訓(xùn)練的結(jié)果是，系統(tǒng)學(xué)會(huì)了如何表示單詞的含義、單詞在句子中的作用以及整段文本的含義。

但是，這些技術(shù)不能輕松擴(kuò)展到新領(lǐng)域，例如 CV 上。盡管 SSL 取得了令人鼓舞的早期成果，但它尚未在計(jì)算機(jī)視覺方面帶來我們?cè)?NLP 領(lǐng)域中看到的那種改進(jìn)（盡管這種情況將會(huì)改變）。

主要原因是，在圖像的預(yù)測(cè)任務(wù)中表示不確定性要比在單詞中表示不確定性困難得多。當(dāng)系統(tǒng)無法準(zhǔn)確預(yù)測(cè)缺失的單詞時(shí)（是“獅子”還是“獵豹”？），系統(tǒng)可以對(duì)詞匯表中所有可能的單詞打出分?jǐn)?shù)或概率：“獅子”“獵豹”和其他一些掠食者拿到高分，詞匯表中其他單詞的得分都較低。

規(guī)模這么大的訓(xùn)練模型還需要一種在運(yùn)行時(shí)和內(nèi)存方面都有很高效率，而又不影響準(zhǔn)確性的模型架構(gòu)。幸運(yùn)的是，F(xiàn)AIR 在架構(gòu)設(shè)計(jì)領(lǐng)域的最新創(chuàng)新催生了一個(gè)新的模型家族，名為 RegNets，可以完全符合這些需求。RegNet 模型都是 ConvNet，能夠擴(kuò)展到數(shù)十億甚至可能是數(shù)萬億的參數(shù)，并且可以進(jìn)行針對(duì)優(yōu)化以適應(yīng)不同的運(yùn)行時(shí)和內(nèi)存限制。

但是，當(dāng)我們預(yù)測(cè)視頻中丟失的幀或圖像中缺少的色塊時(shí)，我們不知道如何有效地表示不確定性。我們無法列出所有可能的視頻幀，也無法給每個(gè)可能的視頻幀打出分?jǐn)?shù)，因?yàn)樗鼈兊臄?shù)量是無限的。盡管這一問題限制了視覺領(lǐng)域中 SSL 帶來的性能改進(jìn)，但諸如 SwAV 之類的新 SSL 技術(shù)開始打破視覺任務(wù)中的準(zhǔn)確性記錄。SEER 系統(tǒng)就是一個(gè)最佳證明，它使用了一個(gè)經(jīng)過數(shù)十億樣本訓(xùn)練的大型卷積網(wǎng)絡(luò)。

對(duì)預(yù)測(cè)中的不確定性建模

為了更好地理解這一挑戰(zhàn)，我們首先需要了解與 NLP 相比，CV 中預(yù)測(cè)不確定性及其建模的方式。在 NLP 中，缺失單詞的預(yù)測(cè)工作需要計(jì)算詞匯表中每個(gè)可能單詞的預(yù)測(cè)分?jǐn)?shù)。雖然詞匯量本身很大，并且預(yù)測(cè)缺失單詞會(huì)帶來一些不確定性，但系統(tǒng)可以生成詞匯表中所有可能單詞的列表以及該位置可能出現(xiàn)單詞的概率估計(jì)。典型的機(jī)器學(xué)習(xí)系統(tǒng)會(huì)將預(yù)測(cè)問題視為分類問題，并使用巨大的所謂的 softmax 層來計(jì)算每個(gè)結(jié)果的分?jǐn)?shù)，進(jìn)而將原始分?jǐn)?shù)轉(zhuǎn)換為單詞的概率分布以實(shí)現(xiàn)上述目的。使用這種技術(shù)，只要存在有限數(shù)量的可能結(jié)果，預(yù)測(cè)的不確定性就可以通過所有可能結(jié)果的概率分布來表示。

相比之下，在 CV 領(lǐng)域中，預(yù)測(cè)視頻中“丟失”的幀、圖像中缺少的塊或語音信號(hào)中缺失片段的類似任務(wù)需要對(duì)高維連續(xù)對(duì)象做預(yù)測(cè)，而不是對(duì)離散結(jié)果做預(yù)測(cè)。給定的視頻幀后面可以跟隨的視頻幀有無數(shù)種合理的可能。系統(tǒng)不可能明確表示所有可能的視頻幀并為它們給出預(yù)測(cè)分?jǐn)?shù)。實(shí)際上，我們可能永遠(yuǎn)也沒有適當(dāng)?shù)乇硎靖呔S連續(xù)空間（例如所有可能視頻幀的集合）上概率分布的技術(shù)。

這似乎是一個(gè)棘手的問題。

自監(jiān)督方法的統(tǒng)一視角

基于能量的模型（energy-based model，EBM）這一統(tǒng)一框架為 SSL 提供了一種思路。EBM 是一種可訓(xùn)練的系統(tǒng)，在給定兩個(gè)輸入 x 和 y 的情況下，它能告訴我們它們彼此之間的不相容程度。例如，x 可以是一段短視頻剪輯，而 y 可以是另一個(gè)建議的視頻剪輯。機(jī)器會(huì)告訴我們 y 在多大程度上是 x 的良好后續(xù)。為了指出 x 和 y 之間的不相容程度，機(jī)器會(huì)生成一個(gè)稱為能量的數(shù)字。如果能量較低，則認(rèn)為 x 和 y 相互趨于相容；否則，x 和 y 被認(rèn)為是不相容的。

基于能量的模型（EBM）測(cè)量觀測(cè)值 x 與建議的預(yù)測(cè)值 y 之間的相容性。如果 x 和 y 相容，則能量很小。如果它們不相容，則能量較大。

EBM 的訓(xùn)練過程包括兩部分：（1）向其展示 x 和 y 相容的示例并對(duì)其進(jìn)行訓(xùn)練以產(chǎn)生一個(gè)較低的能量（2）找到一種方法來確保對(duì)于特定 x，與 x 不相容的 y 值產(chǎn)生的能量比與 x 相容的 y 值更高。第一部分很簡(jiǎn)單，但第二部分就是困難所在。

為了進(jìn)行圖像識(shí)別，我們的模型將 x 和 y 這兩個(gè)圖像作為輸入。如果 x 和 y 是同一圖像的略有變形的版本，則用它們訓(xùn)練該模型以使其輸出產(chǎn)生低能量。例如，x 可以是一輛汽車的照片，而 y 可以是同一輛汽車的照片，只是在一天中的不同時(shí)間從稍有不同的位置拍攝的，因此相比 x 中的汽車，y 中的汽車可以移動(dòng)、旋轉(zhuǎn)、更大、更小，或者顯示的顏色和陰影略有不同。

聯(lián)合嵌入，暹羅網(wǎng)絡(luò)

一種特別適合這一用途的深度學(xué)習(xí)架構(gòu)是所謂的暹羅網(wǎng)絡(luò)或稱聯(lián)合嵌入（joint embedding）架構(gòu)。這個(gè)想法可以追溯到 Geoff Hinton 實(shí)驗(yàn)室和 Yann LeCun 小組的論文（1990 年代初，這里和這里；2000 年代中，這里，這里，和這里）。它過去一直沒得到很好的重視，但自 2019 年底以來重新成為了熱門話題。聯(lián)合嵌入架構(gòu)由同一網(wǎng)絡(luò)的兩個(gè)相同（或幾乎相同）的副本組成。一個(gè)網(wǎng)絡(luò)用 x 輸入，另一個(gè)網(wǎng)絡(luò)用 y 輸入。這些網(wǎng)絡(luò)生成稱為嵌入（embedding）的輸出向量，分別表示 x 和 y。第三個(gè)模塊將這些網(wǎng)絡(luò)頭對(duì)頭連接起來，將能量計(jì)算為兩個(gè)嵌入向量之間的距離。當(dāng)模型看到同一圖像的不同變形版本時(shí)，可以輕松調(diào)整網(wǎng)絡(luò)參數(shù)，以使它們的輸出靠得更近。這將確保網(wǎng)絡(luò)生成對(duì)象的幾乎相同的表示（或嵌入），而不管該對(duì)象的特定視圖是什么樣子。

聯(lián)合嵌入架構(gòu)。頂部的函數(shù) C 產(chǎn)生一個(gè)標(biāo)量能量，該標(biāo)量能量測(cè)量由共享相同參數(shù)（w）的兩個(gè)相同的雙胞胎網(wǎng)絡(luò)生成的表示向量（嵌入）之間的距離。當(dāng) x 和 y 是同一圖像的稍有不同的版本時(shí)，系統(tǒng)經(jīng)過訓(xùn)練以生成一個(gè)低能量，這迫使模型為兩個(gè)圖像生成相似的嵌入向量。困難的部分是訓(xùn)練模型，以便為不同的圖像生成高能量（即，不同的嵌入）。

困難在于當(dāng) x 和 y 是不同的圖像時(shí)，如何確保網(wǎng)絡(luò)生成高能量，即不同的嵌入向量。如果沒有特定的方法，這兩個(gè)網(wǎng)絡(luò)可能會(huì)愉快地忽略它們的輸入，并始終生成相同的輸出嵌入。這種現(xiàn)象稱為崩潰。當(dāng)發(fā)生崩潰時(shí)，x 和 y 不匹配的能量不會(huì)比 x 和 y 匹配的能量更高。

有兩種避免崩潰的技術(shù)：對(duì)比方法和正則化方法。

基于能量的 SSL 的對(duì)比方法

對(duì)比方法基于以下簡(jiǎn)單思想：構(gòu)造不相容的 x 和 y 對(duì)，并調(diào)整模型的參數(shù)，以使相應(yīng)的輸出能量較大。

用對(duì)比方法訓(xùn)練 EBM 的方法包括同時(shí)降低訓(xùn)練集中相容的（x，y）對(duì)的能量（由藍(lán)點(diǎn)表示），提高挑選出來的不相容的（x，y）對(duì)的能量（以綠點(diǎn)表示）。在這個(gè)簡(jiǎn)單的示例中 x 和 y 都是標(biāo)量，但在實(shí)際情況下，x 和 y 可以是具有數(shù)百萬個(gè)維度的圖像或視頻。找出讓能量按照預(yù)期方式漲落的不相容對(duì)是一大挑戰(zhàn)，需要龐大的計(jì)算資源。

通過屏蔽或替換某些輸入詞來訓(xùn)練 NLP 系統(tǒng)的方法屬于對(duì)比方法的類別。但是它們不使用聯(lián)合嵌入架構(gòu)。取而代之的是，他們使用了一種預(yù)測(cè)架構(gòu)，其中模型直接生成 y 的預(yù)測(cè)。模型從文本 y 的一個(gè)完整段開始，然后通過屏蔽某些單詞來破壞它，以生成觀察值。損壞的輸入將輸入到一個(gè)大型神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以重現(xiàn)原始文本 y。未損壞的文本將被重建為自身（低重建錯(cuò)誤），而已損壞的文本將被重建為自身的未損壞版本（較大的重建錯(cuò)誤）。如果將重建錯(cuò)誤解釋為一種能量，它將具有所需的屬性：“干凈”文本的能量較低，而“損壞”文本的能量較高。

訓(xùn)練模型以恢復(fù)輸入的損壞版本的一般性技術(shù)被稱為降噪自動(dòng)編碼器。這個(gè)想法的早期形式可以追溯到 1980 年代，2008 年由蒙特利爾大學(xué)的 PascalVincent 和同事們復(fù)興。這一理念被 Collobert 和 Weston 引入 NLP 領(lǐng)域，并由我們?cè)诠雀璧耐性?BERT 論文中發(fā)揚(yáng)光大。

屏蔽語言模型是降噪自動(dòng)編碼器的一個(gè)實(shí)例，它本身是對(duì)比自監(jiān)督學(xué)習(xí)的一個(gè)實(shí)例。變量 y 是一個(gè)文本段；x 是文本中某些單詞被屏蔽的版本。網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以重建未損壞的文本。

正如我們之前指出的，這種類型的預(yù)測(cè)架構(gòu)只能對(duì)給定的輸入生成單個(gè)預(yù)測(cè)。由于模型必須能夠預(yù)測(cè)多個(gè)可能的結(jié)果，因此預(yù)測(cè)結(jié)果不是單個(gè)單詞集，而是針對(duì)每個(gè)缺失單詞位置的詞匯表中各個(gè)單詞的分?jǐn)?shù)系列。

但是我們不能對(duì)圖像使用這種技術(shù)，因?yàn)槲覀儫o法枚舉所有可能的圖像。存在解決這一問題的方法嗎？簡(jiǎn)單的回答就是不存在。在這個(gè)方向上有一些有趣的想法，但是它們尚未產(chǎn)生與聯(lián)合嵌入架構(gòu)一樣好的結(jié)果。一種有趣的途徑是潛在變量（latent-variable）預(yù)測(cè)架構(gòu)。

潛在變量預(yù)測(cè)架構(gòu)。給定一個(gè)觀測(cè)值 x，該模型必須能夠生成一組由圖中的 S 形色帶表示的多個(gè)相容預(yù)測(cè)。當(dāng)潛在變量 z 在一個(gè)用灰色正方形表示的集合內(nèi)變化時(shí)，輸出在該組合理的預(yù)測(cè)范圍內(nèi)變化。

潛在變量預(yù)測(cè)模型包含一個(gè)額外的輸入變量（z）。之所以稱其為潛在，是因?yàn)橄到y(tǒng)從未觀察到它的值。對(duì)于經(jīng)過適當(dāng)訓(xùn)練的模型，由于潛在變量在給定的集合上變化，因此輸出預(yù)測(cè)在與輸入 x 相容的合理預(yù)測(cè)的集合上變化。

可以使用對(duì)比方法來訓(xùn)練潛在變量模型。生成對(duì)抗網(wǎng)絡(luò)（GAN）就是一個(gè)很好的例子。批評(píng)者（或稱鑒別器）可以被視為計(jì)算能量，該能量指示輸入 y 是否看起來不錯(cuò)。生成器網(wǎng)絡(luò)經(jīng)過訓(xùn)練以生成對(duì)比樣本，批評(píng)者被訓(xùn)練到對(duì)比樣本以關(guān)聯(lián)高能量。

但是對(duì)比方法有一大問題：它們的訓(xùn)練效率很低。在諸如圖像之類的高維空間中，一張圖像與另一張圖像的區(qū)別可以有很多表現(xiàn)形式。找到涵蓋所有可能與給定圖像不同之處的對(duì)比圖像集合幾乎是不可能的任務(wù)。就像托爾斯泰名著《安娜·卡列尼娜》中的名言：“幸福的家庭都是相似的；不幸的家庭都有自己的不幸。”看來，這一規(guī)則也適用于任何高維對(duì)象系列。

怎樣才能在不顯著提高許多不相容對(duì)的能量的情況下，確保不相容對(duì)的能量高于相容對(duì)的能量呢？

基于能量的 SSL 的非對(duì)比方法

應(yīng)用于聯(lián)合嵌入架構(gòu)的非對(duì)比方法可能是目前 SSL 視覺領(lǐng)域中最熱門的話題。這個(gè)領(lǐng)域還有大片需要探索的未知事物，但它似乎很有希望。

聯(lián)合嵌入的非對(duì)比方法包括 DeepCluster、ClusterFit、MoCo-v2、SwAV、SimSiam、Barlow Twins、來自 DeepMind 的 BYOL 等等。他們使用各種技巧，例如為一組相似的圖像計(jì)算虛擬目標(biāo)嵌入（DeeperCluster、SwAV、SimSiam），或者通過架構(gòu)或參數(shù)向量來讓兩種聯(lián)合嵌入架構(gòu)出現(xiàn)細(xì)微差異（BYOL、MoCo）。BarlowTwins 則試圖最小化嵌入向量各個(gè)分量之間的冗余。

從長(zhǎng)遠(yuǎn)來看，也許更好的選擇是設(shè)計(jì)潛在變量預(yù)測(cè)模型的非對(duì)比方法。主要的障礙是它們需要一種方法來最小化潛在變量的容量。容納潛在變量變化的集合大小限制了消耗低能量的輸出的大小。通過最小化這一大小，可以自動(dòng)以正確的方式來排布能量。

這種方法的一個(gè)成功例子是變分自編碼器（Variational Auto-Encoder，VAE），其將潛在變量設(shè)為“模糊”，從而限制了其容量。但是，尚未證明 VAE 可以為下游的視覺任務(wù)提供良好的表示。另一個(gè)成功的例子是稀疏建模（sparse modeling），但其用例僅限于簡(jiǎn)單的架構(gòu)。似乎沒有完美的方法可以限制潛在變量的容量。

未來幾年我們面臨的挑戰(zhàn)可能是為潛在變量基于能量的模型設(shè)計(jì)非對(duì)比方法，這種方法應(yīng)該能成功生成圖像、視頻、語音和其他信號(hào)的良好表示形式，并在不需要大量標(biāo)記數(shù)據(jù)的情況下在下游監(jiān)督任務(wù)中獲得最佳性能。

推進(jìn)視覺領(lǐng)域的自監(jiān)督學(xué)習(xí)

最近，我們創(chuàng)建并開源了一種稱為 SEER 的，具有十億參數(shù)的自監(jiān)督 CV 新模型，它已被證明可有效處理復(fù)雜的高維圖像數(shù)據(jù)。它基于應(yīng)用于卷積網(wǎng)絡(luò)架構(gòu)（ConvNet）的 SwAV 方法，可以用大量隨機(jī)圖像訓(xùn)練，而無需任何元數(shù)據(jù)或注釋。ConvNet 足夠大，可以從龐大而復(fù)雜的數(shù)據(jù)中捕獲和學(xué)習(xí)每個(gè)視覺概念。在對(duì) 10 億張隨機(jī)、未標(biāo)記和未整理的公共 Instagram 圖像集合進(jìn)行預(yù)訓(xùn)練，并在 ImageNet 上進(jìn)行了監(jiān)督微調(diào)之后，SEER 的表現(xiàn)超過了最先進(jìn)的自監(jiān)督系統(tǒng)，在 ImageNet 上的 top-1 準(zhǔn)確度達(dá)到了 84.2％。

這些結(jié)果表明，我們可以將自監(jiān)督的學(xué)習(xí)范式拓展到計(jì)算機(jī)視覺領(lǐng)域。

在 Facebook 應(yīng)用自監(jiān)督學(xué)習(xí)

在 Facebook，我們不僅在多個(gè)領(lǐng)域通過基礎(chǔ)、開放的科學(xué)研究推進(jìn)自監(jiān)督學(xué)習(xí)技術(shù)，我們還將這項(xiàng)前沿工作應(yīng)用到了生產(chǎn)中，以快速提高我們平臺(tái)安全性產(chǎn)品中內(nèi)容理解系統(tǒng)的準(zhǔn)確度，

像我們的預(yù)訓(xùn)練語言模型 XLM 這樣的自監(jiān)督領(lǐng)域研究正在為 Facebook 上的許多重要應(yīng)用程序提供動(dòng)力——包括主動(dòng)檢測(cè)仇恨言論的系統(tǒng)。我們已經(jīng)部署了 XLM-R，該模型利用了我們的

RoBERT 架構(gòu)，以改進(jìn)我們?cè)?Facebook 和 Instagram 上針對(duì)多種語言的仇恨語音分類器，這樣即使在訓(xùn)練數(shù)據(jù)很少的語言中我們也可以實(shí)現(xiàn)仇恨語音檢測(cè)。

近年來，自監(jiān)督學(xué)習(xí)的進(jìn)展讓我們倍感鼓舞，盡管要讓這種方法幫助我們發(fā)現(xiàn) AI 智能的暗物質(zhì)還有很長(zhǎng)的路要走。自監(jiān)督是通往人類水平智能的道路上的重要一步，但這一步背后肯定有許多積累，所謂千里之行始于足下。因此，我們?cè)谂εc更大范圍內(nèi)的 AI 社區(qū)合作，以實(shí)現(xiàn)我們?cè)谖磥淼哪骋惶靹?chuàng)造出具有人類智能的機(jī)器的目標(biāo)。我們的研究已公開發(fā)布并在頂級(jí)會(huì)議上發(fā)表。我們還組織了研討會(huì)并發(fā)布了一些庫，以幫助加快這一領(lǐng)域的研究。
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴