引言
深度學(xué)習(xí)目前已成為發(fā)展最快、最令人興奮的機(jī)器學(xué)習(xí)領(lǐng)域之一,許多卓有建樹的論文已經(jīng)發(fā)表,而且已有很多高質(zhì)量的開源深度學(xué)習(xí)框架可供使用。然而,論文通常非常簡明扼要并假設(shè)讀者已對深度學(xué)習(xí)有相當(dāng)?shù)睦斫猓@使得初學(xué)者經(jīng)常卡在一些概念的理解上,讀論文似懂非懂,十分吃力。另一方面,即使有了簡單易用的深度學(xué)習(xí)框架,如果對深度學(xué)習(xí)常見概念和基本思路不了解,面對現(xiàn)實任務(wù)時不知道如何設(shè)計、診斷、及調(diào)試網(wǎng)絡(luò),最終仍會束手無策。
本系列文章旨在直觀系統(tǒng)地梳理深度學(xué)習(xí)各領(lǐng)域常見概念與基本思想,使讀者對深度學(xué)習(xí)的重要概念與思想有一直觀理解,做到“知其然,又知其所以然”,從而降低后續(xù)理解論文及實際應(yīng)用的難度。本系列文章力圖用簡練的語言加以描述,避免數(shù)學(xué)公式和繁雜細(xì)節(jié)。本文是該系列文章中的第三篇,旨在介紹深度學(xué)習(xí)在計算機(jī)視覺的其他任務(wù)的應(yīng)用。
▌網(wǎng)絡(luò)壓縮(network compression)
盡管深度神經(jīng)網(wǎng)絡(luò)取得了優(yōu)異的性能,但巨大的計算和存儲開銷成為其部署在實際應(yīng)用中的挑戰(zhàn)。有研究表明,神經(jīng)網(wǎng)絡(luò)中的參數(shù)存在大量的冗余。因此,有許多工作致力于在保證準(zhǔn)確率的同時降低網(wǎng)路復(fù)雜度。
低秩近似用低秩矩陣近似原有權(quán)重矩陣。例如,可以用SVD得到原矩陣的最優(yōu)低秩近似,或用Toeplitz矩陣配合Krylov分解近似原矩陣。
剪枝(pruning)在訓(xùn)練結(jié)束后,可以將一些不重要的神經(jīng)元連接(可用權(quán)重數(shù)值大小衡量配合損失函數(shù)中的稀疏約束)或整個濾波器去除,之后進(jìn)行若干輪微調(diào)。實際運行中,神經(jīng)元連接級別的剪枝會使結(jié)果變得稀疏,不利于緩存優(yōu)化和內(nèi)存訪問,有的需要專門設(shè)計配套的運行庫。相比之下,濾波器級別的剪枝可直接運行在現(xiàn)有的運行庫下,而濾波器級別的剪枝的關(guān)鍵是如何衡量濾波器的重要程度。例如,可用卷積結(jié)果的稀疏程度、該濾波器對損失函數(shù)的影響、或卷積結(jié)果對下一層結(jié)果的影響來衡量。
量化(quantization)對權(quán)重數(shù)值進(jìn)行聚類,用聚類中心數(shù)值代替原權(quán)重數(shù)值,配合Huffman編碼,具體可包括標(biāo)量量化或乘積量化。但如果只考慮權(quán)重自身,容易造成量化誤差很低,但分類誤差很高的情況。因此,Quantized CNN優(yōu)化目標(biāo)是重構(gòu)誤差最小化。此外,可以利用哈希進(jìn)行編碼,即被映射到同一個哈希桶中的權(quán)重共享同一個參數(shù)值。
降低數(shù)據(jù)數(shù)值范圍默認(rèn)情況下數(shù)據(jù)是單精度浮點數(shù),占32位。有研究發(fā)現(xiàn),改用半精度浮點數(shù)(16位)幾乎不會影響性能。谷歌TPU使用8位整型來表示數(shù)據(jù)。極端情況是數(shù)值范圍為二值或三值(0/1或-1/0/1),這樣僅用位運算即可快速完成所有計算,但如何對二值或三值網(wǎng)絡(luò)進(jìn)行訓(xùn)練是一個關(guān)鍵。通常做法是網(wǎng)絡(luò)前饋過程為二值或三值,梯度更新過程為實數(shù)值。
此外,有研究認(rèn)為,二值運算的表示能力有限,因此其使用一個額外的浮點數(shù)縮放二值卷積后的結(jié)果,以提升網(wǎng)絡(luò)表示能力。
精簡結(jié)構(gòu)設(shè)計 有研究工作直接設(shè)計精簡的網(wǎng)絡(luò)結(jié)構(gòu)。例如,
瓶頸(bottleneck)結(jié)構(gòu)及1×1卷積。這種設(shè)計理念已經(jīng)被廣泛用于Inception和ResNet系列網(wǎng)絡(luò)設(shè)計中。
分組卷積。
擴(kuò)張卷積。使用擴(kuò)張卷積可以保持參數(shù)量不變的情況下擴(kuò)大感受野。
知識蒸餾(knowledge distillation)訓(xùn)練小網(wǎng)絡(luò)以逼近大網(wǎng)絡(luò),但應(yīng)該如何去逼近大網(wǎng)絡(luò)仍沒有定論。
軟硬件協(xié)同設(shè)計常用的硬件包括兩大類:(1). 通用硬件,包括CPU(低延遲,擅長串行、復(fù)雜運算)和GPU(高吞吐率,擅長并行、簡單運算)。(2). 專用硬件,包括ASIC(固定邏輯器件,例如谷歌TPU)和FPGA(可編程邏輯器件,靈活,但效率不如ASIC)。
▌細(xì)粒度圖像分類(fine-grained image classification)
相比(通用)圖像分類,細(xì)粒度圖像分類需要判斷的圖像類別更加精細(xì)。比如,我們需要判斷該目標(biāo)具體是哪一種鳥、哪一款的車、或哪一個型號的飛機(jī)。通常,這些子類之間的差異十分微小。比如,波音737-300和波音737-400的外觀可見的區(qū)別只是窗戶的個數(shù)不同。因此,細(xì)粒度圖像分類是比(通用)圖像分類更具有挑戰(zhàn)性的任務(wù)。
細(xì)粒度圖像分類的經(jīng)典做法是先定位出目標(biāo)的不同部位,例如鳥的頭、腳、翅膀等,之后分別對這些部位提取特征,最后融合這些特征進(jìn)行分類。這類方法的準(zhǔn)確率較高,但這需要對數(shù)據(jù)集人工標(biāo)注部位信息。目前細(xì)粒度分類的一大研究趨勢是不借助額外監(jiān)督信息,只利用圖像標(biāo)記進(jìn)行學(xué)習(xí),其以基于雙線性CNN的方法為代表。
雙線性CNN (bilinear CNN)其通過計算卷積描述向量(descriptor)的外積來考察不同維度之間的交互關(guān)系。由于描述向量的不同維度對應(yīng)卷積特征的不同通道,而不同通道提取了不同的語義特征,因此,通過雙線性操作,可以同時捕獲輸入圖像的不同語義特征之間的關(guān)系。
精簡雙線性匯合雙線性匯合的結(jié)果十分高維,這會占用大量的計算和存儲資源,同時使后續(xù)的全連接層的參數(shù)量大大增加。許多后續(xù)研究工作旨在設(shè)計更精簡的雙線性匯合策略,大致包括以下三大類:
(1)PCA降維。在雙線性匯合前,對深度描述向量進(jìn)行PCA投影降維,但這會使各維不再相關(guān),進(jìn)而影響性能。一個折中的方案是只對一支進(jìn)行PCA降維。
(2)近似核估計。可以證明,在雙線性匯合結(jié)果后使用線性SVM分類等價于在描述向量間使用了多項式核。由于兩個向量外積的映射等于兩個向量分別映射之后再卷積,有研究工作使用隨機(jī)矩陣近似向量的映射。此外,通過近似核估計,我們可以捕獲超過二階的信息(如下圖)。
(3) 低秩近似。對后續(xù)用于分類的全連接層的參數(shù)矩陣進(jìn)行低秩近似,進(jìn)而使我們不用顯式計算雙線性匯合結(jié)果。
▌“看圖說話”(image captioning)
“看圖說話”旨在對一張圖像產(chǎn)生對其內(nèi)容一兩句話的文字描述。這是視覺和自然語言處理兩個領(lǐng)域的交叉任務(wù)。
編碼-解碼網(wǎng)絡(luò)(encoder-decoder networks)看圖說話網(wǎng)絡(luò)設(shè)計的基本思想,其借鑒于自然語言處理中的機(jī)器翻譯思路。將機(jī)器翻譯中的源語言編碼網(wǎng)絡(luò)替換為圖像的CNN編碼網(wǎng)絡(luò)以提取圖像的特征,之后用目標(biāo)語言解碼網(wǎng)絡(luò)生成文字描述。
Show, attend, and tell注意力(attention)機(jī)制是機(jī)器翻譯中用于捕獲長距離依賴的常用技巧,也可以用于看圖說話。在解碼網(wǎng)絡(luò)中,每個時刻,除了預(yù)測下一個詞外,還需要輸出一個二維注意力圖,用于對深度卷積特征進(jìn)行加權(quán)匯合。使用注意力機(jī)制的一個額外的好處是可以對網(wǎng)絡(luò)進(jìn)行可視化,以觀察在生成每個詞的時候網(wǎng)絡(luò)注意到圖像中的哪些部分。
Adaptive attention之前的注意力機(jī)制會對每個待預(yù)測詞生成一個二維注意力圖(圖(a)),但對于像the、of這樣的詞實際上并不需要借助來自圖像的線索,并且有的詞可以根據(jù)上文推測出也不需要圖像信息。該工作擴(kuò)展了LSTM,以提出“視覺哨兵”機(jī)制以判斷預(yù)測當(dāng)前詞時應(yīng)更關(guān)注上文語言信息還是更關(guān)注圖像信息(圖(b))。此外,和之前工作利用上一時刻的隱層狀態(tài)計算注意力圖不同,該工作使用當(dāng)前隱層狀態(tài)。
▌視覺問答(visual question answering)
給定一張圖像和一個關(guān)于該圖像內(nèi)容的文字問題,視覺問答旨在從若干候選文字回答中選出正確的答案。其本質(zhì)是分類任務(wù),也有工作是用RNN解碼來生成文字回答。視覺問答也是視覺和自然語言處理兩個領(lǐng)域的交叉任務(wù)。
基本思路使用CNN從圖像中提取圖像特征,用RNN從文字問題中提取文本特征,之后設(shè)法融合視覺和文本特征,最后通過全連接層進(jìn)行分類。該任務(wù)的關(guān)鍵是如何融合這兩個模態(tài)的特征。直接的融合方案是將視覺和文本特征拼成一個向量、或者讓視覺和文本特征向量逐元素相加或相乘。
注意力機(jī)制和“看圖說話”相似,使用注意力機(jī)制也會提升視覺問答的性能。注意力機(jī)制包括視覺注意力(“看哪里”)和文本注意力(“關(guān)注哪個詞”)兩者。HieCoAtten可同時或交替產(chǎn)生視覺和文本注意力。DAN將視覺和文本的注意力結(jié)果映射到一個相同的空間,并據(jù)此同時產(chǎn)生下一步的視覺和文本注意力。
雙線性融合通過視覺特征向量和文本特征向量的外積,可以捕獲這兩個模態(tài)特征各維之間的交互關(guān)系。為避免顯式計算高維雙線性匯合結(jié)果,細(xì)粒度識別中的精簡雙線性匯合思想也可用于視覺問答。例如,MFB采用了低秩近似思路,并同時使用了視覺和文本注意力機(jī)制。
▌網(wǎng)絡(luò)可視化(visualizing)和網(wǎng)絡(luò)理解(understanding)
這些方法旨在提供一些可視化的手段以理解深度卷積神經(jīng)網(wǎng)絡(luò)。直接可視化第一層濾波器 由于第一層卷積層的濾波器直接在輸入圖像中滑動,我們可以直接對第一層濾波器進(jìn)行可視化。可以看出,第一層權(quán)重關(guān)注于特定朝向的邊緣以及特定色彩組合。這和生物的視覺機(jī)制是符合的。但由于高層濾波器并不直接作用于輸入圖像,直接可視化只對第一層濾波器有效。
t-SNE對圖像的fc7或pool5特征進(jìn)行低維嵌入,比如降維到2維使得可以在二維平面畫出。具有相近語義信息的圖像應(yīng)該在t-SNE結(jié)果中距離相近。和PCA不同的是,t-SNE是一種非線性降維方法,保留了局部之間的距離。下圖是直接對MNIST原始圖像進(jìn)行t-SNE的結(jié)果。可以看出,MNIST是比較容易的數(shù)據(jù)集,屬于不同類別的圖像聚類十分明顯。
可視化中間層激活值對特定輸入圖像,畫出不同特征圖的響應(yīng)。觀察發(fā)現(xiàn),即使ImageNet中沒有人臉或文字相關(guān)的類別,網(wǎng)絡(luò)會學(xué)習(xí)識別這些語義信息,以輔助后續(xù)的分類。
最大響應(yīng)圖像區(qū)域選擇某一特定的中間層神經(jīng)元,向網(wǎng)絡(luò)輸入許多不同的圖像,找出使該神經(jīng)元響應(yīng)最大的圖像區(qū)域,以觀察該神經(jīng)元用于響應(yīng)哪種語義特征。是“圖像區(qū)域”而不是“完整圖像”的原因是中間層神經(jīng)元的感受野是有限的,沒有覆蓋到全部圖像。
輸入顯著性圖對給定輸入圖像,計算某一特定神經(jīng)元對輸入圖像的偏導(dǎo)數(shù)。其表達(dá)了輸入圖像不同像素對該神經(jīng)元響應(yīng)的影響,即輸入圖像的不同像素的變化會帶來怎樣的神經(jīng)元響應(yīng)值的變化。Guided backprop只反向傳播正的梯度值,即只關(guān)注對神經(jīng)元正向的影響,這會產(chǎn)生比標(biāo)準(zhǔn)反向傳播更好的可視化效果。
梯度上升優(yōu)化選擇某一特定的神經(jīng)元,計算某一特定神經(jīng)元對輸入圖像的偏導(dǎo)數(shù),對輸入圖像使用梯度上升進(jìn)行優(yōu)化,直到收斂。此外,我們需要一些正則化項使得產(chǎn)生的圖像更接近自然圖像。此外,除了在輸入圖像上進(jìn)行優(yōu)化外,我們也可以對fc6特征進(jìn)行優(yōu)化并從其生成需要的圖像。
DeepVisToolbox該工具包同時提供了以上四種可視化結(jié)果。該鏈接中提供了一個演示視頻:Jason Yosinski
http://yosinski.com/deepvis#toolbox
遮擋實驗(occlusion experiment)用一個灰色方塊遮擋住圖像的不同區(qū)域,之后前饋網(wǎng)絡(luò),觀察其對輸出的影響。對輸出影響最大的區(qū)域即是對判斷該類別最重要的區(qū)域。從下圖可以看出,遮擋住狗的臉對結(jié)果影響最大。
Deep dream選擇一張圖像和某一特定層,優(yōu)化目標(biāo)是通過對圖像的梯度上升,最大化該層激活值的平方。實際上,這是在通過正反饋放大該層神經(jīng)元捕獲到的語義特征。可以看出,生成的圖像中出現(xiàn)了很多狗的圖案,這是因為ImageNet數(shù)據(jù)集1000類別中有200類關(guān)于狗,因此,神經(jīng)網(wǎng)絡(luò)中有很多神經(jīng)元致力于識別圖像中的狗。
對抗樣本(adversarial examples) 選擇一張圖像和一個不是它真實標(biāo)記的類別,計算該類別對輸入圖像的偏導(dǎo)數(shù),對圖像進(jìn)行梯度上升優(yōu)化。實驗發(fā)現(xiàn),在對圖像進(jìn)行難以察覺的微小改變后,就可以使網(wǎng)絡(luò)以相當(dāng)大的信心認(rèn)為該圖像屬于那個錯誤的類別。實際應(yīng)用中,對抗樣本會將會對金融、安防等領(lǐng)域產(chǎn)生威脅。有研究認(rèn)為,這是由于圖像空間非常高維,即使有非常多的訓(xùn)練數(shù)據(jù),也只能覆蓋該空間的很小一部分。只要輸入稍微偏離該流形空間,網(wǎng)絡(luò)就難以得到正常的判斷。
▌紋理生成(texture synthesis)和風(fēng)格遷移(style transform)
給定一小張包含特定紋理的圖像,紋理合成旨在生成更大的包含相同紋理的圖像。給定一張普通圖像和一張包含特定繪畫風(fēng)格的圖像,風(fēng)格遷移旨在保留原圖內(nèi)容的同時,將給定風(fēng)格遷移到該圖中。
特征逆向工程(feature inversion) 這兩類問題的基本思路。給定一個中間層特征,我們希望通過迭代優(yōu)化,產(chǎn)生一個特征和給定特征接近的圖像。此外,特征逆向工程也可以告訴我們中間層特征中蘊(yùn)含了多少圖像中信息。可以看出,低層的特征中幾乎沒有損失圖像信息,而高層尤其是全連接特征會丟失大部分的細(xì)節(jié)信息。從另一方面講,高層特征對圖像的顏色和紋理變化更不敏感。
Gram矩陣給定D×H×W的深度卷積特征,我們將其轉(zhuǎn)換為D×(HW)的矩陣X,則該層特征對應(yīng)的Gram矩陣定義為。通過外積,Gram矩陣捕獲了不同特征之間的共現(xiàn)關(guān)系。
紋理生成基本思路對給定紋理圖案的Gram矩陣進(jìn)行特征逆向工程。使生成圖像的各層特征的Gram矩陣接近給定紋理圖像的各層Gram。低層特征傾向于捕獲細(xì)節(jié)信息,而高層特征可以捕獲更大面積的特征。
風(fēng)格遷移基本思路優(yōu)化目標(biāo)包括兩項,使生成圖像的內(nèi)容接近原始圖像內(nèi)容,及使生成圖像風(fēng)格接近給定風(fēng)格。風(fēng)格通過Gram矩陣體現(xiàn),而內(nèi)容則直接通過神經(jīng)元激活值體現(xiàn)。
直接生成風(fēng)格遷移的圖像上述方法的缺點是需要多次迭代才能收斂。該工作提出的解決方案是訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來直接生成風(fēng)格遷移的圖像。一旦訓(xùn)練結(jié)束,進(jìn)行風(fēng)格遷移只需前饋網(wǎng)絡(luò)一次,十分高效。在訓(xùn)練時,將生成圖像、原始圖像、風(fēng)格圖像三者前饋一固定網(wǎng)絡(luò)以提取不同層特征用于計算損失函數(shù)。
示例歸一化(instance normalization)和批量歸一化(batch normalization)作用于一個批量不同,示例歸一化的均值和方差只由圖像自身決定。實驗中發(fā)現(xiàn),在風(fēng)格遷移網(wǎng)絡(luò)中使用示例歸一化可以從圖像中去除和示例有關(guān)的對比度信息以簡化生成過程。
條件示例歸一化(conditional instance normalization)上述方法的一個問題是對每種不同的風(fēng)格,我們需要分別訓(xùn)練一個模型。由于不同風(fēng)格之間存在共性,該工作旨在讓對應(yīng)于不同風(fēng)格的風(fēng)格遷移網(wǎng)絡(luò)共享參數(shù)。具體來說,其修改了風(fēng)格遷移網(wǎng)絡(luò)中的示例歸一化,使其具有N組縮放和平移參數(shù),每組對應(yīng)一個不同的風(fēng)格。這樣,我們可以通過一次前饋過程同時獲得N張風(fēng)格遷移圖像。
▌人臉驗證/識別(face verification/recognition)
人臉驗證/識別可以認(rèn)為是一種更加精細(xì)的細(xì)粒度圖像識別任務(wù)。人臉驗證是給定兩張圖像、判斷其是否屬于同一個人,而人臉識別是回答圖像中的人是誰。一個人臉驗證/識別系統(tǒng)通常包括三大步:檢測圖像中的人臉,特征點定位、及對人臉進(jìn)行驗證/識別。人臉驗證/識別的難題在于需要進(jìn)行小樣本學(xué)習(xí)。通常情況下,數(shù)據(jù)集中每人只有對應(yīng)的一張圖像,這稱為一次學(xué)習(xí)(one-shot learning)。
兩種基本思路當(dāng)作分類問題(需要面對非常多的類別數(shù)),或者當(dāng)作度量學(xué)習(xí)問題。如果兩張圖像屬于同一個人,我們希望它們的深度特征比較接近,否則,我們希望它們不接近。之后,根據(jù)深度特征之間的距離進(jìn)行驗證(對特征距離設(shè)定閾值以判斷是否屬于同一個人),或識別(k近鄰分類)。
DeepFace第一個將深度神經(jīng)網(wǎng)絡(luò)成功用于人臉驗證/識別的模型。DeepFace使用了非共享參數(shù)的局部連接。這是由于人臉不同區(qū)域存在不同的特征(例如眼睛和嘴巴具有不同的特征),經(jīng)典卷積層的“共享參數(shù)”性質(zhì)在人臉識別中不再適用。因此,人臉識別網(wǎng)絡(luò)中會采用不共享參數(shù)的局部連接。其使用孿生網(wǎng)絡(luò)(siamese network)進(jìn)行人臉驗證。當(dāng)兩張圖像的深度特征小于給定閾值時,認(rèn)為其來自同一個人。
FaceNet三元輸入,希望和負(fù)樣本之間的距離以一定間隔(如0.2)大于和正樣本之間的距離。此外,輸入三元的選擇不是隨機(jī)的,否則由于和負(fù)樣本之間的差異很大,網(wǎng)絡(luò)學(xué)不到什么東西。選擇最困難的三元組(即最遠(yuǎn)的正樣本和最近的負(fù)樣本)會使網(wǎng)絡(luò)陷入局部最優(yōu)。FaceNet采用半困難策略,選擇比正樣本遠(yuǎn)的負(fù)樣本。
大間隔交叉熵?fù)p失近幾年的一大研究熱點。由于類內(nèi)波動大而類間相似度高,有研究工作旨在提升經(jīng)典的交叉熵?fù)p失對深度特征的判斷能力。例如,L-Softmax加強(qiáng)優(yōu)化目標(biāo),使對應(yīng)類別的參數(shù)向量和深度特征夾角增大。 A-Softmax進(jìn)一步約束L-Softmax的參數(shù)向量長度為1,使訓(xùn)練更集中到優(yōu)化深度特征和夾角上。實際中,L-Softmax和A-Softmax都很難收斂,訓(xùn)練時采用了退火方法,從標(biāo)準(zhǔn)softmax逐漸退火至L-Softmax或A-Softmax。
活體檢測(liveness detection)判斷人臉是來自真人或是來自照片等,這是人臉驗證/識別需要解決的關(guān)鍵問題。在產(chǎn)業(yè)界目前主流的做法是利用人的表情變化、紋理信息、眨眼、或讓用戶完成一系列動作等。
▌圖像檢索(image retrieval)
給定一個包含特定實例(例如特定目標(biāo)、場景、建筑等)的查詢圖像,圖像檢索旨在從數(shù)據(jù)庫圖像中找到包含相同實例的圖像。但由于不同圖像的拍攝視角、光照、或遮擋情況不同,如何設(shè)計出能應(yīng)對這些類內(nèi)差異的有效且高效的圖像檢索算法仍是一項研究難題。
圖像檢索的典型流程首先,設(shè)法從圖像中提取一個合適的圖像的表示向量。其次,對這些表示向量用歐式距離或余弦距離進(jìn)行最近鄰搜索以找到相似的圖像。最后,可以使用一些后處理技術(shù)對檢索結(jié)果進(jìn)行微調(diào)。可以看出,決定一個圖像檢索算法性能的關(guān)鍵在于提取的圖像表示的好壞。
(1) 無監(jiān)督圖像檢索
無監(jiān)督圖像檢索旨在不借助其他監(jiān)督信息,只利用ImageNet預(yù)訓(xùn)練模型作為固定的特征提取器來提取圖像表示。
直覺思路由于深度全連接特征提供了對圖像內(nèi)容高層級的描述,且是“天然”的向量形式,一個直覺的思路是直接提取深度全連接特征作為圖像的表示向量。但是,由于全連接特征旨在進(jìn)行圖像分類,缺乏對圖像細(xì)節(jié)的描述,該思路的檢索準(zhǔn)確率一般。
利用深度卷積特征由于深度卷積特征具有更好的細(xì)節(jié)信息,并且可以處理任意大小的圖像輸入,目前的主流方法是提取深度卷積特征,并通過加權(quán)全局求和匯合(sum-pooling)得到圖像的表示向量。其中,權(quán)重體現(xiàn)了不同位置特征的重要性,可以有空間方向權(quán)重和通道方向權(quán)重兩種形式。
CroW深度卷積特征是一個分布式的表示。雖然一個神經(jīng)元的響應(yīng)值對判斷對應(yīng)區(qū)域是否包含目標(biāo)用處不大,但如果多個神經(jīng)元同時有很大的響應(yīng)值,那么該區(qū)域很有可能包含該目標(biāo)。因此,CroW把特征圖沿通道方向相加,得到一張二維聚合圖,并將其歸一化并根號規(guī)范化的結(jié)果作為空間權(quán)重。CroW的通道權(quán)重根據(jù)特征圖的稀疏性定義,其類似于自然語言處理中TF-IDF特征中的IDF特征,用于提升不常出現(xiàn)但具有判別能力的特征。
Class weighted features該方法試圖結(jié)合網(wǎng)絡(luò)的類別預(yù)測信息來使空間權(quán)重更具判別能力。具體來說,其利用CAM來獲取預(yù)訓(xùn)練網(wǎng)絡(luò)中對應(yīng)各類別的最具代表性區(qū)域的語義信息,進(jìn)而將歸一化的CAM結(jié)果作為空間權(quán)重。
PWAPWA發(fā)現(xiàn),深度卷積特征的不同通道對應(yīng)于目標(biāo)不同部位的響應(yīng)。因此,PWA選取一系列有判別能力的特征圖,將其歸一化之后的結(jié)果作為空間權(quán)重進(jìn)行匯合,并將其結(jié)果級聯(lián)起來作為最終圖像表示。
(2) 有監(jiān)督圖像檢索
有監(jiān)督圖像檢索首先將ImageNet預(yù)訓(xùn)練模型在一個額外的訓(xùn)練數(shù)據(jù)集上進(jìn)行微調(diào),之后再從這個微調(diào)過的模型中提取圖像表示。為了取得更好的效果,用于微調(diào)的訓(xùn)練數(shù)據(jù)集通常和要用于檢索的數(shù)據(jù)集比較相似。此外,可以用候選區(qū)域網(wǎng)絡(luò)提取圖像中可能包含目標(biāo)的前景區(qū)域。
孿生網(wǎng)絡(luò)(siamese network)和人臉識別的思路類似,使用二元或三元(++-)輸入,訓(xùn)練模型使相似樣本之間的距離盡可能小,而不相似樣本之間的距離盡可能大。
▌目標(biāo)跟蹤(object tracking)
目標(biāo)跟蹤旨在跟蹤一段視頻中的目標(biāo)的運動情況。通常,視頻第一幀中目標(biāo)的位置會以包圍盒的形式給出,我們需要預(yù)測其他幀中該目標(biāo)的包圍盒。目標(biāo)跟蹤類似于目標(biāo)檢測,但目標(biāo)跟蹤的難點在于事先不知道要跟蹤的目標(biāo)具體是什么,因此無法事先收集足夠的訓(xùn)練數(shù)據(jù)以訓(xùn)練一個專門的檢測器。
孿生網(wǎng)絡(luò)類似于人臉驗證的思路,利用孿生網(wǎng)絡(luò),一支輸入第一幀包圍盒內(nèi)圖像,另一支輸入其他幀的候選圖像區(qū)域,輸出兩張圖的相似度。我們不需要遍歷其他幀的所有可能的候選區(qū)域,利用全卷積網(wǎng)絡(luò),我們只需要前饋整張圖像一次。通過互相關(guān)操作(卷積),得到二維的響應(yīng)圖,其中最大響應(yīng)位置確定了需要預(yù)測的包圍盒位置。基于孿生網(wǎng)絡(luò)的方法速度快,能處理任意大小的圖像。
CFNet相關(guān)濾波通過訓(xùn)練一個線性模板來區(qū)分圖像區(qū)域和它周圍區(qū)域,利用傅里葉變換,相關(guān)濾波有十分高效的實現(xiàn)。CFNet結(jié)合離線訓(xùn)練的孿生網(wǎng)絡(luò)和在線更新的相關(guān)濾波模塊,提升輕量級網(wǎng)絡(luò)的跟蹤性能。
▌生成式模型(generative models)
這類模型旨在學(xué)得數(shù)據(jù)(圖像)的分布,或從該分布中采樣得到新的圖像。生成式模型可以用于超分辨率重建、圖像著色、圖像轉(zhuǎn)換、從文字生成圖像、學(xué)習(xí)圖像潛在表示、半監(jiān)督學(xué)習(xí)等。此外,生成式模型可以和強(qiáng)化學(xué)習(xí)結(jié)合,用于仿真和逆強(qiáng)化學(xué)習(xí)。
顯式建模根據(jù)條件概率公式,直接進(jìn)行最大似然估計對圖像的分布進(jìn)行學(xué)習(xí)。該方法的弊端是,由于每個像素依賴于之前的像素,生成圖像時由于需要從一角開始序列地進(jìn)行,所以會比較慢。例如,WaveNet可以生成類似人類說話的語音,但由于無法并行生成,得到1秒的語音需要2分鐘的計算,無法達(dá)到實時。
變分自編碼器(variational auto-encoder, VAE)為避免顯式建模的弊端,變分自編碼器對數(shù)據(jù)分布進(jìn)行隱式建模。其認(rèn)為圖像的生成受一個隱變量控制,并假設(shè)該隱變量服從對角高斯分布。變分自編碼器通過一個解碼網(wǎng)絡(luò)從隱變量生成圖像。由于無法直接進(jìn)行最大似然估計,在訓(xùn)練時,類似于EM算法,變分自編碼器會構(gòu)造似然函數(shù)的下界函數(shù),并對這個下界函數(shù)進(jìn)行優(yōu)化。變分自編碼器的好處是,由于各維獨立,我們可以通過控制隱變量來控制輸出圖像的變化因素。
生成式對抗網(wǎng)絡(luò)(generative adversarial networks, GAN)由于學(xué)習(xí)數(shù)據(jù)分布十分困難,生成式對抗網(wǎng)絡(luò)繞開這一步驟,直接生成新的圖像。生成式對抗網(wǎng)絡(luò)使用一個生成網(wǎng)絡(luò)G從隨機(jī)噪聲中生成圖像,以及一個判別網(wǎng)絡(luò)D判斷其輸入圖像是真實/偽造圖像。在訓(xùn)練時,判別網(wǎng)絡(luò)D的目標(biāo)是能判斷真實/偽造圖像,而生成網(wǎng)絡(luò)G的目標(biāo)是使得判別網(wǎng)絡(luò)D傾向于判斷其輸出是真實圖像。
實際中,直接訓(xùn)練生成式對抗網(wǎng)絡(luò)會遇到mode collapse問題,即生成式對抗網(wǎng)絡(luò)無法學(xué)到完整的數(shù)據(jù)分布。隨后,出現(xiàn)了LS-GAN和W-GAN的改進(jìn)。和變分自編碼器相比,生成式對抗網(wǎng)絡(luò)的細(xì)節(jié)信息更好。以下鏈接整理了許多和生成式對抗網(wǎng)絡(luò)有關(guān)的論文:hindupuravinash/the-gan-zoo。以下鏈接整理了許多訓(xùn)練生成式對抗網(wǎng)絡(luò)的其技巧:soumith/ganhacks。
▌視頻分類(video classification)
前面介紹的大部分任務(wù)也可以用于視頻數(shù)據(jù),這里僅以視頻分類任務(wù)為例,簡要介紹處理視頻數(shù)據(jù)的基本方法。
多幀圖像特征匯合這類方法將視頻看成一系列幀的圖像組合。網(wǎng)絡(luò)同時接收屬于一個視頻片段的若干幀圖像(例如15幀),并分別提取其深度特征,之后融合這些圖像特征得到該視頻片段的特征,最后進(jìn)行分類。實驗發(fā)現(xiàn),使用"slow fusion"效果最好。此外,獨立使用單幀圖像進(jìn)行分類即可得到很有競爭力的結(jié)果,這說明單幀圖像已經(jīng)包含很多的信息。
三維卷積將經(jīng)典的二維卷積擴(kuò)展到三維卷積,使之在時間維度也局部連接。例如,可以將VGG的3×3卷積擴(kuò)展為3×3×3卷積,2×2匯合擴(kuò)展為2×2×2匯合。
圖像+時序兩分支結(jié)構(gòu)這類方法用兩個獨立的網(wǎng)絡(luò)分別捕獲視頻中的圖像信息和隨時間運動信息。其中,圖像信息從單幀靜止圖像中得到,是經(jīng)典的圖像分類問題。運動信息則通過光流(optical flow)得到,其捕獲了目標(biāo)在相鄰幀之間的運動情況。
CNN+RNN捕獲遠(yuǎn)距離依賴之前的方法只能捕獲幾幀圖像之間的依賴關(guān)系,這類方法旨在用CNN提取單幀圖像特征,之后用RNN捕獲幀之間的依賴。
此外,有研究工作試圖將CNN和RNN合二為一,使每個卷積層都能捕獲遠(yuǎn)距離依賴。
-
機(jī)器視覺
+關(guān)注
關(guān)注
161文章
4345瀏覽量
120111 -
人工智能
+關(guān)注
關(guān)注
1791文章
46859瀏覽量
237584 -
人臉識別
+關(guān)注
關(guān)注
76文章
4005瀏覽量
81769 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5493瀏覽量
120979
發(fā)布評論請先 登錄
相關(guān)推薦
評論