在线观看av片永久免费_国产偷亚洲偷欧美偷精品_免费看久久久性性

圖像題注旨在為輸入圖像自動生成自然語言的描述語句，可用于輔助視覺障礙者感知周圍環(huán)境和幫助人們更便捷地處理大量非結構化視覺信息等場景。當前的主流方法主要是基于深度編碼器-解碼器框架作端到端的訓練優(yōu)化，但由于視覺概念和語義實體之間對應的偏差，導致在題注中對于圖像細粒度語義的識別和理解不足。本文針對此問題，提出了基于檢測特征和蒙特卡羅采樣的注意力機制和基于改進策略梯度的序列優(yōu)化（Sequence Optimization）方法，并將二者融合成一個用于圖像題注的整體框架。

在我們的方法中，為了更好地提取圖像的強語義特征，首先用Faster R-CNN取代一般的卷積網絡作為編碼器；在此基礎上，基于蒙特卡羅采樣設計一個強化注意力機制（Reinforce Attention），以篩選出當前時刻值得關注的視覺概念，實現(xiàn)更精準的語義引導。在序列優(yōu)化階段，我們利用折扣因子和詞頻-逆文檔頻率（TF-IDF）因子改進了策略梯度的評估函數(shù)，使得生成題注時具有更強語義性的單詞有更大的獎賞值，從而貢獻更多的梯度信息，更好地引導序列優(yōu)化。我們主要在MS COCO數(shù)據集上進行訓練和評測，模型在當前所有權威的度量指標得分上都取得了顯著的提升。以CIDEr指標為例，和當前比較代表性的方法[5]和[7]相比，我們的模型在最終得分上分別提升了8.0%和4.1%。

圖像題注旨在為一幅輸入圖像生成相匹配的自然語言描述，其工作流程如下圖1（a）所示。

融合強化注意力機制和序列優(yōu)化的圖像題注方法

圖1（a）模型前向計算流程

開放域的圖像題注是一項頗具挑戰(zhàn)的任務，因為它不但需要對圖像中的所有局部和全局實體作實現(xiàn)細粒度語義理解，而且還需要生成這些實體間的屬性和聯(lián)系。從學術價值上來看，圖像題注領域的研究極大地激發(fā)著關于計算機視覺（CV）和自然語言處理（NLP）兩大領域如何更好地交叉融合；而在現(xiàn)實應用的維度上，圖像題注的進展對于構建一個更好的AI交互系統(tǒng)來說至關重要，尤其是在輔助視覺障礙者更好地感知世界，以及更全面地協(xié)助人們更加便捷地組織和理解海量的非結構化視覺信息等方面，有很大的價值。

圖像題注領域的研究進展非?？?，近期產生了很多標志性的工作。目前基于深度編碼器-解碼器框架（Encoder-Decoder）的視覺注意力模型（Attention Models），在圖像題注的各個標準數(shù)據集上都取得了較好的成績。視覺注意力模型主要用于提取空間顯著區(qū)域，以更好地映射到待生成詞匯?；诖搜苌舜罅康母倪M工作，最近有部分研究工作致力于將自底向上（Bottom-up）的物體檢測和屬性預測方法（Object Detection&Attribute Prediction）和注意力機制融合到一起，在評價指標得分上取得了不錯的提升。但所有的這些工作，都采用的是Word-Level的訓練和優(yōu)化方法，這導致了如下兩個問題：第一個是“Exposure Bias”，是指模型在訓練中根據給定的真實（Ground-Truth）單詞去計算下一個單詞的最大似然，而在測試中卻需要根據實際的生成（Generation）來預測下一個單詞；第二個問題是模型在訓練和評估中目標的不一致（Inconsistency），因為在訓練時采用交叉熵損失函數(shù)，而在評估模型生成的題注（Generated Captions）時，卻采用的是針對NLP領域專用的一些不可微的度量方法，比如BLEU[11]，ROUGE，METEOR和CIDEr等。

為了解決上述問題，最近的一些工作創(chuàng)新性地引入了基于強化學習的優(yōu)化方法。借助策略梯度和基準函數(shù)（Baseline Function）將原先的單詞級別（Word-Level）的訓練改進成序列化（Sequence-Level）的模式，極大地彌補了原先方案的不足，提升了圖像題注的性能。然而，這些方法也存在一些局限，比如在[5]和[10]中，通過一次序列采樣生成一句完整題注，得到一個獎賞值（Reward），而后默認所有的單詞在梯度優(yōu)化時共享這一個值。顯然，在多數(shù)情況下這樣是不合理的，因為不同的單詞詞性不同、語義有側重、隱含的信息量顯著差異，應該被區(qū)分為不同的語言實體（Linguistic Entity），在訓練中對應不同的視覺概念（Visual Concepts）。為了解決這些問題，我們提出了如下的融合強化注意力機制和序列優(yōu)化的圖像題注方法。

在我們的方法中，首先用Faster R-CNN取代一般的卷積網絡作為編碼器，對輸入圖像抽取基于物體檢測和屬性預測的強語義特征向量（Semantic Features）。之后，我們基于蒙特卡羅采樣設計一個強化注意力機制（Reinforce Attention），以篩選出當前時刻值得關注的視覺概念，實現(xiàn)更精準的語義實體引導。在序列優(yōu)化（Sequence Optimization）階段，我們采用策略梯度方法計算序列的近似梯度。而在計算每個采樣單詞的獎賞值時，我們利用折扣因子和詞頻-逆文檔頻率（TF-IDF）因子改進了原始的策略梯度函數(shù)，使得生成題注時具有更強語義性的單詞有更大的獎賞值，從而為訓練貢獻更多的梯度信息，以更好地引導序列優(yōu)化。在實驗中，我們在MS COCO數(shù)據集上的各項性能指標得分均超過了當前的基線方法，證明了方法設計的有效性。

圖像題注方法

總體上，圖像題注的方法可以被分為兩大類：一類是基于模板的（template-based），另一類是基于神經網絡的（neural network-based）。前者主要通過一個模板來完成題注生成，而這個模板的填充需要基于對象檢測、屬性預測和場景理解的輸出。而本文中提出的方法采用的是跟后者一致的框架，所以下面我們主要介紹基于神經網絡做圖像題注的相關工作。

近些年，加載了視覺注意力機制的深度編碼器-解碼器的一系列工作，在圖像題注任務的各個標準數(shù)據集上都取得了非常不錯的結果。此類方法的核心機制在于：融合了視覺注意力機制的卷積網絡和循環(huán)網絡，能夠更好地挖掘隱含的上下文視覺信息，并在端到端地訓練充分融合局部和全局的實體信息，從而為題注生成提供更強的泛化能力。之后的很多工作從此出發(fā)：一方面是繼續(xù)強化和改善注意力機制的功效，提出了一些新的計算模塊或網絡架構；另一方面，部分工作致力于將基于檢測框架的特征提取和表征方法與注意力機制融合到一起，以獲得更好地實體捕捉能力。

但是目前基于視覺注意力的方法使用交叉熵的純單詞級別（Word-Level）訓練模式存在兩個顯著的缺陷：Exposure Bias和Inconsistency。為了更好地解決這兩個問題，基于強化學習的優(yōu)化方法被引入圖像題注任務中。其中尤為代表性的工作是[10]，他們將問題重新建模為一個策略梯度優(yōu)化問題，并采用REINFORCE算法進行優(yōu)化；為了減小方差、提升訓練穩(wěn)定性，[10]提出了一個混合增量式的訓練方法。隨后[5][15]等工作基于此做了不同的改進，他們主要是提出了更好的基準函數(shù)（Baseline Function），以更大限度地、更高效地提升序列優(yōu)化的效果。但是當前的這些方法存在的一個顯著的局限性是：在對序列梯度進行采樣逼近時，默認一句話中的所有單詞享有共同的獎賞值。而這顯然是不合理的。為了彌補這個缺陷，我們引入了兩種優(yōu)化策略：第一，從強化學習中評估函數(shù)的計算出發(fā)，引入折扣因子，更精準地計算每一個單詞采樣回傳的梯度值；第二，是從直接度量驅動（Metric-Driven）的初衷出發(fā)，將TF-IDF因子引入了獎賞計算中，以更好地發(fā)揮強語言實體對于序列整體優(yōu)化的驅動作用。

方法

我們的模型整體工作框架如圖1所示，其中（a）是一個從輸入到輸出的前向計算流程，（b）為基于強化學習的序列優(yōu)化過程。下面我們將從語義特征提取，題注生成器和序列優(yōu)化三個方面，依次遞進地介紹我們的方法細節(jié)。

融合強化注意力機制和序列優(yōu)化的圖像題注方法

圖1（a）模型前向計算流程

融合強化注意力機制和序列優(yōu)化的圖像題注方法

圖1（b）基于強化學習的序列優(yōu)化過程

1、語義特征（Semantic Features）

對于輸入圖像，與常用做法不同的是，我們并非提取卷積特征向量，而是基于物體檢測和屬性預測提取圖像的語義特征向量，使得在訓練過程中可以更好地與真實題注語句中的語言實體相匹配。在本文中，我們用Faster R-CNN[33]作為圖像題注模型中的視覺編碼器。給定輸入圖片Ⅰ，需要輸出的語義特征記為：

我們對Faster R-CNN最后的輸出做一個非極大值抑制（Non-maximum Suppression），對于每一個選中的候選區(qū)域

2、題注生成器（Caption Generator）

（1）模型結構和目標函數(shù)

給定一幅圖像Ⅰ以及相應的語義特征向量

其中

其中，

融合強化注意力機制和序列優(yōu)化的圖像題注方法

和之前所有Encoder-Decoder框架一樣，這里采用交叉熵（XENT）損失函數(shù)來訓練和優(yōu)化整個網絡，也就是求如下目標函數(shù)的極小值：

（2）強化注意力機制（Reinforce Attention）

下面我們介紹兩層LSTM輸入向量

在每一步計算中，第一層的輸入

其中

得到第一層的輸出

在實際計算中，我們對該分布進行蒙特卡羅采樣（MC Sampling）以得到

最后我們再次采用串聯(lián)運算

由于上述公式（6）中我們運用了不可微的蒙特卡羅采樣，因此我們需要重新定義一個和公式（4）稍有區(qū)別的新目標函數(shù)。借鑒[19][29]中的工作，我們引入原目標函數(shù)

這里我們采用REINFORCE算法[30]來近似計算的

融合強化注意力機制和序列優(yōu)化的圖像題注方法

其中

3、序列優(yōu)化（Sequence-Level Optimization）

為了更直接地優(yōu)化NLP度量指標，并很好地解決Exposure Bias的問題，我們將圖像題注重新建模成一個基于強化學習的序列決策問題。我們可以將上文所述的生成模型視為一個智能體（Agent），與由圖像和詞匯構成的外部環(huán)境（Environment）實時交互。我們定義狀態(tài)（state）為：

對于圖像題注任務，該目標可以公式化為求負的期望累積獎賞的最小值：

這里

融合強化注意力機制和序列優(yōu)化的圖像題注方法

其中

融合強化注意力機制和序列優(yōu)化的圖像題注方法

但正如我們在導言中提及的那樣，這種計算方式忽視了不同語言實體對于整個序列獎賞值的貢獻差異，因此我們提出如下兩個改進：（1）我們引入一個折扣因子

融合強化注意力機制和序列優(yōu)化的圖像題注方法

實驗

1、數(shù)據集（Datasets）

我們在當前圖像題注領域最通用的數(shù)據集MS COCO[31]上來評測我們提出的方法。該數(shù)據集總計有123287張圖片，每張圖片有5句人工標注的題注作為真實值（Ground Truth），其中劃分出訓練集82783張和驗證集40504張。而測試集是另外的40775張圖片，專門用作在線系統(tǒng)測評（Online），官方不公開與之對應的題注真實值。因此，當模型需要在本地（Offline）驗證和調試時，我們采用另外的數(shù)據集劃分標準，從123297張圖片集中劃分出分別包含5000張圖片的驗證集和測試集。對于所有題注語句數(shù)據的預處理，包括分詞和詞典生成等，我們采用目前公用的開源代碼[https://github.com/karpathy/neuraltalk]，去掉不常用的詞匯，生成一個包含9487個不同單詞的詞典（即

2、實施細節(jié)（Implementation Details）

特征提取在提取語義特征時，我們采用的是一個基于ResNet-101[32]的Faster R-CNN網絡。我們設置IoU閾值為0.7用于區(qū)域候選框抑制（Suppression），0.3用于物體類別抑制。為了選取顯著性圖像區(qū)域，我們設置了一個0.2檢測的檢測置信度。在實驗中，我們發(fā)現(xiàn)每幅圖片最多選取到36個顯著語義區(qū)域，即

訓練部署每一層LSTM隱藏單元

3、結果分析

在本地評測中，我們主要將模型在MS COCO數(shù)據集上的結果，和如下三個比較新的代表性模型進行比較：（1）Adaptive Attention[6]，標記為AdaAtt；（2）Self-Critical Sequence Training[5]，標記為SCST；（3）Bottom up and Top Down Attention[7]，標記為BU-Att。比較的結果如表1所示：

融合強化注意力機制和序列優(yōu)化的圖像題注方法

表1和其他代表性方法的性能對比

這里我們主要記錄了5項度量指標，包括CIDEr，METEOR（標記為MET），ROUGLE（標記為ROU），BLEU-4（標記為B-4）和BLEU-1（標記為B-1）。從中我們可以得到如下的結論：（1）我們提出的方法，在圖像題注各項評測指標上的得分，都顯著性地高于其他三種；（2）四種方法在各項指標上的得分增幅，都基本保持一致。以CIDEr得分為例，我們發(fā)現(xiàn)從AdaAtt到BU-Att，再到我們的方法，每一次改進都實現(xiàn)了約5個點的提升。這一定程度上可以說明，我們的這種改進思路，對于圖像題注任務更進一步的進展，是具有借鑒意義的。

除此之外，我們分別分析了所提出方法的不同組件（Components）對圖像題注性能提升的貢獻：（1）首先我們考察只使用Reinforce Attention組件（標記為Reinforce）的性能增益；（2）之后單獨考察我們提出的序列優(yōu)化改進因子，即

融合強化注意力機制和序列優(yōu)化的圖像題注方法

表2針對模型不同組件的性能分析表

從中我們可以看出：我們改進的兩個組件，都分別在BU-Att的基礎上實現(xiàn)了各項評測指標得分的顯著提升，其中

融合強化注意力機制和序列優(yōu)化的圖像題注方法

圖2圖像題注結果可視化

（其中，圖片中的綠框表示Reinforce Attention的結果，語句中的綠框是生成的對應的單詞）

結論

本文中，我們提出了一個融合強化注意力機制和序列優(yōu)化的圖像題注方法。首先，我們基于Faster R-CNN檢測特征和蒙特卡羅采樣設計出強化注意力機制；之后在序列優(yōu)化階段，引入折扣因子和TF-IDF因子改進策略梯度的評估函數(shù)，使得生成題注時具有更強語義性的單詞有更大的獎賞值，從而貢獻出更多的梯度信息，更好地引導序列優(yōu)化?？傮w上，我們的方法實現(xiàn)了圖像和語句之間更好的細粒度語義匹配。通過在MS COCO上的實驗，我們驗證了方法設計的有效性。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3601

瀏覽量
134205
序列

序列

+關注

關注
0

文章
70

瀏覽量
19547
蒙特卡羅

蒙特卡羅

+關注

關注
0

文章
11

瀏覽量
21181

原文標題：一種基于強化注意力機制和序列優(yōu)化的自動化圖像題注方法

文章出處：【微信號：SRA2009，微信公眾號：深圳市機器人協(xié)會】歡迎添加關注！文章轉載請注明出處。

深度分析NLP中的注意力機制

注意力機制越發(fā)頻繁的出現(xiàn)在文獻中，因此對注意力機制的學習、掌握與應用顯得十分重要。本文便對注意力機制

發(fā)表于 02-17 09:18 ?3832次閱讀

注意力機制的誕生、方法及幾種常見模型

簡而言之，深度學習中的注意力機制可以被廣義地定義為一個描述重要性的權重向量：通過這個權重向量為了預測或者推斷一個元素，比如圖像中的某個像素或句子中的某個單詞，我們使用注意力向量定量地估

發(fā)表于 03-12 09:49 ?4.1w次閱讀

注意力機制或將是未來機器學習的核心要素

目前注意力機制已是深度學習里的大殺器，無論是圖像處理、語音識別還是自然語言處理的各種不同類型的任務中，都很容易遇到注意力模型的身影。

發(fā)表于 05-07 09:37 ?1288次閱讀

基于注意力機制的深度學習模型AT-DPCNN

情感分析是自然語言處理領域的一個重要分支，卷積神經網絡（CNN）在文本情感分析方面取得了較好的效果，但其未充分提取文本信息中的關鍵情感信息。為此，建立一種基于注意力機制的深度學習模型AT-

發(fā)表于 03-17 09:53 ?12次下載

基于注意力機制和多尺度特征融合的網絡結構

目前多數(shù)利用卷積神經網絡進行圖像超分辨率重建的方法忽視對自然圖像固有屬性的捕捉，并且僅在單一尺度下提取特征。針對該問題，提出一種基于注意力機制

發(fā)表于 03-22 11:18 ?16次下載

基于空間/通道注意力機制的化學結構圖像識別方法

基于傳統(tǒng)圖像處理技術與流水線方式的化學結構圖像識別方法通常依賴于人工設計的特征，導致識別準確率較低。針對該問題，提岀一種基于空間注意力機制與通道注意

發(fā)表于 03-22 15:20 ?7次下載

融合雙層多頭自注意力與CNN的回歸模型

針對現(xiàn)有文本情感分析方法存在的無法高效捕捉相關文本情感特征從而造成情感分析效果不佳的問題提出一種融合雙層多頭自注意力與卷積神經網絡（CNN）的回歸模型 DLMA-CNN。采用多頭自注意力

發(fā)表于 03-25 15:16 ?6次下載

基于層次注意力機制的多模態(tài)圍堵情感識別模型

識別模型。在音頻模態(tài)中加人頻率注意力機制學習頻域上下文信息，利用多模態(tài)注意力機制將視頻特征與音頻特征進行融合，依據改進的損失函數(shù)對模態(tài)缺失問

發(fā)表于 04-01 11:20 ?9次下載

結合注意力機制的跨域服裝檢索方法

針對跨域服裝檢索中服裝商品圖像拍攝嚴格約束光照、背景等條件，而用戶圖像源自復雜多變的日常生活場景，難以避免背景干擾以及視角、姿態(tài)引起的服裝形變等問題。提出一種結合注意力機制的跨域服裝檢

發(fā)表于 05-12 14:19 ?2次下載

基于注意力機制等的社交網絡熱度預測模型

基于注意力機制等的社交網絡熱度預測模型

發(fā)表于 06-07 15:12 ?14次下載

基于多通道自注意力機制的電子病歷架構

基于多通道自注意力機制的電子病歷架構

發(fā)表于 06-24 16:19 ?75次下載

基于注意力機制的跨域服裝檢索方法綜述

基于注意力機制的跨域服裝檢索方法綜述

發(fā)表于 06-27 10:33 ?2次下載

基于注意力機制的新聞文本分類模型

基于注意力機制的新聞文本分類模型

發(fā)表于 06-27 15:32 ?30次下載

基于非對稱注意力機制殘差網絡的圖像檢測

基于非對稱注意力機制殘差網絡的圖像檢測

發(fā)表于 07-05 15:29 ?9次下載

計算機視覺中的注意力機制

計算機視覺中的注意力機制卷積神經網絡中常用的Attention 參考 注意力機制簡介與分類 注意力機

發(fā)表于 05-22 09:46 ?0次下載