【導(dǎo)讀】9 月 8 日-14 日,每兩年舉辦一次的 2018 歐洲計(jì)算機(jī)視覺大會(huì)(ECCV 2018)在德國慕尼黑召開,本次會(huì)議總共收到了 2439 篇有效的論文,相比上一屆 2016年會(huì)議增加了 65% ,其中有 776 篇被接受( 31.8 % )。可以說,今年是國內(nèi)各高校、企業(yè)研究機(jī)構(gòu)收獲豐富的一年,無論是過去的 CVPR、ICCV 大會(huì),都是華人的成果占據(jù)半壁江山,可見國內(nèi)計(jì)算機(jī)視覺這兩年來的迅猛的發(fā)展。
聚焦ECCV 2018
今年 ECCV 2018 大會(huì)共有 11 個(gè) Tutorial,討論的議題涵蓋目前熱門的方向:對(duì)抗性機(jī)器學(xué)習(xí);對(duì)人、物體和環(huán)境的超快三維感知、重建與理解;面部追蹤及其應(yīng)用、行人重識(shí)別的表征學(xué)習(xí)、視覺定位、視覺識(shí)別的前沿課題等。更過具體信息可訪問 workshops_tutorials 進(jìn)行了解。
https://eccv2018.org/program/workshops_tutorials/
在 ECCV 還沒有召開之前,大家對(duì)優(yōu)秀論文的關(guān)注度就非常高,可以看到很多關(guān)于有突破、有意義研究成果的分享。例如:
《Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images》
由騰訊 AI Lab 與復(fù)旦大學(xué)、普林斯頓大學(xué)、Intel Labs 合作提出一種端對(duì)端的深度學(xué)習(xí)框架,可從單張彩色圖片直接生成三維網(wǎng)格(3d mesh)。
《Recurrent Squeeze-and-Excitation Context Aggregation Net for Single Image Deraining》
北大已經(jīng)開源的深度單圖去雨算法。圖像中雨水條紋會(huì)嚴(yán)重降低能見度,導(dǎo)致許多當(dāng)前的計(jì)算機(jī)視覺算法無法工作,比如在自動(dòng)駕駛場景下圖像去雨就變得非常重要。該文提出了一種基于深度卷積和遞歸神經(jīng)網(wǎng)絡(luò)的新型深度網(wǎng)絡(luò)體系結(jié)構(gòu),用于單圖像去雨。
華中科技大學(xué)白翔老師團(tuán)隊(duì)在自然場景文本檢測與識(shí)別領(lǐng)域成果頗豐。
《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。引入 Mask R-CNN 思想通過語義分割進(jìn)行任意形狀文本檢測與識(shí)別。
MVSNet:非結(jié)構(gòu)化多視點(diǎn)三維重建網(wǎng)絡(luò)被 ECCV 2018 選為 Oral 的論文,來自香港科技大學(xué)和Altizure公司的研究團(tuán)隊(duì)提出了一種既高精度又高效率的三維重建網(wǎng)絡(luò)。
巴西阿雷格里港大學(xué)的學(xué)者發(fā)表于 ECCV 2018 的論文《License Plate Detection and Recognition in Unconstrained Scenarios》
給出了一整套完整的車牌識(shí)別系統(tǒng)設(shè)計(jì),著眼于解決在非限定場景有挑戰(zhàn)的車牌識(shí)別應(yīng)用,其性能優(yōu)于目前主流的商業(yè)系統(tǒng),代碼已經(jīng)開源,非常值得參考。
今年,商湯科技及聯(lián)合實(shí)驗(yàn)室共有 37 篇論文入選,甚至超過了微軟、Google、Facebook 等國外科技巨頭公司。在大規(guī)模人臉與人體識(shí)別、物體檢測與跟蹤、自動(dòng)駕駛場景理解與分析、視頻分析、3D 視覺、底層視覺算法、視覺與自然語言的綜合理解等領(lǐng)域均有重大突破。這些新穎的計(jì)算機(jī)視覺算法不僅有著豐富的應(yīng)用場景,使得更多的智能視覺算法能應(yīng)用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗(yàn)和方向。我們精選了部分論文進(jìn)行了解讀,感興趣的同學(xué)們可以進(jìn)一步研究。
大規(guī)模人臉與人體識(shí)別
▌1.人臉識(shí)別的瓶頸在于數(shù)據(jù)集噪聲(The Devil of Face Recognition is in the Noise)
隨著人臉數(shù)據(jù)集規(guī)模的逐漸擴(kuò)大,研究者們?cè)O(shè)計(jì)出了各種更快更強(qiáng)的人臉識(shí)別網(wǎng)絡(luò)。但是對(duì)于現(xiàn)有人臉數(shù)據(jù)集中的標(biāo)簽噪聲問題,學(xué)界的理解依然有限。為了解決這個(gè)問題,本文對(duì)于人臉識(shí)別領(lǐng)域作出以下貢獻(xiàn):
(1)清理出了現(xiàn)有大規(guī)模人臉數(shù)據(jù)集(包括 MegaFace 和 MS-Celeb-1M)的干凈子集,并提出了一個(gè)新的無噪聲人臉數(shù)據(jù)集 IMDb_Face;
(2)利用原始數(shù)據(jù)集以及清理后的干凈子集,對(duì) MegaFace 和 MS-Celeb-1M 數(shù)據(jù)集中的噪聲特性和來源做了全面的分析,發(fā)現(xiàn)干凈子集對(duì)于提高人臉識(shí)別精度效果顯著;
(3)本文提出了一種用于數(shù)據(jù)清理的標(biāo)注流程,大量的用戶調(diào)研顯示該流程是高效且可控的。
IMDb-Face 數(shù)據(jù)集開源地址:
https://github.com/fwang91/IMDb-Face
▌2.基于模型共識(shí)的大規(guī)模無標(biāo)注數(shù)據(jù)標(biāo)簽傳播方法(Consensus-Driven Propagation in Massive Unlabeled D ata for Face Recognition)
人臉識(shí)別中,隨著深度學(xué)習(xí)模型參數(shù)量的增大,所需要訓(xùn)練數(shù)據(jù)的人工標(biāo)注量也越來越多。然而人工標(biāo)注的錯(cuò)誤難以避免,當(dāng)人工標(biāo)注的可靠性不如模型本身的時(shí)候,數(shù)據(jù)標(biāo)注所帶來的增益會(huì)遠(yuǎn)遠(yuǎn)低于標(biāo)注本身耗費(fèi)的勞動(dòng)量。此時(shí),需要使用一種合理的方式來利用無標(biāo)注數(shù)據(jù)。該問題與“半監(jiān)督學(xué)習(xí)”任務(wù)相似,但在人臉識(shí)別這類數(shù)據(jù)量和類別數(shù)量都很大的任務(wù)中,則存在顯著的不同之處:
首先,真實(shí)情況下,無標(biāo)注數(shù)據(jù)的來源通常沒有限制,因此光照、姿態(tài)、遮擋等會(huì)有很大的差異,這種情況下基于單模型的半監(jiān)督方法會(huì)產(chǎn)生較大偏差。其次,傳統(tǒng)的半監(jiān)督學(xué)習(xí)通常假設(shè)無標(biāo)注數(shù)據(jù)的標(biāo)簽集合和已標(biāo)注數(shù)據(jù)的標(biāo)簽集合是完全重合的,從而標(biāo)簽可以在無標(biāo)注數(shù)據(jù)上進(jìn)行傳播。然而,在人臉識(shí)別任務(wù)中,由于無標(biāo)注數(shù)據(jù)來源無限制,因此無法保證獲取的無標(biāo)注數(shù)據(jù)的標(biāo)簽在已標(biāo)注數(shù)據(jù)中出現(xiàn)過。這些差異使得傳統(tǒng)的半監(jiān)督學(xué)習(xí)無法直接運(yùn)用在這個(gè)問題上。
本文工作不僅突破了這些限制,還證明了無標(biāo)注數(shù)據(jù)可以達(dá)到和有標(biāo)注數(shù)據(jù)相接近的效果。作者用 9% 的有標(biāo)注數(shù)據(jù)和 91% 的無標(biāo)注數(shù)據(jù),在 MegaFace 上達(dá)到了 78.18% 的準(zhǔn)確性,接近使用了 100% 的有標(biāo)注數(shù)據(jù)的結(jié)果 78.52%。
論文地址:
http://cn.arxiv.org/abs/1807.11649
http://cn.arxiv.org/abs/1809.01407
物體檢測與跟蹤
▌1.量化模仿-訓(xùn)練面向物體檢測的極小CNN模型(Quantization Mimic: Towards Very Tiny CNN for Object Detection)
由于極小 CNN 模型有限的模型表達(dá)能力,訓(xùn)練針對(duì)復(fù)雜視覺任務(wù)(如物體檢測)的極小 CNN 通常充滿挑戰(zhàn)。本文致力于提出一種簡單而通用的框架—量化模仿,來訓(xùn)練面向物體檢測任務(wù)的極小 CNN 模型。在本文框架中,作者提出聯(lián)合模仿與量化的方法來減小物體檢測 CNN 模型的參數(shù)量實(shí)現(xiàn)加速。模仿方法通過轉(zhuǎn)移教師網(wǎng)絡(luò)(teacher network)所學(xué)習(xí)到的物體檢測知識(shí),來增強(qiáng)學(xué)生網(wǎng)絡(luò)(student network)的物體檢測性能;量化方法在不降低模型檢測性能的條件下,將全精度網(wǎng)絡(luò)的參數(shù)進(jìn)行量化,實(shí)現(xiàn)網(wǎng)絡(luò)加速。如果大型教師網(wǎng)絡(luò)通過量化實(shí)現(xiàn)加速,那么小型學(xué)生網(wǎng)絡(luò)的搜索空間會(huì)大大降低。本文基于該性質(zhì),提出了先量化大型教師網(wǎng)絡(luò),然后使用學(xué)生網(wǎng)絡(luò)模仿量化后大型教師網(wǎng)絡(luò)的方法,實(shí)現(xiàn)面向物體檢測的極小型 CNN 模型的訓(xùn)練。本文使用了不同的主干網(wǎng)絡(luò)(VGG和ResNet)和不同的檢測框架(Faster R-CNN和R-FCN)充分檢驗(yàn)了該訓(xùn)練框架的性能和泛化能力。在有限計(jì)算量的限制下,該框架在 Pascal VOC 和 WIDER Face 數(shù)據(jù)集的物體檢測性能超越了當(dāng)前物體檢測的先進(jìn)水平。
▌2.可分解網(wǎng)絡(luò)--基于子圖表示的高效場景圖生成算法(Factorizable Net: An Efficient Subgraph-based Framework for Scene Graph Generation)
隨著計(jì)算機(jī)視覺的發(fā)展,場景圖生成得到越來越多業(yè)內(nèi)研究人員的關(guān)注。場景圖生成不僅需要檢測出來圖像中的物體,還需要識(shí)別物體之間的關(guān)系。與一般的物體檢測任務(wù)相比,場景圖因?yàn)橐肓宋矬w之間的兩兩關(guān)系,極大的擴(kuò)充了輸出結(jié)果的語義空間,因而可以蘊(yùn)含更多圖像的語義信息。但是,由于物體之間可能存在的關(guān)系數(shù)目和圖像中物體數(shù)目的平方成正比,而目前已有的場景圖生成算法往往對(duì)每一個(gè)可能存在的關(guān)系都用一個(gè)特征向量表示,因此大量的關(guān)系特征向量使模型過于龐大且緩慢,極大限制了物體候選框的數(shù)目。本文針對(duì)已有場景圖生成算法的缺點(diǎn),通過共享語義相近的關(guān)系特征(稱為子圖特征),極大簡化了網(wǎng)絡(luò)在中間階段的特征表示,并且提高了模型的檢測速度。此外,本文還提出了“空間加權(quán)信息傳遞”模塊和“空間感知關(guān)系檢測”模塊,使模型在信息傳遞和最終的物體關(guān)系檢測時(shí),能夠更加充分的利用物體之間的空間聯(lián)系,得到更好的物體檢測和關(guān)系識(shí)別結(jié)果。在目前主流的 VRD 和 Visual Genome 上的實(shí)驗(yàn)結(jié)果表明,本文提出的基于子圖特征的高效場景圖生成算法在識(shí)別精度和測試速度上均超過目前業(yè)內(nèi)最好結(jié)果。
算法的 PyTorch 版本開原地址:
https://github.com/yikang-li/FactorizableNet
▌3.基于干擾對(duì)象感知的長時(shí)單目標(biāo)跟蹤算法(Distractor-aware Siamese Networks for Visual Object Tracking)
近年來,孿生網(wǎng)絡(luò)結(jié)構(gòu)因?yàn)樾阅芎退俣鹊钠胶庑栽诟欘I(lǐng)域受到了極大的關(guān)注。但是大多數(shù)的孿生網(wǎng)絡(luò)跟蹤器使用的特征都只能區(qū)分前景和非語義背景。而跟蹤過程中,也有語義的背景帶來的干擾,其通常是限制跟蹤性能的重要因素。在本文中,作者首先分析了訓(xùn)練過程中樣本對(duì)跟蹤過程的影響,發(fā)現(xiàn)正負(fù)樣本不均衡是導(dǎo)致跟蹤性能瓶頸的主要原因。本文從兩個(gè)角度解決這個(gè)問題,訓(xùn)練過程中,通過控制采樣方式來控制正負(fù)訓(xùn)練樣本的分布,并且引入含有語義的負(fù)樣本;測試過程中提出干擾物感知模塊來調(diào)整跟蹤器,使其適應(yīng)當(dāng)前的視頻。除此之外,作者還設(shè)計(jì)了一種局部到全局的搜索區(qū)域增長方法,將算法擴(kuò)展到長期跟蹤。在 UAV20L、UAV123、VOT2016、VOT2017 數(shù)據(jù)集上,本文提出的方法均可取得目前最好的結(jié)果,同時(shí)速度可達(dá)到160FPS。
本文提出的方法在 ECCV 2018 召開的 VOT Challenge Workshop上獲得了實(shí)時(shí)目標(biāo)跟蹤比賽的冠軍。
VOT Challenge 是視覺目標(biāo)跟蹤領(lǐng)域一年一度的國際權(quán)威比賽,其為跟蹤領(lǐng)域提供了精細(xì)的數(shù)據(jù)標(biāo)注和評(píng)測方式,并在 2017 年引入了實(shí)時(shí)比賽:被評(píng)測算法在跟蹤物體的同時(shí)必須保持至少 60fps 跟蹤速率,來模擬現(xiàn)實(shí)場景中的跟蹤情況。今年的 VOT 2018 在 ECCV 2018 期間舉辦,共有 72 只隊(duì)伍參賽,包括微軟亞洲研究院、牛津大學(xué)等知名企業(yè)與高校。商湯科技的參賽算法能夠在 60FPS 的速率下獲得精確的跟蹤結(jié)果,并且在其他兩項(xiàng)項(xiàng)目(普通跟蹤和長時(shí)跟蹤)也獲得了驕人的成績。
論文地址:
http://cn.arxiv.org/abs/1805.02152
http://cn.arxiv.org/abs/1806.11538
http://cn.arxiv.org/abs/1808.06048?context=cs.CV
視頻分析
▌1.基于視覺特征鏈接和時(shí)序鏈接的視頻人物檢索
(Person Search in Videos with One Portrait Through Visual and Temporal Links)
雖然人臉識(shí)別和行人再識(shí)別已經(jīng)在學(xué)術(shù)界取得了非常多的研究成果,但是在復(fù)雜龐大的視頻數(shù)據(jù)庫中(如監(jiān)控視頻或電影數(shù)據(jù)庫),很多時(shí)候并不能看到人物清晰的正臉,這時(shí)人臉識(shí)別就無法發(fā)揮作用。而行人再識(shí)別關(guān)注的通常是一小段時(shí)間內(nèi)一個(gè)比較小的區(qū)域的行人匹配,也就是說在行人再識(shí)別的問題中,人物的服飾裝扮以及周圍的環(huán)境都不會(huì)有太大的變化。該假設(shè)大大限制了行人再識(shí)別技術(shù)在實(shí)際場景中的應(yīng)用。針對(duì)這些缺陷,本文提出了一個(gè)更加貼近實(shí)際應(yīng)用的研究問題--人物檢索,即給定一張人物正面照,在一個(gè)非常大的圖像(視頻)庫中檢索出該人物的所有實(shí)例。例如,給定一個(gè)犯人的畫像,在一個(gè)城市的監(jiān)控視頻中找出所有他/她出現(xiàn)過的視頻片段,或者給定一個(gè)演員的自拍,找出他/她在所有電影和電視劇中的鏡頭。為了研究這個(gè)問題,本文首先建立了一個(gè)大規(guī)模的數(shù)據(jù)集--Cast Search in Movies (CSM),包含了 1218 位演員以及他們來自的 192 部電影的超過 12 萬個(gè)短視頻。人物檢索問題的主要難點(diǎn)在于,給定的圖像和該人物在數(shù)據(jù)庫中的實(shí)例在視覺觀感上有時(shí)有較大差別。為了應(yīng)對(duì)這個(gè)難點(diǎn),本文提出了一種基于基于特征和時(shí)序鏈接的標(biāo)簽傳播算法。并且提出了一種競爭共識(shí)機(jī)制,來解決標(biāo)簽傳播中容易受噪聲影響的問題。同時(shí)通過漸進(jìn)式迭代的方式,大大提高標(biāo)簽傳播的效率。實(shí)驗(yàn)證明,這種傳播算法在人物檢索中大大優(yōu)于單純應(yīng)用人臉識(shí)別和行人再識(shí)別技術(shù)。
論文地址:
http://cn.arxiv.org/abs/1807.10510
自動(dòng)駕駛場景理解與分析
▌1.基于逐點(diǎn)空間注意力機(jī)制的場景解析網(wǎng)絡(luò)(PSANet: Point-wise Spatial Attention Network for Scene Parsing)
場景解析(scene parsing)是基于自動(dòng)駕駛?cè)蝿?wù)中的一個(gè)重要問題,能夠廣泛應(yīng)用于機(jī)器人導(dǎo)航、自動(dòng)駕駛等領(lǐng)域。場景圖像中的上下文信息(contextual information),尤其是大范圍的上下文信息,對(duì)于場景解析有著非常重要的作用。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)因?yàn)槠浣Y(jié)構(gòu),信息流動(dòng)局限在當(dāng)前像素周圍的局部區(qū)域中,對(duì)于大范圍的上下文信息獲取和表達(dá)能力有限。在本篇論文中,作者提出了一種逐點(diǎn)的空間注意力機(jī)制神經(jīng)網(wǎng)絡(luò)模塊(point-wise spatial attention network),來有效獲取圖片中大范圍的上下文信息,顯著改善神經(jīng)網(wǎng)絡(luò)的場景解析性能。針對(duì)視覺特征圖(feature map)中的每一點(diǎn)對(duì),該模塊會(huì)預(yù)測兩個(gè)點(diǎn)之間的上下文依賴,且該預(yù)測會(huì)同時(shí)考慮到兩個(gè)點(diǎn)原本的語義信息以及兩個(gè)點(diǎn)之間的位置關(guān)系。最終預(yù)測出的點(diǎn)與點(diǎn)之間的上下文依賴關(guān)系,可以用逐點(diǎn)的注意力機(jī)制進(jìn)行表示。為了充分實(shí)現(xiàn)特征圖中大范圍的信息流通,作者設(shè)計(jì)了一種雙向信息流動(dòng)機(jī)制,來實(shí)現(xiàn)上下文信息的充分融合,提升模型的場景解析性能。實(shí)驗(yàn)表明,本文提出的逐點(diǎn)空間注意力模型能夠顯著改善基準(zhǔn)模型的場景解析性能,在多個(gè)場景解析與語義分割數(shù)據(jù)集上,本文算法都達(dá)到了當(dāng)前的最優(yōu)性能。
▌2.基于局部相似性的半監(jiān)督單目深度估計(jì)(Monocular Depth Estimation with Affinity, Vertical Pooling, and Label Enhancement)
單目深度估計(jì)在基于視覺傳感器的自動(dòng)駕駛和輔助駕駛?cè)蝿?wù)中有著重要的作用。雖然邊緣、紋理等絕對(duì)特征可以被卷積神經(jīng)網(wǎng)絡(luò)(CNNs)有效地提取出來,但基于卷積神經(jīng)網(wǎng)絡(luò)的方法大多忽略了圖像中相鄰像素之間存在的約束關(guān)系,即相對(duì)特征。為了克服這個(gè)缺陷,本文提出了一種結(jié)合相對(duì)特征和絕對(duì)特征的端到端網(wǎng)絡(luò),對(duì)不同圖像位置的關(guān)系進(jìn)行了顯式的建模。另外,作者利用了深度圖中一個(gè)顯著的先驗(yàn)知識(shí),即深度圖中距離變化主要處于豎直方向上,認(rèn)為對(duì)豎直方向上的特征進(jìn)行建模將有利于深度圖的精細(xì)化估計(jì)。本文的算法中使用了豎直方向的池化操作來對(duì)圖像在豎直方向上的特征進(jìn)行了顯式建模。此外,由于從激光雷達(dá)獲得的真實(shí)深度圖中的有效數(shù)值非常稀疏,作者采用了已有的立體匹配的算法生成高質(zhì)量的深度圖,并用生成的密集深度圖作為輔助數(shù)據(jù)用于訓(xùn)練。本文實(shí)驗(yàn)證明了提出的算法在 KITTI 數(shù)據(jù)集上取得了優(yōu)異的效果。
3D 視覺
▌1.基于參數(shù)化卷積的點(diǎn)云深度學(xué)習(xí)
(SpiderCNN: Deep Learning on Point Sets with Parameterized Convolutional Filters)
盡管深度學(xué)習(xí)在大量計(jì)算機(jī)視覺問題上取得了成功,如何將深度學(xué)習(xí)應(yīng)用于非規(guī)則數(shù)據(jù)上依然是一個(gè)極富挑戰(zhàn)性的問題。在這篇文章中,作者提出一種新型的卷積結(jié)構(gòu) SpiderCNN,來有效提取點(diǎn)云中的幾何特征。具體來說,SpiderCNN 利用參數(shù)化卷積技術(shù),將傳統(tǒng)的卷積操作從規(guī)則網(wǎng)格拓展到非規(guī)則網(wǎng)格。我們利用階躍函數(shù)之積來表征點(diǎn)云的局部幾何特征,然后利用泰勒多項(xiàng)式來保證該結(jié)構(gòu)的表達(dá)能力。SpiderCNN 同時(shí)繼承了傳統(tǒng)CNN 的多尺度特性,從而能夠有效地提取層級(jí)化的深度語義信息。SpiderCNN 在 ModelNet40 這個(gè)標(biāo)準(zhǔn)測試集上取得 92.4% 的優(yōu)異結(jié)果。
論文地址:
http://cn.arxiv.org/abs/1803.11527
底層視覺算法
▌1.基于生成對(duì)抗網(wǎng)絡(luò)的增強(qiáng)超分辨率方法
(ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks)
基于生成對(duì)抗網(wǎng)絡(luò)的圖像超分辨率模型SRGAN能夠生成更多的紋理細(xì)節(jié)。然而,它恢復(fù)出來的紋理往往不夠自然,也常伴隨著一些噪聲。為了進(jìn)一步增強(qiáng)圖像超分辨率的視覺效果,本文深入研究并改進(jìn)了 SRGAN 的三個(gè)關(guān)鍵部分——網(wǎng)絡(luò)結(jié)構(gòu)、對(duì)抗損失函數(shù)和感知損失函數(shù),提出了一個(gè)增強(qiáng)的ESRGAN 模型。具體地,本文引入了一個(gè)新網(wǎng)絡(luò)結(jié)構(gòu)單元 RRDB (Residual-in-Resudal Dense Block);借鑒了相對(duì)生成對(duì)抗網(wǎng)絡(luò)(relativistic GAN)讓判別器預(yù)測相對(duì)的真實(shí)度而不是絕對(duì)的值;還使用了激活前的具有更強(qiáng)監(jiān)督信息的特征表達(dá)來約束感知損失函數(shù)。得益于以上的改進(jìn),本文提出的 ESRGAN 模型能夠恢復(fù)更加真實(shí)自然的紋理,取得比之前的 SRGAN 模型更好的視覺效果。ESRGAN 模型同時(shí)在 ECCV 2018 的 PIRM-SR 比賽中獲得了最好的感知評(píng)分,取得了第一名。
論文地址:
http://cn.arxiv.org/abs/1809.00219
GitHub地址:
https://github.com/xinntao/ESRGAN
視覺與自然語言的綜合理解
▌1.重新研究圖像語言描述中隱變量的表達(dá)(Rethinking the Form of Latent States in Image Captioning)
本文重新審視了圖像描述模型中隱變量的表示方式。循環(huán)神經(jīng)網(wǎng)絡(luò)如 LSTM 作為解碼器在圖像語言描述中有大量的應(yīng)用,現(xiàn)有的圖像描述模型通常固定得將解碼器的隱變量表示成一維向量。這樣帶來兩個(gè)問題:
(1)為了和隱變量保持一致,圖像也被壓縮成了一維向量,丟失了重要的空間信息,導(dǎo)致描述生成時(shí)的條件減弱,模型更多得依賴于多元詞組的統(tǒng)計(jì)信息,更容易產(chǎn)生出現(xiàn)頻率更高的詞組;
(2)一維向量的表示,使得對(duì)隱變量在解碼過程中的變化,即解碼過程的內(nèi)部動(dòng)態(tài),難以進(jìn)行可視化和分析。
基于以上幾點(diǎn)考慮,本文提出將隱變量表示為多通道二維特征是更好的選擇。其利用二維特征的空間性提出一種簡單有效的方式成功的可視化和分析了解碼過程中神經(jīng)網(wǎng)絡(luò)的內(nèi)部動(dòng)態(tài),以及中間介質(zhì)的隱變量、作為輸入的圖片、作為輸出的單詞三者之間的聯(lián)系。同時(shí),由于二維特征保留了更多的圖片信息,對(duì)應(yīng)的描述模型能產(chǎn)生與圖片更匹配的描述。在擁有同樣的參數(shù)數(shù)量的情況下,采用二維特征來表示隱變量的描述模型僅使用最簡單的 cell,即 RNN,也超過了采用一維向量來表示隱變量的描述模型使用LSTM 的效果。
▌2.面向視覺問答的問題引導(dǎo)混合卷積(Question-Guided Hybrid Convolution for Visual Question Answering)
本文提出了一種面向視覺問答任務(wù)的問題引導(dǎo)混合卷積操作,能夠有效的融合輸入問題和輸入圖像的高層語義信息,實(shí)現(xiàn)高準(zhǔn)確率的視覺問答。現(xiàn)有的視覺問答系統(tǒng)在融合輸入問題和圖像時(shí),拋棄了圖像中的空間信息。為了解決該問題,本文提出由輸入問題預(yù)測卷積核,對(duì)圖像特征圖進(jìn)行問題引導(dǎo)的卷積操作,得到語言和圖像的融合特征圖。雖然這種由問題引導(dǎo)卷積生成的融合特征圖能夠充分的融合語言和視覺的多模態(tài)信息,但是往往也會(huì)帶來更多的學(xué)習(xí)參數(shù)。為了降低參數(shù)量,作者提出在視覺特征卷積時(shí)使用組卷積(group convolution),僅用問題來引導(dǎo)生成一部分卷積核,而另一部分卷積核與問題解耦,該方案能夠有效的降低模型參數(shù)量并且防止模型過擬合。本文提出的問題引導(dǎo)卷積方法,能夠作為現(xiàn)有多模態(tài)特征整合方法的有效補(bǔ)充,實(shí)現(xiàn)高準(zhǔn)確率的視覺問答,在多個(gè)視覺問答的數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
論文地址:
http://cn.arxiv.org/abs/1807.09958
http://cn.arxiv.org/abs/1808.02632
商湯原創(chuàng)技術(shù)的不斷進(jìn)步在重要的比賽中也得到了驗(yàn)證,不僅在 VOT 2018 上奪冠,在 2018 年的 COCO 比賽中,商湯科技研究員和香港中文大學(xué)-商湯聯(lián)合實(shí)驗(yàn)室同學(xué)組成的團(tuán)隊(duì),在最核心的物體檢測(Detection)項(xiàng)目中奪得冠軍。在此次競賽中,商湯團(tuán)隊(duì)創(chuàng)造性地開發(fā)了三項(xiàng)全新的技術(shù),獲得了大幅度的性能提升:
(1)新的多任務(wù)混合級(jí)聯(lián)架構(gòu)(hybrid cascade)。通過把不同子任務(wù)進(jìn)行逐級(jí)混合,這種新架構(gòu)有效地改善了整個(gè)檢測過程中的信息流動(dòng)。
(2)通過特征導(dǎo)引產(chǎn)生稀疏錨點(diǎn),而不是使用傳統(tǒng)的規(guī)則分布的密集錨點(diǎn)。這種特征導(dǎo)引的方案使得錨點(diǎn)的投放更為精準(zhǔn),平均召回率提升了超過10個(gè)百分點(diǎn)。
(3)采用一種新型的FishNet網(wǎng)絡(luò)結(jié)構(gòu),它有效地保留和修正多個(gè)尺度的信息,能更有效地用于圖像級(jí),區(qū)域級(jí),以及像素級(jí)預(yù)測任務(wù)。
在 test-dev 上,商湯團(tuán)隊(duì)對(duì)上述框架進(jìn)行了全面測試,其中單模型和多模型(最終提交的結(jié)果來自于五個(gè)模型混合的框架)的 mask AP 分別達(dá)到了47.4% 和 49.0%,比去年冠軍(也是商湯團(tuán)隊(duì)獲得)的結(jié)果,44.0% 和 46.3%,有約 3 個(gè)百分點(diǎn)的明顯提高。 在傳統(tǒng)的基于檢測框的指標(biāo) bbox AP上,這個(gè)新的框架也分別達(dá)到了單模型 54.1% 和多模型的 56.0% 的性能,比去年冠軍的結(jié)果,50.5% 和 52.6%,也有較大的提升。
此外,在 ECCV 期間,香港中文大學(xué)-商湯聯(lián)合實(shí)驗(yàn)室還開源了檢測庫 mm-detection。這個(gè)開源庫提供了已公開發(fā)表的多種視覺檢測核心模塊。通過這些模塊的組合,可以迅速搭建出各種著名的檢測框架,比如 Faster RCNN,Mask RCNN,和 R-FCN 等,以及各種新型框架,從而大大加快檢測技術(shù)研究的效率。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1696瀏覽量
45930 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8382瀏覽量
132441 -
智能視覺
+關(guān)注
關(guān)注
0文章
100瀏覽量
9202
原文標(biāo)題:ECCV 2018|商湯37篇論文入選,為你解讀精選論文(附鏈接+開源資源)
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論