近日,李飛飛的斯坦福大學視覺實驗室發(fā)布了一篇即將在 CVPR 2018上要介紹的論文 Referring Relationships(指稱關(guān)系),這篇論文主要研究的問題是給出一張圖像中實體的關(guān)系網(wǎng)絡(luò),從而讓 AI 迅速定位出某一主體所對應(yīng)的客體,或者某一客體所對應(yīng)的主體。
圖像不僅僅是對象集合,每個圖像都代表一個互相關(guān)聯(lián)的關(guān)系網(wǎng)絡(luò)。實體之間的關(guān)系具有語義意義,并能幫助觀察者區(qū)分實體的實例。例如,在一張足球比賽的圖像中,可能有多人在場,但每個人都參與著不同的關(guān)系:一個是踢球,另一個是守門。
在本文中,我們制定了利用這些“指稱關(guān)系”來消除同一類別實體之間的歧義的任務(wù)。我們引入了一種迭代模型,它將指稱關(guān)系中的兩個實體進行定位,并相互制約。我們通過建模謂語來建立關(guān)系中實體之間的循環(huán)條件,這些謂語將實體連接起來,將注意力從一個實體轉(zhuǎn)移到另一個實體。
我們證明了我們的模型不僅好于在三種數(shù)據(jù)集上實現(xiàn)的現(xiàn)有方法--- CLEVR,VRD 和 Visual Genome ---而且它還可以產(chǎn)生視覺上有意義的謂語變換,可以作為可解釋神經(jīng)網(wǎng)絡(luò)的一個實例。最后,我們展示了將謂語建模為注意力轉(zhuǎn)換,我們甚至可以在沒有其類別的情況下進行定位實體,從而使模型找到完全看不見的類別。
▌指稱關(guān)系任務(wù)
指稱表達可以幫助我們在日常交流中識別和定位實體。比如,我們能夠指出“踢球人”來區(qū)分“守門員”(圖 1)。在這些例子中,我們都可以根據(jù)他們與其它實體的關(guān)系來區(qū)分這兩人。 當一個人射門時,另一個人守門。 最終的目標是建立計算模型,以識別其他人所指的實體。
圖1:指稱關(guān)系通過使用實體間的相對關(guān)系來消除同一類別實例之間的歧義。給出這種關(guān)系之后,這項任務(wù)需要我們的模型通過理解謂語來正確識別圖像中的踢球人。
▌指稱關(guān)系模型
我們的目標是通過對指稱關(guān)系的實體進行定位,從而使用輸入的指稱關(guān)系來消除圖像中的實體歧義。 形式上而言,輸入是具有指稱關(guān)系的圖像 I,R = ,它們分別是主體,謂語和對象類別。 預(yù)計這個模型可以定位主體和客體。
▌模型設(shè)計
圖 2:指稱關(guān)系的推理首先要提取圖像特征,這是用于生成主體和客體的基礎(chǔ)。接下來,這些估值可以用來執(zhí)行轉(zhuǎn)換注意力,注意力使用了從主體到我們所期望客體位置的謂語。在對客體的新估值進行細化的同時,我們通過關(guān)注轉(zhuǎn)換區(qū)域來修改圖像特征。同時,我們研究了從初始客體到主體的反向移位。通過兩個預(yù)測移位模塊迭代地在主體和對象之間傳遞消息,可以最終定位這兩個實體。
▌實驗
我們在跨三個數(shù)據(jù)集的指稱關(guān)系中評估模型性能來進行實驗操作,其中每個數(shù)據(jù)集提供了一組獨特的特征來補充我們的實驗。 接下來,我們評估在輸入指稱關(guān)系中缺少其中一個實體的情況下如何改進模型。 最后,通過展示模型如何模塊化并用于場景圖注意力掃視來結(jié)束實驗。
以下是我們在 CLEVR、VRD 和 Visual Genome 上的評估結(jié)果。 我們分別標出了對主題和對象定位的 Mean IoU 和 KL 分歧:
在三種測試條件下缺少實體的指稱關(guān)系結(jié)果:
圖 3:(a)相對于圖像中的主體,當使用關(guān)系來查找客體時,左邊的謂語會把注意力轉(zhuǎn)移到右邊。相反,當使用物體找到主體時,左側(cè)的逆謂語會將注意力轉(zhuǎn)移到左側(cè)。在輔助材料中,我們可視化了 70 個 VRD、6 個 CLEVR 和 70 個 Visual Genome 的謂語和逆謂語轉(zhuǎn)化(b)我們還看到,在查看用于了解它們的數(shù)據(jù)集時,這些轉(zhuǎn)換是直觀的。
圖 4:這是 CLEVR 和 Visual Genome 數(shù)據(jù)集的注意力轉(zhuǎn)移如何跨越多次迭代的示例。在第一次迭代時,模型僅接收試圖找到以及嘗試定位這些類別中所有實例的實體信息。在后面的迭代中,我們看到謂語轉(zhuǎn)換注意力,這可以讓我們的模型消除相同類別的不同實例之間的歧義。
圖 5:我們可以將我們的模型分解成其注意力和轉(zhuǎn)換模塊,并將它們堆疊起來作為場景圖的節(jié)點。 在這里,我們演示了如何使用模型從一個節(jié)點(手機)開始,并使用指稱關(guān)系來通過場景圖連接節(jié)點,并在短語<拿電話的人旁邊有人身穿夾克>中定位實體。 第二個例子是關(guān)于<在戴帽子的人的右邊有個人一張桌子前>中的實體。
▌結(jié)論
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4764瀏覽量
100548 -
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40418
原文標題:李飛飛團隊最新論文:如何對圖像中的實體精準“配對”?
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論