,它們分別是主體,謂語和對象類別。 預(yù)計這個模型可以定位主體和客體。" />

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何對圖像中的實體精準“配對”?

傳感器技術(shù) ? 來源:未知 ? 作者:李倩 ? 2018-04-12 11:21 ? 次閱讀

近日,李飛飛的斯坦福大學視覺實驗室發(fā)布了一篇即將在 CVPR 2018上要介紹的論文 Referring Relationships(指稱關(guān)系),這篇論文主要研究的問題是給出一張圖像中實體的關(guān)系網(wǎng)絡(luò),從而讓 AI 迅速定位出某一主體所對應(yīng)的客體,或者某一客體所對應(yīng)的主體。

圖像不僅僅是對象集合,每個圖像都代表一個互相關(guān)聯(lián)的關(guān)系網(wǎng)絡(luò)。實體之間的關(guān)系具有語義意義,并能幫助觀察者區(qū)分實體的實例。例如,在一張足球比賽的圖像中,可能有多人在場,但每個人都參與著不同的關(guān)系:一個是踢球,另一個是守門。

在本文中,我們制定了利用這些“指稱關(guān)系”來消除同一類別實體之間的歧義的任務(wù)。我們引入了一種迭代模型,它將指稱關(guān)系中的兩個實體進行定位,并相互制約。我們通過建模謂語來建立關(guān)系中實體之間的循環(huán)條件,這些謂語將實體連接起來,將注意力從一個實體轉(zhuǎn)移到另一個實體。

我們證明了我們的模型不僅好于在三種數(shù)據(jù)集上實現(xiàn)的現(xiàn)有方法--- CLEVR,VRD 和 Visual Genome ---而且它還可以產(chǎn)生視覺上有意義的謂語變換,可以作為可解釋神經(jīng)網(wǎng)絡(luò)的一個實例。最后,我們展示了將謂語建模為注意力轉(zhuǎn)換,我們甚至可以在沒有其類別的情況下進行定位實體,從而使模型找到完全看不見的類別。

▌指稱關(guān)系任務(wù)

指稱表達可以幫助我們在日常交流中識別和定位實體。比如,我們能夠指出“踢球人”來區(qū)分“守門員”(圖 1)。在這些例子中,我們都可以根據(jù)他們與其它實體的關(guān)系來區(qū)分這兩人。 當一個人射門時,另一個人守門。 最終的目標是建立計算模型,以識別其他人所指的實體。

圖1:指稱關(guān)系通過使用實體間的相對關(guān)系來消除同一類別實例之間的歧義。給出這種關(guān)系之后,這項任務(wù)需要我們的模型通過理解謂語來正確識別圖像中的踢球人。

▌指稱關(guān)系模型

我們的目標是通過對指稱關(guān)系的實體進行定位,從而使用輸入的指稱關(guān)系來消除圖像中的實體歧義。 形式上而言,輸入是具有指稱關(guān)系的圖像 I,R = ,它們分別是主體,謂語和對象類別。 預(yù)計這個模型可以定位主體和客體。

▌模型設(shè)計

圖 2:指稱關(guān)系的推理首先要提取圖像特征,這是用于生成主體和客體的基礎(chǔ)。接下來,這些估值可以用來執(zhí)行轉(zhuǎn)換注意力,注意力使用了從主體到我們所期望客體位置的謂語。在對客體的新估值進行細化的同時,我們通過關(guān)注轉(zhuǎn)換區(qū)域來修改圖像特征。同時,我們研究了從初始客體到主體的反向移位。通過兩個預(yù)測移位模塊迭代地在主體和對象之間傳遞消息,可以最終定位這兩個實體。

▌實驗

我們在跨三個數(shù)據(jù)集的指稱關(guān)系中評估模型性能來進行實驗操作,其中每個數(shù)據(jù)集提供了一組獨特的特征來補充我們的實驗。 接下來,我們評估在輸入指稱關(guān)系中缺少其中一個實體的情況下如何改進模型。 最后,通過展示模型如何模塊化并用于場景圖注意力掃視來結(jié)束實驗。

以下是我們在 CLEVR、VRD 和 Visual Genome 上的評估結(jié)果。 我們分別標出了對主題和對象定位的 Mean IoU 和 KL 分歧:

在三種測試條件下缺少實體的指稱關(guān)系結(jié)果:

圖 3:(a)相對于圖像中的主體,當使用關(guān)系來查找客體時,左邊的謂語會把注意力轉(zhuǎn)移到右邊。相反,當使用物體找到主體時,左側(cè)的逆謂語會將注意力轉(zhuǎn)移到左側(cè)。在輔助材料中,我們可視化了 70 個 VRD、6 個 CLEVR 和 70 個 Visual Genome 的謂語和逆謂語轉(zhuǎn)化(b)我們還看到,在查看用于了解它們的數(shù)據(jù)集時,這些轉(zhuǎn)換是直觀的。

圖 4:這是 CLEVR 和 Visual Genome 數(shù)據(jù)集的注意力轉(zhuǎn)移如何跨越多次迭代的示例。在第一次迭代時,模型僅接收試圖找到以及嘗試定位這些類別中所有實例的實體信息。在后面的迭代中,我們看到謂語轉(zhuǎn)換注意力,這可以讓我們的模型消除相同類別的不同實例之間的歧義。

圖 5:我們可以將我們的模型分解成其注意力和轉(zhuǎn)換模塊,并將它們堆疊起來作為場景圖的節(jié)點。 在這里,我們演示了如何使用模型從一個節(jié)點(手機)開始,并使用指稱關(guān)系來通過場景圖連接節(jié)點,并在短語<拿電話的人旁邊有人身穿夾克>中定位實體。 第二個例子是關(guān)于<在戴帽子的人的右邊有個人一張桌子前>中的實體。

▌結(jié)論

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4764

    瀏覽量

    100548
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1083

    瀏覽量

    40418

原文標題:李飛飛團隊最新論文:如何對圖像中的實體精準“配對”?

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    藍牙配對之——密鑰生成方法

    在《藍牙配對之——配對特性交換》,我們談到了低功耗(Low Energy,簡稱LE)的藍牙配對特性交換。配對特性交換讓連接的發(fā)起設(shè)備和響應(yīng)
    發(fā)表于 06-29 14:13 ?1.2w次閱讀

    JPA實體的注解介紹

    今天給大家介紹一下 JPA 實體的注解,希望能對大家有幫助。 基本注解 @Entity 標注于實體類聲明語句之前,指出該 Java 類為實體類,將映射到指定的數(shù)據(jù)庫表。 name(
    的頭像 發(fā)表于 09-25 14:42 ?666次閱讀

    實體按鍵操作STemWin控件

    轉(zhuǎn)在實際的項目中使用實體按鍵操作GUI的產(chǎn)品還挺多。借此專門做一個相關(guān)的例子,這個例子主要是給大家提供一種思路,實際的使用還會遇到各種各樣的情況,爭取以后在論壇再發(fā)相關(guān)的例子時也配上實體按鍵操作
    發(fā)表于 10-19 09:42

    VHDL程序實體

    設(shè)計實體是VHDL語言設(shè)計的基本單元,設(shè)計實體是VHDL語言設(shè)計的基本單元,簡單的可以是一個與門,復(fù)雜的可以是一個微處理器或一個數(shù)字系統(tǒng),其結(jié)構(gòu)基本是一致的,都是由實體說明和結(jié)構(gòu)體兩部分組成。
    發(fā)表于 01-22 11:10

    API修改配對請求功能?

    有哪位大俠知道怎么用代碼關(guān)閉配對請求,前提是我在Top配置了請求配對,這個功能必需要,但是功能中有時候是不需要請求配對的;所以需要代碼來開關(guān)請求
    發(fā)表于 07-22 17:38

    HanLP分詞命名實體提取詳解

    推薦 1.文本推薦(句子級別,從一系列句子挑出與輸入句子/詞語最相似的那一句) 2.語義距離(基于《同義詞詞林擴展版》) 命名實體提取 HanLP分詞提供詞性標注的功能,所以調(diào)用分詞接口后獲得帶有詞性標注
    發(fā)表于 01-11 14:32

    如何手動進入配對模式?

    你好,在我的Pro—BLE應(yīng)用程序,它是一個外圍服務(wù)器,沒有輸入,沒有輸出設(shè)備,現(xiàn)在它可以在廣告時被掃描,并且可以無限地接受任何配對請求,但是我需要這個設(shè)備只有當用戶激活配對機制時才可以配對
    發(fā)表于 09-25 13:58

    如何保證音箱晶體管配對的準確度

    如何保證音箱晶體管配對的準確度 每次看到號稱大電流的后級擴大機,并聯(lián)十幾、二十對功率晶體,都會暗暗吃驚:這些功率晶體
    發(fā)表于 03-31 13:49 ?1186次閱讀

    藍牙配對之——配對特性交換

    藍牙(Bluetooth?)核心規(guī)格中有三大主要架構(gòu)層:控制器、主機和應(yīng)用。主機層中有一個為配對和密鑰分配定義方法和協(xié)議的安全管理器模塊、相應(yīng)的安全工具箱、以及定義配對指令框架形式、框架架構(gòu)和超時限制的安全管理器協(xié)議。安全管理器采用密鑰分配的方式執(zhí)行無線電通訊
    發(fā)表于 06-29 14:02 ?6124次閱讀

    BLE協(xié)議棧配對過程

    主要描述配對過程、配對方法、安全屬性、IO能力、配對算法、OOB和BLE安全等
    發(fā)表于 08-24 16:30 ?4次下載

    全域圖像搜索給你更精準的搜索體驗

    摘要:?2018飛天技術(shù)匯,阿里巴巴機器智能技術(shù)實驗室的劉磊帶來題為全域精準圖像搜索介紹的演講,主要從四個方面進行了闡述,第一部分介紹了圖像搜索的基本概念,第二部分主要是講解了圖像搜索
    發(fā)表于 07-31 17:55 ?296次閱讀
    全域<b class='flag-5'>圖像</b>搜索給你更<b class='flag-5'>精準</b>的搜索體驗

    什么是低功耗藍牙配對?什么又是綁定?

    配對過程中會生成一個長期密鑰(LTK,long-term Key),如果配對雙方把這個LTK存儲起來放在Flash,那么這兩個設(shè)備再次重連的時候,就可以跳過配對流程,而直接使用LTK
    的頭像 發(fā)表于 06-02 14:45 ?9529次閱讀
    什么是低功耗藍牙<b class='flag-5'>配對</b>?什么又是綁定?

    介紹一種通用匹配對齊框架MAF

    多模態(tài)命名實體識別在傳統(tǒng)的命名實體識別基礎(chǔ)上額外引入了圖像,可以為文本補充語義信息來進行消岐,近些年來受到人們廣泛的關(guān)注。
    的頭像 發(fā)表于 09-06 16:16 ?1061次閱讀

    教程 5:配對、綁定和安全

    教程 5:配對、綁定和安全
    發(fā)表于 03-15 19:39 ?0次下載
    教程 5:<b class='flag-5'>配對</b>、綁定和安全

    教程 5:配對、綁定和安全

    教程 5:配對、綁定和安全
    發(fā)表于 07-06 18:49 ?0次下載
    教程 5:<b class='flag-5'>配對</b>、綁定和安全