精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

CVer ? 來(lái)源:CVer ? 2023-06-11 10:34 ? 次閱讀

5e3a79e4-07a8-11ee-962d-dac502259ad0.png

代碼:https://github.com/Sierkinhane/VisorGPT

論文:https://arxiv.org/abs/2305.13777

論文簡(jiǎn)介

可控?cái)U(kuò)散模型如ControlNet、T2I-Adapter和GLIGEN等可通過(guò)額外添加的空間條件如人體姿態(tài)、目標(biāo)框來(lái)控制生成圖像中內(nèi)容的具體布局。使用從已有的圖像中提取的人體姿態(tài)、目標(biāo)框或者數(shù)據(jù)集中的標(biāo)注作為空間限制條件,上述方法已經(jīng)獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件?或者說(shuō)如何自定義空間條件用于可控圖像生成呢?例如自定義空間條件中物體的類(lèi)別、大小、數(shù)量、以及表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、和實(shí)例掩碼)。

本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺(jué)先驗(yàn)(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來(lái)建模上述視覺(jué)先驗(yàn)。因此,我們可以從學(xué)習(xí)好的先驗(yàn)中通過(guò)Prompt從多個(gè)層面,例如表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、實(shí)例掩碼)、物體類(lèi)別、大小和數(shù)量,來(lái)采樣空間限制條件。我們?cè)O(shè)想,隨著可控?cái)U(kuò)散模型生成能力的提升,以此可以針對(duì)性地生成圖像用于特定場(chǎng)景下的數(shù)據(jù)補(bǔ)充,例如擁擠場(chǎng)景下的人體姿態(tài)估計(jì)和目標(biāo)檢測(cè)

方法介紹

表1 訓(xùn)練數(shù)據(jù)

5eab847c-07a8-11ee-962d-dac502259ad0.png

本文從當(dāng)前公開(kāi)的數(shù)據(jù)集中整理收集了七種數(shù)據(jù),如表1所示。為了以Generative Pre-Training的方式學(xué)習(xí)視覺(jué)先驗(yàn)并且添加序列輸出的可定制功能,本文提出以下兩種Prompt模板:

5ed8ad76-07a8-11ee-962d-dac502259ad0.png

使用上述模板可以將表1中訓(xùn)練數(shù)據(jù)中每一張圖片的標(biāo)注格式化成一個(gè)序列x。在訓(xùn)練過(guò)程中,我們使用BPE算法將每個(gè)序列x編碼成tokens={u1,u2,…,u3},并通過(guò)極大化似然來(lái)學(xué)習(xí)視覺(jué)先驗(yàn),如下式:

5f1636b4-07a8-11ee-962d-dac502259ad0.png

最后,我們可以從上述方式學(xué)習(xí)獲得的模型中定制序列輸出,如下圖所示。

5f39dd4e-07a8-11ee-962d-dac502259ad0.png

圖1 定制序列輸出

效果展示

5fd83cdc-07a8-11ee-962d-dac502259ad0.png

6011b3a4-07a8-11ee-962d-dac502259ad0.png

615fde7a-07a8-11ee-962d-dac502259ad0.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3172

    瀏覽量

    48714
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1205

    瀏覽量

    24644
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    6883

原文標(biāo)題:NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于擴(kuò)散模型的圖像生成過(guò)程

    等很難用文本指定。 ? 最近,谷歌發(fā)布了MediaPipe Diffusion插件,可以在移動(dòng)設(shè)備上運(yùn)行「可控文本圖像生成」的低成本解決方
    的頭像 發(fā)表于 07-17 11:00 ?2658次閱讀
    基于擴(kuò)散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過(guò)程

    一種有效的文本圖像二值化方法

    針對(duì)一般文本圖像二值化方法--全局閾值法和局部閾值法所存在的不足,提出了一種整體與局部相結(jié)合的二值化方法,該方法根據(jù)文本圖像的特點(diǎn),自適應(yīng)調(diào)整局部二值化的窗
    發(fā)表于 06-11 09:08 ?13次下載

    基于相容粗集的二值文本圖像數(shù)字水印方法

    針對(duì)二值文本圖像像素簡(jiǎn)單、紋理復(fù)雜、信息隱藏的免疫力差的特點(diǎn),提出了一種基于相容粗糙集的數(shù)字水印嵌入位置選擇方法。該方法把二值文本載體圖像劃分為不同的等價(jià)類(lèi)
    發(fā)表于 08-12 16:54 ?14次下載

    基于多小波變換的文本圖像文種識(shí)別

    采用了基于多 小波變換 的文本圖像文種識(shí)別方法,提取多小波變換各子帶系數(shù)的能量特征,構(gòu)造特征矢量,并采用LIBSVM進(jìn)行多文種的分類(lèi)。通過(guò)對(duì)10種語(yǔ)言文字的文本圖像進(jìn)行實(shí)驗(yàn),表
    發(fā)表于 08-15 10:34 ?25次下載
     基于多小波變換的<b class='flag-5'>文本圖像</b>文種識(shí)別

    基于嶺回歸的稀疏編碼文本圖像復(fù)原方法

    解決現(xiàn)有稀疏編碼方法在文本圖像復(fù)原中存在的編碼碼元表述空間有限和計(jì)算時(shí)間長(zhǎng)的問(wèn)題,提出了一種基于嶺回歸的稀疏編碼文本圖像復(fù)原方法。首先,該
    發(fā)表于 11-28 17:10 ?1次下載

    基于Hash函數(shù)的文本圖像脆弱水印算法

    隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)和電子政務(wù)隨之興起,重要文件資料、經(jīng)濟(jì)合同、電子發(fā)票等更多文本圖像需要網(wǎng)絡(luò)傳送。這些文件一旦出現(xiàn)惡意篡改而無(wú)法證明真?zhèn)危蜁?huì)造成嚴(yán)重后果。因此,研究文本圖像認(rèn)證方法
    發(fā)表于 12-04 16:04 ?0次下載

    如何去解決文本圖像生成的跨模態(tài)對(duì)比損失問(wèn)題?

    文本圖像的自動(dòng)生成,如何訓(xùn)練模型僅通過(guò)一段文本描述輸入就能生成具體的圖像,是一項(xiàng)非常具有挑戰(zhàn)
    的頭像 發(fā)表于 06-15 10:07 ?2704次閱讀
    如何去解決<b class='flag-5'>文本</b>到<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>的跨模態(tài)對(duì)比損失問(wèn)題?

    Labview&amp;SQLSever如何自動(dòng)生成查詢(xún)語(yǔ)句

    Labview&amp;SQLSever如何自動(dòng)生成查詢(xún)語(yǔ)句
    發(fā)表于 09-29 18:17 ?7次下載

    復(fù)旦&amp;amp;微軟提出?OmniVL:首個(gè)統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

    根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同,現(xiàn)有的VLP方法可以大致分為兩類(lèi):圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練。前者從圖像-文本對(duì)中學(xué)習(xí)視覺(jué)和語(yǔ)言表
    的頭像 發(fā)表于 12-14 15:26 ?876次閱讀

    如何區(qū)分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值0,如果i大于10,并且i++等于1,則輸出“錯(cuò)誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運(yùn)行,觀察運(yùn)行結(jié)果的不同。
    的頭像 發(fā)表于 02-24 10:46 ?1501次閱讀
    如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    微軟提出Control-GPT:用GPT-4實(shí)現(xiàn)可控文本圖像生成

    該研究提出了一個(gè)簡(jiǎn)單而有效的框架 Control-GPT,它利用 LLM 的強(qiáng)大功能根據(jù)文本 prompt 生成草圖。Control-GPT 的工作原理是首先使用 GPT-4 生成 T
    的頭像 發(fā)表于 06-05 15:31 ?815次閱讀
    微軟<b class='flag-5'>提出</b>Control-GPT:用GPT-4實(shí)現(xiàn)<b class='flag-5'>可控</b><b class='flag-5'>文本</b>到<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>!

    基于文本圖像模型的可控文本到視頻生成

    文本到視頻模型需要大量高質(zhì)量的視頻和計(jì)算資源,這限制了相關(guān)社區(qū)進(jìn)一步的研究和應(yīng)用。為了減少過(guò)度的訓(xùn)練要求,我們研究了一種新的高效形式:基于文本圖像模型的可控
    的頭像 發(fā)表于 06-14 10:39 ?921次閱讀
    基于<b class='flag-5'>文本</b>到<b class='flag-5'>圖像</b>模型的<b class='flag-5'>可控</b><b class='flag-5'>文本</b>到視頻<b class='flag-5'>生成</b>

    HarmonyOS &amp;amp;amp;amp;潤(rùn)和HiSpark 實(shí)戰(zhàn)開(kāi)發(fā),“碼”上評(píng)選活動(dòng),邀您來(lái)賽!!!

    出色的系統(tǒng) 助力優(yōu)秀的設(shè)備 應(yīng)用開(kāi)發(fā)者帶來(lái)豐富的體驗(yàn)與想象空間 正如當(dāng)HarmonyOS遇見(jiàn)潤(rùn)和HiSpark 這萬(wàn)物互聯(lián)的時(shí)代 將由你的&amp;lt; 代碼 &amp;gt;來(lái)
    的頭像 發(fā)表于 04-11 15:33 ?1138次閱讀
    HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;潤(rùn)和HiSpark 實(shí)戰(zhàn)開(kāi)發(fā),“碼”上評(píng)選活動(dòng),邀您來(lái)賽!!!

    NUS&;amp;大提出VisorGPT可控文本圖像生成定制空間條件

    本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺(jué)先驗(yàn)(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來(lái)建模上述視覺(jué)先驗(yàn)。
    的頭像 發(fā)表于 09-26 16:14 ?634次閱讀
    <b class='flag-5'>NUS&</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>深</b><b class='flag-5'>大提出</b><b class='flag-5'>VisorGPT</b>:<b class='flag-5'>為</b><b class='flag-5'>可控</b><b class='flag-5'>文本圖像</b><b class='flag-5'>生成</b><b class='flag-5'>定制</b><b class='flag-5'>空間</b><b class='flag-5'>條件</b>

    能力再次提升! 迅RK3588/RK3568開(kāi)發(fā)板&amp;amp;amp;核心板新增定制分區(qū)鏡像

    能力再次提升! 迅RK3588/RK3568開(kāi)發(fā)板&amp;核心板新增定制分區(qū)鏡像
    的頭像 發(fā)表于 11-06 15:11 ?290次閱讀
    能力再次提升! 迅<b class='flag-5'>為</b>RK3588/RK3568開(kāi)發(fā)板&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;核心板新增<b class='flag-5'>定制</b>分區(qū)鏡像