精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

CVer ? 來(lái)源:CVer ? 2023-12-04 15:33 ? 次閱讀

低成本擴(kuò)大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導(dǎo)讀】11月,華中科技大學(xué)團(tuán)隊(duì)發(fā)布了新的多模態(tài)大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達(dá)1344×896的圖像,并加入了有著詳細(xì)描述的高質(zhì)量圖文數(shù)據(jù)進(jìn)行訓(xùn)練,幫助Monkey煉就洞察圖像細(xì)節(jié)的火眼金睛,取得了與Caption和QA任務(wù)相關(guān)的16個(gè)數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問答任務(wù)上也有著亮眼的表現(xiàn)。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問答任務(wù)上取得了很不錯(cuò)的效果,可以根據(jù)問題的要求進(jìn)行推理,能夠適配中文問答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場(chǎng)景中Monkey也展現(xiàn)了不俗的問答能力,自身?yè)碛胸S富的知識(shí)庫(kù),可以根據(jù)問題進(jìn)行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務(wù)上同樣取得了出色的結(jié)果,不僅僅是對(duì)圖片進(jìn)行準(zhǔn)確詳細(xì)的描述,同時(shí)能夠合理發(fā)散,分析出圖片所傳達(dá)的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進(jìn)行問答的可視化結(jié)果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個(gè)不同的數(shù)據(jù)集上進(jìn)行測(cè)試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場(chǎng)景問答、以場(chǎng)景文本為中心的視覺問答和面向文檔的視覺問答等任務(wù),并在16個(gè)數(shù)據(jù)集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個(gè)圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個(gè)圖片塊經(jīng)過視覺編碼時(shí)會(huì)加入一個(gè)專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓(xùn)練時(shí)僅訓(xùn)練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達(dá)到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級(jí)特征融合的詳細(xì)描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個(gè)步驟:第一步,使用BLIP2對(duì)整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對(duì)象的名稱和詳細(xì)描述,同時(shí)使用PPOCR提取區(qū)域的文本框坐標(biāo)和文本內(nèi)容;第三步使用SAM進(jìn)行分割,并送入BLIP2生成對(duì)各個(gè)物體及其組成部分的詳細(xì)描述;第四步使用BLIP-2 評(píng)估過濾掉低分匹配;最后使用ChatGPT 對(duì)上述得到的描述進(jìn)行總結(jié)從而得到圖像的詳細(xì)描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級(jí)特征融合的詳細(xì)描述生成方法后得到的標(biāo)注與原始CC3M標(biāo)注的對(duì)比,不難看出,兩種標(biāo)注之間存在著較大的差距,生成的詳細(xì)標(biāo)注盡可能地包含了圖片中的各種細(xì)節(jié),而不像是CC3M地原始標(biāo)注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進(jìn)行訓(xùn)練,使得Monkey能夠更好地把握?qǐng)D文之間的關(guān)系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對(duì)比結(jié)果與展示:

通過下圖展示的Monkey在QA任務(wù)上與多種大模型的對(duì)比結(jié)果,從中我們能夠更加直觀地感受到Monkey強(qiáng)大的問答能力,能夠準(zhǔn)確地把握住問題并給出正確的回答,尤其是在密集文本問答任務(wù)上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結(jié)

Monkey提出了一種訓(xùn)練高效的方法,無(wú)需預(yù)訓(xùn)練即可有效地提高模型的輸入分辨率,最高可達(dá)896 x 1344像素。為了彌補(bǔ)簡(jiǎn)單文本標(biāo)簽和高分辨率輸入之間的差距,Monkey提出了一種多級(jí)特征融合的詳細(xì)描述生成方法,它可以自動(dòng)提供豐富的信息,以引導(dǎo)模型學(xué)習(xí)圖像中各個(gè)物體的屬性及其聯(lián)系。通過這兩種設(shè)計(jì)的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個(gè)基準(zhǔn)測(cè)試中取得了出色的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 高分辨率
    +關(guān)注

    關(guān)注

    0

    文章

    45

    瀏覽量

    15307
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1083

    瀏覽量

    40418
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2333

    瀏覽量

    2491

原文標(biāo)題:低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    視頻處理器的分辨率是如何管理的

    ? ? 隨著電子應(yīng)用技術(shù)和消費(fèi)市場(chǎng)的不斷發(fā)展,LED顯示屏的顯示單元之間的間距正在逐漸縮小,然而,顯示屏的整體面積卻在不斷擴(kuò)大。為了滿足這一趨勢(shì)下對(duì)超大輸分辨率的需求,視頻處理器和拼接器變得
    的頭像 發(fā)表于 11-11 15:25 ?180次閱讀
    視頻處理器的<b class='flag-5'>分辨率</b>是如何管理的

    提高SAR ADC的分辨率

    電子發(fā)燒友網(wǎng)站提供《提高SAR ADC的分辨率.pdf》資料免費(fèi)下載
    發(fā)表于 10-25 09:11 ?0次下載
    提高SAR ADC的<b class='flag-5'>分辨率</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?321次閱讀

    VR顯示器分辨率的選擇

    一、VR顯示器分辨率的重要性 1.1 分辨率與視覺體驗(yàn) 分辨率是指顯示器上能夠顯示的像素點(diǎn)的數(shù)量,通常用水平像素?cái)?shù)×垂直像素?cái)?shù)來(lái)表示。在VR顯示器中,分辨率直接影響到用戶的視覺體驗(yàn)。高
    的頭像 發(fā)表于 07-08 10:29 ?960次閱讀

    華為pockets屏幕分辨率是多少

    華為Pocket S的內(nèi)屏分辨率是2790×1188,外屏分辨率為340×340。該手機(jī)采用了6.9英寸的柔性O(shè)LED屏幕,支持120Hz刷新、1440Hz高頻PWM調(diào)光,色彩表現(xiàn)達(dá)到10.7億色,同時(shí)還配備了防反光納米光學(xué)膜
    的頭像 發(fā)表于 03-06 17:37 ?1106次閱讀

    編碼器分辨率是什么意思 編碼器分辨率和脈沖數(shù)的關(guān)系

    按照編碼器支持的分辨率可以把編碼器分成標(biāo)清編碼器、高清編碼器、全高清編碼器,分辨率越高幀率越高視頻就越清楚。 1.編碼器的分辨率是什么意思 編碼器的分辨率是指編碼器以每旋轉(zhuǎn)360度提供
    的頭像 發(fā)表于 02-21 18:07 ?3950次閱讀
    編碼器<b class='flag-5'>分辨率</b>是什么意思 編碼器<b class='flag-5'>分辨率</b>和脈沖數(shù)的關(guān)系

    電容觸摸屏的分辨率怎么調(diào)

    電容觸摸屏的分辨率調(diào)整是通過調(diào)整觸摸屏的控制器的參數(shù)來(lái)實(shí)現(xiàn)的。觸摸屏的分辨率是指能夠在屏幕上識(shí)別的最小觸摸點(diǎn)的像素?cái)?shù)量。分辨率越高,觸摸屏可以更準(zhǔn)確地檢測(cè)和響應(yīng)用戶的操作。 在調(diào)整電容觸摸屏的
    的頭像 發(fā)表于 01-23 16:59 ?1835次閱讀

    鏡頭分辨率簡(jiǎn)述

    分辨率可以從顯示分辨率與圖像分辨率兩個(gè)方向來(lái)分類。
    的頭像 發(fā)表于 01-15 11:12 ?889次閱讀

    淺談相機(jī)的圖像分辨率

    談到顯微成像系統(tǒng),常常會(huì)用分辨率來(lái)評(píng)價(jià)成像能力的高低,那分辨率到底指的是什么,又怎樣計(jì)算呢?其實(shí)對(duì)于一個(gè)特定的顯微成像系統(tǒng),分辨率要從兩個(gè)方面來(lái)考慮,一種是光學(xué)系統(tǒng)的分辨率—光學(xué)衍射極
    的頭像 發(fā)表于 01-09 09:54 ?1653次閱讀
    淺談相機(jī)的圖像<b class='flag-5'>分辨率</b>

    adc電路的分辨率怎么算

    ADC(模數(shù)轉(zhuǎn)換器)電路的分辨率是指其能夠?qū)⒛M信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)時(shí)能夠達(dá)到的最小分辨單位。分辨率通常用位數(shù)表示,例如10位的ADC具有1024個(gè)離散的輸出級(jí)別。 要計(jì)算ADC電路的分辨率
    的頭像 發(fā)表于 01-04 15:23 ?6681次閱讀

    詳述ADC精度和分辨率的差異

    的DC柱狀圖。 圖1:ADC傳遞曲線上ADC分辨率和有效分辨率的圖示 圖1中的圖表提出了一個(gè)有意思的問題。如果同樣的模擬輸入會(huì)導(dǎo)致多個(gè)數(shù)字輸出,那么對(duì)于ADC
    發(fā)表于 12-20 06:55

    峰峰值分辨率與有效分辨率的區(qū)別

    分辨率 是指無(wú)閃爍位數(shù),計(jì)算方法與有效分辨率不同。本文將說(shuō)明峰峰值分辨率與有效分辨率的區(qū)別。 先來(lái)說(shuō)說(shuō)噪聲 圖1顯示模擬輸入接地時(shí)從
    發(fā)表于 12-15 07:56

    模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語(yǔ)音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)
    的頭像 發(fā)表于 12-13 13:55 ?1629次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    用于高分辨率制造的低成本顯微投影光刻系統(tǒng)

    集成光信號(hào)分配、處理和傳感網(wǎng)絡(luò)需要小型化基本光學(xué)元件,如波導(dǎo)、分光器、光柵和光開關(guān)。為了實(shí)現(xiàn)這一目標(biāo),需要能夠?qū)崿F(xiàn)高分辨率制造的方法。
    的頭像 發(fā)表于 12-04 09:23 ?517次閱讀
    用于高<b class='flag-5'>分辨率</b>制造的<b class='flag-5'>低成本</b>顯微投影光刻系統(tǒng)