低成本擴(kuò)大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界
【導(dǎo)讀】11月,華中科技大學(xué)團(tuán)隊(duì)發(fā)布了新的多模態(tài)大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達(dá)1344×896的圖像,并加入了有著詳細(xì)描述的高質(zhì)量圖文數(shù)據(jù)進(jìn)行訓(xùn)練,幫助Monkey煉就洞察圖像細(xì)節(jié)的火眼金睛,取得了與Caption和QA任務(wù)相關(guān)的16個(gè)數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問答任務(wù)上也有著亮眼的表現(xiàn)。
論文鏈接:https://arxiv.org/abs/2311.06607
代碼地址:https://github.com/Yuliang-Liu/Monkey
官方demo效果展示:
Monkey在密集文本的問答任務(wù)上取得了很不錯(cuò)的效果,可以根據(jù)問題的要求進(jìn)行推理,能夠適配中文問答
在文本較少的場(chǎng)景中Monkey也展現(xiàn)了不俗的問答能力,自身?yè)碛胸S富的知識(shí)庫(kù),可以根據(jù)問題進(jìn)行外推,從而回答出正確的答案
Monkey在Caption任務(wù)上同樣取得了出色的結(jié)果,不僅僅是對(duì)圖片進(jìn)行準(zhǔn)確詳細(xì)的描述,同時(shí)能夠合理發(fā)散,分析出圖片所傳達(dá)的一些抽象含義
以下是Monkey同GPT4V在密集文本與圖表上進(jìn)行問答的可視化結(jié)果展示。
下圖展示了Monkey的卓越性能,在 18 個(gè)不同的數(shù)據(jù)集上進(jìn)行測(cè)試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場(chǎng)景問答、以場(chǎng)景文本為中心的視覺問答和面向文檔的視覺問答等任務(wù),并在16個(gè)數(shù)據(jù)集上取得SOTA。
方法介紹:
1. 增大輸入分辨率
將原始輸入圖片裁剪成多個(gè)圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個(gè)圖片塊經(jīng)過視覺編碼時(shí)會(huì)加入一個(gè)專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓(xùn)練時(shí)僅訓(xùn)練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達(dá)到增大輸入分辨率的目的。
2. 多級(jí)特征融合的詳細(xì)描述生成方法生成高質(zhì)量圖文數(shù)據(jù)
主要分為五個(gè)步驟:第一步,使用BLIP2對(duì)整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對(duì)象的名稱和詳細(xì)描述,同時(shí)使用PPOCR提取區(qū)域的文本框坐標(biāo)和文本內(nèi)容;第三步使用SAM進(jìn)行分割,并送入BLIP2生成對(duì)各個(gè)物體及其組成部分的詳細(xì)描述;第四步使用BLIP-2 評(píng)估過濾掉低分匹配;最后使用ChatGPT 對(duì)上述得到的描述進(jìn)行總結(jié)從而得到圖像的詳細(xì)描述。
下圖為使用使用多級(jí)特征融合的詳細(xì)描述生成方法后得到的標(biāo)注與原始CC3M標(biāo)注的對(duì)比,不難看出,兩種標(biāo)注之間存在著較大的差距,生成的詳細(xì)標(biāo)注盡可能地包含了圖片中的各種細(xì)節(jié),而不像是CC3M地原始標(biāo)注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進(jìn)行訓(xùn)練,使得Monkey能夠更好地把握?qǐng)D文之間的關(guān)系。
更多的可視化對(duì)比結(jié)果與展示:
通過下圖展示的Monkey在QA任務(wù)上與多種大模型的對(duì)比結(jié)果,從中我們能夠更加直觀地感受到Monkey強(qiáng)大的問答能力,能夠準(zhǔn)確地把握住問題并給出正確的回答,尤其是在密集文本問答任務(wù)上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。
總結(jié)
Monkey提出了一種訓(xùn)練高效的方法,無(wú)需預(yù)訓(xùn)練即可有效地提高模型的輸入分辨率,最高可達(dá)896 x 1344像素。為了彌補(bǔ)簡(jiǎn)單文本標(biāo)簽和高分辨率輸入之間的差距,Monkey提出了一種多級(jí)特征融合的詳細(xì)描述生成方法,它可以自動(dòng)提供豐富的信息,以引導(dǎo)模型學(xué)習(xí)圖像中各個(gè)物體的屬性及其聯(lián)系。通過這兩種設(shè)計(jì)的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個(gè)基準(zhǔn)測(cè)試中取得了出色的結(jié)果。
-
高分辨率
+關(guān)注
關(guān)注
0文章
45瀏覽量
15307 -
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40418 -
大模型
+關(guān)注
關(guān)注
2文章
2333瀏覽量
2491
原文標(biāo)題:低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論