精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中科大&字節提出UniDoc:統一的面向文字場景的多模態大模型

CVer ? 來源:CVer ? 2023-08-31 15:29 ? 次閱讀

這篇文章是由中科大和字節跳動合作,在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc,一個統一的多模態大模型(LMM)。UniDoc主要聚焦于包含文字的圖像的多模態理解任務。相比于以往的多模態大模型,UniDoc具備它們所不具備的文字檢測、識別、spotting(端到端OCR)的能力。此外,文章中實驗表明,這些能力的學習能夠彼此促進。

方法框架

7fd66038-47c5-11ee-97a6-92fbcf53809c.png

如上圖所示,UniDoc基于預訓練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、多模態理解等四個任務,通過多模態指令微調的方式,統一到一個框架中。具體地,輸入一張圖像以及一條指令(可以是檢測、識別、spotting、語義理解),UniDoc提取圖像中的視覺信息和文字信息,結合自然語言指令以及大語言模型的世界知識,做出相應回答。

訓練數據采集

7ff0ca86-47c5-11ee-97a6-92fbcf53809c.png

作者團隊收集了大量的PPT圖像,并提取其中文字實例和對應的bbox。在此基礎上構建多任務的指令微調數據集。文章認為,PPT圖片中文字具有各種各樣的大小、字體、顏色、風格等,且PPT中視覺元素豐富多樣,適合用于構建涉及文字圖像的多模態任務的訓練。以spotting任務為例,其指令如下圖所示。其中的 term 表示”imgae“,”photo“等隨機名詞,以增加指令多樣性。

8092f2c0-47c5-11ee-97a6-92fbcf53809c.png

實驗結果

多模態理解

80ab866e-47c5-11ee-97a6-92fbcf53809c.png

80c91328-47c5-11ee-97a6-92fbcf53809c.png

從上述六個例子可以看到,UniDoc不僅可以有效提取圖像中的視覺信息、文字信息,更可以結合其豐富的世界知識進行合理地回答。

80effd58-47c5-11ee-97a6-92fbcf53809c.png

對于無文字的圖像,UniDoc同樣可以準確地進行問答

81128e04-47c5-11ee-97a6-92fbcf53809c.png

在多個多模態問答基準數據集上,UniDoc實現了優越的性能。

文字檢測、識別、spotting

81326094-47c5-11ee-97a6-92fbcf53809c.png

上圖中,第一行的四個case來自于WordArt數據集,第二行的四個case來自于TotalText數據集。可以看到,雖然這些行級別的文字圖像呈現不同的字體以及不規則的文字分布,UniDoc仍然能夠進行準確地識別。

815f6df0-47c5-11ee-97a6-92fbcf53809c.png

上圖中六個case中,文字存在部分的缺失,UniDoc仍然能夠進行準確地識別。

81779934-47c5-11ee-97a6-92fbcf53809c.png

上圖中四個case展示了UniDoc在TotalText數據集上的檢測效果。

818baf5a-47c5-11ee-97a6-92fbcf53809c.png

在多個文字識別基準數據集上,UniDoc實現了優越的性能。

消融實驗

81a99e2a-47c5-11ee-97a6-92fbcf53809c.png

有趣的消融實驗:對于同一張輸入圖像,spotting指令(右)規避了識別指令(左)的識別遺漏現象。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    504

    瀏覽量

    10245
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24641
  • 大模型
    +關注

    關注

    2

    文章

    2322

    瀏覽量

    2479

原文標題:中科大&字節提出UniDoc:統一的面向文字場景的多模態大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    中科大人口模型講義

    中科大人口模型講義[hide] [/hide]
    發表于 09-15 12:01

    微機原理與接口技術 中科大教材

    微機原理與接口技術 中科大教材[/hide]
    發表于 12-07 11:15

    中科大發的論文《新代TSC2046觸摸屏控制器》

    中科大發的論文《新代TSC2046觸摸屏控制器》
    發表于 08-03 08:12

    51單片機C語言編程入門(中科大)

    51單片機C語言編程入門(中科大)
    發表于 08-06 12:20

    中科大嵌入式課件全集

    本帖最后由 eehome 于 2013-1-5 09:46 編輯 中科大嵌入式課件全集
    發表于 08-14 21:52

    溷沌數字通信(中科大出版的)

    溷沌數字通信(中科大出版的)
    發表于 08-16 16:49

    光電信號處理!!!(何兆湘 華中科大)

    光電信號處理!!!(何兆湘 華中科大)
    發表于 08-16 19:47

    51單片機C語言編程入門(中科大)

    51單片機C語言編程入門(中科大)
    發表于 08-17 16:02

    51單片機資料(中科大

    51單片機資料(中科大),超高新掃描版,上傳給初學者{:7:}
    發表于 06-23 12:51

    中科院中科大2003年量子力學考研試題答案

    中科院—中科大2003年量子力學考研試題答案
    發表于 11-25 16:05 ?0次下載
    <b class='flag-5'>中科院中科大</b>2003年量子力學考研試題答案

    人口模型講義 (中科大課程)

    人口模型課件 (中科大課程講義)
    發表于 09-15 11:59 ?24次下載

    《日本經濟新聞》報道:中科大為何能對中國AI領域產生很的影響?

    近日,《日本經濟新聞》的則報道指出:在左右著企業、國家和地區發展的人工智能領域,中科大少年班的人才支撐著中國的發展。中國自動駕駛公司百度的總裁張亞勤、前阿里云人工智能首席科學家的閔萬里、AI芯片
    的頭像 發表于 07-18 09:40 ?7484次閱讀

    在醫療AI領域砥礪前行的中科大學子

    作為國字號的科研基石,中科大依靠學術層面的踏實耕耘,很大程度上影響了中國的醫療科技風向。 談論所大學撐起個城市的代表,中科大和合肥的CP組合,
    的頭像 發表于 05-10 09:36 ?4854次閱讀

    《51單片機C語言編程入門》(中科大編著)

    《51單片機C語言編程入門》(中科大編著)
    發表于 01-04 17:54 ?0次下載

    北大&amp;amp;華為提出模態基礎大模型的高效微調

    深度學習的大模型時代已經來臨,越來越多的大規模預訓練模型在文本、視覺和模態領域展示出杰出的生成和推理能力。然而大模型巨大的參數量有兩個明顯
    的頭像 發表于 11-08 16:20 ?808次閱讀
    北大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;華為<b class='flag-5'>提出</b>:<b class='flag-5'>多</b><b class='flag-5'>模態</b>基礎大<b class='flag-5'>模型</b>的高效微調