精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

中科大&字節提出UniDoc：統一的面向文字場景的多模態大模型

這篇文章是由中科大和字節跳動合作，在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc，一個統一的多模態大模型（LMM）。UniDoc主要聚焦于包含文字的圖像的多模態理解任務。相比于以往的多模態大模型，UniDoc具備它們所不具備的文字檢測、識別、spotting(端到端OCR)的能力。此外，文章中實驗表明，這些能力的學習能夠彼此促進。

方法框架

如上圖所示，UniDoc基于預訓練的視覺大模型及大語言模型，將文字的檢測、識別、spotting(圖中未畫出)、多模態理解等四個任務，通過多模態指令微調的方式，統一到一個框架中。具體地，輸入一張圖像以及一條指令（可以是檢測、識別、spotting、語義理解），UniDoc提取圖像中的視覺信息和文字信息，結合自然語言指令以及大語言模型的世界知識，做出相應回答。

訓練數據采集

作者團隊收集了大量的PPT圖像，并提取其中文字實例和對應的bbox。在此基礎上構建多任務的指令微調數據集。文章認為，PPT圖片中文字具有各種各樣的大小、字體、顏色、風格等，且PPT中視覺元素豐富多樣，適合用于構建涉及文字圖像的多模態任務的訓練。以spotting任務為例，其指令如下圖所示。其中的 term 表示”imgae“，”photo“等隨機名詞，以增加指令多樣性。

實驗結果

多模態理解

從上述六個例子可以看到，UniDoc不僅可以有效提取圖像中的視覺信息、文字信息，更可以結合其豐富的世界知識進行合理地回答。

對于無文字的圖像，UniDoc同樣可以準確地進行問答。

在多個多模態問答基準數據集上，UniDoc實現了優越的性能。

文字檢測、識別、spotting

上圖中，第一行的四個case來自于WordArt數據集，第二行的四個case來自于TotalText數據集。可以看到，雖然這些行級別的文字圖像呈現不同的字體以及不規則的文字分布，UniDoc仍然能夠進行準確地識別。

上圖中六個case中，文字存在部分的缺失，UniDoc仍然能夠進行準確地識別。

上圖中四個case展示了UniDoc在TotalText數據集上的檢測效果。

在多個文字識別基準數據集上，UniDoc實現了優越的性能。

消融實驗

有趣的消融實驗：對于同一張輸入圖像，spotting指令（右）規避了識別指令（左）的識別遺漏現象。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
504

瀏覽量
10245
數據集

數據集

+關注

關注
4

文章
1205

瀏覽量
24641
大模型

大模型

+關注

關注
2

文章
2322

瀏覽量
2479

原文標題：中科大&字節提出UniDoc：統一的面向文字場景的多模態大模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

中科大人口模型講義

中科大人口模型講義[hide] [/hide]

發表于 09-15 12:01

微機原理與接口技術中科大教材

微機原理與接口技術 中科大教材[/hide]

發表于 12-07 11:15

華中科大發的論文《新一代TSC2046觸摸屏控制器》

華中科大發的論文《新一代TSC2046觸摸屏控制器》

發表于 08-03 08:12

中科大嵌入式課件全集

本帖最后由 eehome 于 2013-1-5 09:46 編輯 中科大嵌入式課件全集

發表于 08-14 21:52

51單片機資料（中科大）

51單片機資料（中科大），超高新掃描版，上傳給初學者{:7:}

發表于 06-23 12:51

中科院中科大2003年量子力學考研試題答案

中科院—中科大2003年量子力學考研試題答案

發表于 11-25 16:05 ?0次下載

<b class='flag-5'>中科院中科大</b>2003年量子力學考研試題答案

人口模型講義 (中科大課程)

人口模型課件 (中科大課程講義)

發表于 09-15 11:59 ?24次下載

《日本經濟新聞》報道：中科大為何能對中國AI領域產生很的影響？

近日，《日本經濟新聞》的一則報道指出：在左右著企業、國家和地區發展的人工智能領域，中科大少年班的人才支撐著中國的發展。中國自動駕駛公司百度的總裁張亞勤、前阿里云人工智能首席科學家的閔萬里、AI芯片

發表于 07-18 09:40 ?7484次閱讀

在醫療AI領域砥礪前行的中科大學子

作為國字號的科研基石，中科大依靠學術層面的踏實耕耘，很大程度上影響了中國的醫療科技風向。談論一所大學撐起一個城市的代表，中科大和合肥的CP組合，一

發表于 05-10 09:36 ?4854次閱讀

《51單片機C語言編程入門》(中科大編著)

《51單片機C語言編程入門》(中科大編著)

發表于 01-04 17:54 ?0次下載

北大&amp;amp;華為提出：多模態基礎大模型的高效微調

深度學習的大模型時代已經來臨,越來越多的大規模預訓練模型在文本、視覺和多模態領域展示出杰出的生成和推理能力。然而大模型巨大的參數量有兩個明顯

發表于 11-08 16:20 ?808次閱讀

CVer
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot DDFM：首個使用擴散模型進行多模態圖像融合的方法
Hot DepGraph：任意架構的結構化剪枝，CNN、Transformer、GNN等都適用！

New SegVG視覺定位方法的各個組件
New 詳解E2E-MFD多模態融合檢測端到端算法

精選推薦
更多

文章

資料

帖子

羅德與施瓦茨CMP180在Wi-Fi 7生產測試中的應用

羅德與施瓦茨中國
2天前

452 閱讀

飛凌嵌入式T113-i開發板RISC-V核的實時應用方案

飛凌嵌入式
2天前

487 閱讀

晶振常見的切割工藝有哪些

揚興科技
2天前

418 閱讀

端側AI，風起移動智能計算

腦極體
2天前

852 閱讀

后摩爾時代的創新：在米爾FPGA上實現Tiny YOLO V4，助力AIoT應用

米爾電子
3天前

253 閱讀

微小型無人駕駛直升機建模與仿真分析

恐龍之家
237

10積分

252下載

PICkit單片機編程器用戶指南

剪刀腳
1.08 MB

10積分

112下載

PSpice與電子器件模型

yaochanged
11.9 MB

免費

0下載

Colorblindly為色盲患者開發的瀏覽器擴展

王桂英
46.85 MB

2積分

2下載

Firefox Fenix Android移動瀏覽器

吳湛
11.40 MB

2積分

3下載

【「HarmonyOS NEXT啟程：零基礎構建純血鴻蒙應用」閱讀體驗】+1-7章有感

夜孤影
1天前

125 閱讀

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

jf_60073135
1天前

126 閱讀

【AG32開發板體驗連載】AG32VF407 UART串口通信測試

zhjylzh
2天前

194 閱讀

鴻蒙原生開發手記：03-元服務開發全流程（開發元服務，只需要看這一篇文章）

jf_58601940
2天前

302 閱讀

使用LDO給AD8237參考電壓供電問題，參考電壓會被拉高

lxz199709
2天前

503 閱讀

推薦專欄
更多

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

中科大&字節提出UniDoc：統一的面向文字場景的多模態大模型

評論

中科大人口模型講義

微機原理與接口技術中科大教材

華中科大發的論文《新一代TSC2046觸摸屏控制器》

51單片機C語言編程入門(中科大)

中科大嵌入式課件全集

溷沌數字通信（中科大出版的）

光電信號處理！！！(何兆湘華中科大)