国产国产人免费人成免费视频在线观看_亚洲AⅤ中文无码字幕_成年人电影中文字幕无码区_久久99热这里只有精品66

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式？以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——

這一次，只需一句話命令，多模態(tài)大模型 Vary 直接端到端輸出結(jié)果：

無(wú)論是中英文的大段文字：

還是包含了公式的文檔圖片：

又或是手機(jī)頁(yè)面截圖：

甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式：

當(dāng)然，作為多模大模型，通用能力的保持也是必須的：

Vary 表現(xiàn)出了很大的潛力和極高的上限，OCR 可以不再需要冗長(zhǎng)的 pipline，直接端到端輸出，且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過(guò) LLM 極強(qiáng)的語(yǔ)言先驗(yàn)，這種架構(gòu)還可以避免 OCR 中的易錯(cuò)字，比如“杠桿”和“杜桿”等，對(duì)于模糊文檔，也有望在語(yǔ)言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的 OCR 效果。

項(xiàng)目一出，引發(fā)了不少網(wǎng)友的關(guān)注，有網(wǎng)友看后直呼 “kill the game！”

那么這樣的效果，是如何做到的呢？

背后原理

目前的多模態(tài)大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說(shuō)視覺詞表。確實(shí)，在 400M 圖像文本對(duì)訓(xùn)練的 CLIP 有很強(qiáng)的視覺文本對(duì)齊能力，可以覆蓋多數(shù)日常任務(wù)下的圖像編碼。但是對(duì)于密集和細(xì)粒度感知任務(wù)，比如文檔級(jí)別的 OCR、Chart 理解，特別是在非英文場(chǎng)景，CLIP 表現(xiàn)出了明顯的編碼低效和 out-of-vocabulary問(wèn)題。

受語(yǔ)言的 LLMs 啟發(fā)，純 NLP 大模型（如 LLaMA）從英文到中文（外語(yǔ)）時(shí)因?yàn)樵荚~表編碼中文效率低，必須要擴(kuò)大 text 詞表。那么對(duì)于現(xiàn)在基于 CLIP 視覺詞表的多模大模型也是一樣的，遇到 “foreign language image”，如一頁(yè)論文密密麻麻的文字，很難高效地將圖片 token 化，Vary 提出就是解決這一問(wèn)題，在不 overwrite 原有詞表前提下，高效擴(kuò)充視覺詞表。

不同于現(xiàn)有方法直接用現(xiàn)成的 CLIP 詞表，Vary 分兩個(gè)階段：第一階段先用一個(gè)很小的 Decoder-only 網(wǎng)絡(luò)用自回歸方式幫助產(chǎn)生一個(gè)強(qiáng)大的新視覺詞表；然后在第二階段融合新詞表和 CLIP 詞表，從而高效的訓(xùn)練多模大模型擁有新 feature。Vary 的訓(xùn)練方法和模型結(jié)構(gòu)如下圖：

通過(guò)在公開數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓(xùn)練，Vary 極大增強(qiáng)了細(xì)粒度的視覺感知能力。在保持 Vanilla 多模態(tài)能力的同時(shí)，激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外，原本可能需要幾千 tokens 的頁(yè)面內(nèi)容，通過(guò)文檔圖片輸入，信息被Vary壓縮在了 256 個(gè)圖像 tokens 中。這也為進(jìn)一步的頁(yè)面分析和總結(jié)提供了更多的想象空間。

目前，Vary 的代碼和模型均已開源，還給出了供大家試玩的網(wǎng)頁(yè) demo。感興趣的小伙伴可以去試試了～

項(xiàng)目主頁(yè)：

https://varybase.github.io/

參考鏈接

https://zhuanlan.zhihu.com/p/671420712

· ·

原文標(biāo)題：OCR終結(jié)了？曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary，支持中英文，已開源！

文章出處：【微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2903

文章
44267

瀏覽量
371224

原文標(biāo)題：OCR終結(jié)了？曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary，支持中英文，已開源！

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō)，多

發(fā)表于 10-18 09:39 ?318次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來(lái)的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多模態(tài)大

發(fā)表于 08-27 15:20 ?364次閱讀

明治案例 | PE編織袋【大視野】【OCR識(shí)別】

OCR識(shí)別技術(shù)OCR識(shí)別技術(shù)在工業(yè)生產(chǎn)中扮演著至關(guān)重要的角色。它利用先進(jìn)的圖像處理技術(shù)，自動(dòng)、高效地識(shí)別并轉(zhuǎn)換圖像中的文字信息為可編輯的文本數(shù)據(jù)。這一技術(shù)的應(yīng)用確保了生產(chǎn)數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性，為生

發(fā)表于 08-13 08:25 ?399次閱讀

基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)多模態(tài)大模型

2.8B參數(shù)。MiniCPM-V 2.0具有領(lǐng)先的光學(xué)字符識(shí)別（OCR）和多模態(tài)理解能力。該模型在綜合性OCR能力評(píng)測(cè)基準(zhǔn)OCRBench上

發(fā)表于 07-15 09:34 ?762次閱讀

視語(yǔ)坤川大模型智能體平臺(tái)亮相2024世界人工智能大會(huì)

視語(yǔ)坤川大模型智能體平臺(tái)兼容多種多尺寸的大語(yǔ)言模型及多模態(tài)模

發(fā)表于 07-09 14:38 ?219次閱讀

智能手機(jī)充電頭OCR精準(zhǔn)識(shí)別

文本是人類最重要的信息來(lái)源之一，自然場(chǎng)景中充滿了形形色色的文字符號(hào)。光學(xué)字符識(shí)別(OCR)相信大家都不陌生。而工業(yè)場(chǎng)景的圖像文字識(shí)別更加復(fù)雜，OCR出現(xiàn)在很多不同的場(chǎng)合，對(duì)某些特殊的表面、產(chǎn)品整體上

發(fā)表于 06-11 08:24 ?398次閱讀

智譜AI發(fā)布全新多模態(tài)開源模型GLM-4-9B

近日，智譜AI在人工智能領(lǐng)域取得重大突破，成功推出全新開源模型GLM-4-9B。這款模型以其卓越的多模態(tài)能力，再次刷新了業(yè)界對(duì)于大型語(yǔ)言

發(fā)表于 06-07 09:17 ?676次閱讀

《環(huán)球時(shí)報(bào)》中英文刊發(fā)中國(guó)第三代自主超導(dǎo)量子計(jì)算機(jī)“悟空”研制團(tuán)隊(duì)主要負(fù)責(zé)人專訪

《環(huán)球時(shí)報(bào)》中英文刊發(fā)中國(guó)第三代自主超導(dǎo)量子計(jì)算機(jī)“悟空”研制團(tuán)隊(duì)主要負(fù)責(zé)人專訪

發(fā)表于 06-01 08:22 ?318次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

李未可科技多模態(tài) AI 大模型正式發(fā)布，積極推進(jìn) AI 在終端的場(chǎng)景應(yīng)用 ? 4月18日，2024中國(guó)生成式AI大會(huì)上李未可科技正式發(fā)布為眼鏡等未來(lái)終端定向優(yōu)化等自研WAKE-AI多

發(fā)表于 04-18 17:01 ?565次閱讀

如何判斷觸摸屏用有機(jī)硅OCR/LOCA性能的優(yōu)劣

判斷OCR/LOCA性能的優(yōu)劣

發(fā)表于 02-29 10:48 ?546次閱讀

機(jī)器人基于開源的多模態(tài)語(yǔ)言視覺大模型

ByteDance Research 基于開源的多模態(tài)語(yǔ)言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo

發(fā)表于 01-19 11:43 ?365次閱讀

OneLLM：對(duì)齊所有模態(tài)的框架！

OneLLM 是第一個(gè)在單個(gè)模型中集成八種不同模態(tài)的MLLM。通過(guò)統(tǒng)一的框架和漸進(jìn)式多模態(tài)對(duì)齊pipelines，

發(fā)表于 01-04 11:27 ?908次閱讀

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

前段時(shí)間Google推出Gemini多模態(tài)大模型，展示了不凡的對(duì)話能力和多模態(tài)能力，其表現(xiàn)究竟如何呢？

發(fā)表于 12-28 11:19 ?1198次閱讀

成都匯陽(yáng)投資關(guān)于多模態(tài)驅(qū)動(dòng)應(yīng)用前景廣闊，上游算力迎機(jī)會(huì)!

“Cloud TPU v5p”, 以及來(lái)自谷歌云的人工智能超級(jí)計(jì)算機(jī)。本次谷歌推出的多模態(tài)大模型Gemini 依然采用Transformer架構(gòu)，采用高效Attention機(jī)制，支持

發(fā)表于 12-18 13:08 ?458次閱讀

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢(shì)是不支持其他模態(tài)（包括圖像、語(yǔ)音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)

發(fā)表于 12-13 13:55 ?1626次閱讀