精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動(dòng)圖片文本辨認(rèn)是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)處理大型數(shù)據(jù)的重要案例

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-13 08:54 ? 次閱讀

Dropbox是Dropbox公司的在線存儲(chǔ)服務(wù),通過云計(jì)算實(shí)現(xiàn)互聯(lián)網(wǎng)上的文件同步,用戶可以存儲(chǔ)并共享文件和文件夾。最近,研究人員在一次產(chǎn)品更新后,在用戶的工作流中加入了人工智能模塊,并加入了光學(xué)字符識(shí)別(OCR)技術(shù)。用戶從這些變化中最明顯的感受就是,他們可以在圖像或PDF文件中直接搜索英文文本。

從圖像中(包括PDF)自動(dòng)識(shí)別文本是一項(xiàng)前景廣闊的技術(shù)。在Dropbox中,用戶總共存儲(chǔ)了超過200億個(gè)圖像和PDF文件,其中10%—20%是文本照片,例如收據(jù)和白色背景的圖像,這些都是目前圖像中文本識(shí)別的新對(duì)象。另外還有25%的PDF文件是掃描版文本,同樣可以用作自動(dòng)文本識(shí)別。

計(jì)算機(jī)視覺的角度來看,雖然對(duì)人類來說,看真實(shí)的文件和影印版的沒有太大差別,但對(duì)計(jì)算機(jī)就大不一樣了:文件可以通過搜索被檢索,用戶輸入一些單詞就可以從文件中找到目標(biāo)對(duì)象。但在圖像上,檢索系統(tǒng)就無法工作了,因?yàn)樗@示的只是一堆像素。通常,圖像格式(例如JPEG、PNG、GIF等)都無法被檢索,因?yàn)樗鼈儧]有文本內(nèi)容。只有基于文本的文件(例如TXT、DOCX或HTML)才能被檢索。但PDF介于二者中間,因?yàn)樗饶馨谋荆材馨瑘D像。自動(dòng)圖像中的文本識(shí)別可以辨認(rèn)這些文本,并將其中的數(shù)據(jù)進(jìn)行分類。

所以現(xiàn)在,如果用戶在任意格式下搜索英文文本,Dropbox都能顯示出結(jié)果。這篇文章就講解了研究人員的具體做法。

認(rèn)識(shí)問題

首先,我們要對(duì)此任務(wù)有大致了解,尤其是要知道要處理的數(shù)據(jù)數(shù)量有多大,這不僅關(guān)系到所需成本,還有助于評(píng)估其有用性。具體需要了解的有以下三方面:

我們應(yīng)該處理哪些類型的文件?

這些文件中有哪些含有可用光學(xué)字符識(shí)別技術(shù)處理的內(nèi)容?

對(duì)于像PDF這樣有多頁的文件,我們需要處理幾頁才能讓模型變得有效?

我們想處理的文件類型是目前不包含可檢索文本內(nèi)容的文件,這包括圖像格式和不含有文字的PDF文檔。但是,并不是所有的圖像或PDF都含有文本,大多數(shù)只是一些照片或圖示。所以,研究的關(guān)鍵是機(jī)器學(xué)習(xí)模型需要判斷,給定的內(nèi)容是否能用光學(xué)字符識(shí)別技術(shù),也就是說其中是否含有能用OCR系統(tǒng)識(shí)別出的文本,例如不包含街景照片的文件的掃描件等等。我們訓(xùn)練的模型是一個(gè)卷積神經(jīng)網(wǎng)絡(luò),輸入圖像并處理后,會(huì)將輸出結(jié)果傳遞到二元決策中,看它是否含有文本內(nèi)容。

最常見的圖像格式是JPEG,我們發(fā)現(xiàn)大約有9%的JPEG圖像可能含有文本。對(duì)于PDF,情況就比較復(fù)雜了,因?yàn)橐环軵DF文件可能含有多頁,每頁又可能有三種類型的內(nèi)容:

已經(jīng)經(jīng)過嵌入或可檢索的文本(69%)

有圖片格式的文本,暫不可被檢索(28%)

沒有實(shí)質(zhì)文本內(nèi)容(3%)

我們主要關(guān)注第二種情況,因?yàn)檫@是我們研究的對(duì)象。總的來說,我們的目標(biāo)用戶擁有的JPEG數(shù)量是PDF的兩倍,但是每個(gè)PDF文件平均有8頁,而且PDF可能有更多的文本圖片,所以總的來說,PDF含有的文本是JPEG的10倍。

文本頁數(shù)

一旦確定了文件類型,我們就要決定以何種方式處理這些文件。有些PDF文件有很多頁,處理起來很費(fèi)時(shí)。幸運(yùn)的是,對(duì)于長文本,即使只檢索幾頁,也可以讓文本更易于搜索。所以,我們統(tǒng)計(jì)了PDF采樣中頁數(shù)的分布情況,弄清楚每份文件最多可以對(duì)幾頁進(jìn)行檢索。最終結(jié)果顯示,一半的PDF只有一頁內(nèi)容,大約90%的PDF在10頁及以下。所以我們把上限定為10頁,這意味著我們可以對(duì)將近90%的文檔進(jìn)行索引,而且運(yùn)用了足夠多的頁數(shù)。

自動(dòng)圖像文本識(shí)別系統(tǒng)的組成

格式轉(zhuǎn)換

當(dāng)我們開始用OCR提取文本后,需要確定如何對(duì)PDF文件中的圖像數(shù)據(jù)進(jìn)行轉(zhuǎn)換:我們可以對(duì)文件流中的像素圖像目標(biāo)分開提取,或者可以將整頁P(yáng)DF轉(zhuǎn)換成光柵圖像數(shù)據(jù)。兩種方法都實(shí)踐之后,我們選擇了后者,因?yàn)槲覀円呀?jīng)已經(jīng)有了穩(wěn)定的大型PDF轉(zhuǎn)換工具。使用這一系統(tǒng)的優(yōu)點(diǎn)如下:

它可以自然地?cái)U(kuò)展到其他需要翻譯或嵌有圖片的文件格式中,例如PowerPoint、PostScript和其他支持的格式。

轉(zhuǎn)換過程很自然地保留了文本符的順序和頁面中文本的位置,考慮了文件結(jié)構(gòu)。

在我們此前的Chromium項(xiàng)目中,服務(wù)器部分的轉(zhuǎn)換是基于PDFium完成的,這是一個(gè)由谷歌基于Chrome瀏覽器開源的項(xiàng)目。這一軟件同樣用于對(duì)全文的檢測(cè),判斷文本是否只含有圖片,可以幫助我們決定是否進(jìn)行OCR處理。

一旦我們開始轉(zhuǎn)換,每份文件中的內(nèi)容都會(huì)同時(shí)進(jìn)行處理,我們將每一頁轉(zhuǎn)化成2048×2048的正方形像素,保留了原始的長寬比。

文件圖像分類

我們帶有OCR技術(shù)的機(jī)器學(xué)習(xí)模型最初是為了Dropbox的文件掃描功能創(chuàng)建的,目的是為了了解用戶最近是否上傳了可以“將其轉(zhuǎn)化成掃描格式”的圖片。分類器在創(chuàng)建時(shí),在圖像特征上使用了一個(gè)線性分類器。模型在來源不同的數(shù)千張照片上訓(xùn)練,包括公共圖像、私人圖像以及Dropbox員工貢獻(xiàn)出的圖像。

最初,分類器偶爾會(huì)出現(xiàn)誤報(bào)的情況(即模型認(rèn)為圖像中含有文本,但實(shí)際上沒有),例如在含有白墻、天際線、開闊的水域等照片中。雖然人類能輕松分辨這些景觀,但是對(duì)分類器來說它們看起來都是一樣的:都有平整開闊的背景和水平線。經(jīng)過每次迭代后,我們?cè)谟?xùn)練集中添加“消極”標(biāo)簽,可以顯著提高模型的分類精確度,從而高效地教會(huì)模型,雖然這些圖像有很多類似文本文件的特征,但它們沒有文本。

拐角檢測(cè)

確定圖像中文本的拐角并確定它的大致形狀是另一個(gè)重要步驟。給定轉(zhuǎn)角的坐標(biāo),圖片中的文章可以用簡單的幾何轉(zhuǎn)換進(jìn)行修正。文本的拐角檢測(cè)元組使用另一個(gè)ImageNet深度卷積網(wǎng)絡(luò)創(chuàng)建的(DenseNet-121),其最頂層換成了一個(gè)回歸因子,可以生成四個(gè)拐角坐標(biāo)。有了坐標(biāo),就能輕易地將文本修正成易于檢測(cè)的版本了。

token提取

OCR系統(tǒng)從拐角檢測(cè)階段獲取修正過的圖像作為輸入,并生成token檢測(cè),包括針對(duì)tokens和文本的邊界框。這些大致按token的順序排列并添加到搜索索引中。如果有多個(gè)頁面,每頁上token的列表會(huì)連接在一起生成一個(gè)大表。

合并各元素

為了能在所有可以被索引的文件中進(jìn)行紫銅圖像文本識(shí)別,我們需要一個(gè)系統(tǒng)能對(duì)輸入的文件執(zhí)行添加和編輯,并開始相關(guān)處理。這就需要用到Cape框架,這是一種靈活大型的處理框架,可以進(jìn)行事件流的分時(shí)間處理。我們?cè)贠CR處理中加入了新的Cape工作器,稱為lambda,作為框架的一部分。

整個(gè)處理過程如下:

基于圖像中是否有符合要求的JPEG、GIF或PDF,檢查我們是否應(yīng)該繼續(xù)處理文本。

運(yùn)行含有OCR技術(shù)的分了器,確定圖像中是否有文本。

運(yùn)行文本拐角檢測(cè)器,對(duì)其進(jìn)行修正。

用OCR引擎提取tokens。

向用戶的搜索索引中添加token列表。

結(jié)語

自動(dòng)圖片文本辨認(rèn)是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)處理大型數(shù)據(jù)的重要案例。讓圖片中的文本可搜索只是深度了解文本結(jié)構(gòu)和內(nèi)容的第一步,有了這一成果,Dropbox可以幫助用戶更好地管理他們的文件。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:Dropbox用機(jī)器學(xué)習(xí),從海量圖片中對(duì)文本進(jìn)行檢索

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    機(jī)器視覺計(jì)算機(jī)視覺的關(guān)系簡述

    計(jì)算機(jī)視覺是一門獨(dú)立的學(xué)科,有著30年左右的歷史,集圖像處理、模式識(shí)別、人工智能技術(shù)為一體,著重服務(wù)于一幅或多幅圖像的計(jì)算機(jī)分析。機(jī)器
    發(fā)表于 05-13 14:57

    【我是電子發(fā)燒友】七步帶你認(rèn)識(shí)計(jì)算機(jī)視覺(Computer Vision)

    `計(jì)算機(jī)視覺(Computer vision)是一門研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說,就是指用攝影機(jī)和計(jì)算機(jī)代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量等
    發(fā)表于 06-14 21:06

    什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理

    領(lǐng)域,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言
    發(fā)表于 03-22 11:19

    計(jì)算機(jī)視覺與圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)學(xué)科之間的關(guān)系

    計(jì)算機(jī)視覺(computer vision):用計(jì)算機(jī)來模擬人的視覺機(jī)理獲取和處理信息的能力。就是指用攝影機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟
    的頭像 發(fā)表于 01-26 17:10 ?1.6w次閱讀

    深度學(xué)習(xí)后的計(jì)算機(jī)視覺應(yīng)用領(lǐng)域解析

    計(jì)算機(jī)視覺是使用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺的一種模擬,是人工智能領(lǐng)域的一個(gè)重要部分,它主要任務(wù)是通過對(duì)采集的
    發(fā)表于 07-22 16:49 ?1828次閱讀

    機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺的前20個(gè)圖像數(shù)據(jù)

    計(jì)算機(jī)視覺使計(jì)算機(jī)能夠理解圖像和視頻的內(nèi)容。計(jì)算機(jī)視覺的目標(biāo)是使人類視覺系統(tǒng)可以實(shí)現(xiàn)任務(wù)
    發(fā)表于 01-28 07:40 ?5次下載
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的前20個(gè)圖像<b class='flag-5'>數(shù)據(jù)</b>集

    計(jì)算機(jī)視覺重要性及如何幫助解決問題

      機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺是一種基于人工智能的計(jì)算機(jī)視覺。基于人工智能的基于
    的頭像 發(fā)表于 04-06 16:49 ?3649次閱讀

    什么是機(jī)器視覺計(jì)算機(jī)

    機(jī)器視覺是用于通過分析視頻和圖像幫助計(jì)算機(jī)做出決策的硬件和軟件的集成。在制造業(yè)中,機(jī)器視覺通常用于生產(chǎn)線上,以便在產(chǎn)品的每個(gè)階段進(jìn)行
    的頭像 發(fā)表于 12-26 17:51 ?962次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>視覺</b><b class='flag-5'>計(jì)算機(jī)</b>?

    什么是機(jī)器視覺機(jī)器視覺計(jì)算機(jī)有什么關(guān)系?

    機(jī)器視覺計(jì)算機(jī)視覺有什么區(qū)別
    的頭像 發(fā)表于 06-05 09:28 ?1270次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>視覺</b>?<b class='flag-5'>機(jī)器</b><b class='flag-5'>視覺</b>與<b class='flag-5'>計(jì)算機(jī)</b>有什么關(guān)系?

    機(jī)器視覺計(jì)算機(jī)視覺的區(qū)別

    機(jī)器視覺計(jì)算機(jī)視覺的區(qū)別 機(jī)器視覺計(jì)算機(jī)
    的頭像 發(fā)表于 08-09 16:51 ?1944次閱讀

    計(jì)算機(jī)視覺與圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)學(xué)科之間的關(guān)系

    計(jì)算機(jī)視覺(computer vision):用計(jì)算機(jī)來模擬人的視覺機(jī)理獲取和處理信息的能力。就是指用攝影機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟
    的頭像 發(fā)表于 01-18 16:41 ?536次閱讀

    機(jī)器視覺計(jì)算機(jī)視覺的區(qū)別

    在人工智能和自動(dòng)化技術(shù)的快速發(fā)展中,機(jī)器視覺(Machine Vision, MV)和計(jì)算機(jī)視覺(Computer Vision, CV)作
    的頭像 發(fā)表于 06-06 17:24 ?1242次閱讀

    計(jì)算機(jī)視覺屬于人工智能嗎

    屬于,計(jì)算機(jī)視覺是人工智能領(lǐng)域的一個(gè)重要分支。 引言 計(jì)算機(jī)視覺是一門研究如何使計(jì)算機(jī)具有
    的頭像 發(fā)表于 07-09 09:11 ?1155次閱讀

    計(jì)算機(jī)視覺機(jī)器視覺區(qū)別在哪

    計(jì)算機(jī)視覺機(jī)器視覺是兩個(gè)密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計(jì)算機(jī)視覺
    的頭像 發(fā)表于 07-09 09:22 ?407次閱讀

    機(jī)器視覺計(jì)算機(jī)視覺有什么區(qū)別

    機(jī)器視覺的研究目標(biāo)是讓機(jī)器具有類似人類的視覺能力,能夠自動(dòng)、準(zhǔn)確地完成各種視覺任務(wù)。
    的頭像 發(fā)表于 07-16 10:23 ?467次閱讀