微軟的一項新AI項目旨在自動為文檔和電子郵件中的圖像添加字幕,以便視覺障礙軟件讀取圖像。
微軟的研究人員在有關預印本存儲庫arXiv的論文中解釋了他們的機器學習模型的原理。
該模型使用可視語音詞匯預訓練(VIVO),它利用大量成對的圖像標簽數據來學習視覺詞匯。然后,使用帶有適當字幕的圖像的第二個數據以幫助教AI如何最好地描述圖片。
“理想情況下,每個人都應在文檔,網絡,社交媒體中為所有圖像添加替代文本,因為這可以使盲人訪問內容并參與對話。但是,可惜,人們卻沒有?!蔽④汚I平臺小組的軟件工程經理Saqib Shaikh說。
總體而言,研究人員希望AI能夠提供Microsoft現有字幕系統兩倍的性能。
為了對新AI的性能進行基準測試,研究人員將其納入了“無上限”挑戰。在撰寫本文時,Microsoft的AI現在在其排行榜上排名第一。
“無上限的挑戰實際上是如何描述您在訓練數據中沒有看到的那些新穎的物體?”微軟研究實驗室的首席研究經理王麗娟評論道。
希望使用Microsoft自動字幕AI來構建應用程序的開發人員已經可以這樣做,因為Azure Cognitive Services的Computer Vision軟件包中提供了該功能。
微軟令人印象深刻的SeeingAI應用程序將使用新的AI進行更新,該應用程序使用計算機視覺描述視力障礙者的周圍環境。
“圖像字幕是可以實現廣泛服務的核心計算機視覺功能之一,”Azure AI認知服務的CTO黃表示。
黃繼續說:“我們AI的這一突破以Azure為平臺,以服務于更多客戶?!?“這不僅是研究上的突破;在Azure上將突破轉化為生產所需的時間也是突破。”
改進的自動字幕功能也有望在今年晚些時候在Outlook,Word和PowerPoint中使用。
責任編輯:YYX
-
微軟
+關注
關注
4文章
6565瀏覽量
103952 -
AI
+關注
關注
87文章
30118瀏覽量
268406
發布評論請先 登錄
相關推薦
評論