微軟開發(fā)了一種新的圖像字幕算法,在某些有限的測試中,其準確率超過了人類。該人工智能系統(tǒng)已被用于更新該公司為視障人士提供的助理應(yīng)用程序 “Seeing AI”,并將很快被納入Word、Outlook和PowerPoint等其他微軟產(chǎn)品中。在那里,它將被用于為圖像創(chuàng)建alt文本等任務(wù),這一功能對于提高無障礙性尤為重要。
這些應(yīng)用包括微軟自己的Seeing AI,該公司于2017年首次發(fā)布。Seeing AI利用計算機視覺為視障人士描述通過智能手機攝像頭看到的世界。它可以識別家庭物品,閱讀和掃描文本,描述場景,甚至識別朋友。它還可以用來描述其他應(yīng)用中的圖像,包括電子郵件客戶端、社交媒體應(yīng)用和WhatsApp等消息應(yīng)用。
微軟沒有披露Seeing AI的用戶數(shù)量,但Azure AI的企業(yè)副總裁Eric Boyd告訴The Verge,該軟件是 “為盲人或低視力人士提供的領(lǐng)先應(yīng)用之一”。Seeing AI已經(jīng)連續(xù)三年被盲人和低視力iOS用戶社區(qū)AppleVis評選為最佳應(yīng)用或最佳輔助應(yīng)用。
微軟新的圖像字幕算法將顯著提高Seeing AI的性能,因為它不僅能識別物體,還能更精確地描述它們之間的關(guān)系。因此,該算法可以在看一張圖片時,不僅能說出圖片中包含哪些物品和物體(如 “一個人、一把椅子、一個手風琴”),還能說出它們之間的互動關(guān)系(如 “一個人坐在椅子上,正在拉手風琴”)。微軟表示,該算法是其之前自2015年開始使用的圖像字幕系統(tǒng)的兩倍。
該算法在9月份發(fā)表的一篇預印論文中進行了描述,在一個被稱為 “nocaps ”的圖像字幕基準測試上取得了有史以來最高的分數(shù)。這是一個業(yè)界領(lǐng)先的圖像字幕評分板,不過它有自己的限制條件。nocaps基準測試由超過166,000個人類生成的字幕組成,描述了從Open Images Dataset中提取的約15,100張圖片。這些圖片涵蓋了一系列場景,從運動到假日抓拍,再到美食攝影等等。
責任編輯:YYX
-
微軟
+關(guān)注
關(guān)注
4文章
6566瀏覽量
103957 -
AI
+關(guān)注
關(guān)注
87文章
30146瀏覽量
268419
發(fā)布評論請先 登錄
相關(guān)推薦
評論