準確地描述圖像,而不僅僅是像一個毫無頭緒的機器人,長期以來一直是人工智能的目標。2016年,谷歌表示,其人工智能可以為圖像添加幾乎與人類一樣的字幕,準確率為94%。現在微軟說它已經更進一步:研究人員已經建立了一個比人類更精確的人工智能系統,以至于它現在位于nocaps圖像捕獲基準的排行榜首位。微軟聲稱,它比自2015年以來一直使用的圖像字幕模型好兩倍。
雖然這本身就是一個值得注意的里程碑,但微軟并不只是將這項技術獨家。它現在提供新的字幕模型作為Azure認知服務的一部分,這樣任何開發者都可以把它帶到他們的應用程序中。今天,它也可以在Seeing AI中使用,這是微軟為盲人和視障用戶開發的應用程序,可以幫助他們了解周圍的世界。今年晚些時候,字幕模式還將改進您在PowerPoint中用于Web、Windows和Mac的演示文稿,它還會在桌面平臺上的Word和Outlook中彈出。
Azure AI首席副總裁埃里克博伊德說:“[圖像字幕]是人工智能中最棘手的問題之一。它不僅代表著理解場景中的物體,還代表了它們是如何交互的,以及如何描述它們。”優化字幕技術可以幫助每一個用戶:它讓你更容易在搜索引擎中找到你正在尋找的圖像。對于視障用戶來說,它可以讓網絡和軟件導航變得非常好。
看到公司吹噓他們的人工智能研究創新并不少見,但這些發現迅速部署到運輸產品中的情況要罕見得多。Azure AI認知服務CTO黃學冬,考慮到對用戶的潛在好處,力推將其快速整合到Azure中。他的團隊用標有特定關鍵字的圖像訓練了這個模型,這幫助它提供了一種大多數人工智能框架所沒有的視覺語言。通常,這些類型的模型使用圖像和完整的字幕進行訓練,這使得模型更難了解特定對象是如何交互的。
黃學冬在一篇博客文章中說:“這種視覺詞匯的預訓練本質上是訓練系統所需的教育;我們正在努力教育這種運動記憶。”這就是為什么這個新模型在nocaps基準中占據了一席之地,該基準專注于確定人工智能對他們以前從未見過的圖像的字幕能力有多好。
但是,雖然打破基準意義重大,但對微軟新模式的真正考驗將是它在現實世界中的運作方式。根據Boyd的說法,看到人工智能開發人員Saqib Shaik,他自己也是一個盲人,也在微軟推動更好的可訪問性,他將其描述為比他們之前提供的產品有了戲劇性的改進。現在微軟已經建立了一個新的里程碑,看看谷歌和其他研究人員的競爭模型如何競爭將是一件有趣的事情。
責任編輯:YYX
-
微軟
+關注
關注
4文章
6567瀏覽量
103959 -
人工智能
+關注
關注
1791文章
46872瀏覽量
237606
發布評論請先 登錄
相關推薦
評論