【導讀】2016年152層殘差網絡圖像識別精準率96%,2017年語音識別基準測試誤差率5.1%,2018年1月文本理解測試精準率88.5%,3月機器翻譯研究系統精準率達到69.9%,12月語音合成測試版在Azure正式上線,并首次達到超過專業翻譯人士的水平,微軟人工智能(AI)再次刷新世界紀錄。
12月18日,在IoT In Action峰會上,微軟全球資深院士首席語音科學家黃學東博士介紹智能語音和語言上的最新進展。首款媲美專業發音人的實時在線語音合成系統預覽版在Azure上正式運營服務。
黃學東博士表示,微軟在云服務上提供了世界級的語音合成服務,所有的互聯網內容提供商都可以享受這個世界級的技術。它不僅解決了過去20年機器語音識別錯誤率居高不下的難題,更是人工智能語音和語言上的一次歷史性突破——采用先進深度網絡學習,簡化了傳統語音合成的架構。
從以上圖片可以看出,左邊紫色系統架構下,微軟通過端到端的深度學習優化,為大家提供前所未有的、最自然的語音合成系統。
“基于神經網絡的語音合成系統”是業界第一個實時的在語音上上線的人工智能服務。黃學東博士指出,大家可以享受更好的語音合成質量、更快的引擎性能、更廣的全球服務部署。所有的內容提供商,不管是有沒有音頻、你的內容都可以轉換成自然的聲音表達,不管是在開車還是在睡覺,都可以享受高質量的交互。
同時,微軟聯合全球合作伙伴一起推出強大的語音麥克風陣列開發系統(Speech Devices SDK簡稱Speech DDK),它可以在25m之外都可以轉寫你的聲音,DDK不僅可供用戶免費使用,還可以整合到任何硬件設備中去,通過微軟云服務為用戶提供最先進的、世界一流的語音交互服務。
DDK讓智能音箱“說話”。這是一款眼觀六路的智能音箱系統,為企業級的會議轉寫提供前所未有的智能服務。
可以看到,它不僅僅是業界第一臺多人原場會議轉錄系統,而且是業界第一臺“睜開雙眼”的智能音箱。
隨著語音識別技術不斷取得進步。放眼未來,各國間的語言溝通障礙不再有任何問題,人類離人工智能真正的目標又將推進一小步。
-
微軟
+關注
關注
4文章
6516瀏覽量
103599 -
神經網絡
+關注
關注
42文章
4717瀏覽量
99998 -
語音識別
+關注
關注
38文章
1696瀏覽量
112247 -
人工智能
+關注
關注
1787文章
46060瀏覽量
234959 -
語音合成
+關注
關注
2文章
86瀏覽量
16095
發布評論請先 登錄
相關推薦
評論