11月26日,由搜狐科技主辦的“2019搜狐科技AI峰會”在北京舉行,為廣大讀者解讀AI前沿新技術,探索行業新趨勢。
搜狗公司CEO王小川在會上展示了新發布的AI錄音筆。他預測,AI時代個人硬件趨勢是變得更IO,更便捷,因此音響不會成為未來的各類場景的入口,反而智能眼鏡會成為取代智能音箱成為未來趨勢。
他認為,關于互聯網和人工智能的未來,將從個人互聯網演變成為產業互聯網,最終形態是IoT,商業邏輯也或從賦能于人變成商業智能再變成機器人。具體來說,語言AI的發展方向是自然交互+知識計算。
他談到,有了機器智能之后,已經從人適應機器,變成了機器適應人。AI帶來的語音、圖像技術的突破,也會讓人們的生活更加便捷。
同時,他也向大家展示了語音合成技術和人工智能合成主播,這是全球首個出現在知識付費產品中的語音合成產品,通過將轉述師的聲音與演講人的聲音合成,把簡單的語音播報變成了一種語音表演。而合成主播則取代了原來新聞主播的播報工作,讓主播得到解放,能夠親到現場進行采訪,并且省去了妝發、燈光、攝影等繁雜工作。
以下為王小川演講全文:
尊敬的各位嘉賓、各位朋友,很榮幸,也很有壓力在鄔院士之后做我的演講。我的主題分為兩個部分:語言AI,以及2020+,因為2030年太遠了,也許這件事情2030年就干完了,所以就定在2020年。
在此之前搜狐科技的朋友都跟我說來點硬的,所以我帶來了這樣一款錄音筆,這是搜狗發布的硬件產品,也在“雙十一”的多個平臺銷量第一。可以看到這幾年當中錄音筆是一個很小眾的市場,2015年就開始有所下滑,每年銷量也就是400多萬支,但是搜狗為什么選擇這樣一件事情呢?因為2019年這個市場發生了逆轉,圖中桔色的線是去年錄音筆市場,可以看到由于手機的高度智能,這個市場開始減小,但是今年1-2月份搜狗發布新的產品之后,整個市場開始出現逆轉,好像電商搜索平臺的量又開始增加了。我們也成立了AI創新聯盟,核心就是錄音相關的,也把索尼、愛國者、紐曼這些巨頭都組建起來,應該說也是搜狗牽頭引領錄音筆行業發生的變化。
我們可以看到在這當中有一個巨大的趨勢,也就是兩個基本斷言,這個時代的硬件會呈現兩個特點:一個是更加IO,一個是更加便攜,這是技術、網絡以及各種各樣硬的能力給我們帶來的變化。
回顧一下二十多年前,我們用的都是臺式機,很重很笨,隨著技術的提升,一個巨大的提升就是更加的便捷化。以前的臺式機到筆記本、Pad和手機,再往下開始出現手表,耳機今年也非常火,再往下可能就是眼鏡,所以硬件從計算力到連接能力以及AI化之后的一個趨勢就是更加便攜。另一個趨勢就是更加強調IO能力。以前都是一個鍵盤、一個鼠標作為輸入,一個屏幕作為輸出,今天以手機為代表的大量虛擬觸屏和語音設備,也有強大的攝像頭,甚至開始有人臉識別、觸控模式,包括手表開始走向心律、心電圖的檢測,就是越來越強調IO。個人判斷音箱不會成為AI時代當中具有重大潛力的產品,雖然現在是亞馬遜開頭,因為音箱便攜能力不夠,不是跟著個人走的產品,IO能力不足,也就是聲音進去聲音出來,這樣的場景IO能力有限,后面的AI能力就會受到巨大的限制,我們預言未來五到十年間眼鏡可能會成為取代手機最重要的個人設備。
這些是我對人工智能和信息化的理解,也和鄔院士有所不同,代表著2C從業人員的判斷,如果有矛盾之處還是以鄔院士的為準。要把人和簡單的設備連接在一塊,能夠發郵件、聊天、看新聞看視頻,這些已經做得非常好了。有人說互聯網已經進入下半場了,好像做著做著就快沒了,只能往下深挖,但我并沒有看到瓶頸和限制,隨著5G和6G技術的出現,網絡正在不斷出現,升級依然是主旋律,互聯網文明仍然在往前走,那么就是工業互聯網、產業互聯網和IoT。
產業互聯網更像鄔院士講的運營網絡,使得網絡底層的數據都被信息化,通過SaaS等模式大大改進公司的運作效率,以前靠人做決策的事情現在逐步交給機器,甚至使得公司數據走出公司邊界,就像阿里的網絡協同、菜鳥網絡、小二以及其它廣告設計,大家都在同一張網上把底層數據打通。
IoT就是Internet of Things,所以是互聯網的一部分,但是中文翻譯的時候可能帶來一些誤解,因此往下信息化依然會強烈地展開。
人工智能這個詞從2016年開始就被問到非常多,如果我們忘掉這個詞,而是今天我們所說的數據智能,智能來自于數據,沒有數據的地方機器是沒有能力去做模仿的,更沒有能力去進行創造和推理,更多的就是在數據當中學習,有多少數據就能做多少人工智能,信息化做到多深人工智能就能做到多深,也就是穿透行業看到的視角。
談到語言AI,搜狗具有得天獨厚的優勢,就是讓語言更加性感。語言是人工智能皇冠上的明珠,代表著人工智能當中的最高水平。如果機器能夠和人對話,這個機器肯定擁有很強的人工智能,就像人一樣。我們看到一個機器,判斷它智能不智能第一做法是和它聊兩句。我們和外國人對音樂、視覺的理解都是一樣的,唯獨語言需要經過長期的學習。我們發明了語言,通過一種符號描述這個世界,也是知識和思維的載體,這是語言的魅力。
語言為核心的自然交互使得機器能夠接受人的表達。八十年代的時候如果大家已經從業,1990年之前學電腦就是學打字,我們當時最關心的就是如何把我們的表達讓機器能夠理解,甚至上升到國家領導人的重要課題。李嵐清到我們學校視察的時候我們就在演示新的技術,***就說小同學,一分鐘能打多少字?當時我聽了很生氣,這么低級的問題,但現在想起來,糧食的產量是物質的基礎,漢字的產量代表著人和電腦結合最基礎的元素。那個年代我們還在學習五筆,但往后走就是越來越智能,隨著機器能力的提升就從人適應機器變成了機器適應人,我們開始有了語音和視覺的識別,所以人機交互會構成一個不變的主題,如何能夠讓機器理解人最自然的表達方式。
今天的時代已經變得非常好了,隨著AI出現之后語音和圖像的突破,使得機器對人的表達能夠做得更好,那么就會帶來新的智能硬件,手機作為載體已經發展到了極致的狀態,往下也會把自然交互做得更高。
再就是知識計算,今天這在AI領域還是一個沒有被攻克的問題,就是讓機器產生像人一樣通過語言進行分析思考。目前我們是在垂直領域來做這項局部的工作,比如現在整個通用的計算能力不夠就放在醫療和客服,然后在局部領域把這樣的通用智能能力限制以后降到具體的行業當中,實現局部的計算力。看一看現在人工智能在兩個領域的能力,自然交互屬于感知的問題,感知的問題使語音圖像在今天得到深度學習的高度發展,而且是可靠的,甚至可以取代人,能夠比人更加精準地工作,但知識計算是更前沿的工作,也就是對語言和符號的理解。
前來說就是兩種做法:人機交互知識圖譜,或者我們在做搜索的時候,人和機器配合起來一塊工作,要么就是讓用戶去做選擇,機器不能獨立完成取代人的工作,也就是語言本身到現在還是一個懸而未決的難題。
自然交互當中最簡單的課題就是語音識別,隨著最近幾年深度學習的發展,已經達到了一個新的高度,搜狗輸入法支持每天峰值超過8億次的語音識別請求,積累了大量的數據和能力,包括方言、語種、語音增強的問題,也有很多實用性部署,所以今天這個時代語音識別已經不是什么難題了,但在這背后還有很多技術,我們來看這樣一個語音識別的場景。
可以看到這種語音識別融合了很多技術,科大訊飛北京研究院的朋友也在這里,一看就知道里面有些全能力的展示,不僅是識別得準,中間還包括了人身分離,通過AI算法可以知道聲音不一樣,除了語音之外也可以做笑聲掌聲方面的結構化識別,能夠進行符號化,也就是我們所說的感知不同類型的符號。再就是英文混說,由于深度學習原理當中并不具有中英文混說的數據樣本,所以傳統語言人在做英文識別的時候不是調動感知的反應,發現不對的話我們就在想到底什么英文詞能夠恰如其分地進行這種嵌入和轉化?這對核心語音識別系統是非常有挑戰性的事情,所以語音識別背后還有若干工作需要去做。
關于降噪這件事情,原來是聽不清楚一切都白搭,今天我們可以通過AI算法對歷史上發生過的4萬多種噪音進行相應的搜集和處理,也是做了非常大量的工作,能夠對各種噪音進行學習,在這種情況下就能夠把背景噪音進行很好的識別處理。現場有回響的回音和音樂的聲音,我們可以把噪聲進行分離。這是拿一個小的錄音筆作為例子,背后顯現出了很強的AI技術,并且已經做到極致。
除了語音識別之外,很重要的就是語音合成,前面大家可能覺得惟妙惟肖,已經和真人很接近了,但由于我們對語義有相應的理解,不同的段落當中會有抑揚頓挫和情感表達,到現在沒有一個系統能夠用獨立的文字轉化成一部長篇的故事或者長篇付費的音頻節目,也就是出現同樣的情感表達,因為背后有理解和表演的成分。兩周之前我們第一次在邏輯思維付費的音頻節目當中實現了本人語音合成技術,這種技術不是用文字和語音的轉換,我們可以嘗試用另外一個人來做一次朗讀,把自己的情感和自己對語音的理解代入進去,然后通過綜合遷移的方法把聲音皮膚附上去,這樣就是一種新的分工,有的負責語義理解,有的負責表演工作。
這是全球首次能夠把這種真人語音合成技術帶入實用,而且是在付費音頻節目當中,大概50%的聽眾都沒有聽出來和真人有什么區別,可能有的覺得沙啞一些,覺得感冒了,也有的很憤怒,我是來聽本人的表演,是花了錢的,你卻拿機器人來糊弄我,這種觀眾占到20%,可以看到這樣一些小心思。我們把制作和IP做到分離,生產之后能夠24小時不間斷地做商業節目,“假如生活欺騙了你,不要抱怨,抱我”,這項技術在未來各種場景當中都有實際用處,目前已經有31%的小朋友在聽“凱叔講故事”,很多都只認凱叔不認自己的爹了,我們可以把凱叔的表演和我的聲音合在一塊。
我們最早做語音技術的時候做了很好的唇語識別,不僅通過聲波可以知道說什么,我們也可以轉化為文字,這是一維的深度學習方式,要是只通過嘴唇運動進行識別,由此研發了基于三維的視覺表達,達到特定場景90%的效果。實驗室技術也有進行實用,如果大家感興趣的話可以在后面的展廳去嘗試,想出任何一句詩詞,不用發聲機器就可以知道說的是什么內容,十句當中有九句都可以識別出來。現在我們是從嘴形到文字變成到從文字到嘴形的合成,由此開始做這樣的分聲技術,就是人機交互不僅是人講的機器能懂,機器也可以通過交互像人一樣去做表達。
這是最近我們和新華社合作的一款產品,新華社從今年2月份開始就用機器取代人進行新聞播報,之后我們又做了好幾版的升級,能夠使得產品升級從表情、手勢都會變得更好。這樣的一個主持人從原來每周下午一、二、五上班,現在轉變為完全解放,開始升級成了一個采訪記者,拿著攝像機和麥克風去做實際的采訪,所以原有的工作已經被機器完整取代,不用化妝、燈光和攝像。新聞行業當中第一個被取代的職位反而是新聞主播,說明新聞主播本身的技術含量不是很高,不涉及到很多情感的表演表達。
平安普惠產品已經上線,以前都是靠人面對面的簽約服務,隨著技術的進步,人工客服已經被完全取代,我們提供語音合成和視覺合成能力,不過都是客服當中簡單的確認性服務,要是銷售的話估計這樣會把客戶嚇跑。
目前語音視覺已經開始逐步走向語言,今天能夠摸得到邊的技術就是翻譯,全球有70億人當中漢語為母語的人口占到多少?大概20%,全球英文母語的占到多少?其實只排在全球人口的第四名,要比葡萄牙語和印地語還少,但英文是今天全球通用的語言,網頁上95%的有效信息都是英文寫的,100%的商貿活動都是用英文。所以作為中國人很難堪的是,當我們去國際上交流的時候需要被迫做多年的英文學習,除非是在當地生活或者理解外國的文化,那么需要精深的學習,大多數投入的學習成本和得到的收益是并不值當的,是否能夠讓機器幫助我們做到更好的翻譯工作?
六十年代有了人工智能之后就一直在進行翻譯,直到最近才大放異彩,中國的機器翻譯是比美國做得更好,原因不在于技術更領先,而是態度更認真,今天的AI不僅靠算法,還要靠背后的數據驅動,中國公司是很努力地進行大量的數據搜集和加工工作。搜狗在2016年1月是全球首個在通用場景和大會上發布了這樣一個英到中的同傳系統,2017年1月也是行業當中首個英文檢索,識別中文詞語之后可以轉化為英文,這對英文不是足夠良好的人來講有機會在全球獲得交流信息,也是使用了一定的機器計算工作,加上很好的交互,使得我們的信息獲取方式極大地拓展。
2017年10月,我們首個發布離線深度學習產品,也是一款翻譯機。今天的深度學習網絡結構特別大,如何把這種結構裝到一個小設備當中?到了2018年我們是首個能夠在Q3做到英到中的同傳系統,也已經進入了使用狀態,包括在蘋果發布會當中進行精準轉寫,不過需要定期進行優化,包括醫療、科技、教育和物理學等等,因為機器并不具備足夠高的認知能力,需要不斷優化才能逐漸靠譜。
我們發現從感知到翻譯正在走向更深的體系,人機對談也是目前最有魅力的人工智能語言前景,就是蘋果的Siri再到Echo,我們正在努力構造對話問答系統,這也代表人工智能2C的最高水準。前些日子我們發明了針對問答的機器,也是在節目當中做了表現。由于這款產品收窄到了知識類的問答,就是問的問題一定是有答案的,在這種情況下機器是可以超過人的。這是2016年的“一站到底”節目,最早的時候是可以PK過人的,系統升級到了選手冠軍PK,再到后來要求先讓人三分,就是3:0開始去做,關閉了機器的搶答能力,在這種情況下我們依然做到了不錯的效果。因為這不是簡單的數據庫檢索,而是主持人提問,通過語音和視覺,閱讀網上上百億的網頁然后找到相關的答案,實時反饋比人更快,也是在搜索當中得到充足的使用。
面向個人的語言AI產品矩陣進行預測,一方面是自然交互的工作,文字到語音到圖像的展開,這件事情會使得感知方面機器能夠比人進行更好的取代,另一方面就是信息到知識計算的能力,所以可以看到橫向跑得很快,就是輸入法到智能硬件,不管是音箱到未來的耳機和眼鏡,這些都是視覺聽覺當中可以做得足夠的好,縱向就是需要收窄領域,畫虛線的也有醫療的問題,IBM Watson做了很久還沒有很大的突破。
電影《Her》當中最需要解決的就是一個性感的個人助理,交互層面方面我們已經可以解決,但是對知識的理解還是下一個十年我們希望能夠有突破的領域,就是讓人人都能夠有一個助理,甚至成為你的分身,這也是搜狗目前的使命。
實際上,AI與各行各業的結合已經深入肌理,傳統行業都在面臨著前所未有的變革窗口期。借助AI實現企業的轉型升級,已經從以往的錦上添花變成了如今迫在眉睫。AI將如何重塑行業,行業需求又如何倒逼AI技術的發展,成為了值得探討的問題。
責任編輯:ct
評論
查看更多