科技訊11月16日消息,百度度秘事業部總經理景鯤在2017百度世界大會上宣布DuerOS2.0正式對業界開放。當天百度還發布了三款搭載DuerOS2.0的人工智能硬件產品,渡鴉raven H 、raven R及raven?Q。
景鯤表示,作為人工智能時代的安卓,DuerOS已無處不在。人工智能時代,人機交互方式依舊在變革,AI操作系統需要不斷學習和進化,DuerOS從1.0到2.0的全面升級,將會給用戶和行業帶來更好的“聽清、聽懂和滿足”體驗。
為了更好地喚醒萬物,小度智能設備開放平臺在技術能力、解決方案、平臺體系三個方面進行了全面升級。
技術能力的升級,包括語音喚醒能力、語音識別能力、合成語音以及AI能力的升級。
解決方案的升級,包括更好的遠場語音交互開發套件、更新的語音交互APP解決方案、更新的DuerOS for Apollo解決方案以及更新的跨場景跨設備解決方案;平臺體系的升級,包括新增的物聯網設備云、智能設備質量認證支持,平臺體系更加豐富。
與此同時DuerOS不僅大幅提升了原生技能的豐富度與用戶體驗,還發布了小度技能開放平臺。小度技能開放平臺將面向內容類、智能家居類、生活服務類合作伙伴,開放百度的自然語言理解、知識圖譜及系統意圖等核心AI能力。目前DuerOS的技能生態已擁有超過200個技能。
百度人工智能交互設計院院長關岱松在現場宣布人工智能交互設計院正式成立,該設計院將以報告輸出、產品測評等形式幫助幫助DuerOS的合作伙伴和全球AI產品在交互設計上不斷提升優化。
同時“普羅米修斯計劃”也正式啟航,該計劃包含開放超大規模對話式AI數據集、跨學科合作等,同時會通過一個100萬美元的基金用以鼓勵和培養對話式AI領域的優秀項目和人才。
會后,景鯤接受了媒體專訪,他在專訪中表示,目前大家在實際生活中對人機交互的感受還不多,但是人機交互是更自然的方式,百度非常有信心,我們需要給這個產業一點耐心。
在采訪中,有媒體問到人工智能操作系統的難度。景鯤認為,百度是唯一一個有資源、也有技術儲備、能夠知道每個模塊之間的挑戰在哪里、怎么能夠集成第三方的合作模塊的,甚至在某些場景里面,只有百度這個模塊做得好。景鯤認為作為操作系統,公司的基因也很重要。他認為百度是唯一一家真的有機會能夠把這個事情做成的,而且從百度現在整個進展來看,還不錯。(溫泉)
以下為專訪速記全文:
景鯤:大家好,我是景鯤,很多朋友都見了好幾次,都很熟了,大家朋友圈都看到了我很多信息,我負責百度度秘DuerOS平臺。
主持人:大家有什么問題可以提問。
提問:我是來自深圳關注智能硬件的一家媒體。當我們作為記者,其實用人機交互這種形式接受是比較快的,但是實際上有多少普通的老百姓有這樣的方式,用機器對話?我們看的比較多的場景是車里面,家里面用音箱,還有其他的部分,包括我們那么多的設備發出去了,真正有多少人在用,這個交互形式是不是成熟?DuerOS在這方面有什么樣的計劃?
景鯤:我覺得任何一代新的交互出現的時候,從原來的鍵盤、鼠標,到后來的觸摸屏,電阻屏,電容屏,這種交互變革不是一下子用戶馬上就轉變了。如果看整個智能手機的普及,iPhone4在中國出現,才開始真正大規模的普及。這個時候,我們需要給這個產業一點耐心,首先這個語音交互在某些場景下是更便捷、更自然的。像你剛才說的,在車的場景或者是家的場景,有的時候在像耳機這種穿戴場景,甚至有時候在手機的場景,手機放在車里面,我覺得都是一種更自然的交互。所以我們需要給這個交互更多的信心。這種交互變革更需要百度這樣的大平臺去推動。因為這樣的變革往往需要更多的資源和資本的力量。所以OS是放在時代前沿的位置,我們推著它往前走。說到如何讓老百姓接受,我覺得整體的體驗是很重要的。整個語音交互的體驗,不止是語音交互的喚醒,是對整個產品的顏值、聲音,整個一套端到端的體驗。這些都是推動人接受語音交互這種產品體驗往前走比較重要的因素。
我們內部在跟很多合作伙伴一起合作,所以我們能看到很多數據。我們看到的數據是很正向的,很多用戶在接受這種新的智能設備之后,從原來的好奇、到后面每天在一些固定場景的使用,其實都能夠養成一些習慣。這也是我們看到很多公司在不遺余力的推動這個方向背后,看到的一些信號。所以從我們的角度來講,我覺得是非常有信心的,是很正面的,用戶在接受這種新的交互。
提問:我來自搜狐科技。今天上午Robin講到免關鍵詞的這種自然語言交互方式,我以前也了解過其他廠商類似的方案,覺得這種產品用關鍵詞的話,可能隱私性相對好一點。如果沒有關鍵詞的話,有可能要把平時說的話識別出來上傳到云端,然后再傳下來理解,隱私的問題怎么保護?另外一個問題就是,現在有些廠商他們也推出了全棧式的語音開放平臺,DuerOS這邊怎么看待這個事情?以后有沒有相應的計劃?
景鯤:我覺得這兩個問題都問得特別好。第一個問題,隱私問題特別關鍵,可能很多媒體朋友都很關心。我稍微解釋一下,Robin的那個演示,他有些細節,不知道大家有沒有關注到。他是戴了一個耳機,我們在手機上的這種自然語言交互現在的前提是都需要戴著一個耳機,耳機是一個很私人的設備。另外他是用的手機百度的一個特殊模式,就是聽新聞的模式。如果大家下載手機百度9.0,這個模式是要先打開新聞,然后APP會提示你,已開始聽你說話。然后再提示你,戴上耳機更好。這個免喚醒詞目前是這樣的一種體驗。并不是家里的一個設備,一直在聽用戶說話。
提問:或者類似于那種智能音箱。
景鯤:現在還沒有用到智能音箱,因為智能音箱在家庭場景中的隱私、不同場景的隱私都是需要特別處理的。所以這種免關鍵詞的設備,目前就是在手機App中配合耳機來使用,并不存在隱私方面的問題。在家庭隱私方面,其實大家都會有很多考慮。比如說現在業界普遍的做法是先喚醒它,再跟它說話,這個時候才會跟云端有直接交互。你不喚醒它,這個設備跟云端沒有任何交互。這是關于隱私方面的問題。免關鍵詞是Robin在限定的場景、限定的設備上實現的。
你提到的一些公司研發語音套件,我其實特別高興,我跟他們是很好的朋友,在朋友圈里面有時候私下聊一聊。我覺得尤其在中國市場,甚至在國外市場也是一樣,推動的人不能是一家,要是一個產業,大家一起做。剛才我講到產、學、研,最好是產學研一起推,這個事情才走得快。所以我永遠覺得,市場最健康的時候是大家都往前推的時候。所以我特別開心,有些其他公司,包括將來的合作伙伴大家都在一起推進,我覺得這對產業是一個特別好的事情。
提問:有沒有相應的一些計劃?咱們會不會也會出全棧式的設備?
景鯤:我剛才說的DuerOS,其中有一塊是更好、更多的語音解決方案,所以我們就會有一個跟聲智科技合作的全棧式開發套件。為什么會推出這個?我們都是基于合作伙伴反饋的。我們在開發者大會的時候推出的是一個單獨的語音識別的套件,要搭配樹莓派一起用。有些開發者說做成一體化得更好,所以我們今天下午也會宣布跟聲智公司合作了,一體化的解決方案。
提問:我們知道,做一款語音交互的智能產品需要很多的技術板塊,比如信號降噪、語音識別等等,需要很多技術合在一起。今天我們看到很多的技術是拿來主義,比如語音識別用A廠商的,還有用C廠商的。然而拼湊就會有問題,比如一個做信號降噪和一個做語音識別的公司對接,前者的技術目標可能是降噪,讓耳朵聽起來清晰,但是耳朵的機理和機器是不一樣的,所以對后者而言,前者的信號處理是一個黑匣子。物聯網的時代,做產品的復雜度不是一個量級的,上下游之間耦合的時候會存在巨大的摩擦力。而且有一個地方堵住了,全部就都堵住了。我也聽到一種業界的聲音,人工智能行業短時間很難出現真正的操作系統。因為完全不一樣,沒法標準化。所以有人說,在業界走的比較久的人,他們會自己提到端到端,他們很難是一套操作系統。所以我想作為操作系統的代表,DuerOS怎么看待這個事情?
景鯤:首先我覺得你這個問題問得很好。將來慢慢產業肯定都會走標準化,基本上任何產業都是一樣的。比如說車這個產業,發展這么長時間了,你也會發現,特斯拉很多的元件也是從別人那里采購的,搭到一起,再經過端到端的打磨,并不是特斯拉每一個零件都是自己生產的,它的電池也不是自己生產的。所以我覺得,整個產業慢慢都會標準化,不同的人擅長打磨單獨一個模塊,把這個模塊優化到最優,沒有一個公司能夠真正有資源,每一個模塊都打造到最優,肯定是一個生態系統的合作,這是我對整個標準化未來的看法。
現在我們的渡鴉就是端到端整個的解決方案,為什么要做渡鴉?我覺得產品體驗最重要,端到端可能對某些不同的模塊把握得更好一些。渡鴉從設計到降噪,整個都是百度的。但是這個時候我覺得,人工智能對話式人機交互涉及到很多場景,有耳機、音箱、電視、車的場景,不可能一個公司全部的產品都是端到端的,這個資源太大了。所以這個時候,要能夠把業界最好的科技公司的技術適當的融合在一起。這個時候,我覺得就是操作系統的機會。因為你不可能覆蓋那么多的端到端,比如聲智科技,他在整個語音麥克風陣列識別上做得很好,跟很多大公司合作。從技術角度來講,我們可以找到比較清楚的邊界,同時統一打磨用戶體驗的技術路徑,并不是完全端到端才能實現的這種技術路線。在這個時候,你說是不是需要一個操作系統?我覺得是絕對需要的,要不然用戶體驗是不統一的。很多你看到的一些公司,小公司操作系統很難做,因為涉及到設備合作伙伴,不同的模塊太多了。我覺得百度是唯一一個有資源、也有技術儲備、能夠知道每個模塊之間的挑戰在哪里、怎么能夠集成第三方的合作模塊的,甚至在某些場景里面,只有我們這個模塊做得好。我覺得作為操作系統,這個公司的基因也很重要。我覺得百度是唯一一家真的有機會能夠把這個事情做成的,而且從我們現在整個進展來看,還不錯。
提問:早晨渡鴉登場的時間比Robin和陸奇加起來還要多,你覺得渡鴉這個產品的銷量會怎么樣?
景鯤:我聽說今天下午他們官網快被擠爆了。從我的角度來講我是很樂觀的,我永遠不會質疑中國人的購買力,你只要這個東西做得好,是可以打好某一個市場的。就像你這種很Fashion的,你要不買就不Fashion了,所以你回去得買一個,我覺得渡鴉有它的市常目前整體的智能硬件市場,說實話我覺得現在相比手機來講不算那么大。這個市場跟手機差了幾個量級,所以這個市場容量是巨大的。任何一個階段都有這個市場容量,并不是他打到那個階段,他的銷量就會被別的銷量挑戰,很多還是賣得很好。所以我覺得它是有它的市場的。但是我并不是太關注它的銷量,我們內部關注一個指標,叫“凈推薦值”。就是這個設備你買了之后,你會不會向你第二個朋友推薦。這是很關鍵的指標,這個代表產品體驗。只要這個值高,大家都覺得這個產品是一個好產品,我覺得這個目的就達到了。我們也不用給iPhone第一代一個很宏大的目標,但是它是人機交互的一個標桿,我們打出第一款產品來,這個目標就已經很好了。
提問:我是人民網的記者。我剛剛聽到您在臺上講的,開發者大會之后,我們有更多的合作伙伴,我想請問一下這4個月當中有沒有什么新的合作伙伴跟我們分享一下?屏幕上放了一些小米、美的等等,除了這些比較大的之外,如果有一些小的創業公司或者是個人開發者找過來,我們會采取怎樣的合作方式?
景鯤:首先我們個人開發者很多,我們大概做了三場圍繞開發者的線下活動。火爆程度都超乎了我們的預期,基本上200人的場來400人。所以我們看到,整個長尾的,個人開發者的熱情是特別高的。所以我們的開發套件,最開始我們做整個軟硬結合。7月5日我們發布的時候碰到了一個挑戰,就是我們的庫存不足,補了兩個月才滿足這個庫存。一開始我們沒有這么大的概念,但是這是一個信號,就是開發者的熱情是特別高的。關于我們新的合作伙伴,大概在這個月和下個月可能就會宣布兩個新的、很重量級的合作伙伴,這個我先不說,大家期待一下,是非常重要的合作伙伴。
今天下午因為你們先上來了,我們就有幾個重量級的合作伙伴宣布了。比如今天下午我們宣布了跟飛利浦的合作。他們是國外最流行的智能家居燈泡設備。DuerOS是首家跟他們達成這方面戰略合作的。今天下午我們跟招商銀行信用卡也宣布了合作,招商銀行是口碑很好的商業銀行。如果大家下載它的App的話,可以發現它的信用卡服務已經做得很好了。我們的合作是第一家銀行跟對話式人工智能接口的戰略合作。等一會兒會發布很多跟其他新的廠商的戰略合作。
提問:是哪個領域內比較排前的?
景鯤:我們把合作伙伴分幾層,第一層我們希望是每個品類、每個垂類里面的佼佼者和行業領先者,他們有聲量和勢能,他們對行業的把握非常準。第二層我們也有一些中長尾的合作伙伴,他們是很有行業代表性的。這些公司也不需要很大,但是它的產品很有價值,大家會盯著它。可能量不大,但是它可能代表一個標桿,這樣的合作伙伴是中長尾的。還有就是個人開發者和很多方案商,我們也有很多的合作,就不能一一枚舉了,特別多。
提問:我想接著問一下合作伙伴方面的問題。雖然今天力推渡鴉的新產品,但是同時DuerOS也在大規模的和第三方應用廠商進行合作。你們作為后面的賦能者,對自家和對別家的硬件廠商是否有一些區別?
景鯤:沒區別。從我的角度來講,我們內部一直做的一個比喻是Surface和聯想筆記本的比喻。為什么微軟推Surface?只是猜測,是因為需要一款新的設備,軟硬一體化的設備,去推動整個筆記本的變革,所以微軟做了一個Surface。雖然目前量也不大,但是推動著整個筆記本持續往前走,是一款體驗很好的設備。對于我們也是,渡鴉是一款標桿性的用戶體驗的設備。剛才說了,今天下午所有渡鴉背后的技術我們都會開放給我們的合作伙伴。在開發者大會上我們講過,百度要做的是一個AI平臺。百度目前AI平臺對于我們的壓力也很大,我們把平臺做好,這是我們追求的,所以我們要變成一個AI平臺的公司。
提問:剛剛您提到渡鴉背后的技術,我想問一下,目前渡鴉背后的技術相比于其他的智能硬件的廠商來說,最核心或者說最具競爭力的技術是什么?
景鯤:渡鴉除了產品本身的特性之外,跟DuerOS相關的技術包括,比如說渡鴉的麥克風陣列,它用了8個麥克風,上面蓋子4個,下面底座4個。像這種新的麥克風陣列技術,基本上現在應該是業內首家嘗試的。渡鴉設備上面的蓋子拿下來之后,它是可以按住說話的,也就是它是近場的。所以說這是一個遠場和近場融合的交互方式,這也是跟它的設備特性相關的。還有就是音樂的打磨,我們基本上把音樂升級之后,整個音樂標簽做得更多了。做了7千多個應用標簽,讓用戶在這種智能設備上,可以播任何一個標簽的音樂。加上我們很多新的能力,剛才在下面說,我們有100多個第三方技能,這些技能都會先跟渡鴉設備做一個緊密的結合。所以我覺得,渡鴉的整個產品特性是軟硬一體化的,是全面的融合。從設計到聲音,到我們的技術能力,到后面的內容,整個包裝成一個用戶體驗很好的產品。
提問:現在搭載DuerOS的所有硬件里面,您從后臺數據來看,哪一類產品的人均交互比例是最高的?
景鯤:都挺高的。我要說哪個最高,其他的就不高興了,其實都挺高的。
提問:剛才您也談到咱們有很多的合作伙伴和硬件解決方案,我想知道,落地最多的場景是哪些?以及您看好哪些產品?
景鯤:我只能從我們自己的角度出發。現在市面上看到大的手機的合作廠商,背后很多語音交互的能力都是我們提供的。潛移默化的,DuerOS已經在很多手機背后了。在電視的場景,我們無論是跟傳統的智能電視廠商、還是跟OTT有線盒子,還是廣電系的盒子,基本上都有很好的合作。音箱上也有很多,剛才說的有一家DOSS音箱,它本來是出口的,搭載Alexa系統出口到國外的。但是它瞬間就搭載了DuerOS系統在國內銷售,已經在亞馬遜上開賣了。車載我們是跟Apollo緊密合作在一起的,所以基本上我們跟北汽、一汽都會合作搭載DuerOS系統的設備。再其他的就更加分散了,像可穿戴、耳機,就稍微分散一些。幾個大的品類就是剛才說的那些。
提問:我想問一下,據7月份百度開發者大會已經過去幾個月了,您認為整個智能語音市場在這個格局發生了哪些變化?包括從技術、玩家。
景鯤:首先我覺得過去的4個月是特別突飛猛進的4個月,我沒想到這4個月變得這么熱鬧。我們從7月5日發布這個平臺之后,這4個月的過程當中,基本上中國數得上的公司都已經推出了類似的東西。所以這4個月的發展我覺得很好,從我的角度,我覺得特別高興。我們作為驅動,有很多不同的人、不同的公司都加入到這個過程當中去推動這種變革。
我個人覺得,人機交互真正的變革時間會比較長,光這4個月還不夠,可能要以年來計。現在大家都在起步階段,所有的公司可能都在起步階段,很多公司都在加入這個行業。所以我希望整個行業都能保持這種熱情,把這種人機交互再持續往前推,推到每個家庭,就覺得它是一個必需品。
提問:我們都知道百度的目標合作群體有很多,大到企業,小到個人開發者。企業就不說了,對于個人開發者來說,百度能提供一個什么樣的幫助和支持?讓他們能夠更好的開發?而且我們之前喜歡把這種關系形同為與iOS、Android對于App開發者的關系是一樣的。在實施的過程中,怎么樣能夠保證安全性和可操作性?
景鯤:安全性是指的隱私安全嗎?
提問:個人開發者肯定要用到用戶的一些隱私。作為百度來說,怎么能保證這個安全性?
景鯤:首先我說一下為什么我們要發展個人開發者?我們真正要推動一個產業,需要從產業頭部廠商、中小廠商和個人開發者共同推動。尤其我們看到一個信號:個人開發者雖然不具備很多渠道,但是它的創意是無限的,是特別有創意的,基本上可以把他的能力放在不同的設備上。前一段時間有一個開發者把語音對話的模塊放到了燕舞的收音機上,讓那個設備重新煥發了青春。燕舞公司直接找到百度,原來燕舞的群體是今天消費能力最強的群體,DuerOS讓他們的公司有了更多的活力。所以個人開發者對于我們的生態來講能貢獻很多想象力,是一個源泉,很有意義。說到隱私,我覺得倒不太存在,因為個人開發者往往開發的個人設備都是自己使用的,他沒有很強的渠道推廣能力,不能推廣到很多人,他都是自己使用的。
提問:百度能給這樣的個人開發者提供什么樣的支持和幫助?
景鯤:比如今天下午跟聲智做的一體化開發套件,相當于它將為個人開發者提供一個軟硬一體化的方案。我們今天下午還會發布我們的技能平臺,開發者可以在云端打造自己的技能,在云端把資源、能力、技能跟下面的搭載在一起,就成為他自己端到端的一個解決方案,自己可以玩,可以用,很好。
提問:我們經常做語音交互的時候,會按一下,Hi,Siri,或者是Hi,小度,或者說小度小度,有一個喚醒詞。我今天早上聽到在介紹的時候,在月末的時候不需要這種喚醒詞,請問這個技術是怎么樣實現的?
景鯤:這個跟剛才的那個問題是一樣的,這種技術只是在手機百度這個場景里面,在聽新聞的模式,是免喚醒詞的。需要進入一個特定的語音交互的模式,其他的模式里面還沒有應用到。
提問:我來自36Kr,咱們DuerOS一直強調要做人工智能時代的Android。從生態系統層面來看,您認為哪些環節是比較關鍵的?
景鯤:我覺得現在最重要的環節是用戶體驗。尤其是當我們的合作伙伴變多之后,是不是能保證每個設備都能有一個比較好的一致性的用戶體驗?這個對于我們來講是比較關鍵的。因為這種時候,最好能達到這樣的效果:就是能讓用戶在不同的場景里面,使用任意一款搭載DuerOS的設備以后,在那個場景里面都是喜歡這個DuerOS賦能的設備的,并且習慣一直用這個設備。所以我認為現在最重要的就是整個用戶體驗,你是不是真正買一個音箱回去能持續用?你說的話它能懂?打開包裝,有一個從來沒用過智能音箱的人說這是什么?你說這是一個智能音箱,一句話就能清楚,一句話就能跟這個設備交互,我覺得這種體驗是現在生態系統的核心,我們生態系統必須要靠比較好的體驗才能往前推。
提問:剛剛他們都說到我們之后要推一個沒有喚醒詞的設備,我很好奇,我們在開發者大會的時候收購了一個做喚醒詞的小的團隊,我想知道他們在這4個月當中是承擔著一個什么樣的角色?為什么我們收購了這樣一個做喚醒詞的小的團隊,現在我們又推出無喚醒詞這樣一項技術?
景鯤:它只是在手機百度App這個環境里面,朗讀模式免喚醒詞。不是在家庭環境中的那種智能設備的喚醒詞,那是做不到的,而且也存在一些隱私問題。所以只是限定場景,限定在App里面的人機交互。在家居的智能交互里面,喚醒詞是必不可少的,因為有一定隱私的保護性,先喚醒它之后再跟它說話,沒喚醒之前,他不跟人做任何的交互。我們收購的公司叫KITT.AI,是做智能家居領域智能交互的喚醒詞的。我們很多合作伙伴都想做自己的喚醒詞,包括DuerOS賦能的音箱、冰箱、電視,他們都需要在設備上為喚醒做優化。他們往往需要針對設備優化。因為麥克風的距離不一樣,麥克風的個數不一樣,所以需要對于這些設備進行特別的調優才能真正保證好的用戶體驗。通過KITT.AI,我們已經把這種技術推給我們的合作伙伴,搭載在他們的麥克風里面,使得效果更好。
提問:我們這次推出的智能硬件是搭載DuerOS系統的,和之前搭載這個系統推出的其他產品有什么能力上的差別?
景鯤:它是首先搭載DuerOS 2.0的。DuerOS 2.0實現了各方面的能力升級,其他的設備基本上都會被升級到DuerOS 2.0上。渡鴉相當于DuerOS 2.0的第一個標桿,我們后續會把DuerOS 2.0開放給我們的合作伙伴。
提問:我來自機器之心。DuerOS這個名字里面,我覺得OS應該是重點,現在各個語音廠商也都是有自己的平臺,模式其實看來是大同小異的。我想知道一下,DuerOS在一些商業模式、內容模式和本身技術的模式方面和其他家的差異化在哪里?對于OS這兩個字母,我感覺定義的是有一點模糊。如果搭載在一個智能音箱里面,我們跟它對話交互,它就算是一個OS。其他家的這種系統也是搭載在音箱里面能交互,為什么Duer就能叫OS?
景鯤:首先你提到商業技術能力,商業化目前不是我們的目標。我覺得在關鍵時候,先把用戶體驗做對了,這是最重要的。如果用戶體驗沒做對,商業都白扯,可能還到不了那一步,所以用戶體驗最重要。對話式AI大家都在做,大家都看好這個方向。7月5日我也在說,科技版圖上四家最大的公司都在做對話式AI。每家公司在做的時候,基本上都會沿用之前這個公司比較擅長的。它就自然變成了這個產品最大的特色,基本上可以這樣看。每家的DNA不一樣,每家做了這個平臺之后,感覺也是完全不一樣的。DuerOS是把百度最強的能力發揮出來的一個平臺,所以百度跟其他平臺有什么不一樣、DuerOS就有什么不一樣。比如有的友商語音識別做得很多,只是語音轉文字的。百度以前最大的市場是百度搜索的生態系統,百度對語言的理解是百度最大的不一樣。所以百度最大的不一樣放到DuerOS上,這就是DuerOS最大的不一樣。相當于DuerOS對語言的交互,對語言理解之后,還可以把更多的內容和資源,以及開發者,原來我們的開發者是網站開發者,后來是App開發者,把這些都聚到一起。所以DuerOS就變成了一個窗口,去訪問原來百度后面生態平臺的很多資源。所以DuerOS就是百度AI能力和資源集大成者的一個縮影,是對話式人工智能的一個縮影,所以它最大不一樣就是百度的勢能跟其他的公司不一樣。如果你這樣去評估別人的平臺,也能得到一樣的結果,就是每個平臺背后都有他整個公司的縮影,這就是這個平臺最大的不一樣。
對于OS明確的定義,其實最開始是我提出來叫OS的。我對OS更多的看法是它是一個生態,一個操作系統。操作系統背后是一個生態,是一個平臺,不僅僅就是音箱的一款產品。這取決于業務的發展思路,是做一款東西,還是想做成一個生態,把大家在這個平臺上一起推動發展。我覺得DuerOS代表了我們的愿景,OS就應該是一個生態。我稍微引申一下,一個OS最核心的關鍵點,不是它叫不叫OS,是它是不是有自己的生態。如果他沒有自己的生態,它就不是OS。移動時代有很多OS,有很多OS叫OS,但是后來你發現,它都沒有自己的生態。有自己的生態的全都可以稱為OS,Android有自己的生態,可以稱為OS,Windows有自己的生態是OS,如果你是附著在這些平臺上的就不能叫OS,因為你沒有自己的平臺。所以我們DuerOS也是希望在語音交互這種新的模式下,我們能夠創建自己的生態。這個生態是基于新交互的生態,這是我們為什么命名成OS的原因,就是它是一個開放賦能的平臺生態。
提問:今天最開始在宣傳片里面,大家說現在這個技術是基于Android或者是Linux的,是我看錯了嗎?
景鯤:你可以這樣想,原來那些系統都是上一代的,是一個底層的系統,并不是那么關心交互的。DuerOS其實是以用戶交互為驅動的一個操作系統。移動時代跟原來的PC有很多不一樣,AI技術跟原來的不一樣,AI的設備也很多樣。這種多樣的情況下,DuerOS要做的就是通過語音交互,把用戶統一在一起。雖然設備很不一樣,但是都用一個交互統一在一起。這是DuerOS要綁定的關系。其他的OS我把它看成是我們原來的系統適配層,適配到原來傳統的OS。但是DuerOS是一個語音交互的平臺,更上層一些。
提問:剛剛說到開發者,類似于DuerOS上面有100個Skills這種概念,這些Skills是開發者貢獻來的還是你們自己?
景鯤:我們有自己100個原生的。現在有很多開發者,作為我們前期的嘗鮮者,他們在我們的平臺上搭建了100多個第三方的Skills。
提問:原生的是100個,還有100個開發者的?
景鯤:對,第三方的。
提問:我來自界面。跟廠商合作的時候,您了解到他們會比較看重哪些指標?因為我發現有些廠商后來更換了百度的系統,不知道有沒有什么具體的一些策略?要做一個設備的Android系統,現在已經到哪一步了,您覺得還差什么?
景鯤:設備廠商現在最關注聽懂和滿足,如果用原來的核心三要素:聽清、聽懂和滿足,現在設備廠商最關心聽懂和滿足。很多智能音箱可能覺得有點傻,交互不是那么自然,問它東西它不懂。所以現在這一塊是我們的合作伙伴最關心的。其實這一塊是老百姓最關心的。老百姓不關心你這三個模塊,老百姓最關心我隨便問你一句話,你真正能懂我,給我一個東西。所以聽懂和滿足,是所有合作廠商現在最關心的。
提問:都是技術層面是嗎?
景鯤:滿足有點像資源豐富度的層面,聽懂是技術層面,就是有大家Query能聽懂。我們最近做的渡鴉設備,它在聽懂層面上是遠遠超過其他競品的,所以我們把它定位為標桿設備,或者是智能硬件設備。我覺得發展到現在,我們需要探索如何做一個最好的產品體驗。現在大家都有點Follow美國Echo的路線,就是他們怎么做我們怎么做。我覺得我們要做世界級的DuerOS。人機交互在美國也是很初期的,尤其在中國的場景里面,中國的家庭環境比較小,美國是大房子,中國是小房子,我們都是一居室、兩居室、三居室的房間,什么樣的交互是好的交互,多快的交互是好的交互?這些需要很多的探索。今天下午發布的百度人工智能交互設計院會在12月份發布行業里面第一個很有價值的報告,就是智能音箱的交互多快是快,多快是好。像這些東西,大家如果不關注用戶體驗,都不會看到這種細節,就會覺得現在Echo這個就是好,之前從媒體上我們都沒看到你們寫過智能音箱多快是好。
提問:1.5秒?
景鯤:我們現在基本上是1.25秒到1.4秒。現在講的極致的最好的是650毫秒。如果再快,在現在來講,用戶會覺得雖然你很智能,但有點搶話。就像這樣一個小問題,原來我們做搜索引擎的時候覺得越快越好,但是在這種新的人機交互上來講,你會發現有很多原來的認知都會有變化。所以我覺得在細節上,已經做了很多了。比如現在的智能音箱,你叫它一聲,現在有的不出聲,亮一個燈,有的音箱是你叫它一聲、它“叮”響一聲,有的音箱你叫它一聲,它回復“唉”,用人聲回復。我們發現,你在不同的時間點按,用不同的交互都是好的。1.4秒以后用人聲會好一點,人會覺得慢一點,人反饋會好一點。1.4秒以內用人聲回復,就會增強那種搶話的感覺,這個時候用“叮”一聲更合適。這個聲音跟人聲是不一樣的,可能不用人聲回答。再往前,Alexa就是指示燈,沒有聲音,不同的時間用不同的交互。我們在這個方面花了很多的時間,探索怎么能夠讓產品體驗最好。回答你剛才的問題,還是把用戶體驗做對。把每個設備在每個場景里面的用戶體驗做對,現在是最重要的。
主持人:謝謝各位媒體朋友,如果有什么問題的話可以隨時再聯系,感謝大家!
評論
查看更多