百度剛剛發布了2019年全年及第四季度財報,總營收1074億人民幣、單季營收289億人民幣,除了營收上繼續保持雙向增長,人工智能新業務也展露出一些新氣象,并首次對外披露了這樣一組數據:
小度品牌第一方硬件的語音交互次數達到23億次(智能音箱、車載支架等),是去年同期的7倍多。
其實早在2018年第三季度財報時,百度就曾對外公開DuerOS(小度助手)的相關數據,不過彼時的數據主體還是DuerOS生態,TCL、vivo、索尼等合作伙伴的設備占了不小的比重。此時再看2019年12月的最新數據,小度語音助手的交互次數已經超過50億次,比去年同期增長了3倍多。
值得一提的是,百度特意在財報中單獨公布了以小度智能音箱為主的第一方交互數據,或許可以從中讀出這樣兩個信號:
其一,小度智能音箱的市場銷量在公司層已經得到了的認可;
其二,智能音箱背后的語音交互或將上升到了公司整體戰略。
對于第一個命題,諸如IDC、Canalys等市場研究機構已經在季度銷量報告中給出了答案。第二個命題似乎也不是什么新鮮話題,幾年前就出現了對語音交互價值的討論,但這一次似乎又有所不同。在“智能音箱大戰”的洪荒之力下,智能音箱正在以千萬級的季度出貨量走進一線城市到偏遠鄉鎮的家庭,“語音交互”不再是什么陌生詞匯。
也就是說,幾年前討論語音交互還屬于霧里看花,所有的觀點都建立在某種假想上,今天卻早已是一個現實的商業話題。
語音交互的遠景和近況
關乎語音交互的想象似乎從未停止,科幻電影《Her》中對語音交互的設定,大抵就是多數人認可的遠景:
1、語音助手可以個性化定制,選擇自己喜歡的聲音和性格;2、在數據處理上幾乎是萬能的,可以得到任何想要的結果;3、語音助手有自己的情感和思維方式,并可以被賦予形體。
在這樣的設定中,人工智能脫去了科技冰冷的面紗,有著人性化和活色生香的情緒,甚至可以讓人機對話變成情人間的絮語。和許多黑科技的誕生一樣,有了美好遠景的語音交互成了幾代“程序員”的奮斗方向。
特別是深度學習技術在2010年引入到語音識別領域后,蘋果Siri、Google Now、百度語音、微軟Cortana等“語音助手”類產品應運而生,有問有答的人機對話逐漸成為現實,哪怕機器還處于被動接受人類輸入大量數據階段,不能深層次理解人的意思。
智能音箱時代的語音開始進入到自然交互階段,不僅有問有答,人工智能還可以根據上下文邏輯和環境信息,作出個性化的決策或推薦。特別是百度等已經在智能音箱中加入了多輪連續對話能力,人們和智能音箱的對話正越來越自然。
可即便如此,現階段的語音交互和《Her》中的“薩曼莎”,還有著286電腦和iPhone一樣的差距。但站在商業的視角上,看到的卻是樂觀的商業前景,而非感嘆技術上存在的鴻溝,原因同樣有二:
一是現階段的語音交互業已成為主流的人機交互方式,語音識別的正確率在97%以上,可以滿足大多數場景下的信息輸入,無異于十年前的觸摸屏。
二是語音交互用戶體驗的優劣建立在已有的用戶數據上,很少有人會對智能手機產生依戀,對語音交互可能有不一樣的情感,商業基礎無疑更加穩健。
那么,當語音交互漸漸流行的時候,勢必會在商業上產生顛覆性的變化。
下一個BAT的“通關密碼”
事實似乎也是如此,互聯網的每一次繁榮都與人機交互方式的迭代不無關系。
比如PC時代的商業格局,幾乎是瀏覽器和搜索引擎主導的。
彼時用戶連接互聯網的行為被局限在鍵盤和鼠標上,稍微極客一些的用戶可以通過瀏覽器輸入網址連接信息,大多數用戶是在搜索框中輸入關鍵詞,然后點擊鼠標或回車鍵了解世界。在這樣的人機交互方式和用戶習慣下,信息的整合與輸出是“中心化”的,誰能掌握瀏覽器和搜索入口,誰就擁有信息分發的話語權,
智能手機的出現在某種程度上淘汰了鼠標,進一步催生了APP的產品形態,直接導致搜索和瀏覽器的中心地位被削弱。
與之對應的商業格局也迅速分化。早期的焦點是圍繞“應用中心”的爭奪,誰拿到了APP的分發入口,誰就能搶到最大的一塊蛋糕,以至于左右一些APP的存亡。后期進入到超級APP林立的時代,也就是我們現在熟悉的場景,微信、淘寶、百度、抖音等APP占據了大量的用戶時間,“時間”取代“入口”成為互聯網體系的“硬通貨”。
沿循這樣的邏輯,語音交互的流行可能讓信息的分發方式重新拐向中心化,商業格局也將走向新的轉折點。
一個直接的例子,當你給智能音箱發出指令播放某首音樂時,或許并不關心內容來自于哪家音樂平臺,被削弱的恰恰是APP的存在感。語音交互主導的信息分發可能比PC時代更加“大一統”,當大多數需求只要說句話就能解決時,用戶習慣中不會再有APP和瀏覽器的概念,也必將催生出新的“統治者”。
百度在財報中著重提及小度智能音箱語音交互次數的謎題,也就不難解開:
短期內的小度智能音箱為百度的內容體系帶來了新的落地載體,比如有屏智能音箱已經是愛奇藝重要的流量渠道之一,同時智能音箱與智能家居設備的無縫連接,也將百度的能力邊界從互聯網內容延伸到了IoT領域;
長遠價值則在于語音交互重構的新規則,中心化的信息分發恰恰是百度最擅長的打法。正如觸摸屏引發的移動互聯網浪潮,語音交互大概率將催生出新的生態,小度智能音箱的月交互次數和背后的用戶習慣,正是百度通往下一個時代的“通關密碼”。
簡而言之,下一個BAT出現的前提正是掌握語音交互的控制權。
新賽道開啟的“標志符號”
不過百度并非是唯一對語音交互抱有野心的玩家。
2014年與WP8.1一同發布的Cortana,被賦予了一個美麗的中文名字“微軟小娜”,甚至與Bing、Azure一道成為微軟“云為先,移動為先”戰略的核心產品;2016年小娜的語音識別率正式超越人類,并且可以處理復雜的口語指令;2018年為了讓小娜的表達聽起來更人性化,微軟還收購了一家名為“語義機器”的人工智能初創公司……
但在2020年微軟卻選擇戰略性收縮小娜業務,小娜移動版停止服務,并在微軟桌面中被移除,最終被集成到M365辦公類型應用中。
對于小娜的失敗,外界出現了各種各樣的解讀,比如微軟缺少移動終端的優勢,導致小娜缺少用戶行為的數據滋養;再比如微軟自身的固步自封,小娜缺少足夠的技能和應用場景,被用戶拋棄可以說是必然的宿命。
這些解讀不無道理,可回到語音交互本身而言,微軟小娜的失利不可謂不是一種教訓:要么做出足夠爆款的產品,讓語音交互的落地有一個標志性的符號,進而在產品上持續迭代,品類上不斷拓寬;要么沒什么標志性的產品出現,語音交互以靜默的方式在垂直行業中滲透,然后探路者在某個時間點被后來者超越。
微軟不幸成了后者,亞馬遜正努力成為前者。
在手機、PC和操作系統上近乎空白的亞馬遜,選擇了“Echo+Alexa”模式。其中Echo在某種程度上扮演了“標志性符號”的角色,以智能音箱的產品形式擺脫了用戶固有的習慣,逐漸接受了用語音喚醒設備的方式;Alexa被不少人定義為“數字助理”,確切的說應該是語音交互在行業中加速滲透的基礎設施,比如Alexa已經被內置于智能汽車、智能電視等硬件產品,并且擁有1.5萬種以上的技能。
國內的百度似乎有著相同的打算,同樣是一邊以智能音箱來培養用戶習慣,一邊以小度助手打造語音交互的應用場景。
按照以往的經驗,當一個行業開始出現“領頭羊”的時候,整個市場就會在變量的影響下開始高速擴張。智能音箱大抵就是語音交互歷史進程中的“標志符號”,在語音交互上領跑市場的亞馬遜、百度等互聯網玩家,已然是新賽道中的領頭羊。
寫在最后
除了百度在財報中披露的語音交互數據,或許還有另外一個視角:
2010年中國網民規模為4.57億,到了2019年這個數字已經增長為8.54億,智能手機的普及已然讓近4億人接入了互聯網世界。
但不可否認的是,三線以下城市的不少網民還不能熟練的使用鍵鼠,在手機上的操作也局限于語音聊天、刷短視頻等基礎應用。幾百塊的智能音箱正在創造新的聯網方式,哪怕是被輸入法阻隔在互聯網大門外的用戶,只要“說句話”就能搜索想要的信息。
一切美妙的化學反應正在發生中,一個新的商業賽道正在被緩緩撬開,留待百度們的使命在于:如何為語音交互延伸出更多的技能,以及進一步優化方言的語音交互,在技術上徹底踏平互聯網的門檻。
責任編輯:ct
評論
查看更多