智能音箱在2018年延續(xù)前兩年的熱潮,不過音箱本身并不能創(chuàng)造很大的經(jīng)濟(jì)價(jià)值,發(fā)展產(chǎn)業(yè)鏈才是未來勝出的重點(diǎn),智能麥克風(fēng)與語音處理器是跨產(chǎn)品型態(tài)的關(guān)鍵零組件,利基型的應(yīng)用、中文自然語言處理與邊緣運(yùn)算是我們廠商值得關(guān)注的重點(diǎn)。
2014年電商龍頭亞馬遜(Amazon)推出智能音箱Echo之后,經(jīng)過幾年的經(jīng)營,在2016、2017年大放異彩,引發(fā)一股智能音箱開發(fā)風(fēng)潮,也帶動(dòng)沉寂已久的智能家居商機(jī),除了Amazon,包括Google、Microsoft、Apple、Samsung、Sony、Line,還有京東、聯(lián)想、阿里巴巴、小米等一線大廠都陸續(xù)推出智能音箱,不僅如此,更多二線品牌廠商也趕上這波熱潮,保守估計(jì)目前市場上應(yīng)該有數(shù)十款智能音箱品牌,布局并搶食智能語音應(yīng)用背后帶動(dòng)的龐大商機(jī)。智能音箱包括三大部分:硬件、軟件服務(wù)、系統(tǒng)平臺(tái)。工研院IEK產(chǎn)業(yè)分析師陳右怡說明,硬件規(guī)格大致包括開關(guān)、燈光、語音處理芯片、麥克風(fēng)數(shù)組、喇叭、電池、Wi-Fi/藍(lán)牙無線通信模塊、顯示面板等,其中語音處理器與麥克風(fēng)數(shù)組攸關(guān)語音輸入質(zhì)量,也是這波發(fā)展過程中較受矚目的關(guān)鍵零組件。而軟件服務(wù)則是智能音箱的靈魂--智能語音助理,搭配技能(Skills),結(jié)合云端的系統(tǒng)平臺(tái),形成一個(gè)完整的產(chǎn)業(yè)生態(tài)系,以帶動(dòng)后續(xù)的商業(yè)模式。
智能音箱投入者眾
根據(jù)市場研究機(jī)構(gòu)Strategy Analytics研究指出,2018年智能音箱出貨量接近4,000萬臺(tái),2019年將挑戰(zhàn)6,000萬臺(tái),2022年還要進(jìn)一步成長至1億6,000萬臺(tái)左右,每年都是兩位數(shù)的成長率。Samsung繼去年與Microsoft合作推出的Invoke智能音箱后,2018年8月發(fā)表自有產(chǎn)品Galaxy Home(圖1),音箱里有六組擴(kuò)音喇叭及低音炮,用來提供環(huán)繞的播放音效;并內(nèi)建八組遠(yuǎn)場麥克風(fēng),可在較大的范圍內(nèi)接收語音指令,語音助理就是自家的Bixby,不過發(fā)表會(huì)上擺滿的產(chǎn)品都跟Apple Homepod一樣不能運(yùn)作,正式上市時(shí)間要再等等。
圖1 Samsung 2018年8月發(fā)表搭載Bixby智能音箱Galaxy Home,并內(nèi)建八組遠(yuǎn)場麥克風(fēng),可在較大的范圍內(nèi)接收語音指令
整體而言,智能音箱的發(fā)展,產(chǎn)品本身并不是最重要的,Amazon Echo最早就定位是中低價(jià)產(chǎn)品,99美元的售價(jià)到后來衍生的多種產(chǎn)品都不走高價(jià)路線,以其現(xiàn)階段市場領(lǐng)導(dǎo)者的身分,也發(fā)揮市場帶動(dòng)的效果,Amazon以電商的角色,不斷擴(kuò)展產(chǎn)業(yè)生態(tài)體系,并成為多數(shù)廠商仿效的對象。陳右怡表示,Amazon Echo串連了開發(fā)者社群、汽車服務(wù)業(yè)、智能裝置、日用品服務(wù)、共享/外送服務(wù)業(yè)、音樂串流服務(wù)業(yè)等。語音指令在搜尋上,顯然比現(xiàn)有的文字輸入便利,跟據(jù)市調(diào)機(jī)構(gòu)Gartner的研究,未來50%的各類搜尋,將會(huì)利用語音指令的方式呈現(xiàn)。
以可以執(zhí)行的技能而言,Alexa目前高達(dá)17,650項(xiàng),Google Assistant僅有468項(xiàng),Microsoft Cortana更只有174項(xiàng)。根據(jù)OC&C Strategy Consultants調(diào)查,擁有智能音箱的美國家庭中62%會(huì)使用智能音箱進(jìn)行語音購物,2017年美國語音購物市場規(guī)模約20億美元,預(yù)估2022年將達(dá)400億美元,5年內(nèi)翻20倍。由此可知,智能音箱擁有多少“技能”、能否帶動(dòng)商業(yè)模式的發(fā)展,才是其成功的關(guān)鍵,這些品牌大廠自然深知要努力將自己的商業(yè)模式,轉(zhuǎn)換延伸到語音應(yīng)用,并能提供更新、更多的價(jià)值才是發(fā)展重點(diǎn)。經(jīng)過這幾年的發(fā)展,智能音箱已經(jīng)出現(xiàn)更為細(xì)致的分眾區(qū)隔之路,鑫創(chuàng)科技產(chǎn)品經(jīng)理曾建統(tǒng)(圖2)認(rèn)為,通用型的智能音箱主要目的就在扮演智能家居控制中樞,除了豐富的技能之外,更需要完整的系統(tǒng)平臺(tái)與產(chǎn)業(yè)生態(tài)系加以配合,帶動(dòng)商業(yè)模式的發(fā)展,這部分只有資源豐富的大廠具備參賽權(quán)。另外,在區(qū)域市場與應(yīng)用上,也發(fā)展出許多功能較為單純,但滿足特殊需求的智能音箱,如廚房針對做菜、車上影音娛樂/唱歌需求的產(chǎn)品,適合中小型廠商切入。
智能麥克風(fēng)設(shè)計(jì)眉角多
近來有部分人士指出,智能音箱是過渡型的產(chǎn)品,就像電子書閱讀器一樣曇花一現(xiàn),不過就實(shí)際的發(fā)展來看,智能音箱目前呈現(xiàn)百花齊放的狀況,未來不管產(chǎn)品是否持續(xù)發(fā)展,語音識(shí)別成為重要的人機(jī)接口已是不爭的事實(shí),因此不管終端產(chǎn)品型態(tài)是甚么,絕對都少不了智能麥克風(fēng)與語音處理器,這兩個(gè)組件的技術(shù)與發(fā)展就值得更加深入的觀察。一般而言,MEMS麥克風(fēng)由背板(Back Plate)、氮化硅薄膜(Membrane)、1微米寬的空氣隙(Air Gap)組成,其中薄膜要求低應(yīng)力且柔軟,能夠靈敏地感測環(huán)境音壓的改變。現(xiàn)行的MEMS麥克風(fēng)技術(shù)均采用聲波致動(dòng)薄膜和靜態(tài)背板,英飛凌(Infineon)提出一個(gè)較復(fù)雜的雙背板架構(gòu),在兩個(gè)背板之間嵌入薄膜,也有兩個(gè)空氣隙,因此能產(chǎn)生更好的訊號(hào)質(zhì)量,訊噪比(SNR)達(dá)70dB,進(jìn)一步獲得更佳的高頻抗擾性,實(shí)現(xiàn)更出色的音頻訊號(hào)處理,并將10%總諧波失真(THD)的聲學(xué)過載點(diǎn)提升到135dB聲壓位準(zhǔn)(SPL)。智能麥克風(fēng)除了采用模擬微機(jī)電的制程之外,還有采用數(shù)字CMOS制程的麥克風(fēng),不管是采用MEMS或是CMOS都是利用半導(dǎo)體制程產(chǎn)生震膜以搜集聲壓,曾建統(tǒng)說明,除了傳統(tǒng)的單背板/單薄膜之外,雙背板/單薄膜、單背板/雙薄膜等改良型的架構(gòu)都有廠商提出,目的全是為了強(qiáng)化收音效率的訊噪比。而在系統(tǒng)的設(shè)計(jì)上,Amazon Echo帶動(dòng)的多顆麥克風(fēng)數(shù)組設(shè)計(jì)已成風(fēng)潮,但效果還是有很大的差異性。曾建統(tǒng)提醒,智能語音助理硬件的設(shè)計(jì),尤其是麥克風(fēng)數(shù)組,并不是硬件照抄就好,在設(shè)計(jì)時(shí)間要針對機(jī)構(gòu)與收音麥克風(fēng)進(jìn)行數(shù)組算法的調(diào)適,同時(shí)生產(chǎn)階段也必須提高機(jī)構(gòu)精準(zhǔn)度的要求,這兩個(gè)重點(diǎn)對語音助理裝置最終量產(chǎn)結(jié)果有很大的影響。就像通用型的Echo使用場景大部分是在客廳,類似的麥克風(fēng)數(shù)組設(shè)計(jì)套用到車用產(chǎn)品就不會(huì)得到最佳收音質(zhì)量;而機(jī)構(gòu)生產(chǎn)與組裝若不夠精準(zhǔn),會(huì)持續(xù)削弱麥克風(fēng)的訊噪比,原本70dB的產(chǎn)品可能于終端產(chǎn)品僅表現(xiàn)出35dB的效能。
關(guān)鍵組件整合設(shè)計(jì) 取得效能表現(xiàn)優(yōu)化
而在語音處理器部分,最主要是處理聲音的數(shù)字化與去除噪聲的訊號(hào)純化,由于智能語音助理的工作是透過AI算法,將輸入的語音訊號(hào)進(jìn)行語音識(shí)別與自然語言處理,擔(dān)負(fù)重要的人機(jī)接口工作,也是用戶經(jīng)驗(yàn)優(yōu)劣的關(guān)鍵,因此語音處理器的幾個(gè)主要功能包括噪音抑制(Noise Suppression)、回音消除(Echo Cancellation)、語音識(shí)別(Voice Recognition Assistance)、遠(yuǎn)距收音(Far-field Pickup)、清晰語音溝通(Clear Voice Communication)等就顯得非常重要。語音處理器技術(shù)發(fā)展已有滿長的一段時(shí)間,其實(shí)技術(shù)已經(jīng)相當(dāng)成熟,不過由于智能音箱將語音變成最主要的人機(jī)接口,聲音整體處理效能要求比過去更高,對噪音抑制的壓噪技術(shù)而言,環(huán)境聲音如車輛、旁邊人的說話聲音都算是一種噪音,如何找出正確的噪音來源,并保留最大的原音是這部分的挑戰(zhàn)。一般噪音分成穩(wěn)態(tài)與非穩(wěn)態(tài)噪音,機(jī)器運(yùn)作固定頻率的聲音是穩(wěn)態(tài)噪音,比較容易消除;非穩(wěn)態(tài)噪音就是非預(yù)期出現(xiàn)的聲音如旁人說話的聲音,也比較難消除。Samsung甫發(fā)表的Galaxy Home,為了收音效果特別采用八顆遠(yuǎn)場麥克風(fēng),遠(yuǎn)距收音的功能就是較遠(yuǎn)的距離之下一樣能收到清晰的聲音,做法就是首先偵測人聲,并放大人聲,但不放大噪音。曾建統(tǒng)認(rèn)為,若要提升收音效能的表現(xiàn),麥克風(fēng)與語音處理器整合性設(shè)計(jì)非常重要,除了遠(yuǎn)場麥克風(fēng)、擴(kuò)大MEMS麥克風(fēng)芯片尺寸、采用整合模擬數(shù)字轉(zhuǎn)換器(Analog-to-digital Converter, ADC)的數(shù)字麥克風(fēng)(Digital Mic)等做法都有,甚么設(shè)計(jì)才能在效能與成本上取得最佳表現(xiàn),目前其實(shí)沒有標(biāo)準(zhǔn)答案,建議還是回歸到產(chǎn)品需求,并進(jìn)行深入的軟件仿真與效能測試,才有機(jī)會(huì)開發(fā)出令市場驚艷的產(chǎn)品。
智能音箱的使用近期也因?yàn)?a target="_blank">網(wǎng)絡(luò)的便利性與不設(shè)防,產(chǎn)生多起網(wǎng)絡(luò)安全事件,所以語音處理器的安全機(jī)制逐漸被重視,恩智浦半導(dǎo)體大中華區(qū)微處理器及微控制器產(chǎn)品營銷經(jīng)理張小平(圖3)表示,保護(hù)隱私信息不輕易被入侵,需要內(nèi)建安全裝置的解決方案,除了保護(hù)用戶信息,透過整合的SDK實(shí)現(xiàn)算法加速,滿足語音、影音和音頻的需求,可整合A/V與機(jī)器學(xué)習(xí),滿足工程師對于統(tǒng)一平臺(tái)的要求,便于打造語音指令控制的聯(lián)網(wǎng)產(chǎn)品。恩智浦i.MX8M系列應(yīng)用處理器,兼具處理技術(shù)和邊緣運(yùn)算能力,能夠有效管理并縮短智能互聯(lián)裝置響應(yīng)命令和詢問的時(shí)間。張小平指出,該系列產(chǎn)品可用于智能電視、電視訂閱服務(wù)、條形音箱與其他智能音箱,以及媒體播放器和DVR/PVR。此外,該系列處理器也適合管理照明、恒溫器、門鎖、居家安全、智能灑水器等各類系統(tǒng)與設(shè)備,能夠讓使用者享受直覺簡單、迅速響應(yīng)的智能家居體驗(yàn)。如:僅需發(fā)出語音指令即可播放特定的電視劇集,如果對其中的演員感興趣,直接口頭詢問相關(guān)問題,屏幕上就會(huì)進(jìn)行搜索并顯示結(jié)果,整個(gè)過程都不會(huì)影響電視劇情的播放等。
語音助理為智能音箱靈魂
在基礎(chǔ)的硬件之外,具備AI功能的智能語音助理顯然是智能音箱產(chǎn)業(yè)鏈能否順利發(fā)展的關(guān)鍵,Alexa的跨平臺(tái)支持與技能多樣性,目前遙遙領(lǐng)先Google Assistant與Microsoft Cortana,陳右怡表示,智能語音助理的生態(tài)系發(fā)展難度更高,核心的技術(shù)包括AI深度學(xué)習(xí)算法、情境感知、自動(dòng)化控制、大數(shù)據(jù)分析應(yīng)用、云端存取等;發(fā)展策略上,可透過開放式AI API發(fā)展第三方開發(fā),擴(kuò)展語音助理的技能,也透過定價(jià)/收費(fèi)/分潤機(jī)制讓生態(tài)系更成熟;最后就是不斷強(qiáng)大生態(tài)系的規(guī)模與服務(wù)的多樣性與便利性,就像當(dāng)年的App Store一樣。而語音助理的服務(wù)包羅萬象,所謂“萬能”的智能語音助理應(yīng)該不存在,以目前四大語音助理來看,Google專長在搜尋、Siri專長在音樂、Alexa專長在購物、Cortana則是專精于商務(wù),廠商的產(chǎn)業(yè)鏈發(fā)展也有所側(cè)重,陳右怡相信,過幾年不同領(lǐng)域的語音助理霸主將越來越明確。而語言與在地化的經(jīng)營則是另一個(gè)重點(diǎn),目前英語系的語音識(shí)別與自然語言處理技術(shù)上已經(jīng)頗有突破,發(fā)展較為迅速;相較之下,中文的自然語言處理則有相當(dāng)大的瓶頸,也是我們廠商可以深入發(fā)展并保有優(yōu)勢的地方。
掌握特殊應(yīng)用與邊緣運(yùn)算趨勢
從硬件終端產(chǎn)品來看,大廠會(huì)投入更多資源發(fā)展通用型的智能音箱,產(chǎn)品型態(tài)也將更加多樣,整合于智能手機(jī)、筆電、各式家電等的狀況會(huì)更加普遍。我們廠商在軟硬件的發(fā)展上,應(yīng)該投入利基型的硬件產(chǎn)品與服務(wù),曾建統(tǒng)建議,特殊應(yīng)用的智能音箱結(jié)合在地化語音技術(shù)發(fā)展,是我們廠商的機(jī)會(huì)。中文AI化的困難性為廠商帶來藍(lán)海的商機(jī),只要深入累積語言分析與在地化語料,就可以建立競爭門坎,搭配我們原先就具備深厚基礎(chǔ)的硬件技術(shù)能力,可以在智能音箱市場走出一條自己的路。人機(jī)接口發(fā)展到語音是一大進(jìn)步,不過未來視覺、觸覺與念力都是下一波發(fā)展的方向,現(xiàn)在的語音AI技術(shù)也有布局未來人機(jī)接口的味道。以AI為核心的這些應(yīng)用,開發(fā)的范圍與需求的資源都較過去更大,訴求利基市場也不見得是單一廠商就能負(fù)擔(dān)所有技術(shù)開發(fā),需要與更多產(chǎn)業(yè)鏈上下游的廠商合作;智能音箱也是典型的邊緣運(yùn)算裝置,未來會(huì)將更多AI功能轉(zhuǎn)移到終端裝置,直接在邊緣進(jìn)行處理,對于云端架構(gòu)規(guī)模不如國外大廠的廠而言,采用較小的云端架構(gòu),并透過終端處理部分AI運(yùn)算,更適合我們廠商發(fā)展。
-
智能音箱
+關(guān)注
關(guān)注
31文章
1783瀏覽量
78498 -
語音助理
+關(guān)注
關(guān)注
0文章
27瀏覽量
8673
原文標(biāo)題:AI語音助理商機(jī)不斷熱燒 智能音箱軟硬件大躍進(jìn)
文章出處:【微信號(hào):iotmag,微信公眾號(hào):iotmag】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論