“現在切入語音識別正是好時機,更早進入也是在教育市場,過去兩年一些公司的出貨量經歷了非常殘酷的考驗。現在行業進入拐點時期,我們進入正是最好的時間點”,探境科技CEO魯勇對<電子發燒友>表示。
“拐點”之說何來?
根據Gartner在今年8月底發布的“人工智能技術成熟度曲線”可以看到,處于生產力成熟期(Plateau of Productivity)的技術僅有兩項:語音識別(Speech Recognition)和GPU加速器(accelerators),且正處于爬升態勢。來自市場的反饋同樣如此,這兩項技術是當前落地最快、最多的AI項目。在語音識別的落地項目中,場景最多的當屬智能家居領域,以智能音箱為典型代表。但是,從用戶反饋來看,兩大問題已經浮現出來:一是在真實語音交互場景中,在復雜的聲場環境、噪音的影響下,語音識別準確率直線下降;二是越來越多安全問題的爆出,讓用戶對于家中的這個“云耳朵”充滿了擔憂。
第一批智能音箱在滿足了用戶的好奇心之后,成為非常雞肋的一個產品,要么在家中落灰,要么需要時時警惕,僅在偶爾使用時才敢接上電源。
在成為爆款這件事上,智能音箱讓業界失望了。
滿足好奇心過后,語音交互下一波靠什么撬動市場?是價格嗎?
是,也不全是。在巨大的市場痛點面前,誰能抓住用戶需求,真正解決問題,誰才有希望在這條擁擠的賽道上前進一小段。
市場正在開始新一輪的篩選。
市場需要什么樣的語音識別方案?
語音作為人機交互的重要方式之一,終極目標是實現自然的交互。而當前的技術遠遠達不到,在語音識別這一環節,解決噪音問題、提升遠場語音識別率、消除用戶顧慮/提升安全性成為當務之急。在家居場景下,語音識別面臨兩大挑戰:
第一是低信噪比。在我們的生活場景中,存在著一些高噪聲的環境,比如抽油煙機或者掃地機器人,這些設備上噪聲最低也有70分貝。麥克風距離這些設備非常近,而操作者距離麥克風會更遠些,這些因素疊加,會導致語音識別設備采集到的信噪比非常低,給識別帶來很大的挑戰。
第二是非穩態的噪聲的影響。傳統降噪算法無法處理,比如電視劇聲音/音樂突然的節奏變化,或者是做飯時叮叮咣咣的聲音等,都帶有突發性和不可預見性。
為了解決上述挑戰,增強語音信號質量、提升信噪比,業界通常采用麥克風陣列的方式。但是,在干擾信號和目標聲源方向接近的場景下,傳統的麥克風陣列增強算法幾乎無法處理。
據<電子發燒友>了解,目前市面上的智能語音芯片方案可粗略分為兩種:一種是披著“AI”外衣的DSP,這種方案可實現輕量級的NN支持,在識別指令數量方面有提升,但是通常并無降噪支持;另一種可支持RNN/CNN/DNN等模型、架構上通常采用MCU+NN或MCU+DSP+NN。
在魯勇看來,未來用戶體驗要求會越來越高,相應地將造成算法越來越復雜,對算力的要求將更高。只有從底層進行顛覆性創新,才能真正解決問題。
揭密探境語音識別三大核心技術
AI降噪+HONN神經網絡提升識別率在語音識別的研發過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環節。想做好識別,首先要在降噪處理上下功夫。
探境自研的AI降噪算法基于深度學習,不僅能夠處理穩態的噪聲,非穩態的突發性噪聲也能很好的過濾。據探境科技副總裁李同治介紹,憑借探境AI降噪算法的有效性,他曾將一批信噪比在3dB左右的語音數據做了測試,降噪后比降噪前提高30%識別準確率。
在對聲音進行降噪處理之后,就進入到了語音識別環節。在這一環節中,神經網絡模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。
以往的語音識別算法,用的最多的是全連接的操作DNN/DTNN。據了解,國內多家語音識別芯片采用的都是DNN的方法。
探境將計算機視覺的經驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設計了一個高計算強度的神經網絡,即HONN(High Operation Neural Network)。
圖:DNN與HONN區別
在高計算強度神經網絡里,每一個處理單元變成了立體維度,所能處理的信息量和計算密度,也遠遠超過傳統DNN/DTNN的方法。由于多了一個維度的識別,性能方面得到了顯著提升:DNN需要1.6M的存儲空間,而HONN僅需要350k,這意味著可以使用存儲空間更少、成本更低的芯片來做語音識別。
同時,DNN與HONN所需的算力相反。在處理高強度模型單幀時,HONN需要超過幾百兆OPS,而一般的DNN模型需要個位數的算力。兩者相差超過30倍。對于神經網絡來說,模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限,從國內外趨勢來看,最近工業和學術界趨向于使用算力需求大的模型來做建模。
據李同治介紹,就好比動物界大腦新皮層的容量決定著物種的智力程度,比如人類的新皮層容量是普通哺乳動物的近100倍,相應的,人類的智能程度超出普通哺乳動物幾個數量級。
卷積運算與人類大腦負責感知模塊的處理方法類似,能夠提取滿足大腦認知的本質特征。在參數數量相同的條件下,HONN通過卷積操作能夠提供更高的計算強度,提高模型的算力需求。相對安靜的環境下兩者之間差別不大,但是當信噪比進一步降低時,基于HONN的方法識別優勢非常明顯。
端到端FCSP雙麥算法簡化識別流程
“為了克服傳統分模塊語音增強算法的缺點,我們設計出了基于FCSP的端到端AI雙麥算法”,李同治表示。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復數子空間投影算法的簡稱。據了解,“端到端”是目前國際前沿的處理算法,亞馬遜、谷歌等都在采用類似的方法。探境基于FCSP的端到端雙麥算法直接輸入陣列信號,輸出的是最終的識別結果,中間部分全部交給基于深度學習的AI算法來處理,不再使用傳統的數字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優化,避免了語音增強與語音識別模塊錯配的問題。在信噪比為0dB時,相對于傳統的處理算法,相對識別錯誤率降低超過20%。
存儲優先的SFA芯片架構
魯勇談到,在核心技術方面,市面上一些玩家像是在跛著腳走路,要么有芯片沒算法,要么有算法沒芯片,這樣在市場上無法形成真正的競爭力。性能優異的算法+算力強勁且通用性強的芯片,才能充分發揮實力,探境就是要提供全棧式的技術能力,包括芯片設計、算法研究、軟件開發和系統集成,提供Turn-key整體解決方案。
探境的骨干力量在行業內擁有10-20年的工作經驗,其中一些曾就職于Marvell、英偉達、高通、Intel、硅谷數模等知名公司。基于多年的經驗和對AI未來的預判,他們決定推翻馮諾依曼體系,推出了存儲優先(SFA)的芯片架構。
SFA架構以存儲驅動計算,具有能效比高、資源利用率高、通用性強等特點。在SFA架構上實現深度學習時,只需要一個較高層次的神經網絡描述。SFA的編譯器首先將這個神經網絡進行全部融合,然后根據具體架構實現的規模產生一個統一的存儲流圖,再進行存儲節點的時空映射,最后根據各個節點之間的計算類型配置計算單元,組合起來形成一個統一的固件供SFA控制器使用。
在28nm常規工藝芯片的對比測試中,SFA架構在乘法器數目相同情況下(DRAM為LPDDR4),結果如下表,系統能效超過4T OPS/W,甚至超過12nm的芯片方案。
測試網絡 |
數據訪問量 DSP VS SFA |
存儲子系統功耗 DSP/SFA |
inceptionv3 | 32:1 | 9:1 |
mobilenetssd | 43:1 | 11:1 |
resnet50 | 17:1 | 6:1 |
VGG19 | 108:1 | 17:1 |
yolov2 | 47:1 | 12:1 |
注:測試方法為帶有卷積加速器擴展指令的DSP模式與SFA架構模式的對比
探境有一句宣傳語:NPU的性能,MCU的價格,背后動力主要來源于芯片架構的優化。設計這樣一個全新的架構難度不言而喻,據魯勇介紹,其中涉及數學、計算機架構、數據管理調度、硬件設計經驗等,是個復雜的綜合工程,并且要把這些方法揉在一起發揮出最大效力,通過算法和調度方式降低資源的連接復雜度,從而降低功耗,提高對數據本身的使用效率。他強調,SFA存儲優先,不同于存算一體架構。后者需要從底層工藝去修改芯片設計,而存儲優先是算法上的更新,無需修改芯片底層單元庫。在當前商業化節奏越來越快的潮流之下,這種架構更通用、更兼容,大大加快了商業化落地速度。
探境能否漸入佳境?
依托于獨有的AI降噪技術和HONN神經網絡,探境的Voitist音旋風611可以覆蓋絕大部分生活場景,量產供貨僅半年,已經實現百萬級出貨。目前,探境擁有約30家合作伙伴,包括美的、海爾等智能家居制造大廠,智能家居制造商阿凡達智控、渠道商世強科技也剛剛與探境達成合作。從探境首次曝光的產品矩陣來看,覆蓋低功耗產品、主流產品、旗艦產品三大系列、六顆AI芯片,對于離在線一體、本地NLP、超低功耗產品等都有布局,希望形成智能家居網絡的矩陣式入口。
離線智能語音交互是當前一個重要的細分領域,無需聯網可在本地實現語音交互,不僅能夠保護隱私安全,同時也可以減少用戶大量數據傳送到云端的壓力,當前主要應用于白電市場。可通過離線智能語音控制的家電產品目前包括:燈控、空調、電視機、油煙機、玩具等。
不過,探境不僅僅滿足于做一家語音方案公司。初嘗到語音市場的甜頭后,探境把觸角伸到了下一個紅利市場——圖像識別。據魯勇介紹,探境的圖像芯片在2019年Q4已經流片成功,在某些領域已經開始產生營收了。根據公布的核心指標來看,核心能效比IPS/W達800,是目前全球AI芯片中最高的,而這足以支撐探境去云端推理市場正面PK。
不過,就像魯勇所說,AI芯片像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達終點,誰在中途不走岔路。
探境能否從智能家居開始,打穩地基,漸入佳境?還需要市場應用最后給出答案。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
人機交互
+關注
關注
12文章
1200瀏覽量
55321 -
語音識別
+關注
關注
38文章
1721瀏覽量
112547 -
NPU
+關注
關注
2文章
270瀏覽量
18545 -
探境科技
+關注
關注
0文章
4瀏覽量
1804
發布評論請先 登錄
相關推薦
ASR與傳統語音識別的區別
ASR(Automatic Speech Recognition,自動語音識別)與傳統語音識別在多個方面存在顯著的區別。以下是對這兩者的對比: 一、技術基礎 ASR : 基于深度學習算
ASR語音識別技術應用
ASR(Automatic Speech Recognition)語音識別技術,是計算機科學與人工智能領域的重要突破,能將人類語音轉換為文本,廣泛應用于智能家居、醫療、交通等多個領域。以下是對ASR
物聯網系統智能控制產品的語音識別方案_離線語音識別芯片分析
01 物聯網系統中為什么要使用離線語音識別芯片 物聯網系統中使用離線語音識別芯片的原因主要基于以下幾個方面: 1、實時性與可靠性 實時性好:離線語音
什么是離線語音識別芯片?與在線語音識別的區別
離線語音識別芯片適用于智能家電等,特點為小詞匯量、低成本、安全性高、響應快,無需聯網。在線語音識別功能更廣泛、識別準確率高,但依賴穩定網絡。
Transformer模型在語音識別和語音生成中的應用優勢
隨著人工智能技術的飛速發展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,在
車載語音識別系統語音數據采集標注案例
車載語音識別系統是指利用機器學習算法實現的一種自然語言處理技術,載語音識別系統通過辨別聲音的語調、語速和音量,將所聽到的語音轉化成可讀取的語
情感語音識別的挑戰與未來趨勢
一、引言 情感語音識別是一種通過分析和理解人類語音中的情感信息來實現智能交互的技術。盡管近年來取得了顯著的進步,但情感語音識別仍然面臨著諸多
情感語音識別的應用與挑戰
一、引言 情感語音識別是一種通過分析人類語音中的情感信息實現智能化和個性化人機交互的技術。本文將探討情感語音識別的應用領域、優勢以及所面臨的
情感語音識別:技術發展與挑戰
一、引言 情感語音識別是人工智能領域的重要研究方向,它通過分析人類語音中的情感信息,實現人機之間的情感交互。本文將探討情感語音識別技術的發展
評論