作為語音賽道一個重度垂直的領域,聲紋識別終于從“等風來”,成為站在“風口”上的技術。盡管同為生物識別技術的指紋、人臉識別已經快速搶占了市場,但隨著新一波人工智能技術的發展,聲紋識別有望因提升用戶體驗、安全性等方面的獨到之處而迎來發展高潮。
聲紋識別近年來主要經歷了哪些重大突破?發展主要受益于哪些驅動因素?
首先是技術驅動。近年來,依托算法迭代、模型升級等優化措施,識別準確率有提升,并根據特定專題的研究,初步解決了穩定性等問題;更重要的,隨著抗時變、防錄音技術的進步,大大提升了安全性和用戶體驗,打消了人們對聲紋識別可靠性的顧慮,使這項有潛力的技術真正走上規模商用的道路。
其次是政策驅動。經過中國建設銀行等第一波應用單位的示范,金融行業逐漸認識到聲音作為身份密碼是可行的。去年央行聲紋應用標準的頒布,對行業基本面起到了較大的推動作用,該標準明確傳遞出一個信息:生物識別技術的應用在追求用戶體驗時必須重視安全和隱私,其信息的傳導范圍遠遠超出了金融行業,它使得現階段,技術和場景的匹配真正明確。
第三是用戶認識觀念和使用習慣的變化。這一點得益于智能客服、智能音箱等以語音識別技術為主的消費級應用場景的普及,人們在真正體驗到語音交互的便利之后,提出了更高的個性化需求和安全要求,可以說,語音識別技術幫助聲紋識別技術在C端快速完成了用戶教育。
聲紋識別可助智能設備“聞聲識人”
當前熱門的智能設備,不論是百“箱”大戰的智能音箱,還是百“機”爭鳴的智能機器人,初期這些產品在交互方式上實現了一定程度上的智能,但在交流方式上卻有欠缺。所謂交流,即有明確的對象,與不同對象交流有不同的回應,才是更為智能的體驗。聲紋識別——正是實現這種“聞聲識人”的技術手段。以智能音箱這一典型產品為例,阿里的天貓精靈、京東的叮咚音箱二代,以及華為的小藝音箱等,紛紛加入了聲紋識別功能。這一功能可以使智能音箱在競爭中體現出差異化的優勢,而不只是千篇一律地回答天氣查詢、搜索歌曲名和定鬧鐘等功能。它能夠根據不同聲音識別出不同的使用者,提供更為個性化的內容回應,并且保證了安全性和私密性,特別是在進行在線支付時操作更為便捷。HomePod是蘋果在2017年推出的智能音箱產品,在今年的全球開發者大會上,蘋果也宣布在HomePod 加入了聲紋識別功能。
在CSDN組織編撰的《2018中國人工智能產業路線圖》中,曾將語音交互劃分為三個階段:
L1階段:能以極高的準確率,在典型環境下響應用戶的語音輸入;
L2階段:能以極高的準確率識別出交互的當事人和環境,然后進行個性化的交互;
L3階段:只要有數據,語音交互系統的能力就可以無邊界擴展(包括個性和能力)。
在L2階段體現的就是個性化,語音交互不再停留在千人一面的固定化模式中,而是實現千人千面的個性化交互體驗。在這一階段,聲紋識別技術將成為新的標配。
“人臉識別”遭打臉,聲紋識別為什么變得重要?
聲紋識別為什么開始得到關注?除了上文提到的進一步提升用戶體驗之外,在滿足高安全場景的訴求時也有獨到優勢。AI對抗AI的音視頻欺騙事件近來屢有發生,不論是被騙的人臉識別系統,還是偽造聲音進行的金融詐騙,這些事件給AI的發展前景蒙上一層陰影之外,也讓個人對于自己身上的“活”密碼(指紋、臉、聲音、瞳孔等)的安全性產生了擔憂。特別是前段時間一夜爆火的AI換臉“ZAO”,使得這種擔心達到極致。每個人獨一無二的生物特征,一旦暴露了該怎么辦?
事實上,指紋、人臉是靜態的生理特征,并不能體現出個體的動態變化,因此很容易出現被盜用等安全問題。而“聲紋”作為一種特殊的行為特征,每個人在說話過程中所蘊含的語音特征和發音習慣幾乎是不可替代的,即使是模仿,也難以改變說話者最本質的發音特性和聲道特征,它是一種“動態”的識別,因此與其他靜態的生物識別方式相比,不僅具有特定性,也具有相對的穩定性,它不容易丟失,可以做到“失聲(音)不失身(份)”,偽造起來也更為困難,因而被認為認證強度更高、更安全。
場景驅動下的商用浪潮
事實上,聲紋識別雖然未在智能手機這樣的消費級產品中普及,卻早已在金融、安防、公共服務等領域得到較為廣泛的應用。成立于2002年的得意音通屬于國內較早布局聲紋識別領域的企業之一,形成了聲紋技術自主專利多層保護,并與公安部、人民銀行、工信部共同主導了聲紋相關標準的制訂。以其“聲密?!睘楹诵?,可在手機銀行、聲紋身份認證云、社保生存認證、聲紋門禁、聲紋考勤等領域提供相應的產品和服務。
為泛金融身份認證護航
通過多年來的布局,得意音通在金融領域最早形成了規模應用,其主導起草的《移動金融基于聲紋識別的安全應用技術規范》已于2018年10月9日由中國人民銀行頒布至各銀行、證券、保險、基金,以及非銀行支付機構,成為我國金融領域第一個生物特征識別安全應用技術標準,大大推動了聲紋的行業落地與應用合規。
是什么樣的契機使聲紋識別技術最先在金融行業落地?得意音通CEO倪鳴介紹,金融領域因其豐富的場景、海量的數據、對可靠性的高要求和廣泛的用戶反饋等,一直是人工智能技術在民用領域(相較于公共安全領域)的理想試金石。
聲紋識別也不例外,在4G時代,金融行業催生了手機銀行這一形態并迅速普及,使得金融級遠程身份認證的需求激增,而聲紋識別剛好可以滿足這個需求。2016至2018年間,中國建設銀行、貴陽銀行、蘭州銀行、西安銀行、中國銀聯、中國互金協會等多個金融單位和機構都上線了聲紋識別身份認證服務,用于賬戶登錄、大額轉賬、無卡取款、密碼找回等業務場景。微信和支付寶也上線了基于聲紋動態口令的登錄方式。此外,在信貸業務中引入聲紋識別技術作為反欺詐手段,還可有效降低冒用他人身份進行騙貸以及多頭貸款等事件的發生率。
為公共服務提供便利
隨著語音技術的普及,越來越多的聲紋識別應用場景還在不斷涌現。如利用1:1聲紋確認技術,可幫助居民領取養老金等社會保障金時足不出戶自證身份。
城鄉養老保險是社會保障體系的重要組成部分,然而冒領養老金的事件時有發生,每年冒領總金額以億元計,但若要求高齡老人親臨現場驗明身份又非常不便。由于聲紋確認技術具有很強的遠程操控屬性,社保局通過預裝聲紋身份認證系統,便于進行遠程身份認證,為長期居住外地、高齡、重病等特殊情況的老年人提供了方便。同時,由于聲紋可很好地防假冒攻擊,為社保體系防冒領提供了很好的技術保障手段。
去年,得意音通的“聲紋+”身份認證云已在貴州省貴安新區落地,現已覆蓋貴州省金融、社保、公安等領域,隨著央行聲紋標準發布,以及中國電子政務網、內蒙古社保、西北某省等項目的逐步落地,得意音通聲紋身份認證技術的應用逐漸北上。今年八月,與烏蘭察布市人民政府簽署了戰略合作協議,共同建設“草原云谷”“聲紋+”身份認證云基地,以輻射周邊諸省。相鄰的內蒙古自治區包頭市、黑龍江省牡丹江市等作為試點區,已率先開展了聲紋認證領取養老金服務。
個性化語音交互場景正在涌現
聲紋識別還可完成個人日常生活中各種事物訪問控制的授權,比如智能手機鎖屏、各類網絡賬號的聲控密碼鎖、電腦聲控鎖、聲控安全門、汽車聲控鎖等。
利用1:N聲紋辨認技術,可在一定程度上防范電信網絡詐騙,還可支持智能音箱、智能語音助手等提供個性化服務,如針對家庭用戶中的老年人、兒童等不同年齡段用戶,按照興趣推薦不同的歌曲、新聞,以及開放特定的功能權限等;利用聲紋檢出和追蹤技術,可取代人工完成會議紀要,通過語音識別和聲紋識別技術的結合,將會議錄音通過語音識別技術識別說話內容、通過聲紋識別技術標注每段話所對應的說話人,即可輕松完成多人會議記錄,大大提高工作效率。
未來的爆發點和挑戰
對于聲紋技術爆發的關鍵點,倪鳴認為決定因素主要有二:一是在于技術和場景的最佳匹配;二是在于聲紋建庫的建立,也就是當合法的聲紋模型數據積累到一定量,就會產生裂變。有人將2017年看做智能語音交互元年,2018年則可以說是聲紋應用元年。2017年,各大品牌廠商打造的智能音箱紛紛上市,2018年語音交互落地突然加速,相關產品從智能音箱擴展到其他品類,如電視盒子、鬧鐘、燈、智能馬桶等。這些應用幾乎都產生了通過遠場聲紋識別實現個性化語音交互的需求。倪鳴強調,需要注意的是,這類面向未來物聯網應用的新興需求大部分還處在探索階段。
聲紋識別目前在商用落地以及下一步的發展方面還面臨哪些挑戰?有哪些主要的克服手段?倪鳴表示,從技術發展來看,聲紋識別當前還存在以下兩大類挑戰:
一是魯棒性挑戰:
魯棒性是指聲紋識別抵抗其他因素干擾的能力。這些干擾可能來自:
1)說話人自身。比如說話人隨著身體狀況改變而發聲的聲音改變、隨著年齡增長而發聲的聲音變化、不同情感、語氣、語速情況下的聲音變化。
2)也可能來自說話人之外的環境。比如噪聲干擾、遠場情況下收錄到的聲音發生的變化。如何在眾多干擾之下,精準的對聲紋進行識別,是一個重要的研究方向。
3)還有可能來自說話的內容。例如超短語音挑戰。短語音是指系統的識別性能對語音長度的依賴性。較長的語音會達到更高的精準度,但顯然,過長的語音會影響用戶體驗。并且在一些特定場景下,比如司法應用中,系統只能收集到有限長度的語音。因此如何在較短語音長度的情況下,提高系統的識別性能,也是一個重要的研究方向。
二是安全性挑戰:
1)防攻擊能力。是指聲紋識別系統拒絕非真實說話人的能力。這些嘗試進入系統的聲音,可能是由人類模仿發聲的,也可能是機器偽造的,比如通過語音合成、聲音轉換以及錄音重放技術,產生出和真實說話人相近的聲音,嘗試進入系統。如何阻止這些假冒語音通過系統,是很重要的研究方向。
2)情感識別能力。相關問題有兩個:一是要做到不同情感下都能準確識別,可稱為情感魯棒性;二是要能識別出用戶是否處于被脅迫或者處于焦慮狀況下等,可認為是理解用戶的意圖真實性。而后者更為重要,所以將它歸為安全性挑戰之一。
由于較早將聲紋技術帶出實驗室接受市場檢驗,這一先發優勢造就了得意音通今天的市場地位。通過多年的積累,得意音通擁有“聲紋識別+動態密碼”身份認證方案的原始發明專利,還擁有與之相關的支撐技術和應用技術國家發明專利10余項,其中的國際發明專利已在日、韓、美等國獲得授權。圍繞這些核心專利,構筑了完整的專利墻體系。在多項國際賽事中,例如國際音頻情感識別競賽MEC 2017、國際自動說話人驗證欺騙和對策挑戰賽ASVspoof 2019等,得意音通均榮獲冠軍。
多生物特征識別融合成為必然
一個值得關注的趨勢是——由于不同場景對生物特征的適應性各有不同,多生物特征識別技術融合已經成為必然。針對金融交易驗證,央行科技司司長李偉最近就指出,部分機構高估了弱隱私特征的識別作用,在網絡空間僅依靠人臉等單一特征進行金融交易驗證,存在嚴重隱患。他表示,不能簡單地將人臉特征作為唯一的交易驗證因素,須根據風險等級結合用戶口令等其他因素進行多因素認證。
而目前看來,“聲紋+人臉” 的身份認證產品,既解決了單一生物特征所具有的局限性,同時可覆蓋更多身份認證場景,滿足用戶的多樣式要求。得意音通在“聲紋+”多維融合身份認證解決方案方面投入已久,今年4月,推出了無感式“聲紋+人臉”方案。
倪鳴強調,這一多維方案并不是聲紋與人臉識別簡單的疊加,而是深度融合、一步完成、多重防偽,實現安全與體驗的雙重提升。此外,還有情感識別、唇紋識別、唇語識別等眾多創新技術,也在不斷開發中。
“孤軍奮戰的日子一去不復返”
“聲紋開始熱了,產業態勢已成,孤軍奮戰的日子一去不復返。再好的科研成果,只有從象牙塔里走出來,放到實踐中去檢驗,才能發光發熱,造福社會。作為行業老兵,我們感到欣慰,因為這證明了我們當初的判斷和堅持是正確的”——這是清華大學人工智能研究院聽覺智能研究中心主任、得意音通創始人、得意音通信息技術研究院院長鄭方在《中國聲紋識別產業發展白皮書》發布時的感慨。目前國內主流聲紋識別企業主要背靠清華大學、廈門大學、中科院聲學所、自動化研究所等高校和科研機構,得意音通則是清華系的典型代表。雙方建立了“產學研”合作生態,清華以知識產權入股得意音通,得意音通投資反哺清華建立聯合實驗室,從而保證了能夠不斷將最新的前沿研究成果運用于產業,同時建立起了穩定的人才儲備梯隊。
從專利數量來看,2013 年起,國內相關專利公開數量呈大幅上升,5 年內翻了 10 倍以上。相對專利公開數量,專利授權數量相對增長較緩,總數不超過 40 件。但是2018 年,不論是公開數量還是授權數量,專利增幅均達到歷史峰值。
圖:國內聲紋相關專利申請數量宏觀態勢
(來源:《中國聲紋識別產業發展白皮書》)
據前瞻產業研究院的分析,當下全球生物識別產業規模龐大,僅語音生物識別(注:即聲紋識別)這一細分方向的市場規模就將近百億美元,預計2020年更是有望超過200億美元(合 1346億元人民幣),占整個生物識別市場的22.4%。(來源:《中國聲紋識別產業發展白皮書》)
從網絡身份認證應用領域來看,據國外權威調研機構MarketsandMarkets數據顯示,2019 年網絡安全市場預計增長至1557.4億美元,其中,身份認證信息安全市場規模將超過300 億美元。聲紋識別在其中也將扮演重要角色。
賽道開始擁擠
<電子發燒友>根據公開資料統計出如下聲紋識別企業。老牌企業往往掌握有深厚的技術積累和核心專利,特別是幾家有高校和科研機構背景的企業。而對于AI初創企業來說,也在加強在技術深度和廣度上的布局。思必馳的語音識別++技術可進行超短時聲紋識別、性別識別、情緒識別、年齡識別等,可應用于智能家居、智能車載等應用,并與長虹、美菱成立了實驗室。
云知聲將聲紋識別技術引入到深度學習領域,聯手平安好醫生打造客戶端“聲紋登錄系統”,并與國家電網合作了會議系統聲紋識別項目。
騰訊云也在產品中引入聲紋識別,隨著云端大數據的不斷積累,在智能家居、金融交易、智慧建筑領域,已經能夠根據個人屬性個性化地提供服務內容,并進一步提升安全性。
作為家電行業業較早涉及人工智能技術領域的企業,長虹在電視、空調中先后加入聲紋識別功能,使得家電也能夠智能識別用戶身份,開啟私人訂制模式。
業內觀察人士認為,在AI+IoT的發展潮流下,聲紋識別技術有望推動一些場景向高階化發展,在未來的人機交互過程中成為必要支撐,帶動從硬件到軟件在更多商用場景中的發展。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
生物識別
+關注
關注
3文章
1210瀏覽量
52510 -
智能語音
+關注
關注
10文章
781瀏覽量
48708 -
聲紋識別
+關注
關注
3文章
140瀏覽量
21502 -
智能音箱
+關注
關注
31文章
1783瀏覽量
78496
發布評論請先 登錄
相關推薦
2024年星閃進入規模商用快車道
2023年是星閃商用元年,2024年星閃進入規模商用快車道,預計到年底星閃應用將超過100個品類。我們相信星閃一定會為千行百業的無數應用場景帶來全新的創新機遇。
調試PCM3500E,DAC輸出噪聲紋波峰峰值居然高達600mV,為什么?
你好!最近在調試PCM3500E,發現其DAC部分,輸出噪聲紋波峰峰值居然高達600mV,將芯片power down之后噪聲就消除了。附圖是DIN輸入全零時,紋波的波形特征。
發表于 11-08 07:25
二維碼識讀設備有哪些類型
隨著二維碼應用的日益普及,各類二維碼識讀設備也應運而生。這些設備不僅極大地方便了我們的日常生活,也為企業提供了更加高效便捷的服務。那么,你知道二維碼識讀設備都有哪些類型嗎?讓我們一起來了解一下。據
九識智能與徐工汽車達成戰略合作,共繪商用車未來新藍圖
近日,九識智能與徐工汽車簽署戰略合作協議,標志著雙方在智能駕駛技術與新能源商用車融合應用、聯合生產及市場推廣等方面邁入深度合作的新篇章,將共同引領智能駕駛技術商業化浪潮。近年來,在國家智能化發展戰略
超高頻RFID設備的識讀距離受哪些因素影響?如何挑選RFID設備+天線
在探討超高頻RFID設備的識讀距離時,我們不得不深入分析影響其性能的多重因素,并據此指導如何有效挑選RFID設備及天線。超高頻RFID技術以其遠距離識別、高速度數據傳輸等優勢,在物流、供應鏈管理
基于鴻蒙Next模擬掃圖識物的一個過程
一、功能介紹(基礎)
基于鴻蒙Next模擬掃圖識物的一個過程,掃描到圖片,提示出相關的圖片內容,是一個什么東西。
二、使用場景(大類)
支付、社交、信息獲取、在線調查、教育學習等等。
三、實現步驟
發表于 08-21 15:04
商用清潔新紀元:為何商用清潔機器人成為必選,及挑選指南
在日新月異的商業環境中,每一處細節都關乎著品牌形象與顧客體驗。隨著科技的深入滲透,商用清潔機器人正逐步成為現代商業空間不可或缺的“清潔衛士”。它們以高效、智能、環保的特性,引領著商用清潔領域的新風尚
商用清潔賽道,普渡清潔機器人如何玩出新花樣?
商用清潔賽道,普渡清潔機器人如何玩出新花樣? 前言 每次技術革命,都將對傳統模式帶來顛覆性改變。 目前,我國產業結構正進入快速升級階段,智能制造春潮涌動,各行各業正在經歷一輪智能化轉型升級的變革
智能聲控燈具應用語音識別芯片AT6811
AT6811是一款超低功耗的離線智能語音識別芯片,集成了先進的語音活動監測(VAD)、聲紋識別、自動消噪神經網絡,擁有高效的電源管理模塊、數字和模擬語音信號輸入接口以及ARMCortex-M0內核,并且搭配了GPIO、UART、SPI、I2C、I2S等片內外設。
SynSense時識科技戰略收購瑞士iniVation
SynSense時識科技(以下簡稱“時識科技”),作為類腦感知及計算領域的頭部公司,近日正式宣布戰略收購瑞士類腦視覺傳感器公司iniVation AG。這一收購將進一步強化時識科技在全球市場的影響力,并為其帶來更廣闊的發展空間。
測電源噪聲紋波時為什么選無源探頭
在測量電源的噪聲紋波時,采用無源探頭是一種常見的選擇。無源探頭是指在測量過程中不需要額外的電源供電的探頭。那么,為什么我們要選擇無源探頭呢?下面將詳細解釋這個問題。 首先,無源探頭具有高頻
九識智能與東風股份達成深度戰略合作,共同推進中國智能商用車商業化落地進程
近日,九識智能與東風股份達成深度戰略合作,并完成首批50臺智能商用車訂單的簽約!此次合作中,九識與東風股份雙方將基于各自的技術和資源優勢,在中國智能商用車產品端和銷售端開展合作,共同推
大規模RedCap商用部署!5G-A助力萬物智聯走向現實
近日,廣東移動攜手中興通訊在廣州、深圳、佛山等地完成全國首個超大規模的RedCap商用部署,截止11月底已開通7千站以上,率先吹響了5G輕量化(RedCap)技術規模商用的號角,加速推
評論