谷歌和Idiap研究所的研究人員訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),能夠顯著降低多說(shuō)話(huà)者信號(hào)的語(yǔ)音識(shí)別詞錯(cuò)誤率。
把一個(gè)人的聲音從嘈雜的人群中分離出來(lái)是大多數(shù)人潛意識(shí)里都會(huì)做的事情——這就是所謂的雞尾酒會(huì)效應(yīng)。像谷歌Home和亞馬遜的Echo這樣的智能揚(yáng)聲器實(shí)現(xiàn)分離人群中的聲音可能還要再經(jīng)歷一段時(shí)間,但多虧了AI,它們或許有一天能夠像人類(lèi)一樣過(guò)濾掉聲音。
谷歌和位于Switerzland的Idiap研究所的研究人員發(fā)表在Arxiv上的一篇論文中描述了一種新的解決方案。他們訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)——說(shuō)話(huà)者識(shí)別網(wǎng)絡(luò)(a speaker recognition network)和聲譜掩碼網(wǎng)絡(luò)(a spectrogram masking network)——這兩個(gè)網(wǎng)絡(luò)一起“顯著”降低了多說(shuō)話(huà)者信號(hào)的語(yǔ)音識(shí)別詞錯(cuò)誤率(WER)。
他們的工作建立在麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室今年早些時(shí)候發(fā)表的一篇論文的基礎(chǔ)上,該論文描述了一個(gè)名為PixelPlayer的系統(tǒng),該系統(tǒng)能夠?qū)蝹€(gè)樂(lè)器的聲音從YouTube視頻中分離出來(lái)。
論文:
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking
論文地址:
https://arxiv.org/pdf/1810.04826.pdf
在最新的論文中,研究人員寫(xiě)道:“我們的任務(wù)是將一部分感興趣的說(shuō)話(huà)者的聲音與所有其他說(shuō)話(huà)者和聲音的共性分離開(kāi)來(lái)。例如,這樣的子集可以由一個(gè)目標(biāo)揚(yáng)聲器對(duì)個(gè)人移動(dòng)設(shè)備發(fā)出語(yǔ)音查詢(xún),或者由一個(gè)家庭成員對(duì)一個(gè)共享的家庭設(shè)備進(jìn)行交談而形成。”
研究人員的語(yǔ)音過(guò)濾系統(tǒng)分為兩部分,包括LSTM模型和卷積神經(jīng)網(wǎng)絡(luò)(只有一個(gè)LSTM層)。第一個(gè)采用預(yù)處理的語(yǔ)音采樣和輸出揚(yáng)聲器嵌入(即矢量形式的聲音表示)作為輸入,而后者預(yù)測(cè)來(lái)自嵌入的軟掩模或濾波器以及根據(jù)噪聲音頻計(jì)算的幅度譜圖。掩模用于生成增強(qiáng)幅度譜圖,當(dāng)與噪聲音頻的相位(聲波)組合并變換時(shí),產(chǎn)生增強(qiáng)的波形。
AI系統(tǒng)被訓(xùn)練以便最大限度地減少屏蔽幅度頻譜圖與從干凈音頻計(jì)算的目標(biāo)幅度頻譜圖之間的差異。
該團(tuán)隊(duì)為訓(xùn)練樣本提供了兩個(gè)數(shù)據(jù)集:(1)來(lái)自13.8萬(wàn)名演講者的大約3400萬(wàn)個(gè)匿名語(yǔ)音查詢(xún)?nèi)罩荆?2)開(kāi)源語(yǔ)音庫(kù)LibriSpeech、VoxCeleb和VoxCeleb2的匯編。VoiceFilter網(wǎng)絡(luò)對(duì)來(lái)自CSTR VCTK數(shù)據(jù)集(由愛(ài)丁堡大學(xué)維護(hù)的一組語(yǔ)音數(shù)據(jù))和LibriSpeech的2338個(gè)貢獻(xiàn)者的語(yǔ)音樣本進(jìn)行了訓(xùn)練,并使用來(lái)自73名演講者的話(huà)語(yǔ)進(jìn)行評(píng)估。
在測(cè)試中,VoiceFilter在雙揚(yáng)聲器方案中將字錯(cuò)誤率從55.9%降低到23.4%。
研究人員寫(xiě)道:“我們已經(jīng)證明了使用經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的揚(yáng)聲器編碼器來(lái)調(diào)整語(yǔ)音分離任務(wù)的有效性。這樣的系統(tǒng)更適用于真實(shí)場(chǎng)景,因?yàn)樗恍枰孪戎罁P(yáng)聲器的數(shù)量……我們的系統(tǒng)完全依賴(lài)于音頻信號(hào),可以很容易地通過(guò)使用具有高度代表性的嵌入向量來(lái)推廣到未知的揚(yáng)聲器。”
-
谷歌
+關(guān)注
關(guān)注
27文章
6142瀏覽量
105100 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4762瀏覽量
100539 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1721瀏覽量
112547
原文標(biāo)題:谷歌神經(jīng)網(wǎng)絡(luò)人聲分離技術(shù)再突破!詞錯(cuò)率低至23.4%
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論