国产国产人免费人成免费视频在线观看_亚洲AⅤ中文无码字幕_成年人电影中文字幕无码区_久久99热这里只有精品66

谷歌和Idiap研究所的研究人員訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)，能夠顯著降低多說(shuō)話(huà)者信號(hào)的語(yǔ)音識(shí)別詞錯(cuò)誤率。

把一個(gè)人的聲音從嘈雜的人群中分離出來(lái)是大多數(shù)人潛意識(shí)里都會(huì)做的事情——這就是所謂的雞尾酒會(huì)效應(yīng)。像谷歌Home和亞馬遜的Echo這樣的智能揚(yáng)聲器實(shí)現(xiàn)分離人群中的聲音可能還要再經(jīng)歷一段時(shí)間，但多虧了AI，它們或許有一天能夠像人類(lèi)一樣過(guò)濾掉聲音。

谷歌和位于Switerzland的Idiap研究所的研究人員發(fā)表在Arxiv上的一篇論文中描述了一種新的解決方案。他們訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)——說(shuō)話(huà)者識(shí)別網(wǎng)絡(luò)（a speaker recognition network）和聲譜掩碼網(wǎng)絡(luò)（a spectrogram masking network）——這兩個(gè)網(wǎng)絡(luò)一起“顯著”降低了多說(shuō)話(huà)者信號(hào)的語(yǔ)音識(shí)別詞錯(cuò)誤率（WER）。

他們的工作建立在麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室今年早些時(shí)候發(fā)表的一篇論文的基礎(chǔ)上，該論文描述了一個(gè)名為PixelPlayer的系統(tǒng)，該系統(tǒng)能夠?qū)蝹€(gè)樂(lè)器的聲音從YouTube視頻中分離出來(lái)。

論文：

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking

論文地址：

https://arxiv.org/pdf/1810.04826.pdf

在最新的論文中，研究人員寫(xiě)道：“我們的任務(wù)是將一部分感興趣的說(shuō)話(huà)者的聲音與所有其他說(shuō)話(huà)者和聲音的共性分離開(kāi)來(lái)。例如，這樣的子集可以由一個(gè)目標(biāo)揚(yáng)聲器對(duì)個(gè)人移動(dòng)設(shè)備發(fā)出語(yǔ)音查詢(xún)，或者由一個(gè)家庭成員對(duì)一個(gè)共享的家庭設(shè)備進(jìn)行交談而形成。”

研究人員的語(yǔ)音過(guò)濾系統(tǒng)分為兩部分，包括LSTM模型和卷積神經(jīng)網(wǎng)絡(luò)(只有一個(gè)LSTM層)。第一個(gè)采用預(yù)處理的語(yǔ)音采樣和輸出揚(yáng)聲器嵌入（即矢量形式的聲音表示）作為輸入，而后者預(yù)測(cè)來(lái)自嵌入的軟掩模或濾波器以及根據(jù)噪聲音頻計(jì)算的幅度譜圖。掩模用于生成增強(qiáng)幅度譜圖，當(dāng)與噪聲音頻的相位（聲波）組合并變換時(shí)，產(chǎn)生增強(qiáng)的波形。

AI系統(tǒng)被訓(xùn)練以便最大限度地減少屏蔽幅度頻譜圖與從干凈音頻計(jì)算的目標(biāo)幅度頻譜圖之間的差異。

該團(tuán)隊(duì)為訓(xùn)練樣本提供了兩個(gè)數(shù)據(jù)集：(1)來(lái)自13.8萬(wàn)名演講者的大約3400萬(wàn)個(gè)匿名語(yǔ)音查詢(xún)?nèi)罩荆?2)開(kāi)源語(yǔ)音庫(kù)LibriSpeech、VoxCeleb和VoxCeleb2的匯編。VoiceFilter網(wǎng)絡(luò)對(duì)來(lái)自CSTR VCTK數(shù)據(jù)集(由愛(ài)丁堡大學(xué)維護(hù)的一組語(yǔ)音數(shù)據(jù))和LibriSpeech的2338個(gè)貢獻(xiàn)者的語(yǔ)音樣本進(jìn)行了訓(xùn)練，并使用來(lái)自73名演講者的話(huà)語(yǔ)進(jìn)行評(píng)估。

在測(cè)試中，VoiceFilter在雙揚(yáng)聲器方案中將字錯(cuò)誤率從55.9％降低到23.4％。

研究人員寫(xiě)道：“我們已經(jīng)證明了使用經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的揚(yáng)聲器編碼器來(lái)調(diào)整語(yǔ)音分離任務(wù)的有效性。這樣的系統(tǒng)更適用于真實(shí)場(chǎng)景，因?yàn)樗恍枰孪戎罁P(yáng)聲器的數(shù)量……我們的系統(tǒng)完全依賴(lài)于音頻信號(hào)，可以很容易地通過(guò)使用具有高度代表性的嵌入向量來(lái)推廣到未知的揚(yáng)聲器。”

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6142

瀏覽量
105100
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4762

瀏覽量
100539
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1721

瀏覽量
112547

原文標(biāo)題：谷歌神經(jīng)網(wǎng)絡(luò)人聲分離技術(shù)再突破！詞錯(cuò)率低至23.4%

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

神經(jīng)網(wǎng)絡(luò)教程（李亞非）

　　第1章概述　　1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展　　1.2 生物神經(jīng)元　　1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成　　第2章人工神經(jīng)網(wǎng)絡(luò)基本模型　　2.

發(fā)表于 03-20 11:32

人類(lèi)首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”，更精確模擬神經(jīng)網(wǎng)絡(luò)！

`近日，凱斯西儲(chǔ)大學(xué)醫(yī)學(xué)院、紐約干細(xì)胞基金會(huì)（NYSCF）研究所和喬治華盛頓大學(xué)的研究人員聯(lián)合提出了一種新方法，通過(guò)人類(lèi)胚胎干細(xì)胞培育生成3D版的“迷你大腦”。這些“迷你大腦”名為“大腦類(lèi)器官

發(fā)表于 08-21 09:26

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

今天學(xué)習(xí)了兩個(gè)神經(jīng)網(wǎng)絡(luò)，分別是自適應(yīng)諧振（ART）神經(jīng)網(wǎng)絡(luò)與自組織映射（SOM）神經(jīng)網(wǎng)絡(luò)。整體感覺(jué)不是很難，只不過(guò)一些最基礎(chǔ)的概念容易理解不清。首先ART

發(fā)表于 07-21 04:30

如何移植一個(gè)CNN神經(jīng)網(wǎng)絡(luò)到FPGA中？

訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)并移植到Lattice FPGA上，通常需要開(kāi)發(fā)人員既要懂軟件又要懂?dāng)?shù)字電路設(shè)計(jì)，是個(gè)不容易的事。好在FPGA廠(chǎng)商為我們提供

發(fā)表于 11-26 07:46

基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

最近在學(xué)習(xí)電機(jī)的智能控制，上周學(xué)習(xí)了基于單神經(jīng)元的PID控制，這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線(xiàn)性表達(dá)能力，可以通過(guò)對(duì)系統(tǒng)性能的學(xué)習(xí)來(lái)實(shí)現(xiàn)具有最佳組合的PID控

發(fā)表于 09-07 07:43

圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡(jiǎn)要介紹

為提升識(shí)別準(zhǔn)確率，采用改進(jìn)神經(jīng)網(wǎng)絡(luò)，通過(guò)Mnist數(shù)據(jù)集進(jìn)行訓(xùn)練。整體處理過(guò)程分為兩步：圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像的特征，將數(shù)據(jù)處理成規(guī)范的格式，而改進(jìn)

發(fā)表于 12-23 08:07

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

network，DBN）[24]，從此拉開(kāi)了深度學(xué)習(xí)大幕。隨著深度學(xué)習(xí)理論的研究和發(fā)展，研究人員提出了一系列卷積神經(jīng)網(wǎng)絡(luò)模型。為了比較不同模型的質(zhì)量，收集并整理了文獻(xiàn)中模型在分類(lèi)任務(wù)上的識(shí)別率，如圖 1

發(fā)表于 08-02 10:39

如何進(jìn)行高效的時(shí)序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

現(xiàn)有的圖數(shù)據(jù)規(guī)模極大，導(dǎo)致時(shí)序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要格外長(zhǎng)的時(shí)間，因此使用多GPU進(jìn)行訓(xùn)練變得成為尤為重要，如何有效地將多GPU用于時(shí)序圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練

發(fā)表于 09-28 10:37

谷歌最新AI算法遞歸神經(jīng)網(wǎng)絡(luò)繪制大腦神經(jīng)圖像

谷歌研究人員使用了一種邊緣檢測(cè)算法，該算法可以識(shí)別神經(jīng)突（神經(jīng)元本體的分支）的邊界，以及一種復(fù)發(fā)性卷積神經(jīng)網(wǎng)絡(luò)（復(fù)發(fā)性

發(fā)表于 07-20 09:45 ?2331次閱讀

研究人員開(kāi)發(fā)解釋多義詞的神經(jīng)網(wǎng)絡(luò)

艾倫人工智能研究所和華盛頓大學(xué)的研究人員正在使用可以根據(jù)上下文來(lái)確定英文單詞含義的神經(jīng)網(wǎng)絡(luò)。

發(fā)表于 09-12 15:52 ?2190次閱讀

神經(jīng)網(wǎng)絡(luò)有什么天生的性質(zhì)

谷歌大腦研究人員通過(guò)精簡(jiǎn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，在前幾代中發(fā)現(xiàn)了最小架構(gòu)的神經(jīng)網(wǎng)絡(luò)能夠控制此處所示的雙足機(jī)器人，即使它的得分不高。

發(fā)表于 02-05 16:55 ?1199次閱讀

邊緣計(jì)算中深度神經(jīng)網(wǎng)絡(luò)剪枝壓縮的研究

深度神經(jīng)網(wǎng)絡(luò)與其他很多機(jī)器學(xué)習(xí)模型一樣，可分為訓(xùn)練和推理兩個(gè)階段。訓(xùn)練階段根據(jù)數(shù)據(jù)學(xué)習(xí)模型中的參數(shù)（對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)主要是

發(fā)表于 03-27 15:50 ?2954次閱讀

研究人員開(kāi)發(fā)“液態(tài)”神經(jīng)網(wǎng)絡(luò) 可適應(yīng)快速變化的訓(xùn)練環(huán)境

設(shè)計(jì)出了一種具有重大改進(jìn)的“液態(tài)”神經(jīng)網(wǎng)絡(luò)。其特點(diǎn)是能夠在投入訓(xùn)練階段之后，極大地?cái)U(kuò)展 AI 技術(shù)的靈活性。通常情況下，研究人員會(huì)在訓(xùn)練階段向神經(jīng)

發(fā)表于 01-29 10:46 ?1524次閱讀

BP神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展

通過(guò)對(duì)傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)缺點(diǎn)的分析，從參數(shù)選取、BP算法、激活函數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)4個(gè)方面綜述了其改進(jìn)方法。介紹了各種方法的原理、應(yīng)用背景及其在BP神經(jīng)網(wǎng)絡(luò)中的應(yīng)用，同時(shí)分析了各種方法的優(yōu)缺點(diǎn)

發(fā)表于 06-01 11:28 ?5次下載

怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一個(gè)復(fù)雜的過(guò)程，涉及到多個(gè)步驟和考慮因素。引言 神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)模型，廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域。然而，隨著時(shí)間的推移，數(shù)據(jù)分布可

發(fā)表于 07-11 10:25 ?417次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

谷歌和Idiap研究所的研究人員訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)

評(píng)論

神經(jīng)網(wǎng)絡(luò)教程（李亞非）

人類(lèi)首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”，更精確模擬神經(jīng)網(wǎng)絡(luò)！

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

如何移植一個(gè)CNN神經(jīng)網(wǎng)絡(luò)到FPGA中？

基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡(jiǎn)要介紹

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

如何進(jìn)行高效的時(shí)序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

谷歌最新AI算法遞歸神經(jīng)網(wǎng)絡(luò)繪制大腦神經(jīng)圖像

研究人員開(kāi)發(fā)解釋多義詞的神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)有什么天生的性質(zhì)

邊緣計(jì)算中深度神經(jīng)網(wǎng)絡(luò)剪枝壓縮的研究

研究人員開(kāi)發(fā)“液態(tài)”神經(jīng)網(wǎng)絡(luò) 可適應(yīng)快速變化的訓(xùn)練環(huán)境

BP神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展

怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練