Facebook Research最近發布了Demucs,這是一種用于音樂源分離的新型深度學習系統。根據人類對分離后聲音總體質量的評估,Demucs的性能優于先前報道的結果。
音樂源分離是經過大量研究的一種應用,稱為盲源分離。該過程包括在不借助元信息的情況下從一組混合信號中分離出一組源信號。對于音樂,各個組成部分可能包括人聲或其他樂器軌道。當空中交通管制員開始在單個揚聲器上聽到多個飛行員的混合聲音時出現問題時,源分離領域首先受到了廣泛關注。這導致英國科學家科林·切里(Colin Cherry)在1953年將這種效應稱為“雞尾酒會問題”。
在源分離領域的現有研究的推動下,研究科學家于2000年代初開始使用AI分離音樂中的聲音。如今,短時傅立葉變換產生的頻譜圖(STFT)是最新音樂源分離的核心。這些系統在每個幀和每個源的幅度譜上產生一個掩碼,并且通過在掩碼頻譜圖上運行逆STFT的同時重新使用輸入混合相位,來生成輸出音頻。
建立在頻譜圖分析基礎上的系統在諸如中音鋼琴或連奏小提琴之類的樂器的源分離方面表現出色,因為它們可以產生一致的頻率和振鈴。但是,這些系統很難隔離敲擊聲音,因為敲擊樂器所產生的殘留噪聲會產生更寬的頻率范圍,并且當與多個樂器的重疊相結合時,信息就會丟失,并且掩蓋操作將使信息不再可逆。
Demucs是一種深度學習模型,可直接對原始輸入波形進行操作并為每個源生成一個波形。U-net體系結構使用卷積編碼器和解碼器,該解碼器和解碼器基于跨步卷積較大的步幅。波形模型的工作方式與常見的計算機視覺模型相似,因為它們都使用神經網絡在推斷更高級別的模式之前先檢測基本模式。
基于頻譜圖的模型優于Wave-U-Net,后者是Demucs之前最先進的基于波形的模型。Demucs建立在Wave-U-Net體系結構的基礎上,具有可調整的超參數和較長的短期內存,允許網絡處理整個數據序列,而不是單個數據點。
這些改進幫助系統解決了一個聲音超過另一個聲音的問題,因為解碼器足夠聰明,可以填充柔和的音符。
人類在MusDB數據集上評估Demucs,并將其與其他最新的源分離系統的結果進行比較。
-
傅立葉變換
+關注
關注
3文章
99瀏覽量
32351 -
深度學習
+關注
關注
73文章
5492瀏覽量
120977
發布評論請先 登錄
相關推薦
評論