精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA Volta將文本實時生成自然語音

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-07 10:08 ? 次閱讀

這篇文章,旨在為具有深入學(xué)習(xí)專業(yè)水平的開發(fā)人員準(zhǔn)備,將幫助您生成一個準(zhǔn)備生產(chǎn)、人工智能、文本到語音的模型。

幾十年來,將文本實時轉(zhuǎn)換為高質(zhì)量、自然發(fā)音的語音一直是一項具有挑戰(zhàn)性的任務(wù)。最先進(jìn)的語音合成模型是基于參數(shù)神經(jīng)網(wǎng)絡(luò) 1 。文本到語音( TTS )合成通常分兩步完成。

第一步將文本轉(zhuǎn)換成時間對齊的特征,如 mel-spe CTR 圖或 F0 頻率等語言特征;

第二步將時間對齊的功能轉(zhuǎn)換為音頻

優(yōu)化的 Tacotron2 模型 2 和新的 WaveGlow 模型 1 利用 NVIDIA Volta 上的 張量核 和圖靈 GPUs 將文本實時轉(zhuǎn)換為高質(zhì)量的自然發(fā)音語音。生成的音頻具有清晰的人聲,沒有背景噪音。

下面是一個使用此模型可以實現(xiàn)的示例:

在遵循 Jupyter 筆記本 中的步驟之后,您將能夠為模型提供英語文本,并且它將生成一個音頻輸出文件。所有重現(xiàn)結(jié)果的腳本都發(fā)布在我們的 NVIDIA 深度學(xué)習(xí)示例 存儲庫的 GitHub 上,其中包含幾個使用張量核心的高性能培訓(xùn)配方。此外,我們還開發(fā)了一個 Jupyter 筆記本 ,供用戶創(chuàng)建自己的容器映像,然后下載數(shù)據(jù)集,逐步重現(xiàn)訓(xùn)練和推理結(jié)果。

模型

我們的 TTS 系統(tǒng)是兩個神經(jīng)網(wǎng)絡(luò)模型的組合:

從“ 基于 Mel-Spe CTR 圖預(yù)測的條件波網(wǎng)自然合成 TTS ”改進(jìn)的 Tacotron 2 (圖 1 )模型;

來自“ WaveGlow :一種基于流的語音合成生成網(wǎng)絡(luò) ”的基于流的神經(jīng)網(wǎng)絡(luò)模型。

Tacotron 2 和 WaveGlow 模型構(gòu)成了一個 TTS 系統(tǒng),用戶可以在沒有任何附加韻律信息的情況下從原始文本合成自然發(fā)音的語音。

Tacotron 2 型號

Tacotron 2 2 是一種直接從文本合成語音的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該系統(tǒng)由一個遞歸的序列到序列特征預(yù)測網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)將字符嵌入映射到 mel 尺度的 spe CTR 圖,然后由一個改進(jìn)的 WaveNet 模型作為聲碼器,從這些 spe CTR 圖合成時域波形,如圖 1 所示。

圖 1 : Tacotron 2 系統(tǒng)架構(gòu)框圖 1

網(wǎng)絡(luò)由一個編碼器(藍(lán)色)和一個解碼器(橙色)組成。編碼器將一個字符序列轉(zhuǎn)換成一個隱藏的特征表示,作為解碼器的輸入來預(yù)測 spe CTR 圖。輸入文本(黃色)是使用學(xué)習(xí)的 512 維字符嵌入來呈現(xiàn)的,它通過三個卷積層(每個包含 512 個形狀為 5 × 1 的濾波器)的堆棧,然后進(jìn)行批量規(guī)范化和 ReLU 激活。編碼器輸出被傳遞到注意力網(wǎng)絡(luò)( gray ),該網(wǎng)絡(luò)將完整編碼序列總結(jié)為每個解碼器輸出步驟的固定長度上下文向量。

解碼器是一個自回歸遞歸神經(jīng)網(wǎng)絡(luò),它從編碼的輸入序列中一次一幀地預(yù)測 mel-spe CTR 圖。前一個時間步的預(yù)測首先通過一個包含兩個完全連接的 256 個隱藏 ReLU 單元的層的小 pre 網(wǎng)絡(luò)。 prenet 輸出和注意力上下文向量被連接起來,并傳遞到一個由兩個 LSTM 層組成的堆棧,其中包含 1024 個單元。通過線性變換,將 LSTM 輸出與注意上下文向量的連接進(jìn)行投影,以預(yù)測目標(biāo) spe CTR 圖幀。最后,將預(yù)測的 mel-spe CTR 圖通過一個 5 層卷積后網(wǎng)絡(luò),該網(wǎng)絡(luò)預(yù)測一個殘差來加入預(yù)測,以改善整體重建。每個 post-net 層由 512 個形狀為 5 × 1 的過濾器組成,并進(jìn)行批量標(biāo)準(zhǔn)化處理,除最后一層外,所有過濾器均激活。

我們實現(xiàn)的 Tacotron 2 模型與 1 中描述的模型不同,我們使用:

退出而不是分區(qū),以使 LSTM 層正則化;

用 WaveGlow 模型 2 代替 WaveNet 來合成波形。

WaveGlow 模型

WaveGlow 1 是一種基于流的網(wǎng)絡(luò),能夠從 mel-spe CTR 圖生成高質(zhì)量的語音。 WaveGlow 結(jié)合了 Glow 5 和 WaveNet 6 的見解,以提供快速、高效和高質(zhì)量的音頻合成,而無需自動回歸。 WaveGlow 只使用一個網(wǎng)絡(luò)實現(xiàn),只使用一個單一的成本函數(shù)進(jìn)行訓(xùn)練:使訓(xùn)練過程簡單而穩(wěn)定。我們當(dāng)前的模型以 55 * 22050 = 1212750 的速度合成樣本,這比每秒 22050 個樣本的“實時”要快 55 倍。平均意見得分( MOS )表明,它提供的音頻質(zhì)量與在同一數(shù)據(jù)集上訓(xùn)練的最佳公開可用 WaveNet 實現(xiàn)一樣好。

WaveGlow 是一種生成模型,它通過從分布中采樣來生成音頻。為了使用神經(jīng)網(wǎng)絡(luò)作為生成模型,我們從一個簡單的分布中提取樣本,在我們的例子中,是一個零均值的球面高斯分布,其維數(shù)與我們期望的輸出相同,然后將這些樣本通過一系列層將簡單分布轉(zhuǎn)換為具有期望分布的分布。在這種情況下,我們根據(jù) mel-spe CTR 圖對音頻樣本的分布進(jìn)行建模。

如圖 2 所示,對于通過網(wǎng)絡(luò)的前向傳遞,我們將八個音頻樣本組作為向量,“壓縮”操作,如 Glow 5 所示。然后我們通過幾個“流程步驟”處理這些向量。這里的流動步驟由可逆的 1 × 1 卷積和仿射耦合層組成。在仿射耦合層中,一半的信道作為輸入,然后產(chǎn)生乘法和加法項,用于縮放和平移剩余的信道。

圖 2 : WaveGlow 網(wǎng)絡(luò) 2

啟用自動混合精度

混合精度 通過以半精度格式執(zhí)行操作,同時以單精度( FP32 )存儲最少的信息,從而在網(wǎng)絡(luò)的關(guān)鍵部分盡可能多地保留信息,從而顯著提高了計算速度。啟用混合精度利用了 Volta 和 Turing GPUs 上的 張量核 ,在訓(xùn)練時間上提供了顯著的加速——在運算最密集的模型架構(gòu)上,整體加速高達(dá) 3 倍。

使用 混合精度訓(xùn)練 之前需要兩個步驟:

在適當(dāng)?shù)那闆r下移植模型以使用 FP16 數(shù)據(jù)類型;

手動添加損耗縮放以保持較小的漸變值。

通過使用 PyTorch 中的自動混合精度( AMP )庫, APEX 中啟用了混合精度,該庫在檢索時將變量強(qiáng)制轉(zhuǎn)換為半精度,同時以單精度格式存儲變量。為了在反向傳播中保持較小的梯度值,應(yīng)用漸變時必須包含 損耗標(biāo)度 步驟。在 PyTorch 中,通過使用 AMP 提供的 scale _ loss ()方法,可以很容易地應(yīng)用損耗縮放。要使用的縮放值可以是 dynamic 或 fixed 。

通過在訓(xùn)練腳本中添加– amp run 標(biāo)志,可以啟用張量核心的混合精度訓(xùn)練,您可以在我們的 Jupyter 筆記本 中看到示例。

培訓(xùn)業(yè)績

表 1 和表 2 比較了采用 PyTorch -19 。 06-py3 NGC 容器 在帶有 8-V100 16GB GPUs 的 NVIDIA DGX-1 上使用改進(jìn)的 Tacotron 2 和 WaveGlow 模型的訓(xùn)練性能。在整個訓(xùn)練周期內(nèi),平均性能數(shù)( Tacotron 2 的輸出 mel spe CTR 圖每秒, WaveGlow 每秒輸出樣本數(shù))。

表 2 : WaveGlow 模型的訓(xùn)練性能結(jié)果

如表 1 和表 2 所示,使用張量核進(jìn)行混合精度訓(xùn)練可以實現(xiàn)顯著的加速,并且可以有效地擴(kuò)展到 4 / 8 GPUs 。混合精度訓(xùn)練也保持了與單精度訓(xùn)練相同的精度,并允許更大的批量。語音質(zhì)量取決于模型大小和訓(xùn)練集大小;使用具有自動混合精度的張量核,可以在相同的時間內(nèi)訓(xùn)練出質(zhì)量更高的模型。

考慮到高質(zhì)量所需的模型大小和培訓(xùn)量, GPUs 提供了一個最合適的硬件架構(gòu),并將吞吐量、帶寬、可伸縮性和易用性進(jìn)行了最佳組合。

推理性能

表 3 和表 4 分別顯示了從 1-V100 和 1-T4 GPU 上的 1000 次推理運行中收集的 Tacotron2 和 WaveGlow 文本到語音系統(tǒng)的推理統(tǒng)計數(shù)據(jù)。從 Tacotron2 推斷開始到 WaveGlow 推斷結(jié)束,測量潛伏期。這些表包括平均延遲、標(biāo)準(zhǔn)偏差和延遲置信區(qū)間(百分比值)。吞吐量是以每秒生成的音頻樣本數(shù)來衡量的。 RTF 是一個實時因子,它告訴我們在 1 秒鐘的壁時間內(nèi)產(chǎn)生了多少秒的語音。

表 3 : 1-V100 GPU 上 Tacotron2 和 WaveGlow 系統(tǒng)的推斷統(tǒng)計

與 FP32 相比,我們可以看到混合精度推理具有較低的平均延遲和延遲置信區(qū)間(百分比值),同時實現(xiàn)更高的吞吐量并生成更長的平均 RTF ( 1 秒壁時間內(nèi)的語音秒數(shù))。

表 4 : 1-T4 GPU 上 Tacotron2 和 WaveGlow 系統(tǒng)的推斷統(tǒng)計

一步一步運行 Jupyter 筆記本

為了達(dá)到上述結(jié)果:

按照 GitHub 上的腳本操作或逐步運行 Jupyter 筆記本 來訓(xùn)練 Tacotron 2 和 WaveGlow v1 。 5 模型。在 Jupyter 筆記本 中,我們提供了完全自動化的腳本來下載和預(yù)處理 LJ 語音數(shù)據(jù)集 ;

數(shù)據(jù)準(zhǔn)備步驟完成后,使用提供的 Dockerfile 構(gòu)建修改后的 Tacotron 2 和 WaveGlow 容器,并在容器中啟動一個分離的會話;

要使用帶張量核心的 AMP 或使用 FP32 訓(xùn)練我們的模型,請使用 Tacrotron 2 的默認(rèn)參數(shù)和使用單個 GPU 或多個 GPUs 的 WaveGlow 模型執(zhí)行訓(xùn)練步驟。

Training

Tacotron2 和 WaveGlow 模型分別獨立地進(jìn)行訓(xùn)練,兩個模型在訓(xùn)練過程中通過短時傅立葉變換( STFT )得到 mel-spe CTR 圖。這些 mel-spe CTR 圖用于 Tacotron 2 情況下的損耗計算,以及在波輝光的情況下作為網(wǎng)絡(luò)的調(diào)節(jié)輸入。

整個驗證數(shù)據(jù)集的平均損失是訓(xùn)練損失的平均值。對于 Tacotron 2 模型,性能是以每秒的總輸入令牌數(shù)來報告的,而對于 WaveGlow 模型,則是以每秒的總輸出樣本數(shù)來報告的。在輸出日志中,這兩個度量值都被記錄為 train _ iter _ items / sec (每次迭代后)和 train _ epoch _ items / sec (在 epoch 上的平均值)。結(jié)果在整個訓(xùn)練周期內(nèi)取平均值,并在訓(xùn)練中包含的所有 GPUs 上求和。

默認(rèn)情況下,我們的訓(xùn)練腳本將使用張量 cCores 啟動混合精度訓(xùn)練。您可以通過刪除– fp16 run 標(biāo)志來更改此行為。

Inference

在訓(xùn)練了 Tacotron 2 和 WaveGlow 模型,或者下載了各自模型的預(yù)先訓(xùn)練的檢查點之后,您可以執(zhí)行以文本為輸入的推理,并生成一個音頻文件。

您可以根據(jù)文本文件的長度自定義文本文件的內(nèi)容,可能需要將– max decoder steps 選項增加到 2000 。 Tacotron 2 模型是在 LJ 語音數(shù)據(jù)集 上訓(xùn)練的,音頻樣本不超過 10 秒,相當(dāng)于 860 個 mel spe CTR 圖。因此,這種推斷在生成相似長度的音頻樣本時可以很好地工作。我們將 mel-spe CTR 圖長度限制設(shè)置為 2000 (約 23 秒),因為實際上它仍然可以生成正確的聲音。如果需要,用戶可以將較長的短語分成多個句子,并分別合成它們。

關(guān)于作者

Maggie Zhang 是 NVIDIA 的深度學(xué)習(xí)工程師,致力于深度學(xué)習(xí)框架和應(yīng)用程序。她在澳大利亞新南威爾士大學(xué)獲得計算機(jī)科學(xué)和工程博士學(xué)位,在那里她從事 GPU / CPU 異構(gòu)計算和編譯器優(yōu)化。

Grzegorz Karch 是 NVIDIA 深度學(xué)習(xí)軟件組的高級 CUDA 算法工程師,專注于語音合成的生成模型。 Grzegorz 擁有德國斯圖加特大學(xué)計算機(jī)科學(xué)博士學(xué)位,在那里他的研究集中在科學(xué)可視化上。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4940

    瀏覽量

    102816
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5492

    瀏覽量

    120977
收藏 人收藏

    評論

    相關(guān)推薦

    ASR與自然語言處理的結(jié)合

    。以下是對ASR與自然語言處理結(jié)合的分析: 一、ASR與NLP的基本概念 ASR(自動語音識別) : 專注于人類的語音轉(zhuǎn)換為文字。 涉及從聲音信號中提取特征,并將這些特征映射到
    的頭像 發(fā)表于 11-18 15:19 ?303次閱讀

    如何使用 Llama 3 進(jìn)行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進(jìn)行文本生成,可以通過以下幾種方式實現(xiàn),取決于你是否愿意在本地運行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?214次閱讀

    NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測試(MTEB)涵蓋 56 項嵌入任務(wù)。
    的頭像 發(fā)表于 08-23 16:54 ?1938次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基準(zhǔn)

    nlp自然語言處理基本概念及關(guān)鍵技術(shù)

    、問答系統(tǒng)、文本摘要等眾多領(lǐng)域有著廣泛的應(yīng)用。 1. NLP的基本概念 1.1 語言模型 語言模型是NLP的基礎(chǔ),它用于描述一個句子在自然語言中出現(xiàn)的概率。語言模型通常用于文本生成、機(jī)器翻譯、
    的頭像 發(fā)表于 07-09 10:32 ?516次閱讀

    語音識別和自然語言處理的區(qū)別和聯(lián)系

    語音識別和自然語言處理是人工智能領(lǐng)域的兩個重要分支,它們在很多方面有著緊密的聯(lián)系,同時也存在一些明顯的區(qū)別。本文詳細(xì)介紹語音識別和自然語言
    的頭像 發(fā)表于 07-05 10:09 ?1421次閱讀

    Transformer模型在語音識別和語音生成中的應(yīng)用優(yōu)勢

    自然語言處理、語音識別、語音生成等多個領(lǐng)域展現(xiàn)出強(qiáng)大的潛力和廣泛的應(yīng)用前景。本文將從Transformer模型的基本原理出發(fā),深入探討其在語音
    的頭像 發(fā)表于 07-03 18:24 ?968次閱讀

    自然語言處理是什么技術(shù)的一種應(yīng)用

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個分支,它涉及到使用計算機(jī)技術(shù)來處理、分析和生成自然語言文本
    的頭像 發(fā)表于 07-03 14:18 ?618次閱讀

    WT3000T8-TTS語音合成芯片及應(yīng)用場景介紹

    TTS語音合成芯片是一種能夠文本信息轉(zhuǎn)化為自然語音的專用芯片。它通過內(nèi)置的語音合成算法和音頻處
    的頭像 發(fā)表于 04-18 18:03 ?828次閱讀

    NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成式 AI 模型)實現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?467次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>生成</b>式AI研究實現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b>3D形狀

    Cadence與NVIDIA聯(lián)合推出利用加速計算和生成式AI重塑設(shè)計

    中國上海,2024 年 3 月 25 日——楷登電子(美國 Cadence 公司,NASDAQ:CDNS)近日宣布,公司深化與 NVIDIA 在 EDA、系統(tǒng)設(shè)計與分析、數(shù)字生物學(xué)和人工智能領(lǐng)域的多年合作,推出兩款變革性解決方案,利用
    的頭像 發(fā)表于 03-25 14:36 ?566次閱讀

    NVIDIA Isaac生成式AI應(yīng)用于制造業(yè)和物流業(yè)

    NVIDIA Isaac 機(jī)器人平臺利用最新的生成式 AI 和先進(jìn)的仿真技術(shù),加速 AI 機(jī)器人技術(shù)的發(fā)展。
    的頭像 發(fā)表于 03-22 10:06 ?498次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac<b class='flag-5'>將</b><b class='flag-5'>生成</b>式AI應(yīng)用于制造業(yè)和物流業(yè)

    SAP與NVIDIA攜手加速生成式AI在企業(yè)應(yīng)用中的普及

    SAP SE 和 NVIDIA 宣布深化合作,致力于加速企業(yè)客戶在 SAP 云解決方案和應(yīng)用組合中利用數(shù)據(jù)和生成式 AI 的變革力量。
    的頭像 發(fā)表于 03-22 10:02 ?568次閱讀

    NVIDIA ACE 中使用 AI 動畫和語音功能打造逼真的虛擬形象

    NVIDIA 近日公布了 NVIDIA Avatar Cloud Engine(ACE) 的一系列技術(shù),增強(qiáng)了 AI 虛擬形象和數(shù)字人的真實感和可訪問性,這些新的動畫和語音功能實現(xiàn)了更自然
    的頭像 發(fā)表于 12-15 15:50 ?542次閱讀
    在 <b class='flag-5'>NVIDIA</b> ACE 中使用 AI 動畫和<b class='flag-5'>語音</b>功能打造逼真的虛擬形象

    如何在NVIDIA ACE中使用AI動畫和語音功能打造逼真的虛擬形象呢?

    NVIDIA 近日公布了 NVIDIA Avatar Cloud Engine(ACE)的一系列技術(shù),增強(qiáng)了 AI 虛擬形象和數(shù)字人的真實感和可訪問性,這些新的動畫和語音功能實現(xiàn)了更自然
    的頭像 發(fā)表于 12-15 15:48 ?624次閱讀
    如何在<b class='flag-5'>NVIDIA</b> ACE中使用AI動畫和<b class='flag-5'>語音</b>功能打造逼真的虛擬形象呢?

    語音數(shù)據(jù)集:AI語音技術(shù)的靈魂

    提升語音識別和生成能力:語音數(shù)據(jù)集為AI模型提供了豐富的語音樣本,通過訓(xùn)練和學(xué)習(xí)這些數(shù)據(jù),AI可以更好地理解和模擬人類的語音特征,從而提高
    的頭像 發(fā)表于 12-14 14:33 ?979次閱讀