又粗又大精品久久久久国产片_中国一级毛片国产_欧美三级国产三级在线_成在人av抽搐高潮喷水流白浆_欧洲日韩国产综合AV无码_午夜伦理电影在线观看_久久人妻无码hd毛片_国产在线观看第一页_亚洲精品成人电影

這篇文章，旨在為具有深入學(xué)習(xí)專業(yè)水平的開發(fā)人員準(zhǔn)備，將幫助您生成一個準(zhǔn)備生產(chǎn)、人工智能、文本到語音的模型。

幾十年來，將文本實時轉(zhuǎn)換為高質(zhì)量、自然發(fā)音的語音一直是一項具有挑戰(zhàn)性的任務(wù)。最先進(jìn)的語音合成模型是基于參數(shù)神經(jīng)網(wǎng)絡(luò) 1 。文本到語音（ TTS ）合成通常分兩步完成。

第一步將文本轉(zhuǎn)換成時間對齊的特征，如 mel-spe CTR 圖或 F0 頻率等語言特征；

第二步將時間對齊的功能轉(zhuǎn)換為音頻。

優(yōu)化的 Tacotron2 模型 2 和新的 WaveGlow 模型 1 利用 NVIDIA Volta 上的張量核和圖靈 GPUs 將文本實時轉(zhuǎn)換為高質(zhì)量的自然發(fā)音語音。生成的音頻具有清晰的人聲，沒有背景噪音。

下面是一個使用此模型可以實現(xiàn)的示例：

在遵循 Jupyter 筆記本中的步驟之后，您將能夠為模型提供英語文本，并且它將生成一個音頻輸出文件。所有重現(xiàn)結(jié)果的腳本都發(fā)布在我們的 NVIDIA 深度學(xué)習(xí)示例存儲庫的 GitHub 上，其中包含幾個使用張量核心的高性能培訓(xùn)配方。此外，我們還開發(fā)了一個 Jupyter 筆記本，供用戶創(chuàng)建自己的容器映像，然后下載數(shù)據(jù)集，逐步重現(xiàn)訓(xùn)練和推理結(jié)果。

模型

我們的 TTS 系統(tǒng)是兩個神經(jīng)網(wǎng)絡(luò)模型的組合：

從“ 基于 Mel-Spe CTR 圖預(yù)測的條件波網(wǎng)自然合成 TTS ”改進(jìn)的 Tacotron 2 （圖 1 ）模型；

來自“ WaveGlow ：一種基于流的語音合成生成網(wǎng)絡(luò) ”的基于流的神經(jīng)網(wǎng)絡(luò)模型。

Tacotron 2 和 WaveGlow 模型構(gòu)成了一個 TTS 系統(tǒng)，用戶可以在沒有任何附加韻律信息的情況下從原始文本合成自然發(fā)音的語音。

Tacotron 2 型號

Tacotron 2 2 是一種直接從文本合成語音的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該系統(tǒng)由一個遞歸的序列到序列特征預(yù)測網(wǎng)絡(luò)組成，該網(wǎng)絡(luò)將字符嵌入映射到 mel 尺度的 spe CTR 圖，然后由一個改進(jìn)的 WaveNet 模型作為聲碼器，從這些 spe CTR 圖合成時域波形，如圖 1 所示。

圖 1 ： Tacotron 2 系統(tǒng)架構(gòu)框圖 1

網(wǎng)絡(luò)由一個編碼器（藍(lán)色）和一個解碼器（橙色）組成。編碼器將一個字符序列轉(zhuǎn)換成一個隱藏的特征表示，作為解碼器的輸入來預(yù)測 spe CTR 圖。輸入文本（黃色）是使用學(xué)習(xí)的 512 維字符嵌入來呈現(xiàn)的，它通過三個卷積層（每個包含 512 個形狀為 5 × 1 的濾波器）的堆棧，然后進(jìn)行批量規(guī)范化和 ReLU 激活。編碼器輸出被傳遞到注意力網(wǎng)絡(luò)（ gray ），該網(wǎng)絡(luò)將完整編碼序列總結(jié)為每個解碼器輸出步驟的固定長度上下文向量。

解碼器是一個自回歸遞歸神經(jīng)網(wǎng)絡(luò)，它從編碼的輸入序列中一次一幀地預(yù)測 mel-spe CTR 圖。前一個時間步的預(yù)測首先通過一個包含兩個完全連接的 256 個隱藏 ReLU 單元的層的小 pre 網(wǎng)絡(luò)。 prenet 輸出和注意力上下文向量被連接起來，并傳遞到一個由兩個 LSTM 層組成的堆棧，其中包含 1024 個單元。通過線性變換，將 LSTM 輸出與注意上下文向量的連接進(jìn)行投影，以預(yù)測目標(biāo) spe CTR 圖幀。最后，將預(yù)測的 mel-spe CTR 圖通過一個 5 層卷積后網(wǎng)絡(luò)，該網(wǎng)絡(luò)預(yù)測一個殘差來加入預(yù)測，以改善整體重建。每個 post-net 層由 512 個形狀為 5 × 1 的過濾器組成，并進(jìn)行批量標(biāo)準(zhǔn)化處理，除最后一層外，所有過濾器均激活。

我們實現(xiàn)的 Tacotron 2 模型與 1 中描述的模型不同，我們使用：

退出而不是分區(qū)，以使 LSTM 層正則化；

用 WaveGlow 模型 2 代替 WaveNet 來合成波形。

WaveGlow 模型

WaveGlow 1 是一種基于流的網(wǎng)絡(luò)，能夠從 mel-spe CTR 圖生成高質(zhì)量的語音。 WaveGlow 結(jié)合了 Glow 5 和 WaveNet 6 的見解，以提供快速、高效和高質(zhì)量的音頻合成，而無需自動回歸。 WaveGlow 只使用一個網(wǎng)絡(luò)實現(xiàn)，只使用一個單一的成本函數(shù)進(jìn)行訓(xùn)練：使訓(xùn)練過程簡單而穩(wěn)定。我們當(dāng)前的模型以 55 * 22050 = 1212750 的速度合成樣本，這比每秒 22050 個樣本的“實時”要快 55 倍。平均意見得分（ MOS ）表明，它提供的音頻質(zhì)量與在同一數(shù)據(jù)集上訓(xùn)練的最佳公開可用 WaveNet 實現(xiàn)一樣好。

WaveGlow 是一種生成模型，它通過從分布中采樣來生成音頻。為了使用神經(jīng)網(wǎng)絡(luò)作為生成模型，我們從一個簡單的分布中提取樣本，在我們的例子中，是一個零均值的球面高斯分布，其維數(shù)與我們期望的輸出相同，然后將這些樣本通過一系列層將簡單分布轉(zhuǎn)換為具有期望分布的分布。在這種情況下，我們根據(jù) mel-spe CTR 圖對音頻樣本的分布進(jìn)行建模。

如圖 2 所示，對于通過網(wǎng)絡(luò)的前向傳遞，我們將八個音頻樣本組作為向量，“壓縮”操作，如 Glow 5 所示。然后我們通過幾個“流程步驟”處理這些向量。這里的流動步驟由可逆的 1 × 1 卷積和仿射耦合層組成。在仿射耦合層中，一半的信道作為輸入，然后產(chǎn)生乘法和加法項，用于縮放和平移剩余的信道。

圖 2 ： WaveGlow 網(wǎng)絡(luò) 2

啟用自動混合精度

混合精度通過以半精度格式執(zhí)行操作，同時以單精度（ FP32 ）存儲最少的信息，從而在網(wǎng)絡(luò)的關(guān)鍵部分盡可能多地保留信息，從而顯著提高了計算速度。啟用混合精度利用了 Volta 和 Turing GPUs 上的張量核，在訓(xùn)練時間上提供了顯著的加速——在運算最密集的模型架構(gòu)上，整體加速高達(dá) 3 倍。

使用混合精度訓(xùn)練之前需要兩個步驟：

在適當(dāng)?shù)那闆r下移植模型以使用 FP16 數(shù)據(jù)類型；

手動添加損耗縮放以保持較小的漸變值。

通過使用 PyTorch 中的自動混合精度（ AMP ）庫， APEX 中啟用了混合精度，該庫在檢索時將變量強(qiáng)制轉(zhuǎn)換為半精度，同時以單精度格式存儲變量。為了在反向傳播中保持較小的梯度值，應(yīng)用漸變時必須包含損耗標(biāo)度步驟。在 PyTorch 中，通過使用 AMP 提供的 scale _ loss （）方法，可以很容易地應(yīng)用損耗縮放。要使用的縮放值可以是 dynamic 或 fixed 。

通過在訓(xùn)練腳本中添加– amp run 標(biāo)志，可以啟用張量核心的混合精度訓(xùn)練，您可以在我們的 Jupyter 筆記本中看到示例。

培訓(xùn)業(yè)績

表 1 和表 2 比較了采用 PyTorch -19 。 06-py3 NGC 容器在帶有 8-V100 16GB GPUs 的 NVIDIA DGX-1 上使用改進(jìn)的 Tacotron 2 和 WaveGlow 模型的訓(xùn)練性能。在整個訓(xùn)練周期內(nèi)，平均性能數(shù)（ Tacotron 2 的輸出 mel spe CTR 圖每秒， WaveGlow 每秒輸出樣本數(shù)）。

表 2 ： WaveGlow 模型的訓(xùn)練性能結(jié)果

如表 1 和表 2 所示，使用張量核進(jìn)行混合精度訓(xùn)練可以實現(xiàn)顯著的加速，并且可以有效地擴(kuò)展到 4 / 8 GPUs 。混合精度訓(xùn)練也保持了與單精度訓(xùn)練相同的精度，并允許更大的批量。語音質(zhì)量取決于模型大小和訓(xùn)練集大小；使用具有自動混合精度的張量核，可以在相同的時間內(nèi)訓(xùn)練出質(zhì)量更高的模型。

考慮到高質(zhì)量所需的模型大小和培訓(xùn)量， GPUs 提供了一個最合適的硬件架構(gòu)，并將吞吐量、帶寬、可伸縮性和易用性進(jìn)行了最佳組合。

推理性能

表 3 和表 4 分別顯示了從 1-V100 和 1-T4 GPU 上的 1000 次推理運行中收集的 Tacotron2 和 WaveGlow 文本到語音系統(tǒng)的推理統(tǒng)計數(shù)據(jù)。從 Tacotron2 推斷開始到 WaveGlow 推斷結(jié)束，測量潛伏期。這些表包括平均延遲、標(biāo)準(zhǔn)偏差和延遲置信區(qū)間（百分比值）。吞吐量是以每秒生成的音頻樣本數(shù)來衡量的。 RTF 是一個實時因子，它告訴我們在 1 秒鐘的壁時間內(nèi)產(chǎn)生了多少秒的語音。

表 3 ： 1-V100 GPU 上 Tacotron2 和 WaveGlow 系統(tǒng)的推斷統(tǒng)計

與 FP32 相比，我們可以看到混合精度推理具有較低的平均延遲和延遲置信區(qū)間（百分比值），同時實現(xiàn)更高的吞吐量并生成更長的平均 RTF （ 1 秒壁時間內(nèi)的語音秒數(shù)）。

表 4 ： 1-T4 GPU 上 Tacotron2 和 WaveGlow 系統(tǒng)的推斷統(tǒng)計

一步一步運行 Jupyter 筆記本

為了達(dá)到上述結(jié)果：

按照 GitHub 上的腳本操作或逐步運行 Jupyter 筆記本來訓(xùn)練 Tacotron 2 和 WaveGlow v1 。 5 模型。在 Jupyter 筆記本中，我們提供了完全自動化的腳本來下載和預(yù)處理 LJ 語音數(shù)據(jù)集；

數(shù)據(jù)準(zhǔn)備步驟完成后，使用提供的 Dockerfile 構(gòu)建修改后的 Tacotron 2 和 WaveGlow 容器，并在容器中啟動一個分離的會話；

要使用帶張量核心的 AMP 或使用 FP32 訓(xùn)練我們的模型，請使用 Tacrotron 2 的默認(rèn)參數(shù)和使用單個 GPU 或多個 GPUs 的 WaveGlow 模型執(zhí)行訓(xùn)練步驟。

Training

Tacotron2 和 WaveGlow 模型分別獨立地進(jìn)行訓(xùn)練，兩個模型在訓(xùn)練過程中通過短時傅立葉變換（ STFT ）得到 mel-spe CTR 圖。這些 mel-spe CTR 圖用于 Tacotron 2 情況下的損耗計算，以及在波輝光的情況下作為網(wǎng)絡(luò)的調(diào)節(jié)輸入。

整個驗證數(shù)據(jù)集的平均損失是訓(xùn)練損失的平均值。對于 Tacotron 2 模型，性能是以每秒的總輸入令牌數(shù)來報告的，而對于 WaveGlow 模型，則是以每秒的總輸出樣本數(shù)來報告的。在輸出日志中，這兩個度量值都被記錄為 train _ iter _ items / sec （每次迭代后）和 train _ epoch _ items / sec （在 epoch 上的平均值）。結(jié)果在整個訓(xùn)練周期內(nèi)取平均值，并在訓(xùn)練中包含的所有 GPUs 上求和。

默認(rèn)情況下，我們的訓(xùn)練腳本將使用張量 cCores 啟動混合精度訓(xùn)練。您可以通過刪除– fp16 run 標(biāo)志來更改此行為。

Inference

在訓(xùn)練了 Tacotron 2 和 WaveGlow 模型，或者下載了各自模型的預(yù)先訓(xùn)練的檢查點之后，您可以執(zhí)行以文本為輸入的推理，并生成一個音頻文件。

您可以根據(jù)文本文件的長度自定義文本文件的內(nèi)容，可能需要將– max decoder steps 選項增加到 2000 。 Tacotron 2 模型是在 LJ 語音數(shù)據(jù)集上訓(xùn)練的，音頻樣本不超過 10 秒，相當(dāng)于 860 個 mel spe CTR 圖。因此，這種推斷在生成相似長度的音頻樣本時可以很好地工作。我們將 mel-spe CTR 圖長度限制設(shè)置為 2000 （約 23 秒），因為實際上它仍然可以生成正確的聲音。如果需要，用戶可以將較長的短語分成多個句子，并分別合成它們。

關(guān)于作者

Maggie Zhang 是 NVIDIA 的深度學(xué)習(xí)工程師，致力于深度學(xué)習(xí)框架和應(yīng)用程序。她在澳大利亞新南威爾士大學(xué)獲得計算機(jī)科學(xué)和工程博士學(xué)位，在那里她從事 GPU / CPU 異構(gòu)計算和編譯器優(yōu)化。

Grzegorz Karch 是 NVIDIA 深度學(xué)習(xí)軟件組的高級 CUDA 算法工程師，專注于語音合成的生成模型。 Grzegorz 擁有德國斯圖加特大學(xué)計算機(jī)科學(xué)博士學(xué)位，在那里他的研究集中在科學(xué)可視化上。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4940

瀏覽量
102816
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5492

瀏覽量
120977

ASR與自然語言處理的結(jié)合

。以下是對ASR與自然語言處理結(jié)合的分析：一、ASR與NLP的基本概念 ASR（自動語音識別）：專注于將人類的語音轉(zhuǎn)換為文字。涉及從聲音信號中提取特征，并將這些特征映射到

發(fā)表于 11-18 15:19 ?303次閱讀

如何使用 Llama 3 進(jìn)行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）進(jìn)行文本生成，可以通過以下幾種方式實現(xiàn)，取決于你是否愿意在本地運行模型或者使用現(xiàn)成的API

發(fā)表于 10-27 14:21 ?214次閱讀

NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測試（MTEB）涵蓋 56 項嵌入任務(wù)。

發(fā)表于 08-23 16:54 ?1938次閱讀

<b class='flag-5'>NVIDIA</b><b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基準(zhǔn)

nlp自然語言處理基本概念及關(guān)鍵技術(shù)

、問答系統(tǒng)、文本摘要等眾多領(lǐng)域有著廣泛的應(yīng)用。 1. NLP的基本概念 1.1 語言模型語言模型是NLP的基礎(chǔ)，它用于描述一個句子在自然語言中出現(xiàn)的概率。語言模型通常用于文本生成、機(jī)器翻譯、

發(fā)表于 07-09 10:32 ?516次閱讀

語音識別和自然語言處理的區(qū)別和聯(lián)系

語音識別和自然語言處理是人工智能領(lǐng)域的兩個重要分支，它們在很多方面有著緊密的聯(lián)系，同時也存在一些明顯的區(qū)別。本文將詳細(xì)介紹語音識別和自然語言

發(fā)表于 07-05 10:09 ?1421次閱讀

Transformer模型在語音識別和語音生成中的應(yīng)用優(yōu)勢

自然語言處理、語音識別、語音生成等多個領(lǐng)域展現(xiàn)出強(qiáng)大的潛力和廣泛的應(yīng)用前景。本文將從Transformer模型的基本原理出發(fā)，深入探討其在語音

發(fā)表于 07-03 18:24 ?968次閱讀

自然語言處理是什么技術(shù)的一種應(yīng)用

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學(xué)領(lǐng)域的一個分支，它涉及到使用計算機(jī)技術(shù)來處理、分析和生成自然語言文本。

發(fā)表于 07-03 14:18 ?618次閱讀

WT3000T8-TTS語音合成芯片及應(yīng)用場景介紹

TTS語音合成芯片是一種能夠將文本信息轉(zhuǎn)化為自然語音的專用芯片。它通過內(nèi)置的語音合成算法和音頻處

發(fā)表于 04-18 18:03 ?828次閱讀

NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉(zhuǎn) 3D 生成式 AI 模型）實現(xiàn)雙倍加速。

發(fā)表于 03-27 10:28 ?467次閱讀

Cadence與NVIDIA聯(lián)合推出利用加速計算和生成式AI重塑設(shè)計

中國上海，2024 年 3 月 25 日——楷登電子（美國 Cadence 公司，NASDAQ：CDNS）近日宣布，公司將深化與 NVIDIA 在 EDA、系統(tǒng)設(shè)計與分析、數(shù)字生物學(xué)和人工智能領(lǐng)域的多年合作，推出兩款變革性解決方案，利用

發(fā)表于 03-25 14:36 ?566次閱讀

NVIDIA Isaac將生成式AI應(yīng)用于制造業(yè)和物流業(yè)

NVIDIA Isaac 機(jī)器人平臺利用最新的生成式 AI 和先進(jìn)的仿真技術(shù)，加速 AI 機(jī)器人技術(shù)的發(fā)展。

發(fā)表于 03-22 10:06 ?498次閱讀

SAP與NVIDIA攜手加速生成式AI在企業(yè)應(yīng)用中的普及

SAP SE 和 NVIDIA 宣布深化合作，致力于加速企業(yè)客戶在 SAP 云解決方案和應(yīng)用組合中利用數(shù)據(jù)和生成式 AI 的變革力量。

發(fā)表于 03-22 10:02 ?568次閱讀

在 NVIDIA ACE 中使用 AI 動畫和語音功能打造逼真的虛擬形象

NVIDIA 近日公布了 NVIDIA Avatar Cloud Engine（ACE）的一系列技術(shù)，增強(qiáng)了 AI 虛擬形象和數(shù)字人的真實感和可訪問性，這些新的動畫和語音功能實現(xiàn)了更自然

發(fā)表于 12-15 15:50 ?542次閱讀

如何在NVIDIA ACE中使用AI動畫和語音功能打造逼真的虛擬形象呢？

NVIDIA 近日公布了 NVIDIA Avatar Cloud Engine（ACE）的一系列技術(shù)，增強(qiáng)了 AI 虛擬形象和數(shù)字人的真實感和可訪問性，這些新的動畫和語音功能實現(xiàn)了更自然

發(fā)表于 12-15 15:48 ?624次閱讀

語音數(shù)據(jù)集：AI語音技術(shù)的靈魂

提升語音識別和生成能力：語音數(shù)據(jù)集為AI模型提供了豐富的語音樣本，通過訓(xùn)練和學(xué)習(xí)這些數(shù)據(jù)，AI可以更好地理解和模擬人類的語音特征，從而提高

發(fā)表于 12-14 14:33 ?979次閱讀