配對的數據集上,完全隨機從頭開始訓練。本文是來自喜馬拉雅FM音視頻工程師馬力的投稿,他手把手式的介紹了Tacotron的使用方法,幫助你快速上手。" />

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個基于Tensorflow框架的開源Tacotron實現

LiveVideoStack ? 來源:互聯網 ? 作者:佚名 ? 2018-04-10 08:47 ? 次閱讀
語音合成(Text to Speech Synthesis)是一種將文本轉化為自然語音輸出的技術,在各行各業有著廣泛用途。傳統TTS是基于拼接和參數合成技術,效果上同真人語音的自然度尚有一定差距,效果已經達到上限,在實現上也依賴于復雜流水線,比如以文本分析為前端的語言模型、語音持續時間模型、聲學特征預測模型、將頻譜恢復成時域波形的聲碼器(vocoder)。這些組件都是基于大量領域專業知識,設計上很艱難,需要投入大量工程努力,對于手頭資源有限的中小型玩家來說,這種“高大上”的技術似乎有些玩不起。

幸運的是近年來基于神經網絡架構的深度學習方法崛起,使得原本在傳統專業領域門檻極高的TTS應用上更接地氣?,F在,我們有了新方法Tacotron一種端到端的TTS生成模型。所謂“端到端”就是直接從字符文本合成語音,打破了各個傳統組件之間的壁壘,使得我們可以從<文本,聲譜>配對的數據集上,完全隨機從頭開始訓練。從Tacotron的論文中我們可以看到,Tacotron模型的合成效果是優于要傳統方法的。

本文下面主要內容是github上一個基于Tensorflow框架的開源Tacotron實現,介紹如何快速上手漢語普通話的語音合成。至于模型的技術原理,限于篇幅就不再詳細介紹了,有興趣可以直接閱讀論文,本文的宗旨是,對于剛入門的同學能夠在自己動手實踐中獲取及時的結果反饋。

在正文開始之前,筆者假設讀者手頭已經準備好項目運行的軟硬件環境,包括NVIDIA GTX系列顯卡及其驅動,能夠在控制臺上使用Python3引入Tensorflow模塊。

關于Tacotron的源代碼,我們選擇了Keith Ito的個人項目,筆者的漢語語音合成正是基于此源碼上修改而成,代碼在:https://github.com/begeekmyfriend/tacotron

訓練語料庫可以在:

http://www.openslr.org/18上下載6.4G大小的THCHS-30,這是由清華大學開放的漢語普通話語料,許可證為Apache License v2.0。

我們可以開始安裝運行了。先clone源代碼到本地~/tacotron,然后解壓THCHS-30數據集到根目錄下,如下所示:

~/tacotron

|- data_thchs30

|- data

|- dev

|- lm_phone

|- lm_word

|- README.TXT

|- test

|- train

注意,~/tacotron是默認的路徑,之后運行Python程序會直接把~/tacotron作為根目錄,如果你的項目根目錄不一樣,那么你必須修改程序的默認路徑參數,否則會出現運行錯誤。

我們可以深入到:~/tacotron/data_thchs30/data里面去觀摩一下,后其中綴為“wav”是語音文件,采樣率16KHz,樣本寬度16-bit,單聲道,內容是時長為10s左右的一段漢語。后綴為“trn”文件為文本標注(transcript),不同語言有著不同的標注方法,比如英語就可以直接用26個字母加上標點符號作為標注,也就是直接使用英文內容本身;韓語由它自己一套字母表,每個字母可以使用Unicode代碼作為標注字符;而漢字本身有2~3萬個,窮舉的話太多,還有很多同音字,所以我們使用漢語拼音作為字符標注是一種可行方案(在此向漢語拼音之父周有光表示敬意)。比如有這么一句:

綠 是 陽春 煙 景 大塊 文章 的 底色 四月 的 林 巒 更是 綠 得 鮮活 秀媚 詩意 盎然

用漢語拼音標注為:

lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2

注意到除了拉丁字母的拼音,還有1~5個阿拉伯數字,表示聲調(四種聲調加上輕聲)。

也可以使用音素(聲母+韻母)為單元標注:

l v4 sh ix4 ii iang2 ch un1 ii ian1 j ing3 d a4 k uai4 uu un2 zh ang1 d e5 d i3 s e4 s iy4 vv ve4 d e5 l in2 l uan2 g eng4 sh ix4 l v4 d e5 x ian1 h uo2 x iu4 m ei4 sh ix1 ii i4 aa ang4 r an2

根據經驗筆者要指出,如果以字符為單位[a-z1-5],其實上述兩種標注方法沒有本質區別,故我們只要使用漢語拼音標注方案即可。

聰明的讀者應該明白了,所謂的<文本,聲譜>配對,就是要讓機器學會將每一個包括空格和標點在內的字符[a-z1-5 ,.;:],對應到(mel或線性)聲譜的某幾幀。

接下來進入實際操作階段。在根目錄下運行如下命令:

> python3 preprocess.py --dataset thchs30

這條命令會在根目錄下生成training目錄,里面存放了每個音頻文件的mel頻譜和線性頻譜(通過短時傅里葉變換STFT而得),后綴為"npy"的文件,用numpy庫加載即可得到多個narray數組(可以視為多個特征向量組成的多維矩陣),用作語音的聲學特征提取。除此之外還有個train.txt文件,里面基本上就是csv的格式將拼音標注同每個文件的聲譜對應起來。

再提醒一遍,我們的tacotron根目錄默認是~/tacotron,更改需要改變命令行參數。有了<文本,聲譜>配對數據集形式后,我們可以訓練了,輸入以下命令行:

> nohup python3 train.py --name thchs30 > output.out &

我們使用了nohup命令來屏蔽一切中斷信號,同時將Python進程置于后臺,這是由于訓練過程十分漫長(一般收斂需要10個小時,得到好的效果需要2天),免得網絡中斷或者終端斷開導致Python進程被殺死。訓練過程中的輸出將會保存在logs-thchs30目錄下,可能是這樣的:

~/tacotron

|- logs-thchs30

|- model.ckpt-92000.data-00000-of-00001

|- model.ckpt-92000.index

|- model.ckpt-92000.meta

|- step-92000-align.png

|- step-92000-align.wav

|- ...

以上是92K次迭代后保存下來的模型和alignment圖,順便說一下我們不需要關注step-92000-align.wav這個音頻文件,這并不是通過模型預測的實際效果,只是在訓練中使用了teacher forcing方法,不代表evaluation效果,可以不去管它。

如何判斷訓練是否達到預期呢?個人經驗有兩個:一看學習是否收斂;二看損失(loss)低于某個值。由于Tacotron模型本質上是基于編碼器解碼器模式的seqtoseq模型,所以學習是否收斂可以從編碼器序列和解碼器序列是否對齊(alignment)判斷。

我們放了兩張alignment圖對比,上圖訓練了140K次迭代,可以看到沒有出現對齊,說明沒有收斂??赡艿脑蚝芏?,比如數據集質量不好,標注不正確等等。下圖是92K次迭代,可以看到對齊情況良好,表明基本上可以通過文本來合成出有效的語音。這里要指出,所謂對齊并不是一定要筆直的斜線,它只是代表編碼器序列(文本)和解碼器序列(聲譜)是否對應起來,而且像素點越亮,效果越好。

第二個判斷點是loss值,越小表明越接近地真值(ground truth),當然必須在收斂的前提下,loss會趨于穩定。在實際訓練中有可能出現loss值很低,但是仍然沒出現alignment的情況,這是是無法合成語音的。

當我們從訓練日志上看到,loss值低于0.07的時候,基本表示學習收斂并且效果穩定了。可以殺掉后臺Python進程,別擔心,logs-thchs30目錄下已經保存了之前訓練過程中產生的模型,你可以從任意時刻生成模型隨時恢復繼續訓練,比如我們需要從92K次迭代生成的模型基礎上繼續訓練,命令行如下:

> nohup python3 train.py --name thchs30 --restore_step 92000 >> output.out &

好了,現在終于到了檢驗我們錄音效果的時刻了!不過我們無法直接輸入漢字文本,而是拼音標注,好在有開源項目python-pinyin幫我們搞定:https://github.com/mozillazg/python-pinyin

比如我們想合成一句“每個內容生產者都可以很方便地實現自我價值,更多的人有了微創業的機會。”我們使用python-pinyin輸出的拼音標注拷貝到eval.py里,輸入命令行:

> python3 eval.py --checkpoint logs-thchs30/model.ckpt-133000

一段時間后,就會在logs-thchs30目錄下生成了eval-133000-0.wav,這就是我們想要的結果,一起來聽聽看吧~

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音合成
    +關注

    關注

    2

    文章

    87

    瀏覽量

    16140
  • GitHub
    +關注

    關注

    3

    文章

    466

    瀏覽量

    16386

原文標題:基于Tacotron漢語語音合成的開源實踐

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    卷積神經網絡的實現工具與框架

    卷積神經網絡因其在圖像和視頻處理任務中的卓越性能而廣受歡迎。隨著深度學習技術的快速發展,多種實現工具和框架應運而生,為研究人員和開發者提供了強大的支持。 TensorFlow 概述
    的頭像 發表于 11-15 15:20 ?203次閱讀

    真格基金宣布捐贈開源AI項目vLLM

    開源技術處于 AI 革命的中心。Llama 3、Mistral 等開源大模型迅速追趕 GPT-4,TensorFlow、Pytorch 等開源深度學習
    的頭像 發表于 09-24 16:13 ?329次閱讀

    如何在Tensorflow實現反卷積

    TensorFlow實現反卷積(也稱為轉置卷積或分數步長卷積)是涉及多個概念和步驟的過程。反卷積在深度學習領域,特別是在圖像分割、圖像超分辨率、以及生成模型(如生成對抗網絡GA
    的頭像 發表于 07-14 10:46 ?543次閱讀

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google開發的開源深度學習框架,它允許開發者方便地構建、訓練和部署各種復雜的機器學習模型。
    的頭像 發表于 07-12 16:38 ?581次閱讀

    tensorflow和pytorch哪個更簡單?

    PyTorch更簡單。選擇TensorFlow還是PyTorch取決于您的具體需求和偏好。如果您需要易于使用、靈活且具有強大社區支持的框架,PyTorch可能是
    的頭像 發表于 07-05 09:45 ?780次閱讀

    tensorflow和pytorch哪個好

    tensorflow和pytorch都是非常不錯的強大的框架,TensorFlow還是PyTorch哪個更好取決于您的具體需求,以下是關于這兩框架
    的頭像 發表于 07-05 09:42 ?627次閱讀

    tensorflow簡單的模型訓練

    在本文中,我們將詳細介紹如何使用TensorFlow進行簡單的模型訓練。TensorFlow開源的機器學習庫,廣泛用于各種機器學習任務
    的頭像 發表于 07-05 09:38 ?512次閱讀

    keras模型轉tensorflow session

    和訓練深度學習模型。Keras是基于TensorFlow、Theano或CNTK等底層計算框架構建的。TensorFlow
    的頭像 發表于 07-05 09:36 ?461次閱讀

    如何使用Tensorflow保存或加載模型

    TensorFlow廣泛使用的開源機器學習庫,它提供了豐富的API來構建和訓練各種深度學習模型。在模型訓練完成后,保存模型以便將來使用或部署是
    的頭像 發表于 07-04 13:07 ?1307次閱讀

    TensorFlow的定義和使用方法

    TensorFlow由谷歌人工智能團隊谷歌大腦(Google Brain)開發和維護的開源機器學習庫。它基于數據流編程(dataflow programming)的概念,將復雜的
    的頭像 發表于 07-02 14:14 ?680次閱讀

    TensorFlow與PyTorch深度學習框架的比較與選擇

    深度學習作為人工智能領域的重要分支,在過去十年中取得了顯著的進展。在構建和訓練深度學習模型的過程中,深度學習框架扮演著至關重要的角色。TensorFlow和PyTorch是目前最受
    的頭像 發表于 07-02 14:04 ?888次閱讀

    星動紀元開源人形機器人訓練框架Humanoid-Gym

    星動紀元,這家專注于人形機器人技術的創新公司,近日宣布計劃將其訓練框架Humanoid-Gym進行開源。Humanoid-Gym是為人形機器人設計的訓練
    的頭像 發表于 03-06 18:13 ?1937次閱讀

    谷歌模型框架是什么軟件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌開發的用于機器學習和人工智能的軟件框架,其中最著名的是TensorFlowTensorFlow
    的頭像 發表于 03-01 16:25 ?804次閱讀

    基于TensorFlow和Keras的圖像識別

    ,讓我們先花點時間來了解些術語。TensorFlow/KerasTensorFlow是GoogleBrain團隊創建的Python開源
    的頭像 發表于 01-13 08:27 ?770次閱讀
    基于<b class='flag-5'>TensorFlow</b>和Keras的圖像識別

    邊緣計算平臺開源框架有哪些類型

    將詳細介紹幾種常見的邊緣計算平臺開源框架。 Akraino Edge Stack Akraino Edge Stack 是開放、輕量級、靈活的云邊緣平臺
    的頭像 發表于 12-27 15:17 ?1225次閱讀