2019深度學習語音合成指南

本文作者：栗峰

2019-09-02 18:42

導語：追趕最前沿~

雷鋒網AI科技評論編者按：人工合成人類語音被稱為語音合成。這種基于機器學習的技術適用于文本轉換語音（text-to-speech）、音樂生成、語音生成、語音支持設備、導航系統以及為視障人士提供無障礙服務。

在這篇文章中，我們將研究基于深度學習而進行的研究或模型框架。

在我們正式開始之前，我們需要簡要概述一些特定的、傳統的語音合成策略：拼接和參數化。

拼接方法，需要使用大型數據庫中的語音來拼接生成新的可聽語音。在需要不同語音風格的情況下，必須使用新的音頻數據庫，這極大的限制了這種方法的可擴展性。

參數化方法則是用一條記錄下的人的聲音以及一個含參函數，通過調節函數參數來改變語音。

這兩種方法代表了傳統的語音合成方法。現在讓我們來看看使用深度學習的新方法。為了探索當前流行的語音合成方法，我們研究了這些：

WaveNet: 原始音頻生成模型
Tacotron:端到端的語音合成
Deep Voice 1: 實時神經文本語音轉換
Deep Voice 2: 多說話人神經文本語音轉換
Deep Voice 3: 帶有卷積序列學習的尺度文本語音轉換
Parallel WaveNet: 快速高保真語音合成
利用小樣本的神經網絡語音克隆
VoiceLoop: 通過語音循環進行語音擬合與合成
利用梅爾圖譜預測上的條件WaveNet進行自然TTS合成

WaveNet: 原始音頻生成模型

這篇文章的作者來自谷歌。他們提出了一種能產生原始音頻波的神經網絡。他們的模型是完全概率的和自回歸的，在英語和漢語的text-to-speech上都取得了最先進的結果。

文章鏈接: https://arxiv.org/abs/1609.03499

2019深度學習語音合成指南

圖1

WaveNET是基于PixelCNN的音頻生成模型，它能夠產生類似于人類發出的聲音。

2019深度學習語音合成指南

圖2

在這個生成模型中，每個音頻樣本都以先前的音頻樣本為條件。條件概率用一組卷積層來建模。這個網絡沒有池化層，模型的輸出與輸入具有相同的時間維數。

2019深度學習語音合成指南

圖3

在模型架構中使用臨時卷積可以確保模型不會違反數據建模的順序。在該模型中，每個預測語音樣本被反饋到網絡上用來幫助預測下一個語音樣本。由于臨時卷積沒有周期性連接，因此它們比RNN訓練地更快。

使用臨時卷積的主要挑戰之一是，它們需要很多層來增加感受野。為了解決這一難題，作者使用了加寬的卷積。加寬的卷積使只有幾層的網絡能有更大的感受野。模型使用了Softmax分布對各個音頻樣本的條件分布建模。

2019深度學習語音合成指南

圖4

這個模型在多人情景的語音生成、文本到語音的轉換、音樂音頻建模等方面進行了評估。測試中使用的是平均意見評分(MOS)，MOS可以評測聲音的質量，本質上就是一個人對聲音質量的評價一樣。它有1到5之間的數字，其中5表示質量最好。

2019深度學習語音合成指南

圖5

下圖顯示了1-5級waveNet的語音質量

2019深度學習語音合成指南圖6

Tacotron:端到端的語音合成

這篇文章的作者來自谷歌。 Tacotron是一種端到端的生成性文本轉化語音的模型，可直接從文本和音頻對合形成語音。Tacotron在美式英語上獲得3.82分的平均得分。Tacotron是在幀級生成語音，因此比樣本級自回歸的方法更快。

文章鏈接：https://arxiv.org/abs/1703.10135

這個模型是在音頻和文本對上進行的訓練，因此它可以非常方便地應用到新的數據集上。Tacotron是一個seq2seq模型，該模型包括一個編碼器、一個基于注意力的解碼器以及一個后端處理網絡（post-processing net）。如下框架圖所示，該模型輸入字符，輸出原始譜圖。然后把這個譜圖轉換成波形圖。

2019深度學習語音合成指南

圖7

下圖顯示了CBHG模塊的結構。它由1-D卷積濾波器，highway networks和雙向GRU（Gated Recurrent Unit）組成。

2019深度學習語音合成指南

圖8

將字符序列輸入編碼器，編碼器將提取出文本的順序表示。每個字符被表示為一個獨熱向量嵌入到連續向量中。然后加入非線性變換，再然后加上一個dropout，以減少過度擬合。這在本質上減少了單詞的發音錯誤。

模型所用的解碼器是基于內容注意力的tanh解碼器。然后使用Griffin-Lim算法生成波形圖。該模型使用的超參數如下所示。

2019深度學習語音合成指南

圖9

下圖顯示了與其他替代方案相比，Tacotron的性能優勢。

2019深度學習語音合成指南

圖10

Deep Voice 1: 實時神經文本到語音合成

這篇文章的作者來自百度硅谷人工智能實驗室。Deep Voice是一個利用深度神經網絡開發的文本到語音的系統.

文章鏈接：https://arxiv.org/abs/1702.07825

它有五個重要的組成模塊：

定位音素邊界的分割模型（基于使用連接時間分類(CTC)損失函數的深度神經網絡）；
字母到音素的轉換模型(字素到音素是在一定規則下產生單詞發音的過程)；
音素持續時間預測模型；
基頻預測模型；
音頻合成模型（一個具有更少參數的WaveNet變體）。

2019深度學習語音合成指南

圖11

字母到音素模型將英文字符轉換為音素。分割模型識別每個音素在音頻文件中開始和結束的位置。音素持續時間模型預測音素序列中每個音素的持續時間。

基頻模型預測音素是否發聲。音頻合成模型則綜合了字母到音素轉換模型、音素持續時間模型、基頻預測模型等的輸出進行音頻合成。

以下是它與其他模型的對比情況

2019深度學習語音合成指南圖12

Deep Voice 2: 多說話人神經文本語音轉換

這篇文章是百度硅谷人工智能實驗室在Deep Voice上的二次迭代。他們介紹了一種利用低維可訓練說話人嵌入來增強神經文本到語音的方法，這可以從單個模型產生不同的聲音。

該模型與DeepVoice 1有類似的流水線，但它在音頻質量上卻有顯著的提高。該模型能夠從每個說話人不到半個小時的語音數據中學習數百種獨特的聲音。

文章鏈接：https://arxiv.org/abs/1705.08947

作者還介紹了一種基于WaveNet的聲譜到音頻的神經聲碼器，并將其與Taco tron結合，代替Griffin-Lim音頻生成。這篇文章的重點是處理多個說話人而每個說話人的數據有非常少的情況。模型的架構類似于Deep Voice 1，訓練過程如下圖所示。

2019深度學習語音合成指南圖13

Deep Voice 2和Deep Voice 1之間的主要區別在于音素持續時間模型和頻率模型的分離。 Deep Voice 1有一個用于聯合預測音素持續時間和頻率曲線的單一模型; 而在Deep Voice 2中，則先預測音素持續時間，然后將它們用作頻率模型的輸入。

Deep Voice 2中的分割模型使用一種卷積遞歸結構（采用連接時間分類(CTC)損失函數）對音素對進行分類。Deep Voice 2的主要修改是在卷積層中添加了大量的歸一化和殘余連接。它的發聲模型是基于WaveNet架構的。

從多個說話人合成語音，主要通過用每個說話人的單個低維級說話人嵌入向量增強每個模型來完成的。說話人之間的權重分配，則是通過將與說話人相關的參數存儲在非常低維的矢量中來實現。

遞歸神經網絡(RNN)的初始狀態由說話人聲音的嵌入產生。采用均勻分布的方法隨機初始化說話人聲音的嵌入，并用反向傳播對其進行聯合訓練。說話人聲音的嵌入包含在模型的多個部分中，以確保能考慮到每個說話人的聲音特點。

2019深度學習語音合成指南

圖14

接下來讓我們看看與其他模型相比它的性能如何

2019深度學習語音合成指南

圖15

Deep Voice 3: 利用卷積序列學習將文本轉換為語音

文章鏈接：https://arxiv.org/abs/1710.07654

這篇文章的作者提出了一種全卷積字符到譜圖的框架，可以實現完全并行計算。該框架是基于注意力的序列到序列模型。這個模型在LibriSpeech ASR數據集上進行訓練。

這個模型的結構能夠將字符、音素、重音等文本特征轉換成不同的聲碼器參數，其中包括Mel波段光譜圖、線性比例對數幅度譜圖、基頻譜圖、譜包絡圖和非周期性參數。然后將這些聲碼器參數作為音頻波形合成模型的輸入。

2019深度學習語音合成指南圖16

模型的結構由以下幾個部分組成：

編碼器：一種全卷積編碼器，可將文本特征轉換為內部學習表示。
解碼器：一種全卷積因果解碼器，以自回歸的方式解碼學習表示。
轉換器：一種全卷積后處理網絡，可預測最終的聲碼器參數。

對于文本預處理，作者的處理方式包括：大寫文本輸入字符，刪除標點符號，以句號或問號結束每句話，并用表示停頓長度的特殊字符替換空格。

下圖是該模型與其他替代模型的性能比較。

2019深度學習語音合成指南圖17

Parallel WaveNet: 快速高保真語音合成

這篇文章的作者來自谷歌。他們引入了一種叫做概率密度蒸餾的方法，它從一個訓練過的WaveNet中訓練一個并行前饋網絡。該方法是通過結合逆自回歸流(IAFS)和波形網(WaveNet)的最佳特征構建的。這些特征代表了WaveNet的有效訓練和IAF網絡的有效采樣。

文章鏈接：https://arxiv.org/abs/1711.10433

為了進行有效訓練，作者使用一個已經訓練過的WaveNet作為“老師”，并行WaveNet‘學生’向其學習。目的是為了讓學生從老師那里學到的分布中匹配自己樣本的概率。

2019深度學習語音合成指南圖18

作者還提出了額外的損失函數，以指導學生生成高質量的音頻流：

功率損失函數：確保使用語音不同頻帶的功率，就像人在說話一樣。
感知損失函數：針對這種損失函數，作者嘗試了特征重構損失函數(分類器中特征圖之間的歐氏距離)和風格損失函數(Gram矩陣之間的歐氏距離)。他們發現風格損失函數會產生更好的效果。
無論條件向量如何，對比度損失會懲罰有高可能性的波形。

下圖顯示了這個模型的性能：

2019深度學習語音合成指南

圖19

利用小樣本的神經網絡語音克隆

據雷鋒網了解，這篇文章的作者來自百度研究院。他們引入了一個神經語音克隆系統，它可以通過學習從少量音頻樣本合成一個人的聲音。

系統使用的兩種方法是說話人自適應和說話人編碼。說話人自適應是通過對多個說話人的聲音生成模型進行微調來實現的，而說話人編碼則是通過訓練一個單獨的模型來直接推斷一個新的嵌入到多個說話人語音生成模型。

文章鏈接：https://arxiv.org/abs/1802.06006v3

本文采用Deep Voice 3作為多說話人模型的基線。所謂聲音克隆，即提取一個說話人的聲音特征，并根據這些特征來生成給定的文本所對應的音頻。

生成音頻的性能指標決定于語音的自然度和說話人聲音的相似度。作者提出了一種說話人編碼方法，該方法能夠從未曾見過的說話人音頻樣本中預測說話人聲音嵌入。

2019深度學習語音合成指南

圖20

下面是聲音克隆的性能：

2019深度學習語音合成指南圖21

2019深度學習語音合成指南

圖22

VoiceLoop: 通過語音循環進行語音擬合與合成

這篇文章的作者來自Facebook AI研究院。他們引入了一種神經文本到語音(TTS)技術，可以將文本從野外采集的聲音轉換為語音。

文章鏈接：https://arxiv.org/abs/1707.06588

VoiceLoop的靈感來源于一種稱為語音循環的工作記憶模型，它能在短時間內保存語言信息。它由兩部分組成，其一是一個不斷被替換的語音存儲（phonological store），其二是一個在語音存儲中保持長期表達（longer-term representations）的預演過程。

Voiceloop將移動緩沖區視作矩陣，從而來構造語音存儲。句子表示為音素列表。然后從每個音素解碼一個短向量。通過對音素的編碼進行加權并在每個時間點對它們求和來生成當前的上下文向量。

使VoiceLoop脫穎而出的一些屬性包括：使用內存緩沖區而不是傳統的RNN，所有進程之間的內存共享，以及使用淺層、全連接的網絡進行所有計算。

2019深度學習語音合成指南圖23

下圖顯示了模型與其他替代方案相比的性能表現

2019深度學習語音合成指南圖24

2019深度學習語音合成指南

圖25

利用梅爾圖譜預測上的條件WaveNet進行自然TTS合成

作者來自谷歌和加州大學伯克利分校。他們引入了Tacotron 2，這是一種用于文本語音合成的神經網絡架構。

文章鏈接：https://arxiv.org/abs/1712.05884

它由一個循環的的序列到序列特征預測網絡組成，該網絡將字符嵌入到梅爾標度圖譜中。然后是一個修改后的WaveNet模型，這個模型充當聲碼器，利用頻譜圖來合成時域波。模型的平均意見評分(MOS)為4.53分。

2019深度學習語音合成指南

圖26

這個模型結合了Tacconon和WaveNet的最佳特點。下面是它與其他模型的性能對比：

2019深度學習語音合成指南

圖27

雷鋒網小結：

現在的語音合成技術發展很快，我們希望能夠盡快追趕上最前沿的研究。以上這幾篇文章是當前語音合成領域最重要的進展代表，論文、以及其代碼實現都可在網上找到，期待你能去下載下來進行測試，并能夠獲得期望的結果。

讓我們一起創造一個豐富多彩的語音世界。

原文鏈接：

https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

7人收藏

栗峰

編輯

發私信

當月熱門文章