序列轉換模型三合一！谷歌提出首個端到端的直接語音翻譯模型

本文作者：楊曉凡

2019-05-17 10:50

導語：三個任務合并成一個任務解決

雷鋒網 AI 科技評論按：不同語言之間的語音到語音轉換早已不是什么新鮮事了，任務拆分簡單直接，只需要把「源語言的語音識別模型（語音轉文本）」、「文本到文本翻譯模型」、「目標語言的語音生成模型（文本轉語音）」這三個模型串聯使用就可以。由于這三類模型的發展都各自比較成熟，現在市面上如谷歌翻譯這樣的軟件產品、如科大訊飛翻譯機這樣的專用硬件設備都能達到很好的多語互譯效果，準確率和延時都讓人比較滿意。

但技術研究的探索并不會就此止步。谷歌的研究人員們做了一次大膽的試驗，嘗試把語音轉文、文本到文本翻譯、文本轉語音這三個步驟合并到同一個端到端模型中完成！在論文「Direct speech-to-speech translation with a sequence-to-sequence model」（通過一個序列到序列模型進行語音到語音的直接轉換，https://arxiv.org/abs/1904.06037）中，他們用了一個帶有注意力機制的序列到序列轉換模型構建了新的翻譯系統，完全拋棄了需要經過文本表示的中間步驟。他們把這個系統命名為 Translatotron。雷鋒網 AI 科技評論介紹如下。

Translatotron 介紹

端到端語音模型的萌芽最早是在 2016 年開始的，當時研究人員們發現可以用單個序列到序列轉換模型實現語音到文本的轉換。在 2017 年，谷歌的研究人員們已經在研究中表明了這樣的端到端模型比傳統的瀑布式模型有更好的表現（https://arxiv.org/abs/1703.08581）。此后，領域內提出了越來越多的改進方案，不斷提升了端到端語音到文本序列轉換模型的表現，包括谷歌自己也在近期又提出了利用弱監督數據繼續提升表現的方案（https://arxiv.org/abs/1811.02050）。

Translatotron 則是全新的一步，直接把一個語言的語音轉換為另一種語言的語音，不需要經過文本形式的中間表示環節。它把源語言語音的頻譜圖作為輸入，然后直接輸出說話內容在目標語言的語音頻譜圖。模型中會使用兩個分別獨立訓練的組件：一個神經網絡聲碼器，它會把輸出的頻譜圖轉換成時域的音頻波形；另一個組件的使用是可選的，可以借助一個說話人音色編碼器在生成的翻譯語音中保留源語音的特點。

在訓練過程中，這個序列到序列轉換模型使用了一個多任務并行訓練模型，它需要同時預測源語音轉文本的結果、文本翻譯的結果以及目標語音的頻譜圖。前兩個任務僅作為輔助任務，在訓練完成后就不再需要模型輸出文本結果了。

序列轉換模型三合一！谷歌提出首個端到端的直接語音翻譯模型

Translatotron 系統框圖

模型表現

谷歌的研究人員們用一個額外的語音識別系統識別 Translatotron 的輸出，然后通過 BLEU 分數定量地測試了模型的表現。雖然模型的表現不如傳統的三步式的語音轉換（這并不令人意外），但這已經證明了端到端的直接語音轉換的可行性。

谷歌提供了多組 Translatotron 和基線（傳統方法）語音轉換的對比，兩者都可以提供恰當的翻譯，發音也很標準。可以在 https://google-research.github.io/lingvo-lab/translatotron/ 試聽。

保留說話人特征

借助一個額外的說話人音色編碼器，Translatotron 可以在轉換后的語音中保留原本的說話人的聲音特征，這讓轉換出的語音聽起來更自然、避免生硬。這個功能利用了谷歌此前在說話人鑒別（https://arxiv.org/abs/1710.10467）以及文本轉語音的說話人適應（https://arxiv.org/abs/1806.04558）方面的研究成果。

說話人音色編碼器首先在說話人鑒別任務上進行了預訓練，學習到了如何從一段短的語音中編碼說話人聲音的特點。讓頻譜編碼器在音色編碼器的作用下生成語音，得到的結果就可以含有非常相似的說話音色，即便說的內容是另一個語言。

試聽例子 https://google-research.github.io/lingvo-lab/translatotron/#conversational。

除了保留說話人聲音特征之外之外，根據谷歌研究人員們的測試，這個系統相比傳統的三個步驟的系統還有多項優勢：更快的推理（翻譯）速度；天然地更善于避開識別和翻譯階段累積的錯誤；而且對于不需要翻譯的詞匯也處理得更好（比如名字和專有名詞）。