成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給岑大師
    發送

    0

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    本文作者: 岑大師 2017-12-20 13:17
    導語:10月Deepmind宣布對WaveNet升級后,Google Brain近日宣布推出 Tacotron 2,兩個團隊的暗中較勁仍在繼續。

    雷鋒網按:今年3月,Google 提出了一種新的端到端的語音合成系統:Tacotron。該系統可以接收字符輸入并輸出相應的原始頻譜圖,然后將其提供給 Griffin-Lim 重建算法直接生成語音。該論文認為這一新思路相比去年 DeepMind 的 WaveNet 具有架構上的優勢。10 月,Deepmind發布博客稱,其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中(參見雷鋒網文章:《Deepmind語音生成模型WaveNet正式商用:效率提高1000倍》),而就在今天,Google Brain 團隊發布博客,宣布推出 Tacotron 2,Google Brain 與 DeepMind 的暗中較勁仍在繼續。

    以下是 Google 博客的相關內容,讓我們來看看此次 Tacotron 2 的更新情況:

    從文本(文本到語音,TTS)生成非常自然的探測語音已經成為過去數十年的研究目標。在近幾年中,TTS研究取得了很大的進展,TTS系統有許多獨立的模塊都有了很大的改進。結合在 Tacotron 和 WaveNet 等過去研究思路,我們增加了更多改進,最終實現了我們的新系統 Tacotron 2 。我們的方法不使用復雜的語言和聲學特性作為輸入,相反,我們僅使用語音示例和相應的文本記錄進行訓練的神經網絡,來從文本生成類似人類的語音。

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    對于這一新系統的完整描述可以在我們的論文“Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”(通過調節 WaveNet 對 Mel 譜圖預測的自然 TTS 合成)中找到。簡而言之,其工作原理是這樣的:我們使用針對 TTS 優化的序列到序列模型來映射序列字母到編碼音頻的一系列功能。這些功能是一個 80 維音頻頻譜圖,每 12.5 毫秒計算一次幀,不僅可以捕捉單詞的發音,還可以捕捉人類語音的各種微妙之處,包括音量,速度和語調。最后,這些功能使用類似 WaveNet 的架構轉換為 24 kHz 波形。

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    (圖為 Tacotron 2 的詳細模型架構。圖像的下半部分描述了將字母序列映射到光譜圖的序列到序列模型。更多技術細節請參閱相關論文。)

    您可以點擊這里聽一些 Tacotron 2 生成的音頻樣本。在一個評估中,我們要求聽眾對生成的語音的自然度進行評分,并獲得了與專業錄音相媲美的評分。

    雖然我們的樣本聽起來不錯,但仍然有一些棘手的問題需要解決。例如,我們的系統在復雜的單詞(例如“decorum”和“merlot”)的發音上有困難,在極端的情況下甚至會隨機產生奇怪的噪音。另外,我們的系統還不能實時生成音頻。而且,我們還不能控制生成的語音,比如引導它聽起來高興或悲傷。這些都是一個有趣的研究問題。

    Tacotron VS WaveNet

    WaveNet 是一種用于生成原始音頻波形的深層神經網絡模型,由 Deepmind 于2016年提出。在 TTS 語音合成系統中,主流的做法是拼接 TTS (由單個配音演員的高質量錄音大數據庫,通常有數個小時的數據。這些錄音被分割成小塊,然后可以將其進行組合以形成完整的話語) ,而WaveNet采取完全不同的方法。在原始論文中,我們描述了一個深層的生成模型,可以以每秒處理16000個樣本、每次處理一個樣本黨的方式構建單個波形,實現各個聲音之間的無縫轉換。

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別    

    上圖動畫展示了 WaveNet 的結構。它由卷積神經網絡構建,在訓練階段,網絡確定了語音的底層結構,比如哪些音調相互依存,什么樣的波形是真實的以及哪些波形是不自然的。訓練好的網絡每次合成一個樣本,每個生成的樣本都考慮前一個樣本的屬性,所產生的聲音包含自然語調和如嘴唇形態等參數。它的“口音”取決于它接受訓練時的聲音口音,而且可以從混合數據集中創建任何獨特聲音。與TTS系統一樣,WaveNet使用文本輸入來告訴它應該產生哪些字以響應查詢。另外,為了使用 WaveNet 將文本轉化為語音,需要識別文本中是什么。

    Tacotron由 Google Brain 團隊的 Yuxuan Wang (王雨軒)等人提出。在第一代 Tacotron 的相關論文中指出,WaveNet 對 TTS 效果良好,但由于樣本集的自回歸屬性(sample-level autoregressive nature),其生成語音的處理速度較慢;同時,由于 WaveNet 還需要對現有 TTS 前端語言特征進行調節,因此也不是端到端的。

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    (上圖為Tacotron最初論文中的模型架構)

    在今年3月提出的模型中,Tacotron 模型取得了 3.82 的平均意見得分(滿分5) 。而在最近的評估中,Tacotron 2 模型平均意見得分為 4.53,專業錄音平均意見得分為 4.58。

    雷鋒網發現,WaveNet 大幅提高了效率后,此前的“處理速度慢”的問題已經得到解決,但仍然不是端到端。而在新的 Tacotron 模型架構中也看到,主要改進在于輸出端增加了 WaveNet MoL,這樣可以將 WaveNet 和 Tacotron 的優點各自結合起來,二者的“強強聯合”有望促進類似語音識別一樣的進步,實現語音合成的新臺階。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說