百度AAAI 2018錄用論文：基于注意力機制的多通道機器翻譯模型

本文作者： sunshine_lady

編輯：郭奕欣

2017-12-25 10:46

專題：AAAI 2018

導語：近日百度機器翻譯團隊發布了最新研究成果「Multi-channel Encoder for Neural Machine」，這一論文已被AAAI 2018錄用。

雷鋒網 AI 科技評論消息，近日，百度機器翻譯團隊在 arxiv.org 上發布了最新研究成果「Multi-channel Encoder for Neural Machine Translation」，這一論文已被 AAAI 2018 錄用。

論文鏈接：https://arxiv.org/abs/1712.02109

以下內容是雷鋒網 AI 科技評論根據論文內容進行的部分編譯。

摘要：文章提出一種多通道的基于注意力機制（Attention-based）的編碼器（MCE，Multi-channel Encoder）。MCE 在基于 RNN 編碼器中加入了隱層狀態，使得其具有兩大優勢：1）改善了原編碼過程中在字嵌入（Word embedding）時合成處理的效果；2）針對更加復雜的合成場景，對神經圖靈機（NTM，Neural Turing Machine）的外存使用做了特別的優化設計。在中英翻譯方面，相較開源的 DL4MT 系統有 6.25 BLEU 的提升；在 WMT14 英法翻譯數據集上 BLEU=38.8，領先于目前最新算法。

基于注意力的神經翻譯系統

目前，很多研究工作者提出了許多基于注意力的神經翻譯系統（NMT，Neural Machine Translation）的改進方法，其中效果最優的是基于注意力架構的編解碼系統。圖 1. 提供了基于注意力 NMT 模型的結構原理，共包括三個部分：編碼、解碼層，及中間級聯的引入注意力機制的結構。

百度AAAI 2018錄用論文：基于注意力機制的多通道機器翻譯模型

圖 1. 基于注意力的 NMT 模型。左側是基于卷積的 NMT，右側是文章提出的多通道 NMT。

NMT 系統首先將所有完成分割的符號轉換到一個序列中，即：字嵌入過程（Word Embedding）。在這一過程中，每個字符都要進行單獨處理，最后生成字嵌入后的原序列。圖中在字嵌入層的上方，NMT 使用雙向循環神經網絡（biRNN）經訓練得到整個原序列的表示。在編碼層與解碼層之間，加入注意力機制融合輸入序列的全部的時間步（time step），并將注意力放到解碼層的當前時間步上。在生成目標詞的過程中，控制器會整合：上一生成詞、當前隱層狀態、由注意力機制計算出的上下文信息這三項，從而確定最終的目標詞。

多通道編碼

RNN 編碼層對基于注意力模型的 NMT 而言是十分重要的，然而傳統 RNN 實現多層信息整合是存在一定困難的，而機器翻譯越來越需要這種網絡結構。因此，這篇文章提出了多通道的注意力機制編碼器，其網絡如圖 1. 右側所示。該結構增加了一個外部存儲輔助 RNN 完成更為復雜的整合學習。此外，RNN 的隱層狀態與字嵌入序列共同為編解碼層之間的注意力機制生成門控注釋。從另一個角度考慮，將字嵌入序列整合輸入到注意力機制模型中也可以看作建立了一條短路連接，可以減輕退化問題（He. 等于 2016 年證明，見引文 [1]）。這種短路連接在增強網絡功能的同時沒有引入任何額外參數而且沒有引起及計算復雜的提升。

[1] He, K.; Zhang, X.; Ren, S.; and Sun, J. 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 770–778.

百度AAAI 2018錄用論文：基于注意力機制的多通道機器翻譯模型

圖 2. 多通道注意力機制編碼器中，內存讀寫示意圖。

圖 2. 中闡述了神經翻譯系統的編碼層內存讀寫的詳細規則。在每一時間步內，RNN 內狀態節點在內存查詢上下文信息，內存按照基于注意力機制存儲。這一設計中，使用前一狀態節點查詢并獲取上下文信息作為門控循環單元（GRU, gated recurrent unit）的輸入狀態，以此取代直接將前一狀態反饋給 GRU。這一操作保證了控制器在生成當前狀態前可以獲取更多的上下文信息，可以潛在地幫助 GRU 做出判斷。在設計讀取內存操作的同時，系統中也設計了寫操作。這一設計的目的，據該文百度團隊研究工作在描述，是希望 RNN 和 NTM 能夠學習不同類型的關聯分別通過不同的更新策略。

翻譯效果實驗驗證

1. 漢-英翻譯

表 1. 表示漢譯英翻譯任務的表現情況。該數據在開源系統 DL4MT 下測試以確保其魯棒性。首先，與 DL4MT 系統相比，文章提出的多通道基于注意力機制的神經網絡翻譯系統有較大提升：與 DL4MT 相比，文中提出的方法在 BLUE 指標上有 4.94 點的提升。考慮到文中的 RNN 系統是一種基礎的基于注意力機制的應用，這一設計可以與目前最新近的技術相結合，比如結合均勻初始化所有參數、給嵌入式矢量增加偏差、將前向 RNN 的輸出作為后向 RNN 的輸入并且加入動態學習率來訓練等，以發揮更大的效果。

百度AAAI 2018錄用論文：基于注意力機制的多通道機器翻譯模型

表 1. 不同系統對 NIST 漢譯英翻譯任務的表現情況。與目前較強的開源系統 DL4MT 相比，文章提出的模型有較大改進。T2T 和 ConvS2S 是另外兩個新出版的開源工具箱，也作為對比試驗。值得注意的是，T2T 和 ConvS2S 都是多層深度模型，而文中方法能夠達到與之相近的效果。

2. 英-法翻譯

表二為英譯法表現情況，并將文中提出的 NMT 系統與各種各樣的系統進行對比，如深度 RNN 模型、深度 CNN 模型及基于注意力的深度模型。為了實驗的公平性，表2列舉了這些方法所在文獻的結果。在英譯法任務中，文中設計的方法在目前最新的機器翻譯系統中，表現很有競爭力，甚至可與深度模型達到相近的效果。此外，與其他 RNN 模型相比，該系統非常具有競爭力，盡管是一種淺層模型。

百度AAAI 2018錄用論文：基于注意力機制的多通道機器翻譯模型