谷歌開源文本生成新方法 LaserTagger，直擊 seq2seq 效率低、推理慢、控制差三大缺陷！

本文作者：楊鯉萍

2020-02-18 12:01

導語：在?規模應?時，LaserTagger 優勢更明顯

雷鋒網 AI 開發者按：目前，在序列到序列（ seq2seq ）的自然語言生成任務中，主流預訓練模型仍然面臨一些重大缺陷，例如：生成輸出與輸入文本之間長度匹配問題、需要大量訓練數據才能實現較高性能、推斷速度慢等。

因此，Google 提出了一種新型的文本生成模型 LaserTagger，該模型旨在解決 seq2seq 模型運行過程中的上述缺陷，可以預測將將源文本轉換為目標文本的一系列生成操作。Google 發布了相關文章介紹了這一開源文本生成模型，雷鋒網 AI 開發者內容整理編譯如下。

谷歌開源文本生成新方法 LaserTagger，直擊 seq2seq 效率低、推理慢、控制差三大缺陷！

開發背景

序列到序列（seq2seq，https://en.wikipedia.org/wiki/Seq2seq）模型最初由軟件?程師 Eric Malmi 和 Sebastian Krause 開發，這一模型一經推出后，為機器翻譯領域帶來了巨大的技術革新，并成為了各種?本?成任務（如摘要生成、句?融合和語法錯誤糾正）的主流模型。

同時，結合模型架構（例如，Transformer，https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html）的改進，以及通過?監督的預訓練方法使用?量無標注?本的能?，使得近年來神經?絡?法獲得了質的提升。

谷歌開源文本生成新方法 LaserTagger，直擊 seq2seq 效率低、推理慢、控制差三大缺陷！

文本生成神經網絡架構發展；其中，BERT是深雙向的，OpenAI GPT是單向的，ELMo是淺雙向的

但根據實際使用情況，將 seq2seq 模型?于?本?成也有一些實質性的缺陷，例如：?成輸??本不?持的輸出（稱為幻覺，hallucination）、需要?量的訓練數據才能到達很好的效果；此外，seq2seq 模型通常需要逐字?成輸出，因此其推斷時間較長。

近日，Google 的《Encode, Tag, Realize: High-Precision Text Editing》（https://ai.google/research/pubs/pub48542/）一文介紹了?種新穎的、開源的?本?成模型，旨在專?解決上述三個缺陷。由于該模型的速度快、精度高，因此該模型名為 LaserTagger。

該模型的核心思想在于：不從頭開始?成輸出?本，?是通過使?預測的編輯操作標注單詞來?成輸出；然后在單獨的實現步驟中將這些單詞應?于輸?單詞。這是處理?本?成的?種不太容易出錯的?法，而且它可以通過更易于訓練和更快執?的模型架構來處理文本。

谷歌開源文本生成新方法 LaserTagger，直擊 seq2seq 效率低、推理慢、控制差三大缺陷！

《Encode, Tag, Realize: High-Precision Text Editing》論文

LaserTagger 的設計和功能

許多?本?成任務的顯著特征是輸?和輸出之間經常存在?度重疊。例如：在檢測和糾正語法錯誤、或者是在融合句?時，?多數輸??本可以保持不變，并且僅??部分單詞需要修改。

因此，LaserTagger 會產??系列的編輯操作，?不是實際的單詞。我們使?的四種編輯操作類型是： Keep（將單詞復制到輸出中），Delete（刪除單詞）和 Keep-AddX / Delete-AddX（添加短語 X）標注的單詞之前，并可以選擇刪除標注的單詞）。

下圖說明了此過程，該圖顯示了 LaserTagger 在句?融合中的應?：

谷歌開源文本生成新方法 LaserTagger，直擊 seq2seq 效率低、推理慢、控制差三大缺陷！

LaserTagger 適?于句?融合。預測的編輯操作對應于刪除「.Turing」，然后替換為「and he」，注意輸?和輸出?本之間的?度重疊

所有添加的短語均來?受限制的詞匯表。該詞匯表是?個優化過程的結果，該優化過程具有兩個?標：

（1）最?化詞匯表的??；

（2）最?化訓練示例的數量；

其中添加到?標?本的唯?必要單詞僅來?詞匯表，短語詞匯量受限制會使輸出決策的空間變?，并防?模型添加任意詞，從?減輕了「幻覺」問題。

輸?和輸出?本的?重疊特性也可以得到?個推論，即：所需的修改往往是局部的并且彼此獨?。這意味著編輯操作可以?精度地并?進?預測，與順序執?預測的?回歸 seq2seq 模型相?，可以顯著提?端到端的速度。

實驗結果與結論

研究人員在實驗中對 LaserTagger 實現的四個文本生成任務進行了評估，四個任務分別為：句?融合、拆分和改述、抽象總結和語法糾正。

在所有任務中，LaserTagger 的性能與使??量訓練示例的基于 BERT 的強?seq2seq 基線相當；并且在訓練示例數量有限時，其結果明顯優于該基線。

下圖顯示了 WikiSplit 數據集上的結果，其具體任務是將?個?句?改寫為兩個連貫的短句?：

谷歌開源文本生成新方法 LaserTagger，直擊 seq2seq 效率低、推理慢、控制差三大缺陷！

當在 100 萬個示例的完整數據集上訓練模型時，LaserTagger 和基于 BERT 的 seq2seq 基線模型均具有可?的性能，但是在 10,000 個或更少示例的?樣本上進?訓練時，LaserTagger 明顯優于基線模型（SARI 得分越?越好）

LaserTagger 的主要優點

根據實驗結果，研究人員將 LaserTagger 與傳統的 seq2seq?法相?，總結出該新型模型具有以下優點：

可控性強 通過控制輸出短語詞匯（也可以?動編輯或整理），LaserTagger ? seq2seq 基線模型不易產?幻覺。
推理速度快 LaserTagger 計算預測的速度?seq2seq 基線模型快 100 倍，使其適?于實時應?。
數據效率高 即使僅使??百或?千個訓練示例進?訓練，LaserTagger 也可以產?合理的輸出。在實驗中，seq2seq 基線模型需要成千上萬個示例才能獲得可比擬的性能。

由此可見，LaserTagger 的優勢在?規模應?時變得更加明顯。研究人員表示：通過減少響應的?度并減少重復性可以用于改進某些服務中語?應答格式。

而較?的推理速度使該模型可以插?現有技術堆棧中，并且不會在?戶端增加任何明顯的延遲；除此之外，改進的數據效率可以收集多種語?的訓練數據，從?使來?不同語?背景的?戶受益。

谷歌開源文本生成新方法 LaserTagger，直擊 seq2seq 效率低、推理慢、控制差三大缺陷！

圖片來源：網絡

原文鏈接：
https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html
Github 地址：
https://github.com/google-research/lasertagger

雷鋒網 AI 開發者

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

楊鯉萍

編輯

發私信

當月熱門文章