搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別

本文作者： camel

2019-05-17 15:41

導語：0dB噪聲情況下，相比純語音識別錯誤率相對下降36% ~

雷鋒網AI科技篇按：在近期舉辦的語音頂會 ICASSP 2019上，搜狗聯合清華天工研究院發表了一篇有意思的論文：基于模態注意力的端到端音視覺語音識別。

簡單來說，即引入「基于模態注意力的端到端」方法，有機地融合了語音和唇部動作信息，顯著提高了嘈雜環境中語音識別的效果。

搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別 論文鏈接：https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

我們知道，安靜環境下語音識別的正確率目前已經可以達到98%以上，商業應用基本沒太大問題。但嘈雜環境（例如會廳、地鐵環境）中語音識別卻難以獲得理想的效果。

以0dB的噪聲環境（噪聲與信號強度相同）為例，DeepMind和牛津大學在CVPR2017上聯合發表的研究中，字符錯誤率（CER）為29.8%；近兩年來，其他研究在效果上也并沒有得到顯著地改善。而搜狗的這篇文章無論在方法上還是性能上都非常值得關注。

值得注意的是，這篇文章也是搜狗在唇語系列研究中的新成果。2017年搜狗在第四屆烏鎮世界互聯網大會上公開展示了遠高于谷歌的唇語識別技術，引起業界的廣泛關注。在當時“智東西”的采訪中，搜狗語音交互中心技術總監陳偉就已經表示了將探索唇語與語音識別融合（而非采用麥克風陣列降噪）來提升在嘈雜環境中語音識別性能的想法。這篇論文算是一個回應。

一、創新點

任何創新都是站在前人的肩膀上。

想想我們人類。當你聽不清對方講話時，會很自然地盯緊講話者的嘴巴，這在一定程度上會幫助你明白講話者的意思，實質上這便是利用了講話者唇部動作所攜帶的信息（也即唇語）。

在嘈雜環境下計算機該如何識別說話內容呢？正如人類一樣，解決方案是在語音基礎上加入視覺信息，通過視、聽模態信息的融合來增強語音識別的效果，這被稱為 AVSR（Automatic Visual Speech Recognition）。

搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別 利用唇部動作所攜帶的信息增強語音識別的效果

這里面有兩個難題。首先，語音和視頻本質上完全不同的數據流，它們的原始幀速率通常是不一樣的，如何將兩種模態信息融合在一起則是一件具有挑戰性的問題。

在深度學習以前，傳統的方法通常是通過上采樣或者下采樣將兩者變成相同幀速率直接拼接。

這樣做的缺點是：（1）會造成信息損失；（2）會使聽覺特征在模型訓練過程中起主導作用，造成模型訓練難收斂，視覺信息對聽覺信息的提升有限；（3）由于原始特征的長度較長，直接拼接的方法容易帶來更大的計算量。

在深度學習時代，Noda等人在2015年提出了特征融合（而非之前數據拼接）的方式，即首先利用CNN將視覺特征提取出來，然后與語音特征進行融合成單一的特征。目前，這已成為AVSR的主流思路。

搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別 來源：Noda, K., Yamaguchi, Y., Nakadai, K. et al. Appl Intell (2015) 42: 722. https://doi.org/10.1007/s10489-014-0629-7

但兩種特征如何融合才更有效呢？我們知道，唇語識別的準確率在大多數情況下是遠低于語音識別的，不恰當的融合甚至可能會拉低語音識別原本的效果。

DeepMind和牛津大學的研究人員在2017年發表的工作（WLAS）中采用的思路是：利用注意力編碼器解碼器框架，將相對應的聲音和唇部上下文向量進行拼接后輸入到輸出層進行預測，如下圖所示：

搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別 來源：Joon Son Chung, Andrew W Senior, Oriol Vinyals, and An- drew Zisserman, “Lip reading sentences in the wild.,” in CVPR, 2017, pp. 3444–3453.

ADAPT中心的George等人（arXiv:1809.01728v3，AV_align）的思路是希望利用獲取的唇部特征對音頻特征進行補充修正，然后再用一個基于注意力的解碼器對這個修正后的融合音視覺信息的特征進行解碼：

搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別 來源：George Sterpu, Christian Saam, and Naomi Harte, “Attention- based audio-visual fusion for robust automatic speech recognition,” in Proceedings of the 2018 on International Conference on Multimodal Interaction. ACM, 2018, pp. 111–115.

綜合考慮這兩種方法會發現，它們本質的不同不過是在何處進行融合而已。前者在解碼器內部進行融合，后者在編碼器的輸出層采用注意力找到與當前聽覺向量相關的視覺向量后，與聽覺向量進行拼接。

另外一個難題是，在不同模態的特征融合過程中，該如何顯式賦予恰當的權重以獲得更加魯棒的融合信息。

我們知道，在噪聲不同、說話人發音清晰程度不同的情況下，聽覺和視覺所攜帶信息的比重是不固定的。因此，最好的方式自然應當是能夠根據模態的信息含量來顯式、自適應地賦予權重。

在上述兩項研究中都沒有顯式的對兩種模態信息賦予權重向量，模態之間的重要程度是在后續的網絡連接權重中學習得到的。搜狗的這篇文章主要解決的正是這個問題。

不同于前面兩者的是，研究人員周盼與搜狗研究員楊文文等共同設計了一個基于模態重要程度的注意力機制（模態注意力），使模型能夠自適應調整模態的權重來融合音視覺特征。

搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別

詳細來說，即，在第t個解碼步驟中，由解碼器狀態分別與音頻編碼器和視覺編碼器進行注意力得出相應的聲學context vector 和視覺context vector 后，不是將這兩個模態的信息進行拼接，而是基于模態注意力，將二者進行融合，得到融合的context vector ，進行輸出的預測。

這種在聲音和視覺注意力之后，再增加一個模態注意力進行融合的方法有以下好處：

Context vector 已經包含了與當前輸出相關的信息，比在原始特征進行融合更加清晰有效；
模態注意力得到的模態權重用來對二者進行融合，反應了模型認為不同模態在當前輸出時的相對重要程度；
模態間的融合系數可以依賴數據進行自動學習調整；
在每一個解碼步驟進行融合，相比在原始特征融合時，少了很多計算量。

二、訓練及結果

根據以上模型，他們在150h電視新聞類音視覺數據上進行了訓練。實驗表明，這種模態注意力方法在0dB噪聲情況下，可以對LAS的純語音識別取得相對36%的錯誤率下降。而且優于其他的音視覺結合方法（WLAS，AV_align）。不同系統在不同信噪比情形下的識別錯誤率（CER）如下表：

搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別

注：

LAS，Listen, Attend and Spell，即純語音識別；
WAS，Watch, Attend and Spell，即純唇語識別，顯然它不受噪聲影響；
WLAS，Watch, Listen, Attend and Spell，即DeepMind與劍橋大學聯合提出的模型；
AV_align，即George等人提出的模型；
MD_ATT，基于模態注意力的AVSR系統
MD_ATT_MC，在MD_ATT基礎上增加Multi-condition數據

文章中也進一步分析了在不同噪聲下，模型對兩個不同模態間的依賴。隨著噪聲的提升，模型在融合音視覺時，對視覺信息的依賴比例在逐漸提升。

搜狗ICASSP論文：基于模態注意力的端到端音視覺語音識別

三、意義

這篇文章的意義在于提出了一個模態注意力的機制，動態地融合了音視覺模態特征，并在實驗上顯著提高了語音識別的準確性和魯棒性。值得注意的是，這種方法具有普遍性，完全可以遷移到任何種類的多模態信息融合當中。

另一方面，搜狗的技術畢竟是要用在產品當中的。業內在語音降噪的問題上大多采用麥克風陣列的方式，搜狗則在嘗試使用音視覺結合的方法，利用多模態識別技術來提升噪聲魯棒性。

據陳偉表示，這項技術的性能已經達到了可以商用的水平，目前兩個可能的落地場景包括：1）語音輸入場景，通過調用攝像頭功能來提升嘈雜環境中語音識別效果，未來搜狗輸入法會上線該能力；2）落地到遠場人機交互系統，特別提到了車載交互。據陳偉介紹，搜狗目前正在與一些車企洽談，通過增加攝像頭（而不是增加麥克風陣列）來解決車載噪聲場景（如開車窗下會有極大的噪聲）下的語音識別問題。

雷鋒網雷鋒網

原文鏈接：https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=4649

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

camel

編輯

持身秉正

掃描關注作者微信

發私信

當月熱門文章