DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

本文作者：叢末

2019-12-30 14:37

導(dǎo)語：作者 | 蔣蕭澤論文標題：DualVD: An Adaptive Dual Encoding Model for Deep Visual Under

作者 | 蔣蕭澤

論文標題：DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

文章作者：蔣蕭澤、于靜、秦曾昌、張星星、吳琦等，由北京航空航天大學(xué)、中科院信工所、微軟亞研院和阿德萊德大學(xué)合作完成。本論文已被AAAI 2020 接收。

論文鏈接：https://arxiv.org/abs/1911.07251

代碼鏈接：https://github.com/JXZe/DualVD

論文動機

近年來，跨模態(tài)研究引發(fā)了廣泛關(guān)注并取得顯著進展，綜合分析語言和視覺等不同模態(tài)的信息對模擬現(xiàn)實社會中人類對于信息的認知過程具有重要意義。
視覺對話問題是視覺問答任務(wù)的衍生任務(wù)，不同的是，視覺對話任務(wù)需要根據(jù)圖像、歷史對話回答當前問題，涉及多個問題且涵蓋了可能與任何對象、關(guān)系或語義相關(guān)的廣泛視覺內(nèi)容，因此視覺對話需要根據(jù)對話的推進，不斷調(diào)整關(guān)注區(qū)域使之有效地捕捉問題所涉及的視覺信息，針對不同問題對圖像進行自適應(yīng)的關(guān)注。如下圖 1 所示「Q1: Is the man on the skateboard?」, 需要關(guān)注「man」，「skateboard」等信息，當問題變換為「Q5: Is the sky in the picture」時，需要將關(guān)注區(qū)域轉(zhuǎn)移至「sky」。問題 Q1 和 Q5 主要關(guān)注在表層（appearance-level）信息問題，而 Q4「Is he young or older」則需要進一步地視覺推理得到更高層的語義信息。因此，如何根據(jù)問題進行自適應(yīng)調(diào)整并有效地捕捉視覺信息是視覺對話問題中的重要挑戰(zhàn)之一。

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

圖1 DualVD模型基本思想。（左）模型輸入；（右）視覺和語義信息理解模塊。

核心思想

根據(jù)認知學(xué)中的雙向編碼理論（Dual-Coding Theory）, 人類認知信息的過程包含視覺表象和關(guān)聯(lián)文本，人的大腦在檢索關(guān)于某個概念的信息時會綜合檢索視覺信息以及語言信息，這種方式能夠加強大腦的理解以及記憶能力。
作者根據(jù)此理論，提出從視覺和語義兩個維度刻畫視覺對話任務(wù)中圖象信息的新框架：語義模塊描述圖像的局部以及全局的高層語義信息，視覺模塊描述圖像中的對象以及對象之間的視覺關(guān)系。基于此框架，作者提出自適應(yīng)視覺選擇模型 DualVD（Duel Encoding Visual Dialog），分別進行模態(tài)內(nèi)與模態(tài)之前的信息選擇。

模型設(shè)計

視覺對話任務(wù)：根據(jù)給定圖像 I，圖像描述 C 和 t-1 輪的對話歷史 Ht={C,(Q1,A1),...,(Qt-1,At-1)}, 以及當前輪問題 Q 等信息，從 100 個候選答案 A=(A1,A2,...,A100) 中選擇針對當前輪問題 Q 的最佳答案。

作者為解決視覺對話任務(wù)所提出的 DualVD 模型框架如圖 2 所示，主要分為 Visual-Semantic Dual Encoding 和 Adaptive Visual-Semantic Knowledge Selection 兩部分。

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

圖2 DualVD模型框架圖

1、Visual-Semantic Dual Encoding

從視覺以及語義兩個維度刻畫視覺對話任務(wù)中圖象信息的新框架，其中語義信息采用多層次語義描述表示，視覺信息采用場景圖表示。

Scene Graph Construction：利用場景圖表示每一張圖像，并捕捉圖像之間目標對象以及對象間的視覺關(guān)系信息。作者采用 Faster-RCNN 提取出圖像中 N 個目標區(qū)域，并將其表示為場景圖上的結(jié)點，結(jié)點 i 的特征定義為 hi；采用 Zhang 等提出的視覺關(guān)系編碼器在 GQA 數(shù)據(jù)集上進行預(yù)訓(xùn)練，用關(guān)系向量表示圖像中的任意兩個目標區(qū)域之間的視覺關(guān)系，并將其表示為場景圖上的邊，結(jié)點 i 和結(jié)點 j 之間的關(guān)系向量定義為 r_ij。目前現(xiàn)有的工作大多采用關(guān)系類別來表示場景圖的邊，相比而言作者利用關(guān)系向量表示場景圖的邊的方法能考慮到視覺關(guān)系的多樣性，歧義性，更準確地表達目標對象之前的視覺關(guān)系。

Multi-level Image Captions：將每幅圖像表示為多層級的語義描述，同時刻畫圖像的局部和全局語義信息。相比于視覺特征，語義描述通過自然語言的信息表達出更高的語義層次，能夠更加直接地為問題提供線索，避免了不同模態(tài)數(shù)據(jù)之間的「異構(gòu)鴻溝」。作者采用數(shù)據(jù)集的圖像描述作為全局語義信息，有助于回答探索場景的問題；采用 Feifei Li 等提出的 DenseCap 提取一組局部層次語義信息，包括對象屬性，與對象相關(guān)的先驗知識，以及對象之間的關(guān)系等。對全局和局部的語義信息采用不同的 LSTM 提取特征。

2、Adaptive Visual-Semantic Knowledge Selection

在視覺語義圖像表示的基礎(chǔ)上，作者提出了一種新的特征選擇框架，從圖像中自適應(yīng)地選擇與問題相關(guān)的信息。在當前問題的指導(dǎo)下，將特征選擇過程設(shè)計為分層模式:模態(tài)內(nèi)選擇首先從視覺模塊（Visual Module）和語義模塊（Semantic Module）分別提取視覺信息和語義信息;然后通過選擇性的視覺-語義融合（Selective visual-semantic fusion），匯聚視覺模塊和語義模塊中問題相關(guān)的線索。這種層次結(jié)構(gòu)框架的優(yōu)點是可以顯式地揭示漸進特征選擇模式。

Visual Module

1）Question-Guided Relation Attention：基于問題引導(dǎo)，獲取與問題最相關(guān)的視覺關(guān)系。首先，從對話歷史中選擇與問題相關(guān)的信息，通過門控機制更新問題表示，定義為:

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

基于問題新表示Qgt的引導(dǎo)，計算場景圖中每個關(guān)系的注意力：

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

基于注意力aij,更新場景圖中每個關(guān)系的嵌入表示：

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

2) Question-Guided Graph Convolution：基于問題引導(dǎo)，通過基于關(guān)系的圖注意網(wǎng)絡(luò)聚集目標對象的鄰域和對應(yīng)關(guān)系的信息，進一步更新每個目標對象的表示。首先，根據(jù)場景圖中的結(jié)點，計算該結(jié)點i對鄰居結(jié)點j之前存在對應(yīng)關(guān)系rij條件下的注意力：

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

其次，基于注意力βij更新場景圖中每個結(jié)點的特征表示：

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

3) Object-relation Information fusion: 在視覺對話中，目標對象的視覺表層信息和視覺關(guān)系信息有助于推斷答案。本模塊中自適應(yīng)地將原結(jié)點和感知關(guān)系結(jié)點通過門控機制進行融合得到問題相關(guān)的目標對象特征：

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

為增強原始目標區(qū)域的視覺信息提供的線索以及當前問題的影響，作者基于原始目標區(qū)域的注意力分布，融合目標區(qū)域表示得到增強的圖像表示I：

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

Semantic Module

該模塊通過問題引導(dǎo)語義注意模塊和全局-局部信息融合模塊，從全局和局部語義描述中選擇和合并與問題相關(guān)的語義信息。

1）Question-guided semantic attention：基于問題引導(dǎo)，對全局和局部語義描述計算注意力： DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

基于注意力δiq分別更新全局和局部語義表示：

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

2）Global-local information fusion：采用門控機制自適應(yīng)地融合全局語義表示和局部語義表示

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

3）Selective Visual-Semantic Fusion：當被提問時，模型能夠檢索相關(guān)的視覺信息、語言信息或綜合考慮上述兩種信息。作者采用門控機制控制兩種信息源對于回答問題的貢獻，并獲得最終的視覺知識表示：

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

3. Late Fusion and Discriminative Decoder

整個模型由 Late Fusion encoder 和 Discriminative decoder 組成。解碼時，模型首先將每個部分嵌入一個對話元組中 D = {I; Ht; Qt}，然后將具有視覺知識表示的 Ht 和 Qt 連接到一個聯(lián)合的輸入中進行答案預(yù)測。解碼器對 100 個候選答案進行排序。該模型還可以應(yīng)用于更復(fù)雜的解碼器和融合策略，如記憶網(wǎng)絡(luò)、協(xié)同注意等。

實驗結(jié)果

在 VisDial v0.9 和 VisDial v1.0 上對模型的效果進行了驗證。與現(xiàn)有算法相比，DualVD 的結(jié)果超過現(xiàn)有大多數(shù)模型，略低于采用了多步推理和復(fù)雜 attention 機制的模型。

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

消融學(xué)習(xí)

VisDial v1.0 驗證集的消融研究利用了 DualVD 主要成分的影響。作者使用相同的 Discriminative decoder 做了充分的消融實驗驗證模型各個關(guān)鍵模塊的作用, 如 ObjRep（目標特征）、RelRep(關(guān)系特征)、VisNoRel(視覺模塊去掉關(guān)系嵌入表示) 、VisMod(完整視覺模塊)、GlCap(全局語義)、LoCap(局部語義)、SemMod(語義模塊)、w/o ElMo (不用預(yù)訓(xùn)練語言模型)、DualVD(完整模型)。

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

實驗結(jié)果表明，模型中的目標特征、關(guān)系特征、局部語義、全局語義對于提升回答問題的效果都起到了不同程度的作用。相比傳統(tǒng)圖注意力模型，采用視覺關(guān)系的嵌入表示使得模型效果又有了進一步提升。

可解釋性

DualVD 的一個關(guān)鍵優(yōu)勢在于其可解釋性: DualVD 能夠預(yù)測視覺模塊中的注意權(quán)重、語義模塊中的注意權(quán)重以及可視化語義融合中的控制值，顯式地分析模型特征選擇的過程。作者通過分析可視化結(jié)果得出以下結(jié)論：視覺信息和語義信息對于回答問題的貢獻取決于問題的復(fù)雜性和信息源的相關(guān)性。涉及到目標對象表層信息的問題，模型會從視覺信息獲得更多線索，如圖 3 中第一個例子；當問題涉及到更加復(fù)雜的關(guān)系推理，或者語義信息包含了直接線索時，模型會更加依賴語義信息獲取答案線索，如圖 3 中的第二個例子。視覺信息將為回答問題提供更重要的依據(jù)。作者根據(jù)結(jié)果發(fā)現(xiàn)，視覺模塊的累積 gate value 總是高于來自語義模塊的累積 gate value, 此現(xiàn)象說明在視覺對話任務(wù)中圖像信息在回答問題時扮演更加重要的角色，對圖像信息更準確、更全面的理解對于提升模型的對話能力至關(guān)重要。

DualVD：借鑒認知雙向編碼理論，提出視覺對話新框架 | AAAI 2020

圖 3 DualVD的可視化模型能夠根據(jù)問題的變化，自適應(yīng)調(diào)整關(guān)注的信息。

如圖 3 中的第三個例子，隨著對話的推進，問題涉及前景、背景、語義關(guān)系等廣泛的視覺內(nèi)容，DualVD 都能夠有效捕捉到關(guān)鍵線索。

雷鋒網(wǎng) AI 科技評論報道。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

叢末

編輯

發(fā)私信

當月熱門文章