EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

本文作者：我在思考中

2021-11-15 10:23

導語：讓機器實現多感官同步進化，做到像人類一樣同時看懂、聽懂、讀懂。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

讓機器實現多感官同步進化，做到像人類一樣同時看懂、聽懂、讀懂。

近日，國際NLP領域頂級會議EMNLP 2021拉開帷幕。云從科技與上海交通大學聯合研究團隊的《Relation-aware Network：探索視頻片段定位任務中的多種層面關系》成功入選會議論文，并于大會進行線上宣講。

EMNLP（Conference on Empirical Methods in Natural Language Processing）是計算語言學和自然語言處理領域的頂級國際會議之一，由國際語言學會(ACL)旗下SIGDAT組織。EMNLP論文入選標準十分嚴格，今年論文錄取率僅23.3%，相比去年略有下降。EMNLP學術會議上展示的研究成果，被認為代表著自然語言處理領域的前沿水平與未來發展方向。

本次入選論文，圍繞“基于語言查詢的視頻片段定位”這一視覺-文本的跨模態任務，將NLP與視覺技術結合，技術讓機器同時具備“理解文字”和“看懂視頻”的能力：能夠更精準地讀懂文字，并理解視頻內容，在整段視頻中找出與給定文字相對應的視頻片段。該項成果在多個數據集上，都取得了優于過去研究的表現。

這一成果在技術研究與實踐領域都具有十分重要的意義：

在技術上讓機器實現“多感官進化”：如今視覺、聽覺等單點AI技術，將越來越難以滿足多樣的應用需求。該項技術旨在讓機器向完成“跨模態任務”進化：讓機器能夠同時掌握視覺、文字等多種模態的信息，做到像人類一樣看懂、聽懂、讀懂，擁有全面的能力。近年來在學界，跨模態任務已成為一大研究熱點，為AI領域注入新的活力。

突破單點技術，擴大跨模態應用場景：在實戰場景中，隨著高清攝像頭的普及以及網絡媒體的快速發展，各式各樣的視頻呈海量增長態勢，自動化視頻處理AI技術也迎來巨大的需求。本項成果基于語言查詢的視頻片段定位技術，能夠有效解決治理、出行等多領域的難點問題，例如公共場合下的安全監控、社交媒體視頻內容的審核等等，突破以往的單點技術應用瓶頸，帶來數量級的效率提升。

NLP等決策技術被認為是AI領域下一個技術突破口，使機器擁有理解、思考、分析決策的能力，為人機交互、行業應用等帶來顛覆式改變。云從科技、上海交通大學提出Relation-aware Network，探索視頻片段定位任務中的多種層面關系。

簡介

基于語言查詢的視頻片段定位任務（Temporal Language Grounding）：該任務是給定一個視頻和一段描述語句，通過融合視覺和語言兩種模態的信息，在視頻中定位出語言所描述內容的視頻片段。隨著高清攝像頭的普及以及網絡媒體的快速發展，每天都會出現大量各式各樣的視頻，自動化的視頻處理技術就被廣泛應用在公共場合下的安全監控、社交媒體上視頻內容的審核中，作為視覺-文本的跨模態任務，基于語言查詢的視頻片段定位也受到了越來越多的關注。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

一方面，已有的視頻片段定位方法通常只考慮了視頻片段和整個句子的關系，而忽略了視頻片段和句子中每個詞語這種更加細致的關系，這樣就不能全面地交互視覺和語言的信息，云從和上交聯合團隊的研究者們提出了一種coarse-and-fine的交互方式，從粗粒度和細粒度的角度同時考慮了視頻片段-句子層面和關系和視頻片段-詞語層面的關系。

另一方面，現有的工作往往忽視了不同視頻片段之間的關系，或者僅僅采用了幾層卷積網絡的堆疊，存在計算量大、有噪聲影響等缺點，本文的研究者們提出了一種稀疏連接的圖網絡，僅僅考慮了起始或者終止時間相同的視頻片段，高效地建模了不同視頻片段之間的關系，幫助模型更好地區分視覺上相似的視頻片段。

方法

論文地址：https://arxiv.org/abs/2110.05717

代碼地址：https://github.com/Huntersxsx/RaNet

研究者們認為，基于語言查詢的視頻片段定位任務（Temporal Language Grounding），在某種程度上和自然語言理解中的多項選擇閱讀理解任務（Multi-choice Reading Comprehension）類似，可以把給定的視頻、查詢語言以及候選的視頻片段分別類比為閱讀理解中的文章、問題和候選答案。在將問題轉化為閱讀理解任務之后，研究者們提出了RaNet來解決該問題。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

RaNet一共包含5個部分：（1）多模態的特征編碼模塊；（2）候選視頻片段的生成模塊；（3）候選視頻片段和查詢語句的交互模塊；（4）不同視頻片段的關系構建模塊；（5）結果選擇模塊。

特征編碼模塊中，研究者們采用了在時序動作檢測（Temporal Action Localization）中表現優異的GC-NeXt來獲取視頻序列中的時序信息，使用雙向的LSTM來獲取語言信息的長時間依賴。
候選視頻片段生成模塊中，研究者們借鑒了之前工作2D-TAN的方式，構建了一個二維的時序網格圖，每一個小網格都代表一個候選視頻片段，其特征是由起始時間幀的特征和終止時間幀的特征串聯而得。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

視覺語言交互模塊中，研究者們同時構建了視頻片段-句子層面的關系和視頻片段-單詞層面的關系。對于視頻片段和句子的關系，研究者們之間對語言特征進行max-pooling，然后和視頻片段特征進行點乘。對于視頻片段和單詞的關系，研究者們通過語言特征和視頻片段特征首先構建出一個注意力權重矩陣，然后再與視頻片段特征交互，動態地生成query-aware的視頻片段表征。這種粗粒度和細粒度結合的方式能夠充分地交互視覺和語言兩種模態之間的信息。
視頻片段關系構建模塊中，研究者們將每個候選視頻片段視作圖的點，將這些視頻片段之間的關系視作圖的邊，構建了視頻片段關系的圖網絡模型。考慮到重疊比較高的視頻片段關聯性更強，研究者們在構建圖時僅考慮了和當前候選視頻片段具有相同起始時間或者終止時間的視頻片段，在網格圖中就是一種十字架的形式。這樣構建圖的方式不僅可以減少不相關視頻片段帶來的噪聲影響，還能有效提高模型的效率。
結果選擇模塊中，研究者們采用一個卷積層和sigmoid激活層為每個候選視頻片段進行打分，根據得分從大到小排序，選擇top-1或者top-5作為最終的預測視頻片段。

最后，研究者們使用了alignment loss對模型進行了訓練：

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

實驗結果

研究者們通過大量的實驗驗證了RaNet對于基于語言查詢的視頻片段定位任務的有效性。

1.與SOTA模型的比較

本文在3個常見數據集TACoS、Charades-STA、ActivityNet Captions上，采用了Rank n@m評價指標，與以往的工作進行了對比，在3個數據集上基本都取得了SOTA的表現。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

2.模型中每個模塊帶來的效益

為了突顯出模型中每個模塊的重要性，研究者們做了消融實驗，從結果來看，同時考慮視頻片段和句子的關系，以及視頻片段和單詞的關系，比單獨考慮這兩者帶來的收益要多。當同時構建不同視頻片段之間的關系時，模型能夠更加精準地對視頻片段進行定位。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

3.在不同IoUs上帶來的提升

研究者們還與之前SOTA模型2D-TAN比較了在不同IoU上的相對提升率，可以發現，在越高的IoU上，本文的RaNet提升得更加明顯。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

4.視頻片段特征的不同生成方式的影響

研究者們比較了Pooling、Sampling、Addition、Concatenation這四種不同的視頻片段特征的生成方式，實驗發現更加關注邊界特征的Concatenation操作表現更好。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

不同word embeddings的影響：

為了探尋不同的詞向量編碼對實驗結果對的影響，研究者們還比較了不同word embeddings的表現，發現越強的語言表征更有益于模型精準地定位視頻片段。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

5.模型的效率

研究者們還展示了模型在TACoS數據集上的參數量和FLOPs，并和之前的2D-TAN模型進行了對比，由于在構建視頻片段關系的模塊中本文采用的是稀疏連接的圖網絡模型，所以參數量大大減小，效率得到了提升。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

6.可視化結果

最后，研究者們還通過可視化的例子展現了模型的能力。

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

結論

針對基于語言查詢的視頻片段定位這個任務，云從-上交的聯合研究團隊提出了，將視頻片段定位類比為自然語言處理中的多項選擇閱讀理解，同時建模了視頻片段-句子層面和視頻片段-單詞層面的關系，并且提出了一種稀疏連接的圖網絡高效地建模了不同視頻片段之間的關系，在公開數據集上取得了SOTA表現。

更多的技術細節請參考[RaNet: arxiv paper](https://arxiv.org/abs/2110.05717)。

參考文獻

[1] Songyang Zhang, Houwen Peng, Jianlong Fu, and Jiebo Luo. 2020b. Learning 2d temporal adjacent networks for moment localization with natural language. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 12870–12877.

[2] Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, and Bernard Ghanem. 2020. G-tad: Sub-graph localization for temporal action detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

[3] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. 2019. Ccnet: Criss-cross attention for semantic segmentation. In

2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 603–612.

EMNLP 2021 | 云從科技&上海交大的跨模態技術成果：探索多層關系的RaNet

雷鋒網

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章