本次CVPR上，李飛飛團隊都中了哪8篇論文？ | CVPR 2017

本文作者：高云河

編輯：郭奕欣

2017-07-22 09:13

專題：CVPR 2017

導語：國際計算機視覺與模式識別會議（CVPR）是IEEE一年一度的學術性會議，來看看計算機視覺巨牛李飛飛都有哪些論文。

本次CVPR上，李飛飛團隊都中了哪8篇論文？ | CVPR 2017

CVPR是IEEE一年一度的計算機視覺與模式識別技術會議，也是計算機視覺的世界三大頂會之一。2017年的CVPR會議將于7月21日到26日于夏威夷Convention中心召開，雷鋒網將赴前線做覆蓋與報道。

李飛飛就職于斯坦福大學計算機科學系，目前為斯坦福大學人工智能實驗室、斯坦福視覺實驗室、豐田汽車-斯坦福人工智能研究中心負責人，同時也是Google云端人工智能暨機器學習首席科學家。

本次CVPR上，李飛飛團隊共有8篇論文成功入選，以下是CVPR 2017 Li Fei Fei作為作者的論文摘要，雷鋒網AI科技評論做了編譯和整理。

生成圖像描述性段落的層級方法（A Hierarchical Approach for Generating Descriptive Image Paragraphs）

作者：Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei

最新的為圖像生成字幕的方法可以生成以自然語言描述圖像的句子，但是將圖像的所有信息壓縮為單個句子，這樣僅能粗略地描述圖像的視覺內容。還有一種新型字幕方法：密集字幕方法（dense captioning），可以通過在圖像中標注許多區域來潛在地描述更精細的圖像細節，但是該方法不能為圖像產生連貫的故事。在本論文中，研究者通過生成描述圖像的整個段落來克服這些限制，該方法能夠描述詳細統一的故事。研究者開發了一個將圖像和段落分解為其組成部分的模型，檢測圖像中的語義區域，并使用層級循環神經網絡對語言進行推理。語言分析證明了段落生成任務的復雜性，對圖像和段落對的新數據集的實驗證明了該方法的有效性。

論文地址：https://arxiv.org/abs/1611.06607

通過迭代查詢獲取視覺問題的知識獲取（Knowledge Acquisition for Visual Question Answering via Iterative Querying）

作者：Yuke Zhu, Joseph J. Lim, Li Fei-Fei

人類具有學習新技能和新知識以解決問題的非凡能力。自動模式也需要這種學習能力來處理視覺世界中任意的、開放式的問題。研究者提出了一種基于神經的方法來獲取視覺問答（VQA， visual question answering）的任務驅動信息。該模型提出了從外部輔助數據積極獲取相關信息的查詢方法。來自人工策劃或自動來源的支持證據被編碼并存儲到存儲器中。獲取任務驅動的證據有效地提高了在Visual7W和VQA數據集上的模型性能；此外，這些查詢在該迭代QA模型中提供了一定程度的可解釋性。

論文地址：http://people.csail.mit.edu/lim/paper/zlf_cvpr2017.pdf

使用個人中心多模態信號的能量支出與活動的聯合學習（Jointly Learning Energy Expenditures and Activities Using Egocentric Multimodal Signals）

作者：Katsuyuki Nakamura, Serena Yeung, Alexandre Alahi, Li Fei-Fei

生理信號，如心率可以提供有關個人狀態和活動的有價值信息。然而，現有的計算機視覺工作尚未探索利用這些信號來增強個人中心視頻（egocentric video）的理解。Egocentric video是人體可穿戴設備所拍攝出的視頻，與一般的視頻不同，這種視頻的獨有特征為播放時間長，持續性強（無鏡頭切換）。在這項工作中，研究者提出了一個基于多模態數據進行推理的模型，聯合預測預測正在進行的活動以及能量支出。研究者使用心率信號作為特權自我監督（privileged self-supervision），以得到訓練狀態中的能量支出。一個多任務的目標函數被用于聯合優化這兩個任務。另外，研究者引入了一個31小時的包含心率和加速度信號的個人中心視頻數據集。該研究能夠引出一些新的應用，例如視覺卡路里計數器。

論文地址：http://vision.stanford.edu/pdf/nakamura2017cvpr.pdf

視頻長期動態運動的無監督學習（Unsupervised Learning of Long-Term Motion Dynamics for Videos）

作者：Zelun Luo, Boya Peng, De-An Huang, Alexandre Alahi, Li Fei-Fei

研究者提出一種無監督的表示學習方法，可以緊密地編碼視頻中運動的依賴關系。給定一個來自視頻剪輯的圖像，我們的框架可以學習預測長期的3D動作。為了減少學習框架的復雜性，研究者提出將運動描述為RGB-D模態計算的原子3D流序列。研究者使用基于循環神經網絡的編碼器-解碼器框架來預測這些流程序列。為了使解碼器能夠重建這些序列，編碼器必須學習一個穩定的視頻表示，捕獲長期運動依賴性和空間-時間關系。研究者展示了學習到的時間表示對跨越多個模態和數據集（如NTU RGB+D和MSR Daily Activity 3D）的動作分類的有效性。該框架通用于任何輸入模式，例如RGB，深度，和RGB-D視頻

論文地址：https://arxiv.org/abs/1701.01821

學習如何從嘈雜的網絡視頻中學習（Learning to Learn from Noisy Web Videos ）

作者：Serena Yeung, Vignesh Ramanathan, Olga Russakovsky, Liyue Shen, Greg Mori, Li Fei-Fei

如何理解既多樣化又有復雜細粒度的人類行為是計算機視覺中的一個關鍵的開放性問題。手動標注訓練視頻對于一些動作類是可行的，但是不能擴展到完全長尾分布的動作。解決這個問題的一個可行的方法是使用半監督或“網絡監督”的方法，利用網絡查詢的嘈雜數據來學習新的動作。然而，這些方法通常不會學習特定領域的知識，或者依賴于迭代的手工調整數據標簽策略。在該工作中，研究者提出了一種基于強化學習的公式，從嘈雜的網絡搜索結果中選擇訓練分類器的正確樣本。該方法使用Q學習來學習一個小標注訓練數據集上的數據標注策略，然后使用它來自動標注嘈雜的網絡數據，以獲得新的視覺概念。在具有挑戰性的Sports-1M action recognition benchmark以及其他細粒度的新動作類中，該方法能夠為嘈雜數據學習良好的標注策略，并使用它來學習準確的視覺概念分類器。

論文地址：https://arxiv.org/abs/1706.02884

教學視頻中無監督的視覺-語言參考解決方案（Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos ）

作者：De-An Huang, Joseph J. Lim, Li Fei-Fei, Juan Carlos Niebles

研究者提出了一個在教學視頻中使用無監督方法參考解決方案（reference resolution），其目的是將視頻上下文中提到實體與作用在它身上的動作聯系起來。人類經常從帶有講解的視頻中學習各種知識，比如如何拿住刀來切土豆，這些視頻中通常有語言（字幕）提示以幫助學習。為了使機器也有同樣的能力，理解視頻中的實體和動作是必要的。該問題的關鍵挑戰是視頻中實體的外觀和指代名稱的變化導致的不可避免的視覺-語義模糊。比如將酸奶淋在蔬菜上，酸奶的外觀發生變化，同時酸奶的指代名稱也由“酸奶”變為“調料”。研究者想要使用無監督的方法解決該問題，從而進一步擴大了這個挑戰。研究者通過學習一個聯合的視覺-語言模型來解決這些挑戰，其中語言提示可以幫助解決視覺歧義，反之亦然。研究者通過使用來自YouTube的兩千多個非結構化烹飪視頻來無障礙的學習該模型以驗證該方法，結果顯示該視覺語言模型相較于目前在教學視頻中reference resolution最好的語言模型有巨大的提升。

論文地址: https://arxiv.org/pdf/1703.02521.pdf

CLEVR：組合語言和基本視覺推理的診斷數據集（CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning ）

作者：Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick,Ross Girshick

在建立可以推理和回答關于視覺數據問題的人工智能系統時，需要進行診斷測試來分析研究進展，并發現缺點。視覺問答現有的基準在這方面有些幫助，但存在很強的偏差，導致模型可以利用偏差來正確的回答問題，而無需推理。這些基準也混淆了多個錯誤來源，導致很難定位模型弱點的來源。研究人員提供了一個測試一系列視覺推理能力的診斷數據集。它包含最小的偏差，并具有描述每個問題需要的推理類型的詳細注釋。研究這可以使用這個數據集來分析各種現代視覺推理系統，為他們的能力和限制提供新的見解。

論文地址：https://arxiv.org/pdf/1612.06890.pdf

通過迭代信息傳遞的場景圖生成（Scene Graph Generation by Iterative Message Passing ）

作者：Danfei Xu, Yuke Zhu, Christopher B. Choy, Li Fei-Fei

理解一個視覺場景的任務難度遠超越了單獨識別個別物體。物體之間的關系也構成了關于場景的豐富語義信息。在這項工作中，研究者使用場景圖（一個視覺的圖像圖形結構）來明確地對物體及其關系進行建模。研究者提出一種從輸入圖像生成這種結構化場景表示的新穎的端對端模型。該模型使用標準RNN解決場景圖的推理問題，并學習通過消息傳遞迭代地改進其預測。該聯合推理模型可以利用上下文線索來對物體及其關系做出更好的預測。實驗表明，該模型顯著優于先前使用Visual Genome數據集生成場景圖的方法。

論文地址：https://arxiv.org/abs/1701.02426

雷鋒網整理編譯

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

3人收藏

專題

CVPR 2017

本專題其他文章

高云河

知情人士

發私信

當月熱門文章

本次CVPR上，李飛飛團隊都中了哪8篇論文？ | CVPR 2017

生成圖像描述性段落的層級方法 （A Hierarchical Approach for Generating Descriptive Image Paragraphs）

通過迭代查詢獲取視覺問題的知識獲取（Knowledge Acquisition for Visual Question Answering via Iterative Querying）

使用個人中心多模態信號的能量支出與活動的聯合學習（Jointly Learning Energy Expenditures and Activities Using Egocentric Multimodal Signals）

視頻長期動態運動的無監督學習（Unsupervised Learning of Long-Term Motion Dynamics for Videos）

學習如何從嘈雜的網絡視頻中學習 （Learning to Learn from Noisy Web Videos ）

教學視頻中無監督的視覺-語言參考解決方案（Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos ）

CLEVR：組合語言和基本視覺推理的診斷數據集（CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning ）

通過迭代信息傳遞的場景圖生成（Scene Graph Generation by Iterative Message Passing ）

CVPR 2017

生成圖像描述性段落的層級方法（A Hierarchical Approach for Generating Descriptive Image Paragraphs）

學習如何從嘈雜的網絡視頻中學習（Learning to Learn from Noisy Web Videos ）