NIPS 2017 騰訊AI Lab 八篇論文入選，含1篇Oral

本文作者：奕欣

2017-09-20 14:44

專題：NIPS 2017

導語：騰訊 AI Lab 共有八篇論文入選，位居國內企業前列，其中一篇被選做口頭報告（Oral），該類論文僅占總錄取數的 1.2%（40/3248）

雷鋒網 AI 科技評論按：本文轉載自騰訊 AI Lab，已獲授權。

被譽為神經計算和機器學習領域兩大頂級會議之一的 NIPS（另一個為 ICML）近日揭曉收錄論文名單，騰訊 AI Lab 共有八篇論文入選，位居國內企業前列，其中一篇被選做口頭報告（Oral），該類論文僅占總錄取數的 1.2%（40/3248），我們將在下文解析。

插播一下，騰訊 AI Lab 今年還在其他幾大頂級會議上斬獲頗豐，包括機器學習領域另一頂會 ICML（四篇入選）、計算機視覺領域頂會 CVPR（六篇入選）、自然語言處理領域頂會 ACL（三篇入選）等。（加鏈接）

本屆 NIPS 共收到 3240 篇論文投稿，創歷年新高，其中 678 篇被選為大會論文，錄用比例 20.9%。其中有 40 篇口頭報告（Oral）和 112 篇亮點報告（Spotlight）。會議門票也在開售不到一小時內售罄，參會人數預計將超過去年的 5000 人，火爆程度可見一斑。

NIPS 2017 騰訊AI Lab 八篇論文入選，含1篇Oral

機器學習未來研究的一點思考

NIPS 的內容涵蓋認知科學、心理學、計算機視覺、統計語言學和信息論等領域，可由此窺見機器學習最為前沿和備受關注的研究領域。而在思考未來方向時，我們認為研究者們可追本溯源，沉下心來關注一些本質問題。

比如機器學習研究方向之一，是探索如何在特定知識表達體系下有效利用不同資源，這里的資源包括計算資源（時間復雜性）和數據資源（樣本復雜性）。這個方向上的主流思路是使用基于深度網絡的模型，但近幾年的研究更較偏 heuristic 和 empirical，而未來則更可能會是在深度模型的知識表達體系下進行探索。深度模型帶來的最大挑戰是非凸性，這從本質上有別于傳統的計算與統計理論，也值得研究者們產生一些全新的思考。

深度學習是目前毋庸置疑的大趨勢，近幾年來此類研究空前火熱，如果我們回到初心，將部分不真實的內容逐步澄清，能促進研究走上良性發展之路。

騰訊 AI Lab 八篇入選論文詳解

*論文按標題英文首字母排序

Oral 論文 1. 去中心化算法能否比中心化算法效果更佳－一個關于去中心化的隨機梯度方法研究

Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent

本論文與蘇黎世聯邦理工學院、加州大學戴維斯分校和 IBM 合作完成。并行優化和計算效率是從大數據發掘智能的核心競爭力。為了提高效率，大多數的并行優化算法和平臺集中在研究中心化的算法，比如 Tensorflow、CNTK 及 MXNET。中心化的算法的主要瓶頸是上百個計算結點與（多個）中心節點之間的通訊代價和擁堵，嚴重的受制于網絡的帶寬和延遲。而這篇文章里則考慮去中心化的思路以減少通訊的代價。

盡管在去中心化的方法在控制領域已經有所應用和研究，但是考慮的是在特殊的去中心的拓撲結構的情況下，如何交換融合信息。而且已有的研究都沒有表明如果二者都能用的情況下去中心的算法相對對于中心化的算法會有任何優勢。這篇文章的主要貢獻在于研究了一個去中心化的隨機梯度方法，并且第一次從理論上證明了去中心化的算法可以比對應的中心化算法更加高效。同時本文通過大量的在深度學習上的實驗和比較驗證了作者理論。

這個發現將會打開未來大家對并行算法的思路，給并行系統帶來更多的靈活性和自由度。我們相信將會對未來的機器學習平臺和算法開發產生較大影響。

* 本文入選 NIPS 2017 口頭報告（Oral），論文占比為 40/3248。

2. 線性動態系統上的高效優化及其在聚類和稀疏編碼問題上的應用

Efficient Optimization for Linear Dynamical Systems with Applications to Clustering and Sparse Coding

本論文與清華大學和澳大利亞國立大學合作完成，其中的線性動態系統模型（LDS）是用于時空數據建模的一種重要的工具。盡管已有的理論方法非常豐富，但利用 LDS 進行時空數據的分析并不簡單，這主要是因為 LDS 的參數并不是在歐氏空間，故傳統的機器學習方法不能直接采用。

在這篇論文中，作者提出了一種高效的投影梯度下降法去極小化一個泛化的損失函數，并利用該方法同時解決了 LDS 空間上的聚類和稀疏編碼問題。為此，作者首先給出 LDS 參數的一種新型的典范表示，然后巧妙地將目標函數梯度投影到 LDS 空間來實現梯度回傳。與以往的方法相比，這篇文章中的方法不需要對 LDS 模型和優化過程加入任何的近似。充分的實驗結果證明了這篇文章中的方法在收斂性和最終分類精度上優于目前最好同類方法。

3. 通過斯坦因引理估計高維非高斯多指數模型

Estimating High-dimensional Non-Gaussian Multiple Index Models via Stein's Lemma

本論文與普林斯頓大學和喬治亞理工大學合作完成，作者探討了在高維非高斯設置中估計半參數多指數模型的參數化組分的方法。文中的估計器使用了基于二階斯坦因引理的分數函數，而且不需要文獻中做出的高斯或橢圓對稱性假設。內部機構的研究表明：即使分數函數或響應變量是重尾（heavy-tailed）分布的，文中的估計器也能實現接近最優的統計收斂率。最后，作者利用了一個數據驅動的截斷參數，并基于該參數確定了所需的集中度（concentration）結果。作者通過模擬實驗對該理論進行了驗證，對這篇文章中的理論結果進行了補充。

4. 基于幾何梯度下降方法的復合凸函數最小化

Geometric Descent Method for Convex Composite Minimization

本論文與香港中文大學和加利福尼亞大學戴維斯分校合作完成，主要擴展了 Bubeck, Lee 和 Singh 近期提出的處理非光滑復合強凸函數優化問題的幾何梯度下降方法。文中提出「幾何鄰近梯度下降法」算法——能夠以線性速率收斂，因此能相比其他一階優化方法達到最優的收斂速率。最后，在帶有彈性網絡正則化的線性回歸和邏輯回歸上的數值實驗結果表明，新提出的幾何鄰近梯度下降法優于 Nesterov's 加速的鄰近梯度下降法，尤其面對病態問題時優勢更大。

5. 基于混合秩矩陣近似的協同過濾

Mixture-Rank Matrix Approximation for Collaborative Filtering

本論文與復旦大學和 IBM 中國合作完成，關于低秩矩陣近似方法（LRMA）現今在協同過濾問題上取得了優異的精確度。在現有的低秩矩陣近似方法中，用戶或物品特征矩陣的秩通常是固定的，即所有的用戶或物品都用同樣的秩來近似刻畫。但本文研究表明，秩不相同的子矩陣能同時存在于同一個用戶-物品評分矩陣中，這樣用固定秩的矩陣近似方法無法完美地刻畫評分矩陣的內部結構，因此會導致較差的推薦精確度。

這篇論文中提出了一種混合秩矩陣近似方法（MRMA），用不同低秩矩陣近似的混合模型來刻畫用戶-物品評分矩陣。同時，這篇文章還提出了一種利用迭代條件模式的領先算法用于處理 MRMA 中的非凸優化問題。最后，在 MovieLens 系統和 Netflix 數據集上的推薦實驗表明，MRMA 能夠在推薦精確度上超過六種代表性的基于 LRMA 的協同過濾方法。

6. 凸差近似牛頓算法在非凸稀疏學習中的二次收斂

On Quadratic Convergence of DC Proximal Newton Algorithm in Nonconvex Sparse Learning

為求解高維的非凸正則化稀疏學習問題，我們提出了一種凸差（difference of convex/DC）近似牛頓算法。我們提出的算法將近似牛頓算法與基于凸差規劃的多階段凸松弛法（multi-stage convex relaxation）結合到了一起，從而在實現了強計算能力的同時保證了統計性。具體來說，具體來說，通過利用稀疏建模結構/假設的復雜特征（即局部受限的強凸性和 Hessian 平滑度），我們證明在凸松弛的每個階段內，我們提出的算法都能實現（局部）二次收斂，并最終能在僅少數幾次凸松弛之后得到具有最優統計特性的稀疏近似局部最優解。我們也提供了支持我們的理論的數值實驗。

7. 用于稀疏學習的同倫參數單純形方法

Parametric Simplex Method for Sparse Learning

本論文與普林斯頓大學、喬治亞理工大學和騰訊 AI 實驗室合作完成，作者關注了一種可形式化為線性規劃問題的廣義類別的稀疏學習——這類線性規劃問題可以使用一個正則化因子進行參數化，且作者也通過參數單純形方法（parametric simplex method/PSM）解決了這個問題。相對于其它相競爭的方法，這篇文章中的參數單純形方法具有顯著的優勢：（1）PSM 可以自然地為正則化參數的所有值獲取完整的解決路徑；（2）PSM 提供了一種高精度的對偶證書停止（dual certificate stopping）標準；（3）PSM 只需非常少的迭代次數就能得到稀疏解，而且該解的稀疏性能顯著降低每次迭代的計算成本。

特別需要指出，這篇文章展示了 PSM 相對于多種稀疏學習方法的優越性，其中包括用于稀疏線性回歸的 Dantzig 選擇器、用于稀疏穩健線性回歸的 LAD-Lasso、用于稀疏精度矩陣估計的 CLIME、稀疏差分網絡估計和稀疏線性規劃判別（LPD）分析。然后作者提供了能保證 PSM 總是輸出稀疏解的充分條件，使其計算性能可以得到顯著的提升。作者也提供了嚴密充分的數值實驗，演示證明了 PSM 方法的突出表現。

8. 預測未來的場景分割和物體運動

Predicting Scene Parsing and Motion Dynamics in the Future

本論文與新加坡國立大學、Adobe 研究室和 360 人工智能研究院合作完成。無人車和機器人這樣的對智能系統中，預期未來對提前計劃及決策非常重要。文中預測未來的場景分割和物體運動幫助智能系統更好地理解視覺環境，因為場景分割能提供像素級語義分割（即何種物體在何處會出現），物體運動信息能提供像素級運動狀態（即物體未來會如何移動）。本文提出了一種全新的方法來預測未來的未觀測到的視頻場景分割和物體運動。用歷史信息（過去的視頻幀以及對應的場景分割結果）作為輸入，文章中的新模型能夠預測未來任意幀的場景分割和物體運動。

更重要的是，這篇文章中的模型優于其他分開預測分割和運動的方法，因為文中聯合處理這兩個預測問題以及充分利用了它們的互補關系。據內部統計，文中的方法是第一個學習同時預測未來場景分割和物體運動的方法。在大規模 Cityscape 數據集上的實驗表明，本文的模型相比精心設計的基線方法，能獲得顯著更好的分割和運動預測結果。另外，這篇論文也展示了如何用機構內部的模型預測汽車轉向角，獲得的優秀結果進一步證實了該新模型學習隱含變量的能力。

一分鐘數讀 NIPS

NIPS 全稱為 Annual Conference and Workshop on Neural Information Processing Systems，于 1986 年在由加州理工學院和貝爾實驗室組織的 Snowbird 神經網絡計算年度閉門論壇上首次提出。會議固定在每年 12 月舉行。今年是第 31 屆，將于 12 月 4 日到 9 日在美國西岸加州南部的長灘市（Long Beach）舉辦。

計算機學科由于成果更新迅速，更愿意通過會議優先發表成果，因此該類頂級會議大多比期刊更具權威性與影響力。NIPS 和 ICML 是機器學習領域最受認可的兩大頂會，是中國計算機學會 CCF 推薦的 A 類會議及 Google 學術指標前五名。（見如下）

NIPS 2017 騰訊AI Lab 八篇論文入選，含1篇Oral