0
| 本文作者: 奕欣 | 2017-09-20 14:44 | 專題:NIPS 2017 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文轉(zhuǎn)載自騰訊 AI Lab,已獲授權(quán)。
被譽(yù)為神經(jīng)計(jì)算和機(jī)器學(xué)習(xí)領(lǐng)域兩大頂級(jí)會(huì)議之一的 NIPS(另一個(gè)為 ICML)近日揭曉收錄論文名單,騰訊 AI Lab 共有八篇論文入選,位居國(guó)內(nèi)企業(yè)前列,其中一篇被選做口頭報(bào)告(Oral),該類論文僅占總錄取數(shù)的 1.2%(40/3248),我們將在下文解析。
插播一下,騰訊 AI Lab 今年還在其他幾大頂級(jí)會(huì)議上斬獲頗豐,包括機(jī)器學(xué)習(xí)領(lǐng)域另一頂會(huì) ICML(四篇入選)、計(jì)算機(jī)視覺領(lǐng)域頂會(huì) CVPR(六篇入選)、自然語言處理領(lǐng)域頂會(huì) ACL(三篇入選)等。(加鏈接)
本屆 NIPS 共收到 3240 篇論文投稿,創(chuàng)歷年新高,其中 678 篇被選為大會(huì)論文,錄用比例 20.9%。其中有 40 篇口頭報(bào)告(Oral)和 112 篇亮點(diǎn)報(bào)告(Spotlight)。會(huì)議門票也在開售不到一小時(shí)內(nèi)售罄,參會(huì)人數(shù)預(yù)計(jì)將超過去年的 5000 人,火爆程度可見一斑。

NIPS 的內(nèi)容涵蓋認(rèn)知科學(xué)、心理學(xué)、計(jì)算機(jī)視覺、統(tǒng)計(jì)語言學(xué)和信息論等領(lǐng)域,可由此窺見機(jī)器學(xué)習(xí)最為前沿和備受關(guān)注的研究領(lǐng)域。而在思考未來方向時(shí),我們認(rèn)為研究者們可追本溯源,沉下心來關(guān)注一些本質(zhì)問題。
比如機(jī)器學(xué)習(xí)研究方向之一,是探索如何在特定知識(shí)表達(dá)體系下有效利用不同資源,這里的資源包括計(jì)算資源(時(shí)間復(fù)雜性)和數(shù)據(jù)資源(樣本復(fù)雜性)。這個(gè)方向上的主流思路是使用基于深度網(wǎng)絡(luò)的模型,但近幾年的研究更較偏 heuristic 和 empirical,而未來則更可能會(huì)是在深度模型的知識(shí)表達(dá)體系下進(jìn)行探索。深度模型帶來的最大挑戰(zhàn)是非凸性,這從本質(zhì)上有別于傳統(tǒng)的計(jì)算與統(tǒng)計(jì)理論,也值得研究者們產(chǎn)生一些全新的思考。
深度學(xué)習(xí)是目前毋庸置疑的大趨勢(shì),近幾年來此類研究空前火熱,如果我們回到初心,將部分不真實(shí)的內(nèi)容逐步澄清,能促進(jìn)研究走上良性發(fā)展之路。
*論文按標(biāo)題英文首字母排序
Oral 論文 1. 去中心化算法能否比中心化算法效果更佳-一個(gè)關(guān)于去中心化的隨機(jī)梯度方法研究
Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent
本論文與蘇黎世聯(lián)邦理工學(xué)院、加州大學(xué)戴維斯分校和 IBM 合作完成。并行優(yōu)化和計(jì)算效率是從大數(shù)據(jù)發(fā)掘智能的核心競(jìng)爭(zhēng)力。為了提高效率,大多數(shù)的并行優(yōu)化算法和平臺(tái)集中在研究中心化的算法,比如 Tensorflow、CNTK 及 MXNET。中心化的算法的主要瓶頸是上百個(gè)計(jì)算結(jié)點(diǎn)與(多個(gè))中心節(jié)點(diǎn)之間的通訊代價(jià)和擁堵,嚴(yán)重的受制于網(wǎng)絡(luò)的帶寬和延遲。而這篇文章里則考慮去中心化的思路以減少通訊的代價(jià)。
盡管在去中心化的方法在控制領(lǐng)域已經(jīng)有所應(yīng)用和研究,但是考慮的是在特殊的去中心的拓?fù)浣Y(jié)構(gòu)的情況下,如何交換融合信息。而且已有的研究都沒有表明如果二者都能用的情況下去中心的算法相對(duì)對(duì)于中心化的算法會(huì)有任何優(yōu)勢(shì)。這篇文章的主要貢獻(xiàn)在于研究了一個(gè)去中心化的隨機(jī)梯度方法,并且第一次從理論上證明了去中心化的算法可以比對(duì)應(yīng)的中心化算法更加高效。同時(shí)本文通過大量的在深度學(xué)習(xí)上的實(shí)驗(yàn)和比較驗(yàn)證了作者理論。
這個(gè)發(fā)現(xiàn)將會(huì)打開未來大家對(duì)并行算法的思路,給并行系統(tǒng)帶來更多的靈活性和自由度。我們相信將會(huì)對(duì)未來的機(jī)器學(xué)習(xí)平臺(tái)和算法開發(fā)產(chǎn)生較大影響。
* 本文入選 NIPS 2017 口頭報(bào)告(Oral),論文占比為 40/3248。
2. 線性動(dòng)態(tài)系統(tǒng)上的高效優(yōu)化及其在聚類和稀疏編碼問題上的應(yīng)用
Efficient Optimization for Linear Dynamical Systems with Applications to Clustering and Sparse Coding
本論文與清華大學(xué)和澳大利亞國(guó)立大學(xué)合作完成,其中的線性動(dòng)態(tài)系統(tǒng)模型(LDS)是用于時(shí)空數(shù)據(jù)建模的一種重要的工具。盡管已有的理論方法非常豐富,但利用 LDS 進(jìn)行時(shí)空數(shù)據(jù)的分析并不簡(jiǎn)單,這主要是因?yàn)?LDS 的參數(shù)并不是在歐氏空間,故傳統(tǒng)的機(jī)器學(xué)習(xí)方法不能直接采用。
在這篇論文中,作者提出了一種高效的投影梯度下降法去極小化一個(gè)泛化的損失函數(shù),并利用該方法同時(shí)解決了 LDS 空間上的聚類和稀疏編碼問題。為此,作者首先給出 LDS 參數(shù)的一種新型的典范表示,然后巧妙地將目標(biāo)函數(shù)梯度投影到 LDS 空間來實(shí)現(xiàn)梯度回傳。與以往的方法相比,這篇文章中的方法不需要對(duì) LDS 模型和優(yōu)化過程加入任何的近似。充分的實(shí)驗(yàn)結(jié)果證明了這篇文章中的方法在收斂性和最終分類精度上優(yōu)于目前最好同類方法。
3. 通過斯坦因引理估計(jì)高維非高斯多指數(shù)模型
Estimating High-dimensional Non-Gaussian Multiple Index Models via Stein's Lemma
本論文與普林斯頓大學(xué)和喬治亞理工大學(xué)合作完成,作者探討了在高維非高斯設(shè)置中估計(jì)半?yún)?shù)多指數(shù)模型的參數(shù)化組分的方法。文中的估計(jì)器使用了基于二階斯坦因引理的分?jǐn)?shù)函數(shù),而且不需要文獻(xiàn)中做出的高斯或橢圓對(duì)稱性假設(shè)。內(nèi)部機(jī)構(gòu)的研究表明:即使分?jǐn)?shù)函數(shù)或響應(yīng)變量是重尾(heavy-tailed)分布的,文中的估計(jì)器也能實(shí)現(xiàn)接近最優(yōu)的統(tǒng)計(jì)收斂率。最后,作者利用了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的截?cái)鄥?shù),并基于該參數(shù)確定了所需的集中度(concentration)結(jié)果。作者通過模擬實(shí)驗(yàn)對(duì)該理論進(jìn)行了驗(yàn)證,對(duì)這篇文章中的理論結(jié)果進(jìn)行了補(bǔ)充。
4. 基于幾何梯度下降方法的復(fù)合凸函數(shù)最小化
Geometric Descent Method for Convex Composite Minimization
本論文與香港中文大學(xué)和加利福尼亞大學(xué)戴維斯分校合作完成,主要擴(kuò)展了 Bubeck, Lee 和 Singh 近期提出的處理非光滑復(fù)合強(qiáng)凸函數(shù)優(yōu)化問題的幾何梯度下降方法。文中提出「幾何鄰近梯度下降法」算法——能夠以線性速率收斂,因此能相比其他一階優(yōu)化方法達(dá)到最優(yōu)的收斂速率。最后,在帶有彈性網(wǎng)絡(luò)正則化的線性回歸和邏輯回歸上的數(shù)值實(shí)驗(yàn)結(jié)果表明,新提出的幾何鄰近梯度下降法優(yōu)于 Nesterov's 加速的鄰近梯度下降法,尤其面對(duì)病態(tài)問題時(shí)優(yōu)勢(shì)更大。
5. 基于混合秩矩陣近似的協(xié)同過濾
Mixture-Rank Matrix Approximation for Collaborative Filtering
本論文與復(fù)旦大學(xué)和 IBM 中國(guó)合作完成,關(guān)于低秩矩陣近似方法(LRMA)現(xiàn)今在協(xié)同過濾問題上取得了優(yōu)異的精確度。在現(xiàn)有的低秩矩陣近似方法中,用戶或物品特征矩陣的秩通常是固定的,即所有的用戶或物品都用同樣的秩來近似刻畫。但本文研究表明,秩不相同的子矩陣能同時(shí)存在于同一個(gè)用戶-物品評(píng)分矩陣中,這樣用固定秩的矩陣近似方法無法完美地刻畫評(píng)分矩陣的內(nèi)部結(jié)構(gòu),因此會(huì)導(dǎo)致較差的推薦精確度。
這篇論文中提出了一種混合秩矩陣近似方法(MRMA),用不同低秩矩陣近似的混合模型來刻畫用戶-物品評(píng)分矩陣。同時(shí),這篇文章還提出了一種利用迭代條件模式的領(lǐng)先算法用于處理 MRMA 中的非凸優(yōu)化問題。最后,在 MovieLens 系統(tǒng)和 Netflix 數(shù)據(jù)集上的推薦實(shí)驗(yàn)表明,MRMA 能夠在推薦精確度上超過六種代表性的基于 LRMA 的協(xié)同過濾方法。
6. 凸差近似牛頓算法在非凸稀疏學(xué)習(xí)中的二次收斂
On Quadratic Convergence of DC Proximal Newton Algorithm in Nonconvex Sparse Learning
為求解高維的非凸正則化稀疏學(xué)習(xí)問題,我們提出了一種凸差(difference of convex/DC)近似牛頓算法。我們提出的算法將近似牛頓算法與基于凸差規(guī)劃的多階段凸松弛法(multi-stage convex relaxation)結(jié)合到了一起,從而在實(shí)現(xiàn)了強(qiáng)計(jì)算能力的同時(shí)保證了統(tǒng)計(jì)性。具體來說,具體來說,通過利用稀疏建模結(jié)構(gòu)/假設(shè)的復(fù)雜特征(即局部受限的強(qiáng)凸性和 Hessian 平滑度),我們證明在凸松弛的每個(gè)階段內(nèi),我們提出的算法都能實(shí)現(xiàn)(局部)二次收斂,并最終能在僅少數(shù)幾次凸松弛之后得到具有最優(yōu)統(tǒng)計(jì)特性的稀疏近似局部最優(yōu)解。我們也提供了支持我們的理論的數(shù)值實(shí)驗(yàn)。
7. 用于稀疏學(xué)習(xí)的同倫參數(shù)單純形方法
Parametric Simplex Method for Sparse Learning
本論文與普林斯頓大學(xué)、喬治亞理工大學(xué)和騰訊 AI 實(shí)驗(yàn)室合作完成,作者關(guān)注了一種可形式化為線性規(guī)劃問題的廣義類別的稀疏學(xué)習(xí)——這類線性規(guī)劃問題可以使用一個(gè)正則化因子進(jìn)行參數(shù)化,且作者也通過參數(shù)單純形方法(parametric simplex method/PSM)解決了這個(gè)問題。相對(duì)于其它相競(jìng)爭(zhēng)的方法,這篇文章中的參數(shù)單純形方法具有顯著的優(yōu)勢(shì):(1)PSM 可以自然地為正則化參數(shù)的所有值獲取完整的解決路徑;(2)PSM 提供了一種高精度的對(duì)偶證書停止(dual certificate stopping)標(biāo)準(zhǔn);(3)PSM 只需非常少的迭代次數(shù)就能得到稀疏解,而且該解的稀疏性能顯著降低每次迭代的計(jì)算成本。
特別需要指出,這篇文章展示了 PSM 相對(duì)于多種稀疏學(xué)習(xí)方法的優(yōu)越性,其中包括用于稀疏線性回歸的 Dantzig 選擇器、用于稀疏穩(wěn)健線性回歸的 LAD-Lasso、用于稀疏精度矩陣估計(jì)的 CLIME、稀疏差分網(wǎng)絡(luò)估計(jì)和稀疏線性規(guī)劃判別(LPD)分析。然后作者提供了能保證 PSM 總是輸出稀疏解的充分條件,使其計(jì)算性能可以得到顯著的提升。作者也提供了嚴(yán)密充分的數(shù)值實(shí)驗(yàn),演示證明了 PSM 方法的突出表現(xiàn)。
8. 預(yù)測(cè)未來的場(chǎng)景分割和物體運(yùn)動(dòng)
Predicting Scene Parsing and Motion Dynamics in the Future
本論文與新加坡國(guó)立大學(xué)、Adobe 研究室和 360 人工智能研究院合作完成。無人車和機(jī)器人這樣的對(duì)智能系統(tǒng)中,預(yù)期未來對(duì)提前計(jì)劃及決策非常重要。文中預(yù)測(cè)未來的場(chǎng)景分割和物體運(yùn)動(dòng)幫助智能系統(tǒng)更好地理解視覺環(huán)境,因?yàn)閳?chǎng)景分割能提供像素級(jí)語義分割(即何種物體在何處會(huì)出現(xiàn)),物體運(yùn)動(dòng)信息能提供像素級(jí)運(yùn)動(dòng)狀態(tài)(即物體未來會(huì)如何移動(dòng))。本文提出了一種全新的方法來預(yù)測(cè)未來的未觀測(cè)到的視頻場(chǎng)景分割和物體運(yùn)動(dòng)。用歷史信息(過去的視頻幀以及對(duì)應(yīng)的場(chǎng)景分割結(jié)果)作為輸入,文章中的新模型能夠預(yù)測(cè)未來任意幀的場(chǎng)景分割和物體運(yùn)動(dòng)。
更重要的是,這篇文章中的模型優(yōu)于其他分開預(yù)測(cè)分割和運(yùn)動(dòng)的方法,因?yàn)槲闹新?lián)合處理這兩個(gè)預(yù)測(cè)問題以及充分利用了它們的互補(bǔ)關(guān)系。據(jù)內(nèi)部統(tǒng)計(jì),文中的方法是第一個(gè)學(xué)習(xí)同時(shí)預(yù)測(cè)未來場(chǎng)景分割和物體運(yùn)動(dòng)的方法。在大規(guī)模 Cityscape 數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文的模型相比精心設(shè)計(jì)的基線方法,能獲得顯著更好的分割和運(yùn)動(dòng)預(yù)測(cè)結(jié)果。另外,這篇論文也展示了如何用機(jī)構(gòu)內(nèi)部的模型預(yù)測(cè)汽車轉(zhuǎn)向角,獲得的優(yōu)秀結(jié)果進(jìn)一步證實(shí)了該新模型學(xué)習(xí)隱含變量的能力。
NIPS 全稱為 Annual Conference and Workshop on Neural Information Processing Systems,于 1986 年在由加州理工學(xué)院和貝爾實(shí)驗(yàn)室組織的 Snowbird 神經(jīng)網(wǎng)絡(luò)計(jì)算年度閉門論壇上首次提出。會(huì)議固定在每年 12 月舉行。今年是第 31 屆,將于 12 月 4 日到 9 日在美國(guó)西岸加州南部的長(zhǎng)灘市(Long Beach)舉辦。
計(jì)算機(jī)學(xué)科由于成果更新迅速,更愿意通過會(huì)議優(yōu)先發(fā)表成果,因此該類頂級(jí)會(huì)議大多比期刊更具權(quán)威性與影響力。NIPS 和 ICML 是機(jī)器學(xué)習(xí)領(lǐng)域最受認(rèn)可的兩大頂會(huì),是中國(guó)計(jì)算機(jī)學(xué)會(huì) CCF 推薦的 A 類會(huì)議及 Google 學(xué)術(shù)指標(biāo)前五名。(見如下)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章