英特爾通過預測變量實現策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

本文作者：隔壁王大喵

編輯：郭奕欣

2017-04-24 11:50

專題：ICLR 2017

導語：英特爾提出了一種旨在輔助進步的感覺運動控制方法，以克服強化學習的兩大挑戰。

雷鋒網AI科技評論按：ICLR 2017 將于4月24-26日在法國土倫舉行，屆時雷鋒網AI科技評論的編輯們也將前往法國帶來一線報道。在這個深度學習會議舉辦之前，雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道，敬請期待。

英特爾通過預測變量實現策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

盡管目前強化學習（Reinforcenment learning）已經取得了重大的進展，但是依然存在兩個關鍵性挑戰。

一個是在復雜和動態的三維環境下從原生的感覺輸入中實現感覺運動控制（Sensorimotor control），以實現直接從經驗中進行學習；
另一個則是獲得可以靈活部署以實現大量動態目標任務的通用技能。

因此本文的作者提出了一種旨在輔助進步的感覺運動控制方法，以克服強化學習的兩大挑戰。

以下為雷鋒網AI科技評論據論文內容進行的部分編譯。

論文摘要

據雷鋒網了解，來自英特爾實驗室（Intel Labs）的兩名研究員Alexey Dosovitskiy和Vladlen Koltum提出了一種在沉浸式環境中實現感覺運動控制（Sensorimotor control）的方法。據悉，該方法有效地綜合利用了高維度的感官流（high-dimensional sensory stream）和較低維度的測量流（lower-dimensional measurement stream）。

英特爾通過預測變量實現策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

圖1：網絡結構。s表示圖像數據，m表示測量，g表示目標。s,m,g首先通過三個輸入模塊分別進行處理。然后這些輸入模塊的輸出結果將被連接成一個聯合表示j。之后聯合表示j被送入了兩個并行的計算流進行單獨處理，這兩個計算流分別用于預測測量期望E(j)和歸一化動作條件差異。最后兩個計算流的輸出將被組合到一起以獲得針對每個動作的最終預測。

這些流的時間結構提供了豐富的監控信號，這使得可以通過與環境交互的方式訓練運動控制模型。該模型通過監督學習技術進行訓練，但是沒有用到外部監督。它從來自于復雜三維環境的原始感官輸入中學習動作。該方案使得模型在訓練過程中不用設定固定的學習目標，并且在測試的時候可以探索動態變化的目標。

據悉，研究員們在經典的第一視角游戲——Doom所提供的的三維模擬環境中進行了大量的實驗。而實驗結果表明，英特爾實驗室研究員所提出的方法優于先前提出的其它復雜方法，這一點在具有挑戰性的任務中體現得更加明顯。實驗結果還表明訓練好的模型在環境與目標之間具有很好的泛化能力。除此之外，通過該方法訓練出來的模型還贏得了Full Deathmatch track of the Visual Doom AI Competition的勝利，該競賽是在一個對于模型而言完全陌生的環境下舉辦的。

論文結果展示

英特爾通過預測變量實現策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

圖2：展示了來自于四個場景的樣例。D1展示了在一個正方形房間里收集醫療包（“Basic”）。D2展示了在迷宮中收集醫療包并且還要避開毒藥（“Navigation”）。D3展示了在迷宮中收集醫療包和彈藥并同時攻擊敵人（“Battle”）。D4展示了在一個更加復雜的迷宮中收集醫療包和彈藥并同時攻擊敵人（“Battle 2”）。

英特爾通過預測變量實現策略性強化學習，奪冠 Doom 游戲競賽 | ICLR 2017

圖3：不同方法在訓練中的表現。DQN,A3C和DFP在基礎的場景中都取得了類似的表現結果。但是DFP在其它三個場景中取得的表現結果都超過了另外三個方法。并且在最復雜的兩個場景下（D3與D4），DFP的表現結果遠遠優于另外三個方法。

ICLR評論

ICLR委員會最終決定

評價：這篇論文詳細介紹了作者在VizDoom競賽中獲勝的方法。這是一種預測輔助變量的策略性強化學習方法，并且使用了內在動機。同時該方法也是通用價值函數的一種特殊情況。該方法事實上是其它不同策略的一個集合，但是它產生了令人印象深刻的實驗結果，并且論文也寫的很清晰。

決定：接受（Oral）

令人信服的經驗驅動成果

打分：7分：好論文，接受

評價：深度強化學習（在強化學習算法中使用深度神經網絡進行函數近似）在解決大規模狀態空間下的強化學習問題中已經取得了許多的成功。而這種經驗驅動的工作正是建立在這些方法的基礎之上進行的。這篇論文介紹了一種新穎的算法，該算法在原生感覺數據（Raw sensory data）的全新3D環境中表現得更好，并且能在目標和環境之間獲得更好的泛化能力。值得注意的是，該算法可是Visual Doom AI競賽的獲勝者。

（沒有標題）

打分：8分：在所有被接受的論文中排前50%，確定接受

評價：本文提出了一種具有附加輔助內在變量的策略深度強化學習方法。

該方法是一種基于通用價值函數方法的特殊例子，并且作者也在引用中標注出了正確的參考。也許這篇文章最大的技術貢獻是提煉了許多現有的方法來解決3D導航問題。我認為論文的貢獻應該在摘要中更加詳細地論述出來。
我本來希望看到該方法的失敗模式。就是在什么情況下該模型會出現改變目標的問題？并且因為這是一種策略性的方法，所以還存在其它的概念問題。比如，如果算法中的代理不在過去的目標上反復進行訓練的話，將會出現災難性的遺忘。
由于本文的主要貢獻是整合了幾個關鍵思想并且展示了經驗的優勢，所以我還希望看到其它領域的測試結果，比如Atari（也許使用ROM作為內在變量）。

總而言之，我認為這篇論文確實展現了利用所提出的潛在公式的明顯經驗優勢，并且本文的實驗見解可能對未來的代理研究具有價值。

（沒有標題）

打分：8分：在所有被接受的論文中排前50%，確定接受

評論：這篇論文提出了一種策略性方法來預測未來的內在測量。所有的實驗都是在名為Doom（更準確來說是vizDoom）的這款游戲上展開的。與一般性地預測游戲輸贏或者是游戲得分不同，本文的作者訓練了模型來預測一系列的三元組（健康，彈藥，得分），并且由作為輸入提供的一系列“目標”三元組加權。改變目標三元組的加權是執行/指導探索的一種方式。在測試期間，只能通過最大化長期目標來實現代理的行動。

這個結果令人印象深刻，因為該模型贏得了2016年vizDoom大賽。并且本文的實驗部分看起來很合理：

實驗中包含了DFP與A3C、DQN方法的比較，而且也嘗試了同DSR方法（與本文相類似的一種方法，由Kulkarni等人在2016年提出）進行比較。DFP方法在各個實驗中都超越（或者至少也是持平）了其它方法。
有一項消融研究（Ablation study）能夠證明文中所有對模型“增加復雜性”的做法都是有效的。

預測內在動機（Singh et al. 2004）、輔助變量和前向建模都是強化學習中有著較好研究成果的領域。我閱讀的那個版本（12月4日修訂版）中充分參考了以前的工作，雖然還沒有做到非常全面。

我認為這篇應該被接受。可能有些人認為該論文的實驗可以在不同的環境下進行或者新穎性有限，但是我認為這篇“正確的”并且“里程碑式的”論文應該得到發表。

Via Learning to Act by Predicting the Future，雷鋒網編譯

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。