DeepMind 黑科技！顛覆傳統強化學習方法，代理學習速度提高十倍（附視頻）

本文作者：三川

2016-11-18 18:49

導語：開發出 AlphaGo 的 DeepMind 研究團隊又出黑科技，新的強化學習方法將代理學習速度提高十倍。

DeepMind 最近的論文《非監督輔助任務中的強化學習》（”REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS”）介紹了一種極大提高代理學習速度和最終成效的方法。研究人員通過讓代理在訓練中執行兩個附加任務，來對標準的深度強化學習方法進行增強”

Deepmind 表示：“我們的目標是開拓 AI 領域的最前沿，開發出能通過學習解決任何難題，而無須人類教它怎么做的程序。我們的強化學習代理（agent）已經在圍棋和雅利達 2600 （Atari 2600, 1970年代的游戲主機）的游戲中有了重大突破。然而，這些游戲需要很多數據和很長的時間來學習。所以我們一直在尋找提高通用學習算法的途徑。”

DeepMind 代理在迷宮游戲中執行搜索任務的演示如下圖：

第一個任務涉及，讓代理學習怎樣控制屏幕上的像素（通過移動看到不同的東西）。這強調了對迷宮游戲中“行動影響你所看到的東西”這一原則的學習，而不是僅僅做出預測。這類似于嬰兒學習控制他們手臂的過程：試圖移動雙手，觀察做出的動作，然后進行調整。通過學習怎么移動來改變屏幕顯示的東西，DeepMind 代理學會了對玩這個游戲很有用的視覺輸入，并且拿到更高的得分。

在第二個任務中，代理被訓練，怎樣從簡短的歷史背景中預測一系列即將獲得的獎勵。為了更好地處理這個情況。當獎勵很少時，開發人員向代理按照同等的比例，展示過去獲得獎勵和沒有獲得獎勵的歷史。更高頻率地學習獎勵的歷史之后，這個代理能更快速地發現會帶來預期獎勵的視覺信號。

這兩個附加任務的組合，還有 DeepMind 之前的 A3C 研究成就了他們的全新“非監督強化和附加學習代理”（UNREAL agent，UNsupervised REinforcement and Auxiliary Learning agent，下文簡稱 UNREAL 代理) 。DeepMind 在 57 個雅利達游戲，和一個叫“迷宮”的 13 層 3D 環境中測試了這個代理。在所有的游戲中，基于原始圖像輸出， UNREAL 代理被用同樣的方式訓練。目的是讓它做出使游戲得分和獎勵最大化的行動。

為獲得游戲獎勵而需要作出的行動很復雜，從撿起 3D 地圖中的蘋果到玩“外星入侵”（Space Invaders）。UNREAL 算法經常學著玩這些游戲，學著學著就達到、甚至超越人類的水平。部分結果和可視化展示呈現在下面的視頻：

在“迷宮”游戲中，使用兩項附加任務（控制屏幕上像素和預測獎勵何時發生）的效果出奇的好。UNREAL 代理能夠以超出 DeepMind 現役最好的 A3C 代理十倍的速度學習，并且有遠遠更好得表現 （游戲得分和獎勵）。Deepmind 的代理平均在每個迷宮層中達到人類專家水平的 87% ，并在一部分迷宮層中有超人類的水平。在雅利達游戲中，這個代理平均達到人類水的九倍。Deepmind 表示，他們希望這項研究能讓他們繼續提高代理的水平，讓它完成更的復雜任務。

附：有興趣的技術宅們請點此查看 DeepMind 論文原文 “REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS”。

via deepmind

【招聘】雷鋒網堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫療等領域第一時間提供海外科技動態與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力，翻譯及寫作能力優良的外翻編輯加入。工作地點深圳。簡歷投遞至 guoyixin@leiphone.com 。兼職及實習均可。