0
| 本文作者: 奕欣 | 2018-08-23 16:04 |
雷鋒網消息,在荷蘭剛剛結束的 IEEE CIG 計算智能與游戲大會上,清華大學張鈸院士領導的人工智能創新團隊 TSAIL 在第一人稱射擊類游戲《毀滅戰士》(Doom)AI 競賽 VizDoom(Visual Doom AI Competition)上榮獲競賽 Track 1 的預賽和決賽冠軍,及 Track 2 預賽冠軍、決賽亞軍,成為賽事歷史上首個中國區冠軍。
該賽事研究得到了騰訊 AI Lab 犀牛鳥專項合作計劃的大力支持,研究過程中與騰訊 AI Lab 的資深研究員進行了密切合作。團隊負責人為清華大學 TSAIL 實驗室負責人朱軍教授,成員包括清華大學蘇航、黃世宇、閻棟、翁家翌及宋世虹,及騰訊 AI Lab 許佳、孫鵬等研究人員。
這一事件在雷鋒網學術頻道 AI 科技評論旗下數據庫項目「AI 影響因子」中有相應加分。
Track 1 官網:https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-singleplayer-track-1
Track 2 官網:https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-multiplayer-track-2

《毀滅戰士》是 ID Software 公司于 1993 年推出的 FPS(First Person Shooter,第一人稱射擊)類游戲,作為該類型游戲開拓者,模式延續到《使命召喚》和《光環》等多個射擊游戲。AI 在游戲中能有畫面而無聲音信息,因此基于強化學習的 Bot 獲得的信息比人類還少,使該游戲成為了 AI 研究熱門試驗場。
在深度學習和強化學習興起背景下,2016 年,基于游戲的 ViZDoom AI 競賽誕生,研究能獲取原始視覺信息的強化學習技術,因其高挑戰性吸引眾多頂級實驗室,如 2016 年冠軍 Facebook FAIR(Track 1)和英特爾(Track 2)、2017 年冠軍 Marvin(Track 1)和卡耐基梅隆大學(Track 2)。
比賽共分為兩個挑戰,Track 1 是單人闖關模式,Track 2 是隨機對戰模式(Death Match)。
Track 1 單人闖關模式的考核標準是最短時間內闖最多的關口。這是今年的新增項目,與以往經典的死亡競賽不同,需要 AI 能同時完成探索路徑、收集裝備、躲避陷阱、殺死怪物、尋找出口等諸多復雜任務,對 AI 的任務理解和環境認知能力要求極高。在 53 個國際參賽團提交的 204 個機器人中,只有 6 個團隊實現了有意義的闖關。
針對該復雜任務,TSAIL 團隊提出了環境信息引導的分層強化學習技術,在對環境信息有效感知基礎上,融合環境反饋和強化學習的獎勵信號,引導分層強化學習訓練,使得 AI 闖關表現優異,預賽中以絕對優勢保持第一,直至決賽鎖定冠軍。


Track 1 預賽及決賽成績
第二個挑戰 Track 2 是隨機對戰模式(Death Match),這是 VizDoom 的傳統項目,采用死亡競賽模式,要求參賽選手在同一個地圖里對殺 10 分鐘,AI 要在保存自己的同時,盡量多的殺傷敵人。最后用 Frags(=殺敵數量-自殺數量)定勝負。清華大學和騰訊 AI Lab 去年曾參賽并獲得優異成績。今年的比賽喜迎了 33 個參賽隊的 152 個機器人。
在 Track 2 中,TSAIL 團隊針對目前強化學習中普遍存在的動作空間大和獎勵信號稀疏等問題,更改適配了輕量級物體檢測架構 YOLO-v3,并與強化學習算法有效融合,極大提高了強化學習的訓了效率。預賽競爭異常激烈,TSAIL 團隊與第二名不斷交換領先,最后以 0.1 個 frag 優勢奪冠。決賽有 6 支團隊參加,包括預賽的前三名、2017 年冠、亞軍及 2016 年冠軍,TSAIL 最終奪得亞軍,成績遠超前兩屆冠軍。


Track 2 預賽及決賽成績
參與 VizDoom 競賽的意義,首先是探索輸入像素級視覺信息,直接輸出 AI 控制策略的強化學習算法。在研究上,這能帶動同類任務研究,如無人駕駛、機器人導航和物體追蹤等;應用上,可助力同類射擊游戲開發,如虛幻競技場、雷聲之錘和刺激戰場等,從而拓展人工智能技術的研究和應用領域。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。