FAIR 訓練 AI 玩拳擊，效果堪比真人比賽，試探+周旋+爆頭

本文作者：我在思考中

2021-09-06 14:26

導語：基于 AI 深度強化學習的拳擊選手身體不僅擁有超高自由度，而且它還掌握了格擋、后退、擺拳等拳擊基本動作。

AI 拳擊可以有多好玩？

小紅紅，吃我一拳。

嘿，我擋。

前期先試探周旋幾次，再找機會吧。

沒錯，就是這個空隙，爆頭。

還想故技重施，我躲。

FAIR 訓練 AI 玩拳擊，效果堪比真人比賽，試探+周旋+爆頭

怎么樣，AI 拳擊動畫效果是不是和真人比賽神相似？

基于 AI 深度強化學習的拳擊選手身體不僅擁有超高自由度，而且它還掌握了格擋、后退、擺拳等拳擊基本動作。

Facebook 人工智能研究部門（FAIR）在機器學習領域，總能帶來一些意想不到的成果，上面的演示正是它們在《Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports》（模擬人物進行雙人競技運動的控制策略）一文中的部分演示片段。

論文地址：https://research.fb.com/wp-content/uploads/2021/06/Control-Strategies-for-Physically-Simulated-Characters-Performing-Two-player-Competitive-Sports.pdf

在這篇論文中，研究人員開發了一個學習框架，通過物理模擬角色學習基本技能、學習回合級別的策略、深度強化學習的步驟方法，來模擬人們學習競技體育的訓練路線。

同時，它們還開發了一個編碼器-解碼器結構的策略模型來讓物理模擬角色進行訓練學習，該結構包含一個自回歸潛在變量和一個專家混合解碼器。

FAIR 訓練 AI 玩拳擊，效果堪比真人比賽，試探+周旋+爆頭

為了展示框架的有效性，研究人員通過拳擊和擊劍兩種運動，演示了物理模擬角色在框架學習到的控制策略，這些策略可以生成戰術行為，并且讓所有動作看起來更自然。

論文概述

在雙人競技運動中，運動員經常在比賽中展示出高效的戰術動作，如拳擊和擊劍。但創建多人動畫場景是一項巨大的挑戰，因為它不僅要求每個人物模型都以自然的方式行事，而且還要求它們彼此之間的互動在時間和空間領域都是同步的，以顯得自然。

FAIR 訓練 AI 玩拳擊，效果堪比真人比賽，試探+周旋+爆頭

相互作用的密度越大，問題就越具有挑戰性，因為在相互作用之間沒有時間“重置”。使用物理模擬角色簡化了問題的一部分，因為低層次的物理互動（如碰撞）是通過模擬自動生成的。

然而，由于學習包含比賽的一系列技能，人們還沒有對不同技能的協調進行深入研究，如刺拳、勾拳、等拳擊級別的反擊和壓力戰斗策略。

在競技運動中使用模擬角色的一個關鍵挑戰是，需要學習基本技能和拳擊級別的策略，以便它們能夠正確地協同工作。

在這篇論文中，FAIR 探討了訓練控制系統的技術，開發了一個框架，為角色之間的互動生成控制策略。其中的人形機器人擁有超高自由度，并由關節力矩驅動。

研究人員解釋，他們的設計靈感源于現實世界。對于大多數運動來說，人們首先是在沒有對手的情況下學習基本技能，然后通過與對手競爭來學習如何結合和完善這些技能。

基于此，FAIR 模仿這兩個過程，通過深度強化學習，讓物理模擬角色學習基本技能和學習比賽級別的策略。

多智能體強化學習

如上文所述，物理模型角色不僅在前期會訓練學習基本技能，后期還會通過競技的方式來深度學習，這里就涉及到了一個多智能體互相學習的問題。

FAIR 的框架采用一組運動數據，其中包括雙人競技運動的基本技能作為輸入，并生成兩個物理模擬選手的控制策略。控制策略允許玩家以正確的動作和時間執行一系列基本技能，從而贏得比賽。

具體來看，研究人員首先會收集了一些動作數據，包括在沒有對手的情況下進行這項運動的基本技能。然后采用單智能體深度強化學習的方法對動作進行單一模仿策略的學習。

最后，將模仿策略轉化為競爭策略，每個參與者通過帶有競爭策略的多智能體深度強化學習來增強自己的策略。

為了有效地將模仿策略轉換為競爭策略，FAIR 使用了一個由任務編碼器（如下圖綠色）和運動解碼器（藍色）組成的新策略模型，該任務編碼器的輸出以自回歸的方式更新（灰色）。

即使如此，在多智能體環境中采用動作捕捉依然存在不少巨大的難題。當我們需要多個智能體之間密集和豐富的交互時，由于物理交互過程中的遮擋和微妙運動，精確捕捉尤其困難。

基于此，FAIR 設計一種框架，用于捕捉動作數據。首先用一個智能體進行動作捕獲，并通過模擬和學習創建所需的競爭交互。

采用這種方法的動機來自于人們學習競技運動的方式——新手玩家先模仿高手玩家的示范，學習基本技能，然后在與對手對戰的過程中對所學的基本技能進行提煉和學習戰術。

小結

在這篇論文中，FAIR 通過創建控制模型，使得兩個物理模擬角色進行競技運動。以拳擊和擊劍為例，盡管這種方法產生了競爭性的匹配，但這個方法仍然具有局限性。

首先，該系統需要相當數量的計算來生成可信的競爭模型。隨著環境中涉及的變量增加，可能產生的交互也會以指數方式增加，因此所需的元組數量也以類似的方式增加。

為了使框架應用到更多運動中，如籃球或足球，更多的樣本數據是必要的。這種計算復雜性可以通過學習算法（如基于模型的 RL 算法）的突破來解決，或者收集更多的數據來引導智能體之間的交互。

其次，FAIR 開發的框架中有一個假設前提，即運動的個人技能可以由單個智能體掌握，雖然該假設為角色在后期競技中的學習做了一個鋪墊，然而，在一些雙人競技運動中，這種假設并不成立。

例如，在摔跤中，一個玩家首先需要抓住另一個玩家的身體，并不斷地利用接觸來獲得分數，而這其中并不包含特別的技能需要去學習。

最后，FAIR 的模型雖然能夠生成相互競爭的兩個動畫角色，但動作表現的自然程度卻取決于輸入參考運動的質量。

例如，在拳擊比賽中，專業運動員在比賽中表現出非常敏捷的動作，而模擬的運動員卻移動得很慢。研究人員認為，造成這種差異的主要原因是實驗中使用的輸入動作來自一個訓練非常有限的拳擊手。

雖然 FAIR 的這項研究并非真正成熟，仍有不少局限性，但它發表的該篇論文具體描述了自動生成多個擁有高自由度的動畫角色模型，以及讓它們深度學習和相互競技的過程，是一篇十分具有 AI 前沿性質的參考文獻。

從長期來看，這個研究方向旨在提供了一種模擬的方式，讓人類能夠通過控制人工智能進行競爭/互動，在電腦游戲、商業電影和體育賽事中能開辟新的應用形式。

FAIR 訓練 AI 玩拳擊，效果堪比真人比賽，試探+周旋+爆頭

雷鋒網雷鋒網雷鋒網

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章