成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給奕欣
    發送

    0

    OpenAI發布開源軟件Roboschool,模擬機器人的控制訓練

    本文作者: 奕欣 2017-05-16 16:19
    導語:OpenAI 今日發布了一個用于模擬機器人的控制訓練的開源軟件 Roboschool,根據介紹,其整合了前段時間發布的 OpenAI Gym。

    OpenAI發布開源軟件Roboschool,模擬機器人的控制訓練

    雷鋒網 AI 科技評論消息,OpenAI 今日發布了一個用于模擬機器人的控制訓練的開源軟件 Roboschool,根據介紹,其整合了前段時間發布的 OpenAI Gym。

    OpenAI Gym 是一款研發與比較強化算法的工具包,此前用戶反饋的問題在于價格。雖然已經向個人或有課程學習需要的學生免費開放,但負責機器人控制的 MuJoCo 組件依然需要收費。

    不過在基于 OpenAI Gym 環境的 Roboschool 里,用戶不必再擔心這一額外花費。據雷鋒網了解,有八個模擬器可以作為 MoJoCo 組件的免費替代品,還能進行重新調試,以產生更多逼真的動作。另外四個任務則提供了更具挑戰的任務,比如類人直立行走的任務,或是多玩家乒乓賽(multiplayer Pong)。

    這樣一來,Roboschool 得以讓用戶更方便地在同一個場景中同時訓練多個智能體。OpenAI 表示,他們希望隨著時間推移,能夠獲得更多的集合拓展,此外也期待社區后續的產出貢獻。

    如視頻所示,你可以在 Roboschool 的界面上讓三個不同的機器人進行跑步競賽。而在 agent_zoo/demo_race1.py. 上運行此腳本時,每次都會隨機出現不同的機器人

    OpenAI 團隊已經將 MuJoCo 上的一些模擬器移植到 Bullet 上,并做了逼真化的處理。下圖的三個模擬器都有了不同程度的改進。比如 Walker2d 在緩慢走動時,細節更加真實;而原有的螞蟻(Ant)變得更「重」了一些,這樣它就需要借助四條腿來前進;人類行走者甚至還借鑒了能量損耗原則(=轉矩×角速度),并以「跑偏」的形式顯現出來。

    OpenAI發布開源軟件Roboschool,模擬機器人的控制訓練

    agent_zoo 文件夾中,你可以看到三個模擬器的不同訓練原則;并在 demo_race 里找到他們三個的跑步比賽視頻 demoj 腳本

    此前的 OpenAI Gym 模擬器旨在掌握步行控制的要義,只需要學會簡單地前進就夠了。但實際情況可能復雜許多,且有很多地方尚未被探索過,因此模擬器的單循環策略開始變得不管用, 可能輕輕推模擬器一把,都會讓機器人摔個狗啃泥而動彈不得,更不要說完成任務了。

    為了解決這一問題,在全新的 Roboschool 中,OpenAI 的研究者設計了兩個 3D 類人的模擬器,而在訓練任務 HumanoidFlagrun 中,機器人需要朝著不斷變動位置的旗子跑去,這一過程能夠訓練機器人學會放緩速度并轉動方向。

    而在「困難模式」的 HumanoidFlagrunHarder 中,機器人被賦予「跌倒」的權利,并嘗試用雙腿站起來。因此,任務的一開始,很可能機器人是躺在地上的。此外,機器人還要抵御不時的「攻擊」(見視頻),防止因為來自四面八方砸來的小白塊而摔倒。

    HumanoidFlagrunHumanoidFlagrunHarder 的訓練策略也已經在 GitHub 上開源。雖然機器人的步伐看上去并不那么快,形態也不像人般自然,但它所采取的策略已經足以應對非常多的狀況,也知道如何控制機器人。我們可以把這個策略當作一個多層感知機,甚于它沒有內部狀態,我們認為,在某些情況下,智能體應該是采用了自己的手臂存儲信息。

    就像雷鋒網在前文所提及的一樣,Roboschool 致力于讓用戶在同一模擬器上訓練多個智能體,而 RoboschoolPong 就是一個很好的開始,與此同時,還有一大波模擬器正在路上。

    通過「左右互博」的乒乓球賽,用戶得以在兩方同時訓練同一個智能體,或是采用同樣的算法訓練兩個不同的智能體,甚至,你也可以讓兩個獨立智能體自行訓練(如下面視頻所示)。

    多智能體的設定也帶來了一些有意思的挑戰。如果你同時訓練兩方玩家,你很可能會看到如下圖所示的曲線圖:

    OpenAI發布開源軟件Roboschool,模擬機器人的控制訓練

    策略更新與策略梯度同時進行

    將會呈現如下結果:

    • 智能體 1(綠線)學到在頂部可以成功回球,因此它經常往頂部移動;

    • 智能體 2(紫線)發現對手經常往頂部移動,因此會試著往底部回球;

    • 智能體 1 隨后也學會要往底部移動才能成功回球,而且智能體 2 經常往底部回球,因此它也經?!格v守」底部了。

    經歷這樣的循環后,策略開始震蕩,而經歷了數小時的訓練后,雙方都沒法再學到什么有用的內容了。而在 GANs 中,在對抗性中進行學習屢試不爽,而 OpenAI 團隊的人認為這是一個非常有意思的研究問題。即便是在簡單的環境中,雙方的交互也會產生復雜的策略,也能提供符合實際的借鑒。

    除了上文介紹的 Roboschool 外,OpenAI 團隊也在 OpenAI Gym 中做了不少研究工作。詳情可以參考以下鏈接:

    Roboschool 的 GitHub 頁面:https://github.com/openai/roboschool

    OpenAI Gym 的 GitHub 頁面:https://github.com/openai/gym

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

    OpenAI發布開源軟件Roboschool,模擬機器人的控制訓練

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說