無懼雨雪風(fēng)霜？斯坦福找到一種更適應(yīng)動態(tài)環(huán)境的強化學(xué)習(xí)方法

本文作者：周蕾

2020-07-02 10:07

導(dǎo)語：它與SAC、SLAC有何不同？

斯坦福人工智能實驗室（SAIL）的研究人員最近設(shè)計了一種方法，能處理那些會隨時間變化的數(shù)據(jù)和環(huán)境，性能優(yōu)于一些領(lǐng)先的強化學(xué)習(xí)方法，它被命名為LILAC（Lifelong Latent Actor-Critic）。

這一方法使用了潛在變量模型和最大熵策略，以此利用過去的經(jīng)驗，在動態(tài)環(huán)境中獲得更好的采樣效率和性能。

他們在一篇關(guān)于LILAC的論文中寫道：

“我們觀察到，在具有顯著非平穩(wěn)性的各種連續(xù)控制任務(wù)中，與最先進(jìn)的強化學(xué)習(xí)方法相比，我們的方法帶來了實質(zhì)性的改進(jìn)。”例如，它能夠更好地適應(yīng)環(huán)境，機器人或自主車輛可以在天氣條件變化較多（比如遇到雨雪環(huán)境）引入時運行這一方法。

作者在該動態(tài)強化學(xué)習(xí)環(huán)境中進(jìn)行了四個測試，包括來自metaworld基準(zhǔn)測試的Sawyer機器人、OpenAI Gym的Half-Cheetah和2D導(dǎo)航任務(wù)。

研究人員發(fā)現(xiàn)，與伯克利AI研究院（BAIR）于2018年推出的SAC（Soft Actor Critical）和加州大學(xué)伯克利分校（UC Berkeley）研究人員今年早些時候推出的SLAC（Rastic Potential Actor Critic）等頂級強化學(xué)習(xí)方法相比，LILAC在所有領(lǐng)域都能獲得更高、更穩(wěn)定的回報。

斯坦福大學(xué)的研究人員Annie Xie、James Harrison和Chelsea Finn兩周前在arXiv上發(fā)表了一篇關(guān)于LILAC的論文。主要作者Xie也與加州大學(xué)伯克利分校教授Sergey Levine合作研究SAC和SLAC。

“與這些方法不同，盡管在每一集中都會經(jīng)歷環(huán)境的持續(xù)變化，但LILAC卻能推斷出未來環(huán)境的變化，并在訓(xùn)練過程中穩(wěn)步保持高回報。”

作者說，LILAC與終身學(xué)習(xí)和在線學(xué)習(xí)算法有相似之處。元學(xué)習(xí)和元強化學(xué)習(xí)算法也試圖快速適應(yīng)新的設(shè)置。

在最近的其他強化學(xué)習(xí)新聞中，來自Google Brain、卡內(nèi)基梅隆大學(xué)、匹茲堡大學(xué)和加州大學(xué)伯克利分校的AI研究人員最近又引入了一種新的域適應(yīng)方法，即在強化學(xué)習(xí)環(huán)境中改變代理的獎勵函數(shù)。與其他強化學(xué)習(xí)環(huán)境一樣，該方法試圖使模擬器中的源域更像真實世界中的目標(biāo)域。

一篇上周發(fā)布的域適配論文指出，“行為主體會因為轉(zhuǎn)換而受到懲罰，轉(zhuǎn)換可以表明行為主體是在與源域還是目標(biāo)域交互。”“在一系列控制任務(wù)上的實驗表明，我們的方法可以利用源域來學(xué)習(xí)在目標(biāo)域中運行良好的策略，盡管只觀察到目標(biāo)域的少數(shù)轉(zhuǎn)換。”

研究人員修改了獎勵函數(shù)，使用分類器來區(qū)分源域和目標(biāo)域的轉(zhuǎn)換。他們在OpenAI Gym用三個任務(wù)來測試他們的方法。

雷鋒網(wǎng)編譯，via Stanford AI researchers introduce LILAC, reinforcement learning for dynamic environments | VentureBeat

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。