成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給劉潔
    發(fā)送

    0

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    本文作者: 劉潔 2024-09-06 11:52
    導(dǎo)語(yǔ):是誰(shuí)為提高機(jī)器人學(xué)習(xí)效率操碎了心,終于在動(dòng)作分塊里找到了希望。

    斯坦福大學(xué)的 Chelsea Finn 團(tuán)隊(duì)又出新成果了。

    Chelsea Finn 團(tuán)隊(duì)一直是斯坦福走在具身智能研究前沿的團(tuán)隊(duì)之一,之前火遍全網(wǎng)的 ALOHA 炒菜機(jī)器人就是出自這個(gè)團(tuán)隊(duì)之手。團(tuán)隊(duì)領(lǐng)頭人 Chelsea Finn 的創(chuàng)業(yè)公司 Pi 更是創(chuàng)立不到一個(gè)月就拿下來(lái)自紅杉資本、OpenAI 等公司的7000萬(wàn)美元融資。雷峰網(wǎng)雷峰網(wǎng)

    最近,Chelsea Finn 團(tuán)隊(duì)在研究中發(fā)現(xiàn),雖然延長(zhǎng)動(dòng)作塊能夠提升策略捕捉時(shí)間依賴(lài)性的能力,但這樣做會(huì)減少對(duì)機(jī)器人近期狀態(tài)的觀(guān)察,導(dǎo)致在隨機(jī)環(huán)境中更容易出錯(cuò)。

    為了克服這個(gè)難題,他們開(kāi)發(fā)了一種雙向解碼(Bidirectional Decoding, BID)新型算法。BID 能將動(dòng)作塊化與閉環(huán)操作相結(jié)合,通過(guò)在每個(gè)時(shí)間步采樣多個(gè)預(yù)測(cè)并尋找最優(yōu)化的一個(gè),增強(qiáng)擴(kuò)展序列的時(shí)間一致性,同時(shí)在隨機(jī)環(huán)境中實(shí)現(xiàn)自適應(yīng)重新規(guī)劃。

    為了驗(yàn)證 BID 算法的效果,他們?cè)?Franka Kitchen 數(shù)據(jù)集上進(jìn)行了模擬測(cè)試,發(fā)現(xiàn)機(jī)器人在家庭環(huán)境中的表現(xiàn)還不錯(cuò)。他們還用 Franka Panda 機(jī)器人做了真實(shí)實(shí)驗(yàn),結(jié)果顯示 BID 顯著提高了機(jī)器人在目標(biāo)移動(dòng)時(shí)的放置成功率。

    這些測(cè)試不由得讓人聯(lián)想到了他們之前做的炒菜機(jī)器人,也許這個(gè)團(tuán)隊(duì)正計(jì)劃把 BID 應(yīng)用在 ALOHA 上,準(zhǔn)備給家務(wù)機(jī)器人來(lái)個(gè)全面的技術(shù)升級(jí)。

    值得一提的是,這個(gè)團(tuán)隊(duì)中有一半都是華人面孔,之前開(kāi)發(fā) ALOHA 的也全是華人學(xué)生。

    目前,論文已在arXiv公開(kāi),相關(guān)代碼也已開(kāi)源。

    論文標(biāo)題:Bidirectional Decoding:Improving Action Chunking via Closed-Loop Resampling

    論文地址:https://bid-robot.github.io/static/BID_paper.pdf

    項(xiàng)目網(wǎng)站:https://bid-robot.github.io/

    代碼地址:https://github.com/YuejiangLIU/bid_diffusion

                     https://github.com/Jubayer-Hamid/bid_lerobot


    論文概覽

    研究問(wèn)題

    本文旨在解決機(jī)器人學(xué)習(xí)中的挑戰(zhàn),特別關(guān)注動(dòng)作分塊,即在沒(méi)有中間重新規(guī)劃的情況下預(yù)測(cè)和執(zhí)行動(dòng)作序列的過(guò)程,這些序列通常來(lái)源于人類(lèi)示范。面臨的挑戰(zhàn)包括在捕捉時(shí)間依賴(lài)性與對(duì)隨機(jī)環(huán)境中意外變化的反應(yīng)之間的權(quán)衡,以及不同示范之間的風(fēng)格變異性較大。

    該研究的動(dòng)機(jī)在于通過(guò)對(duì)動(dòng)作分塊進(jìn)行更深入的分析和提供實(shí)用的解碼算法,來(lái)增強(qiáng)機(jī)器人系統(tǒng)的學(xué)習(xí)和執(zhí)行過(guò)程。所要解決的問(wèn)題包括:

    動(dòng)作分塊中時(shí)間依賴(lài)性與反應(yīng)性之間的權(quán)衡

    不同示范之間的風(fēng)格變異性較大

    需要一種實(shí)用的解碼算法以提升機(jī)器人行為克隆的性能。

    提出的方法

    本文提出了雙向解碼(BID)方法。

    BID 是一種推理算法,將動(dòng)作分塊與機(jī)器人學(xué)習(xí)中的閉環(huán)操作相結(jié)合。它在每個(gè)時(shí)間步采樣多個(gè)預(yù)測(cè),并基于向后一致性(與先前決策的對(duì)齊)和向前對(duì)比(與更強(qiáng)策略的結(jié)果的接近度)來(lái)優(yōu)化選擇。

    這種綜合方法增強(qiáng)了長(zhǎng)動(dòng)作序列的時(shí)間一致性,同時(shí)保持了適應(yīng)動(dòng)態(tài)環(huán)境變化的靈活性。BID在各種機(jī)器人任務(wù)中顯著優(yōu)于現(xiàn)有的閉環(huán)方法,代表了機(jī)器人系統(tǒng)學(xué)習(xí)和執(zhí)行過(guò)程的重大改進(jìn)。


    實(shí)驗(yàn)與結(jié)果

    數(shù)據(jù)集

    本文在三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):Push-T、RoboMimic 和 Franka Kitchen。

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    對(duì)于Push-T數(shù)據(jù)集,本文在七個(gè)任務(wù)上評(píng)估了所提出的雙向解碼(BID)算法,包括將物體放入人類(lèi)手持的杯子中。實(shí)驗(yàn)中使用的機(jī)器人是Franka Panda,配備了兩臺(tái)相機(jī),提供256 x 256像素分辨率的視覺(jué)觀(guān)察。本文還評(píng)估了BID在大批量和現(xiàn)有推理方法下的可擴(kuò)展性和兼容性。

    對(duì)于RoboMimic數(shù)據(jù)集,本文使用了五個(gè)任務(wù),即Lift、Can、Square、Transport和Tool Hang。每個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)集包含300個(gè)從多個(gè)人類(lèi)演示中收集的回合。

    對(duì)于Franka Kitchen數(shù)據(jù)集,本文在涉及四個(gè)或更多物體的測(cè)試案例上評(píng)估了學(xué)習(xí)到的策略,這是一個(gè)具有挑戰(zhàn)性但在家庭環(huán)境中實(shí)際應(yīng)用的機(jī)器人操作任務(wù)。


    真實(shí)世界實(shí)驗(yàn)

    本文還通過(guò)兩項(xiàng)現(xiàn)實(shí)世界實(shí)驗(yàn)進(jìn)一步評(píng)估了提出的 BID。


    動(dòng)態(tài)放置實(shí)驗(yàn)

    他們共收集了150個(gè)演示回合,包括50個(gè)干凈且一致的演示和100個(gè)嘈雜且多樣的演示。實(shí)驗(yàn)中使用的機(jī)器人是 Franka Panda,并采用基于視覺(jué)的擴(kuò)散策略進(jìn)行操作。

    機(jī)器人的任務(wù)是將其抓手中的物體送入人類(lèi)手中的杯子中。每次演示包括四個(gè)主要階段:(a) 隨機(jī)初始化機(jī)器人位置,(b) 接近目標(biāo)杯子,(c) 在目標(biāo)杯子附近減速,(d) 釋放物品。目標(biāo)杯子的位置可能會(huì)在演示過(guò)程中發(fā)生變化。

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    值得注意的是,BID 在動(dòng)態(tài)設(shè)置中的成功率與靜態(tài)設(shè)置相似,這表明它有可能將動(dòng)作塊擴(kuò)展到不確定環(huán)境中。

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明


    動(dòng)態(tài)拾取實(shí)驗(yàn)

    本文評(píng)估了不同方法的性能,包括普通的開(kāi)環(huán)和閉環(huán)采樣、BID 的開(kāi)環(huán)和閉環(huán)采樣,以及 EMA 的閉環(huán)采樣。

    機(jī)器人的任務(wù)是拿起一個(gè)杯子,并將其放在附近的碟子上。四個(gè)主要階段是:(a) 初始化機(jī)器人,(b) 接近目標(biāo)杯子,(c) 抓住目標(biāo)杯子,(d) 拿起杯子,(e) 將杯子放到目標(biāo)碟子上。目標(biāo)杯子的位置可能會(huì)在一個(gè)過(guò)程中發(fā)生變化。

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    結(jié)果表明,在動(dòng)態(tài)環(huán)境中,相比其他方法,BID 的成功率至少提高了2倍,同時(shí)在靜態(tài)環(huán)境中保持了其性能。


    BID技術(shù)解讀

    動(dòng)作分塊有利于對(duì)演示中的時(shí)間依賴(lài)性建模,但卻犧牲了對(duì)隨機(jī)環(huán)境中意外狀態(tài)的反應(yīng)能力。他們選擇通過(guò)閉環(huán)操作銜接長(zhǎng)的動(dòng)作塊來(lái)解決這一問(wèn)題。

    他們的主要假設(shè)是,雖然任何一對(duì)樣本共享相同潛在策略的概率很低,但從大量樣本中找到一致的一對(duì)樣本的可能性要高得多。這種直覺(jué)促使他們將閉環(huán)動(dòng)作分塊問(wèn)題理解為在每個(gè)時(shí)間步采樣的一批計(jì)劃中尋找最優(yōu)動(dòng)作。

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    其中 ? 是動(dòng)作塊集合,?? 和 ?? (B和F都是下標(biāo),飛書(shū)文檔打不出來(lái))是兩個(gè)衡量時(shí)間依賴(lài)性的標(biāo)準(zhǔn),接下來(lái)將會(huì)詳細(xì)描述這兩個(gè)標(biāo)準(zhǔn)。

    ?B 指的是逆向一致性。

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    這里,ρ 是一個(gè)衰減超參數(shù),用于解釋不確定性隨時(shí)間增長(zhǎng)而增加的情況。這種后向損失鼓勵(lì)相鄰步驟之間采用類(lèi)似的潛在策略,同時(shí)允許逐步適應(yīng)不可預(yù)見(jiàn)的過(guò)渡動(dòng)態(tài)。

     ?指的是正向?qū)Ρ榷取?/p>

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    其中 ?+=??{?} 是強(qiáng)策略 ? 預(yù)測(cè)的正集合,?? 是弱策略 ?′ 預(yù)測(cè)的負(fù)集合,而 ? 是樣本大小。

    下圖展示了逆向一致性和正向?qū)Ρ榷葮?biāo)準(zhǔn)對(duì)樣本選擇的影響。

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    由于 BID 中的所有步驟都可以并行計(jì)算,因此在現(xiàn)代 GPU 設(shè)備上,總體計(jì)算成本仍然適中。


    團(tuán)隊(duì)介紹

    Chelsea Finn

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    Chelsea Finn 博士畢業(yè)于加州大學(xué)伯克利分校,師從Sergey Levine。她曾在 Google DeepMind 工作過(guò) 6 年,現(xiàn)在擔(dān)任斯坦福大學(xué)計(jì)算機(jī)科學(xué)與電子工程系的助理教授,也是 Pi 的聯(lián)合創(chuàng)始人。

    Chelsea Finn 的研究興趣是機(jī)器人和其他代理通過(guò)學(xué)習(xí)和交互發(fā)展廣泛智能行為的能力。她的實(shí)驗(yàn)室 IRIS 專(zhuān)注研究大規(guī)模機(jī)器人交互智能,隸屬于 SAIL 和 ML Group。

    團(tuán)隊(duì)其他三位華人學(xué)生包括:


    Yuejiang Liu

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    Yuejiang Liu 是 IRIS 實(shí)驗(yàn)室的博士后,博士畢業(yè)于瑞士洛桑聯(lián)邦理工學(xué)院。他專(zhuān)注于研究自監(jiān)督學(xué)習(xí)、因果表征學(xué)習(xí)和測(cè)試時(shí)間適應(yīng),并將其應(yīng)用于計(jì)算機(jī)視覺(jué)和多代理系統(tǒng)。


    Annie Xie

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    Annie Xie 畢業(yè)于加州大學(xué)伯克利分校,曾在伯克利人工智能研究 (BAIR)實(shí)驗(yàn)室和 Sergey Levine 一起工作,現(xiàn)在是 Chelsea Finn 指導(dǎo)的博士生。她的研究重點(diǎn)是開(kāi)發(fā)在最少人工監(jiān)督下學(xué)習(xí)的機(jī)器人系統(tǒng)。


    Maximilian Du

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    Maximilian Du 今年學(xué)士畢業(yè)于斯坦福大學(xué),主修計(jì)算機(jī)科學(xué)、心理學(xué)(輔修)和創(chuàng)意寫(xiě)作(輔修),在 Chelsea Finn 的 IRIS 實(shí)驗(yàn)室從事機(jī)器人學(xué)習(xí)工作,現(xiàn)在是 Chelsea Finn 即將入學(xué)的博士生。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    家務(wù)機(jī)器人或?qū)⒃俑拢緾helsea Finn團(tuán)隊(duì)推出BID新算法,機(jī)器人一鍵變聰明

    分享:
    相關(guān)文章
    當(dāng)月熱門(mén)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話(huà)
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)