對話南佛羅里達大學(xué)孫宇教授：當大語言模型用于機器人任務(wù)規(guī)劃丨IJAIRR

本文作者：喬燕薇

編輯：任平

2024-03-15 16:03

導(dǎo)語：“在基于知識網(wǎng)絡(luò)的機器人任務(wù)規(guī)劃中，機器人無法無限延展超出封閉的知識網(wǎng)絡(luò)范圍的內(nèi)容，大語言模型的出現(xiàn)為這項研究帶來了新的轉(zhuǎn)機。”

現(xiàn)代化社會，哪些工作場景最需要機器人的幫助？

在工業(yè)領(lǐng)域，有著名的機器人“四大家族”——發(fā)那科、ABB、安川、庫卡，經(jīng)過百余年的發(fā)展技術(shù)越發(fā)成熟，在工業(yè)場景已經(jīng)得到深入而廣泛的應(yīng)用。

相比之下，生活場景中的服務(wù)型機器人歷史則短得多。

例如在餐飲場景，烹飪過程的標準化程度遠遠不如工廠流水線，這為烹飪機器人的研發(fā)帶來了很大難度，在烹飪流程、烹飪方式、火候控制等環(huán)節(jié)，存在著諸多難題。

直到近年來這一方向才逐漸有所發(fā)展。

在2022年舉辦的北京冬奧會上，烹飪機器人已經(jīng)進入智慧餐廳，烹飪中餐、西餐的各種菜品。

根據(jù)國外調(diào)研組織Market Research Future 發(fā)布的報告，2022年~2026年間，全球機器人烹飪設(shè)備的市場規(guī)模將成長至超1億美元，年復(fù)合增長率近20%。

南佛羅里達大學(xué)計算機科學(xué)與工程系教授孫宇多年來一直致力于機器人領(lǐng)域相關(guān)研究，早在2015年便已開始嘗試將知識圖譜應(yīng)用于機器人任務(wù)規(guī)劃。

大模型技術(shù)出現(xiàn)之后，為人機的協(xié)同交互帶來了巨大的影響。

雖然與小語言模型的模型架構(gòu)和與訓(xùn)練目標類似，但大語言模型在大幅度擴展了模型大小、預(yù)訓(xùn)練數(shù)據(jù)和總計算量（擴大倍數(shù)）后，不但能夠更好地理解自然語言，并根據(jù)給定的上下文（例如 prompt）生成高質(zhì)量的文本，還展現(xiàn)出了一項全新的特征：涌現(xiàn)。

涌現(xiàn)為大語言模型帶來的幾種最具代表性的能力——上下文學(xué)習、指令遵循、循序漸進的推理等，使其在機器人研究發(fā)揮出更大的作用，大語言模型開始成為機器人任務(wù)規(guī)劃研究中的一項重要工具。

自去年以來，孫宇教授開始嘗試將大語言模型應(yīng)用在烹飪機器人任務(wù)規(guī)劃之中。

近期，相關(guān)論文之一《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability，上線初創(chuàng)期刊《人工智能與機器人研究國際期刊》（IJAIRR）。

借此契機，孫宇教授向雷峰網(wǎng)介紹了該論文的研究過程，以及烹飪機器人研究中存在的難題。

論文鏈接：

https://gairdao.com/doi/10.1142/S2972335324500029

https://www.worldscientific.com/doi/10.1142/S2972335324500029

基于知識網(wǎng)絡(luò)的機器人任務(wù)規(guī)劃

機器人任務(wù)規(guī)劃即根據(jù)機器人的能力、任務(wù)需求及環(huán)境條件等因素，為其制定一系列詳細的行動方案，使其在復(fù)雜的環(huán)境中，高效、安全、準確地完成任務(wù)。

在這一過程中，有許多復(fù)雜的因素需要考慮。

例如，機器人的移動路徑需要適應(yīng)工作環(huán)境中障礙物的分布，以避免碰撞；

任務(wù)執(zhí)行的時間與順序需要根據(jù)實際情況進行優(yōu)化；

在交互方式上，還需要保證機器人的行為與指令易于理解等等。

早在2015年，孫宇教授及其團隊就開始將知識網(wǎng)絡(luò)在機器人任務(wù)規(guī)劃之中，基于網(wǎng)絡(luò)進行烹飪領(lǐng)域相關(guān)知識的采集和整合，指導(dǎo)機器人執(zhí)行烹飪?nèi)蝿?wù)。

對話南佛羅里達大學(xué)孫宇教授：當大語言模型用于機器人任務(wù)規(guī)劃丨IJAIRR

南佛羅里達大學(xué)孫宇教授

研究中使用的知識網(wǎng)絡(luò)，正是由孫宇教授所帶領(lǐng)的機器人概念和行為實驗室（RPAL）所發(fā)明的面向功能對象網(wǎng)絡(luò)（Functional Object-Oriented Network，簡稱 FOON）。

這是一個存儲功能對象和操作信息的中心知識網(wǎng)絡(luò)系統(tǒng)，可以通過處理在線視頻、文本獲取功能對象和操作信息。

經(jīng)過一定的標注和矯正，這個知識網(wǎng)絡(luò)可以很可靠的提供各種烹飪?nèi)蝿?wù)規(guī)劃樹。如果要求的烹飪?nèi)蝿?wù)的功能單元（functional unit）是FOON里有的，F(xiàn)OON可以給出100%正確和高效的任務(wù)規(guī)劃樹。

如果要求的烹飪?nèi)蝿?wù)的功能單元是FOON里沒有的，但很相像，這個知識網(wǎng)絡(luò)可以給出非常可靠高效的任務(wù)規(guī)劃樹。

但是如果要求的烹飪功能單元與FOON里功能單元沒有任何相關(guān)，F(xiàn)OON就很可能給出錯誤的規(guī)劃樹。因為知識網(wǎng)絡(luò)是封閉的，機器人無法無限延展超出知識網(wǎng)絡(luò)范圍的內(nèi)容。

直到大語言模型的出現(xiàn)，為這項研究帶來了新的轉(zhuǎn)機。

如何規(guī)劃一個知識庫中完全不存在的任務(wù)？

烹飪機器人如何才能生成一個知識庫中不存在的任務(wù)？

隨著大模型技術(shù)的發(fā)展，自去年以來，孫宇教授及其學(xué)生Sadman Sakib博士開始嘗試使用大語言模型技術(shù)（LLM）進行機器人任務(wù)規(guī)劃。

對話南佛羅里達大學(xué)孫宇教授：當大語言模型用于機器人任務(wù)規(guī)劃丨IJAIRR

Sadman Sakib博士

在自然語言處理、任務(wù)規(guī)劃和執(zhí)行以及人機交互等方面，GPT-4展現(xiàn)出強大的能力。

論文中以烹飪?nèi)蝿?wù)為例進行了介紹。

對話南佛羅里達大學(xué)孫宇教授：當大語言模型用于機器人任務(wù)規(guī)劃丨IJAIRR

在接收到用戶關(guān)于烹飪某樣食物的指令后，傳統(tǒng)的機器人規(guī)劃方法通常只會生成一個任務(wù)計劃，而該論文通過GPT-4這一語言模型的提示工程，生成了多個不同的高級任務(wù)規(guī)劃，并以任務(wù)樹的形式進行展現(xiàn)。

這些任務(wù)樹為機器人提供了多種可能的執(zhí)行方案，不同方案的資源需求、并行時間、風險各有不同。

利用Graph Merger（圖形合并器）將這些任務(wù)樹合并成一個統(tǒng)一網(wǎng)絡(luò)后，再通過比較和分析剔除其中不可靠的組件，例如執(zhí)行成本過高的節(jié)點，再將篩選出的正確、有效的組件進行集成，最終形成一個最優(yōu)的解決方案，極大地提高了規(guī)劃的準確性與整體任務(wù)執(zhí)行的效率。

由于機器人無法直接執(zhí)行高級任務(wù)計劃，GPT-4還需要扮演翻譯者的角色，將這一高級任務(wù)計劃從自然語言的形式轉(zhuǎn)化為低級的PDDL計劃，用PDDL語言來描述并求解規(guī)劃任務(wù)，使人類可以理解的語言轉(zhuǎn)換為機器人可以理解的指令。

例如，當烹飪機器人收到“制作一碗包括胡蘿卜、卷心菜和豆子的面條”這一任務(wù)后，GPT-4生成了多個高級任務(wù)計劃，并將其合并、篩選得到一個最優(yōu)的任務(wù)樹，將其轉(zhuǎn)化為PDDL計劃，把這項工作分解成“拿起瓶子”、“將油蔥瓶子中倒進鍋里”等動作序列，再由機器人執(zhí)行。

值得一提的是，孫宇團隊通過研究表明，合并食譜可以通過讓食譜共享信息并學(xué)習多樣化的子任務(wù)方法，從而發(fā)現(xiàn)創(chuàng)新的烹飪方法。

于是研究團隊創(chuàng)建了多個食譜及其對應(yīng)的任務(wù)樹，并合并為一個網(wǎng)絡(luò)后，成功將不同食譜中的烹飪步驟和技巧融合在一起，形成了新的烹飪流程。

這些融合后的任務(wù)樹不僅展示了烹飪?nèi)蝿?wù)的多樣性，還揭示了不同子任務(wù)之間的潛在聯(lián)系和互補性，構(gòu)建出了一個更為豐富和復(fù)雜的烹飪網(wǎng)絡(luò)。

“也就是說，有了這個網(wǎng)絡(luò)，不僅能實現(xiàn)傳統(tǒng)菜肴的制作，還能夠創(chuàng)造出更加新穎、獨特的菜品，為烹飪藝術(shù)注入了新的活力。”

孫宇教授指出，對這項研究進一步優(yōu)化后，將開發(fā)出更加高效和智能的烹飪機器人或系統(tǒng)。

大語言模型與知識網(wǎng)絡(luò)的相互補充

孫宇教授從事機器人領(lǐng)域的研究已二十余年。在USF，孫宇教授帶領(lǐng)的機器人概念和行為實驗室（RPAL）多年來圍繞機器臂抓取和操作、人機交互、醫(yī)學(xué)影像及虛擬現(xiàn)實、機器觸覺及力學(xué)傳感控制等諸多方向進行了大量研究。

后來在機器人任務(wù)規(guī)劃研究中得到大量應(yīng)用的FOON這一成果，就是出自RPAL。

對話南佛羅里達大學(xué)孫宇教授：當大語言模型用于機器人任務(wù)規(guī)劃丨IJAIRR

孫宇教授與RPAL實驗室成員合照

大語言模型和知識網(wǎng)絡(luò)FOON有天然的互補性。以GPT-4為代表的大語言模型，雖然能夠從開放的網(wǎng)絡(luò)環(huán)境中學(xué)習各種任務(wù)規(guī)劃，但產(chǎn)生的規(guī)劃卻未經(jīng)把關(guān)，無法保證其正確性。

而有FOON里整合的任務(wù)規(guī)劃樹是經(jīng)過人工標注和驗證過100%正確的，但是它是有限的和不完全的。

所以可以用大語言模型來產(chǎn)生多個不保證正確的任務(wù)樹，然后用FOON的結(jié)構(gòu)特點來合并這些任務(wù)樹，消除不正確的功能單元，由別的樹或FOON里正確的功能單元所取代，來提高正確率。

此外，該研究具有很好的泛化能力，并不局限于烹飪場景，只需調(diào)整少量組件或不調(diào)整組件，即可為許多不同工作場景中的機器人找到最優(yōu)計劃。

孫宇教授指出，當前的機器人任務(wù)規(guī)劃研究中仍舊存在許多挑戰(zhàn)。

當機器人遇到任務(wù)規(guī)劃或運動規(guī)劃錯誤、系統(tǒng)故障等情況時，可能會導(dǎo)致任務(wù)失敗，如何使機器人任務(wù)失敗后自助糾正計劃錯誤是一項至關(guān)重要的課題。

團隊未來的研究將進一步關(guān)注環(huán)境反饋的影響，嘗試使機器人借助視覺系統(tǒng)與GPT-4準確地識別與更新環(huán)境狀態(tài)，從而減少或避免機器人糾正計劃錯誤時的人為干預(yù)，使其自主應(yīng)對任務(wù)失敗的情況。雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

喬燕薇

主筆

關(guān)注醫(yī)療科技領(lǐng)域。微信號：qiaoyw186

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章