異構智能體自主協作，大模型扮演了什么角色？

本文作者：黃楠

2023-08-25 14:18

導語：「機器人總動員」的世界，正在成為現實。

2700 年地球巨型的垃圾場上，僅剩下機器人瓦力重復著收集、壓縮垃圾的每一天，枯燥日常中，它誕生了自我意識，對人類影像畫面中交流產生好奇、感受到自己作為最后一個機器人的孤獨。直至一個更聰明、更敏捷的探測機器人伊娃的出現打破了一切。

具備深度理解人類指令和執行任務的能力，可以用眼睛表達情感，《機器人總動員》里的伊娃是人們對未來智能機器人的想象。在 AI 大模型的浪潮之中，人與機器共存，以大模型控制智能體成為新的交互模式。

近日，李學龍團隊提出了一個大模型驅動的異構智能體協同控制算法框架，通過大模型調度多種智能體自主協作，可實現對無人機集群、機器狗、機械臂的真機協同控制。

懂所思、知所能、行所意，是大模型驅動多智能體協作的主要能力。

智能體可賦予大模型物理實體，使其具備與真實物理世界感知交互的能力。而借助大模型，智能體也能獲得更強大的感知、決策和執行能力，使其具備更高的自主性和適應性。經過該研究的探索，可進一步推動機器人和自動化行業的發展，創造出更多的就業機會和經濟增長。

大模型下的異構智能體協同

人工智能場景分工趨向細化，探索 AI 工程化路徑中，大模型控制智能體是大勢所趨。

此前有關大模型的討論多聚焦在大語言模型上，由于大模型技術沒有具身化，因此在解決自動駕駛、機器人等復雜的自然環境感知、認知問題時仍具有局限性，并且這些難題往往無法依靠“喂數據”來實現。

一句形象的描述是，紙上得來中覺淺，絕知此事要躬行。面對真實世界的復雜問題，大模型解決問題的能力必須通過與物理環境、對象進行互動才能發展。

如何將大模型同具身智能技術結合？

近日，李學龍團隊提出了一個大模型驅動的異構智能體協同控制算法框架，基于大模型對多種智能體的調動，可實現無人機集群、機器狗、機械臂的真機協同控制能力。

面對跨場景、跨智能體的復雜任務，該算法框架可通過語義任務解析、拆分成異構智能體協同執行的多個子任務，聯合控制無人機集群、機器狗、機械臂來共同完成指定任務，具備高層語義理解能力、自身技能認知能力和復雜任務執行能力。

要實現大模型異構智能體自主協同，離不開三大方面的能力：懂所思、知所能、行所意。

懂所思，指的是要發揮大模型對高層語義的理解能力。通過給無人機、機器狗、機械臂等人造智能體輸入指令，讓不同的智能體依據所輸入的自然語言進行分工合作，這是智能體在現實場景中執行復雜任務的前提條件。

為了解決語義理解問題，李學龍團隊以國產大模型作為語義理解底座，將無人機集群、機器狗、機械臂三種異構智能體作為協同控制平臺，設計了融合環境信息與自身狀態的多模態大模型交互框架，可對任務理解、硬件控制、協調合作等復雜需求的語義解析。

異構智能體自主協作，大模型扮演了什么角色？

知所能，即是指智能體對自身技能的認知能力。智能體的行為能力容易受到周圍環境、自身機械結構等限制因素的影響，面對復雜多變的外界環境，如何讓智能體能夠準確地認知當前自身的行為能力，是多種智能體協同的關鍵環節。

為了實現這一目標，團隊提出異構智能體通用中層技能認知算法，可實現對異構智能體集群的精細協同控制。同時，在此基礎上，智能體還可以通過自主環境感知、自身狀態建模、協同運動規劃，自適應地調整多種智能體的技能執行。

異構智能體自主協作，大模型扮演了什么角色？

行所意，指的是智能體面對復雜任務時的執行能力。為了應對復雜的任務目標，異構智能體協作時，往往需要依據子任務間的依賴關系和環境約束，設計安全合理的子任務執行次序和方式。

針對該問題，李學龍團隊提出了多智能體閉環反饋的任務協作機制，以實現異構智能體在任務執行層面的自主協同。在多種智能體集群協作過程中，智能體首先會向任務語義解析模塊報告子任務執行狀態，形成任務分配與執行動態閉環，實現任務目標導向的智能體高效協同。

異構智能體自主協作，大模型扮演了什么角色？

可以看到，通過大模型調度多種智能體自主協作，大模型具備了對無人機集群、機器狗、機械臂等智能體的真機協同控制能力。

智能體可賦予大模型物理實體，使其具備與真實物理世界感知交互的能力。而借助大模型，智能體也能獲得更強大的感知、決策和執行能力，使其具備更高的自主性和適應性。

該成果是大模型算法和智能體硬件交叉的創新性研究，實現了用更自然、更直觀的方式進行多種智能體集群控制，降低了人機交互的門檻。同時，該研究也將促進異構智能體之間協作的自主性和流暢度，對人工智能在災難救援、工業生產等復雜場景下的靈活應用具有重要意義。

此外，李學龍和團隊長期致力于臨地安防技術體系的人才培養、科研與工程，依托兩個理論：“信容（信息與數據的比值）”與“正激勵噪聲（Pi/π-Noise，有用的噪聲，通過增加噪聲或利用噪聲讓任務做得更好）”，面向低空安防、水下安防、跨域安防，進行多模態認知計算、跨域遙感、穩定探測、涉水光學、群體智能決策、相干光探測的技術創新，服務于高水平人才培養和國家重大戰略需求。

為進一步了解“大模型異構智能體”的工作，AI 科技評論沿該方向與李學龍教授進行一次深入對話。

對話李學龍

AI 科技評論：無論哪個領域/行業，大模型都是人們討論的焦點。對此次大模型帶來的技術變革，您有什么感受？

李學龍：大模型技術確實給很多行業帶來了重大影響，許多方面也超出我的能力范圍，我也在學習。我嘗試從兩個角度來回答：

首先，大模型的應用前景非常廣闊，尤其進入多模態的階段或者說時代。

大模型可以在短短幾十秒內進行文稿撰寫、圖案設計之類的工作，過去這需要專業人員花耗一兩天、甚至十多天才能完成，而在大模型的幫助下，人們在圖文方面的工作效率被成倍地提高。與此同時，大模型也開始在金融、醫療等領域展現出更準確的數據分析能力和決策能力。可以說大模型的出現再次提高了人類社會的生產力，并且也為人工智能本身的發展創造了新的機遇，反向推動了諸如參數微調、高性能計算、分布式訓練等技術的蓬勃發展。

但是，不可避免，大模型也可能帶來新的問題與挑戰。我對大模型的發展是有一些顧慮的，也觀望了很久。核心技術需要進一步突破，避免主要比拼算力的發展模式。更重要的，還有其他很多因素需要考量，舉幾個最直接的例子。大模型需要海量數據來訓練，這里就很容易觸及數據隱私和版權的問題，甚至是輸入數據的有效性和合理性問題，給監管提出了很高的要求。如何把關所用數據質量？另外，如何評測大模型性能？如何消除大模型可能存在的偏見與歧視？如何提升大模型可解釋性、避免虛假生成？等等一系列問題也都沒有被很好地解決。

當然，挑戰和機遇是并存的。總的來說，大模型的技術變革是一次深刻的積極探索和嘗試，它既帶來了性能的提升，惠及千行百業，也可能會引發一系列問題，這些問題需要相關的規則和政策來解決。我們應該秉持科學的態度，不斷探索和挖掘大模型背后的認知機理和社會價值，確保人工智能的健康、可持續發展。

AI 科技評論：您是從什么時候萌生了做大模型驅動多智能體的想法？具體做了哪些工作？

李學龍：關于智能體的研究，我們團隊從很早就開始了。我們在無人機、機械臂的視覺感知方面有一定的積累，也在無人機遠程供能等一些相關的技術上進行了研究，實現了“光動無人機”。

但進入現實問題時，大家知道，單一的智能體很難滿足真實任務中多樣化、動態化的需求。比如，無人機能夠在超大范圍內高速移動，卻很難完成抓取這樣的簡單操作，雖然我們也在給無人機裝胳膊，但還在實驗階段。

所以，我們一直在探索智能無人系統方面的工作，結合各個智能體的機械結構特點，設計了相應的感知、規劃、控制以及聯合調度等算法。但是這個階段，我們需要對不同的環境、任務做出特定的調整，也必須由專業人員操縱才能完成任務。在這個研究中，又產生一系列新的問題，比如怎么樣用比較模糊的語義去同時與多個智能體交流，這涉及到多個智能體對語義的理解，以及智能體互相配合的方式。

大模型的發展給了我們一些幫助，我們著手大模型異構（各種各樣的）智能體方面的研究，把這作為實現需求牽引的一種技術途徑。利用大模型的語義理解和邏輯推理能力，嘗試與不同智能體的領域知識進行融合，爭取更加合理地分解和分配任務。我們希望對于不同任務，都能通過一個簡單的、模糊的語言指令，就調動一群智能體，讓它們各司其職、通力合作去完成任務，最終實現更智能、更輕松的人機交互。這是我們目前的一種工作思路，還有其他的工作思路也在同步探索。

AI 科技評論：大模型異構智能體要實現懂所思、知所能、行所意，其底層的技術原理是什么？這三者之間有怎樣的相互聯系，如何發生作用？

李學龍：我們把大模型控制多智能體的關鍵技術分為三步。

懂所思，也就是讓大模型知道我們想要什么，可以通過微調、示例這些方法充分發揮大模型的語義理解能力，讓它更深入地解讀人類模糊語言指令背后的想法，這是人機交互的基礎。

知所能，是梳理不同智能體的領域知識，把這些知識注入到大模型中，讓模型清楚地了解各個智能體不同的能力，從而合理地進行任務分解和分配，這是完成任務的前提。如果沒有這一步，系統是無法完成任務的。比如，讓機器狗游泳過一條河去送文件，這種安排就不合理。

行所意，是在前兩者的基礎上，協調各個智能體以合理的次序執行復雜的任務，實現我們的意圖。在這部分我們進行了任務分配、動作執行和狀態反饋的動態閉環設計，是整個系統的關鍵。

AI 科技評論：由于多智能體與物理空間的互動特性，因此在研發過程中，對大模型的邏輯語義理解能力、認知能力也提出了更高的要求，對此，您和團隊是如何解決的？

李學龍：多種智能體需要與周圍環境進行互動，這確實為大模型帶來了一些新的挑戰。為了增強任務執行能力，我們團隊至少從環境感知、語義解析、任務反饋三個方面采取了措施，此外還有其他思考。

首先，我們設計了多模態認知計算框架。利用圖像、點云、聲音和觸覺等多模態數據，對物理環境進行感知，使智能體對周圍世界的顏色、紋理、形狀、力覺反饋等有全方位的把握，從而更準確地進行認知。

然后，我們加強了語義理解和技能認知的聯系。通過將異構智能體的領域知識融入到大模型里，在我們demo的這個例子中，大模型能夠意識到道路不通的情況下，無人機是不能飛過的，而機器狗是能夠開門的。所以，當我們讓無人機去拿食物時，大模型知道要去檢查路徑、讓機器狗開門，這就是語義理解和技能認知聯系起來的效果。

同時，我們還設計了任務反饋的閉環執行方案。在任務執行的過程中，每個智能體都會向大模型報告子任務的執行狀態，這樣一來大模型就能夠及時地掌握整體環境信息和任務狀態，從而做出最優的規劃和決策，直到任務完成。

通過這些步驟，我們盡可能地讓大模型更全面地理解場景和任務，把周圍的環境映射到語義空間，再把語義指令體現在智能體的動作上，來實現大模型和物理空間的互動。

AI 科技評論：您和團隊很早就開始關注多模態認知計算方面的工作，這對此次大模型驅動多智能體的研發帶來了哪些方面的影響？

李學龍：2003 年，我在英國任教期間，為信息領域的學生們新開設了一門課程——“認知計算”，課程設計自 2002 年開始，后來在 IEEE 的 SMC 協會，我還發起成立了“認知計算”的技術委員會。對多模態大模型的到來，我們是一直有期盼的，因此自 2020 年開始，我和團隊就著手寫了一篇多模態認知計算的文章，于 2022 年發表在在《中國科學：信息科學》上，文章題目就叫《多模態認知計算》，用 32 頁的篇幅嘗試性探討了多模態認知計算的理論框架。

我們一直堅信，多模態認知計算是實現通用人工智能的關鍵技術之一。

這次關于大模型驅動智能體的研究工作，實際上是多模態認知計算研究的一個載體。我們希望通過讓多智能體與環境進行多種模態的交互，將團隊之前在多模態認知計算方面的技術嵌入式地體現到了這個研究中，讓多智能體能全方位地感知周圍世界。同時，我們還把環境信息、任務指令和技能認知統一映射到語義空間，結合大模型的語義理解能力，使多智能體能夠解決復雜任務。實際上，傳統上各個學科的邊界逐漸弱化，尤其在工程任務中，往往涉及很多方向的工作。

AI 科技評論：大模型驅動多智能體在現實場景的具體應用有哪些？以具體場景為例，介紹其是如何發揮作用的。

李學龍：我們這套系統的核心是由大模型負責中樞控制，不同的智能體各施所長，通過這樣的方式來完成復雜的任務。比如在發生災害的時候，大模型可以分析收集到的信息，向無人機集群、機器狗和機械臂下達指令，無人機可以大范圍偵察，機器狗和機械臂可以進行現場搜救。同時，智能體也可以自主地交互，完成群體協作。

這種系統的特點是只需要一個模糊的指令，就能讓各種各樣的智能體動起來，來完成一個復雜的任務，就像電影“機器人總動員”中那樣。我們也在思考并嘗試把這項技術用在更廣泛的場景中。

AI 科技評論：由于大模型技術沒有具身化，以至于在解決物理感知、認知問題時仍具有局限性，并且這些難題也無法依靠“喂數據”來實現，因此，過去很多的多模態任務在目標和場景交互上都較為局限，您如何看待多智能體在大模型發展中的重要作用？

李學龍：這個問題很深刻，我嘗試回答一下，可能不準確。現在大家普遍認為大模型在物理感知和認知方面存在局限，很大一部分原因是它只有大腦沒有身體，只能被動地接收信息。

從技術上來說，有數據、場景和學習方式三個方面的問題。

首先，大模型的訓練數據形式還比較有限。現在的大模型大多是在文本數據和圖像數據上訓練，很難形成全方位的感受真實，也就是數據模態還不夠多。其次，訓練數據覆蓋的場景也有限，雖然我們的數據量很多，但很難覆蓋現實中的所有場景，比如深空和水下，大模型學習到的常識可能并不適用于它實際面對的問題。最后，大模型的學習方式是被動的。人類可以自主地去學習，而大模型主要還是依賴人類給它準備好的數據，就像柏拉圖的“洞穴寓言”，大模型從出生開始就只能看到人類給它展示的世界，這不是真實的世界。

多智能體恰恰可以作為大模型的眼、耳、手、腳。讓無人機和機器狗帶著大模型去看，讓機械臂帶著大模型自己去感受，也可以讓水下潛器帶著它了解海底的世界，這樣它才能對身處的環境產生全面的、立體的感知，才能和物理世界建立真實的聯系，才能適應我們生活中面臨的各種場景。

AI 科技評論：大模型驅動多智能體是算法和硬件交叉的創新性研究，是一個重要趨勢和方向，但如果要進入落地環節，目前還存在哪些難點或痛點亟待解決？其進一步發展的關鍵點是什么？

李學龍：談到落地，我現在能想到的難點有四個。

第一是算力。這里的算力，主要是指移動平臺的算力。大模型的運行需要龐大的計算資源，實際應用面臨的首要問題，就是如何讓大模型在移動智能體上跑起來，兼顧實時性和高效性。

第二是安全。有了機械臂、無人機這些物理實體，大模型就可能直接對人類的安全構成威脅。我們在使用的時候，要確保這些智能體不被惡意操控。

第三是倫理。大模型+多智能體這樣的組合，它是生活在我們的真實世界中的，這可能就會產生倫理問題。比如，智能體可能需要為大模型尋找甚至生成更好的訓練數據，這個過程中我們要確保智能體的行為符合倫理，不侵犯人類隱私。

第四是新型智能體設計。人類在發明機器狗、機械臂、無人機、水下潛器的時候，大模型還沒有出現。有了大模型以后，什么樣的智能體是適合大模型的，還需要探討，這在未來可能會有相關的研究。

上面提到的四個問題，每一個都很復雜。任何一個問題，都需要匯聚各行各業的力量去解決。大模型驅動多智能體這項研究，也需要不同領域的研究人員一起推動。我們對大模型的認識還不夠，除了上面提到的難點，還有其他一些問題我們目前還沒有想到，需要在推動的過程中發現和解決。感謝這個時代和領域的快速發展，讓我們一直有機會學習新的知識、接觸新的問題，

可以暢想，隨著機電、材料、傳感、計算這些技術的發展，大模型驅動多智能體這項研究可能會帶動人工智能領域的進步，也具備推動生產力發展的潛力。

（雷峰網(公眾號：雷峰網)雷峰網）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

黃楠

主筆

傾聽科技和商業的故事，關注AI人物、技術變革。｜微信：finfl26est

發私信

當月熱門文章