英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

本文作者：賴文昕

2024-06-04 14:38

導語：導語：基礎智能體將實現具身性、現實交互和技能掌握的「三位一體」。

作者丨賴文昕馬蕊蕾

編輯丨陳彩嫻

大模型浪潮一起，被視為是大模型最佳載體的機器人，熱度也隨之飆升，「具身智能」這個在1950年由艾倫·圖靈提出的概念，時隔75年再次成為了 AI 界的寵兒。

2024年才過去不到半年，AI 圈就迎來了 Sora、Claude 3、Devin、GPT-4o 等數顆重磅炸彈，文生視頻、AI Agent（智能體）、多模態等多個方向都有了顯著的進展。但顯然，與屢爆驚喜的模型、應用不同，更「硬」的「具身智能」在產業界掀起商業化與資本狂潮的同時，也面臨著需要冷靜的現實：大模型并未在行業中得到廣泛應用。

那么，代表「大腦」的大模型如何能讓機器人真的擁有「智能」？通往 AGI 的路何時能從數字世界逐步擴展到物理世界？

在 5 月 29 日于舊金山召開的一場 GenAI 峰會上，英偉達高級研究科學家、具身智能負責人 Jim Fan 對這些問題展開了深刻的思考。

Jim Fan 在斯坦福大學視覺實驗室獲得了博士學位，師從李飛飛教授。他的研究領域十分廣泛，包括了多模態基礎模型、強化學習以及計算機視覺，曾實習于谷歌云AI、OpenAI、百度硅谷人工智能實驗室等知名組織。

作為本次 GenAI 峰會主論壇第一位主題分享嘉賓，Jim Fan 分享了對具身智能的見解與對其未來趨勢的看法，內容涉及英偉達的最新進展，包括 Mine Dojo、Voyager、MetaMorph 和 Eureka。

以下是 Jim Fan 本次主題演講的內容，AI科技評論做了不改變原意的編輯：

從 Minecraft 到 AI Agent

Minecraft 游戲及其社區具有豐富的數據，這使其成為一個真正的開放式 AI 游樂場。在這個平臺上，我們見證了許多令人印象深刻的成果。例如，Minecraft 擁有4000萬活躍玩家，這為 AI 研究提供了龐大的數據基礎。

我們的研究系統由三個主要部分組成：一個模擬器、一個數據庫和一個智能體（Agent）。為了充分挖掘 Minecraft 在 AI 研究方面的潛力，我們設計了一個模擬器 API。

我們認為最好的學習方法是通過數據來學習，這樣可以幫助智能體捕捉到像建造房屋這樣的抽象概念。此外，我們收集了一個橫跨 Minecraft 三個部分的互聯網技能知識庫。難以想象，有人在維基上逐頁列出了 Minecraft 中所有事物成千上萬種的配方。

利用這些資源，我們基于對比學習的理念訓練了一個編碼器模型，稱為 Mine-CLIP 模型。簡單來說，Mine-CLIP 模型可以學習視頻和描述視頻中動作的文本之間的關聯。

在 Minecraft 中，智能體在探索過程中會生成視頻片段，然后將其編碼并發送給 Mine-CLIP 模型來計算分數。關聯度越高，分數就越高，這實際上就是一個強化學習算法的獎勵函數。

我們的智能體經過學習后，能夠在各種任務中展示出色的行為。然而，目前的局限性在于，智能體無法自主發現新事物，我們必須手動決定一個任務提示，然后每次針對不同的提示運行訓練。

在 Minecraft 中，我們訓練出一個名為 Voyager 的通用型智能體，它可以在沒有任何人工干預的情況下連續玩幾個小時的游戲。Voyager 能夠探索地形，使用各種材料與怪物戰斗，制作數百種配方，并解鎖不斷擴展的技能樹。

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

Voyager 的自我反思機制有三個來源：JavaScript 執行引擎、智能體狀態和世界狀態。

一旦一項技能成熟，Voyager 就會將程序存儲到技能庫中。你可以將技能庫看作是一個代碼庫，完全由 Voyager 通過試驗和錯誤編寫而成。將來當 Voyager 面臨類似情況時，它只需從代碼庫中檢索技能并執行它。

Voyager 有一個高級指令，那就是尋找盡可能多的獨特物品。

Voyager 本身會執行一個指令，即不斷尋找并解決難度逐漸增加的新奇挑戰。

從 Minecraft 地圖的鳥瞰圖來看，最大的橙色圓圈代表了 Voyager 與許多基線方法相比所走的距離。

因為 Voyager 非常喜歡旅行，所以我們給它起名叫"旅行者"。與基線方法相比，Voyager 能夠掌握更多的技能，但它仍然只能學會如何控制一個身體。

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

機器人是用「詞匯」寫成的「句子」

那么，我們能否有一個可以在不同載體上運行的算法呢？

我們創建了一個基礎模型 Metamorph，該模型不僅能控制一個機器人，而且能控制數千個具有不同手臂和腿部配置的機器人。

Metamorph 可以絲滑地適應這些機器人的物理結構，所以我們能很直觀地用一個「詞匯」來描述機器人的身體部位，這樣每個機器人本質上就是用這些「詞匯」寫成的「一句話」。

簡單來說，就是把它們轉換為 tokens，序列本身作為一個「句子」來描述機器人的形態和運動學特性，就能擁有具有不同數量關節和配置的機器人。

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

我們用一個巨大的 Transformer 模型來控制這些機器人，它就叫「Metamorph」。但與 ChatGPT 不同，MetaMorph 寫出的不是文本，而是「身體」里每個關節上的運動控制。

我們想實現跨形態的通用策略，便把所有「句子」組合在一起，訓練一個大型的多任務網絡。為了加強訓練這些能力，我們教機器人在或平坦或復雜的地形中行走。

在我們的實驗中可以看到， Metamorph 可以控制數千種不同的機器人。更有趣的是，如果我們用更復雜的配置來擴展機器人，那么它能夠推廣到訓練期間從未見過的機器人形態。

我設想有一天，Metamorph2.0 將能夠泛化到機器手、人形機器人、狗、無人機甚至更多領域。與 Voyager 相比，Metamorph在多體控制方面邁出了一大步。

然后讓我們將一切再提升一個層次，即在不同的環境之間轉移技能和載體。

Isaac Sim 的最大優勢是以比實時快一千倍甚至更快的速度運行物理仿真，讓角色在短短的3天內就經歷了10年高強度訓練，學會令人印象深刻的武術。

光線追蹤技術則通過硬件加速，幫助模擬技術跨越了“恐怖谷”效應，實現了更高級別的逼真度，這對于渲染復雜世界和訓練計算機視覺模型至關重要。

現在，我們可以通過硬件加速光線追蹤技術來渲染非常復雜的世界，照片真實感可以幫助訓練計算機視覺模型，而這些模型將成為每個 AI Agent 的眼睛。

像這個五指機器人，Eureka 的第一步是將環境代碼和任務描述作為上下文傳遞給 GPT-4，這里的任務是寫自然語言，使筆旋轉到目標位置。Eureka 對獎勵函數進行采樣，通常這是由非常熟悉物理模擬的專家來設計的。

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

現在，Eureka能夠自動執行這一過程。一旦確定了獎勵函數，便采用強化學習方法，通過大量的試錯迭代來最大化該函數。一次完整的訓練運行大約需要20分鐘。

完成后，GPT-4 會生成多個獎勵函數組件，Eureka 會傳遞自動反饋，并要求語言模型對結果進行自我反思，這樣它就可以提出更好的獎勵函數來更好地解決問題，繼而循環并重復。

我們發現，Eureka 實際上甚至可以勝過一些有經驗的工程師。

從 Foundation Agent 到具身智能

接下來，我們面臨一個關鍵問題：如何將虛擬世界中的成果轉移到現實世界呢？

這就要提到一個名為「域隨機化」（domain randomization）的概念。其基本思想在于，如果一個模型在一萬個不同的模擬環境中接受訓練，并且這些環境中的重力、摩擦力、物體重量和大小都有所不同，那么該模型便很有可能能夠適應并泛化到我們的現實世界中。

比如我們模擬一只機器狗在向前奔跑，能夠將模擬環境中的這一行為零樣本地轉移到現實世界中，讓一個真實的機器狗，也在進行向前奔跑的動作。同樣，模擬中的手旋轉立方體的動作也可以直接在現實世界中呈現。

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

然而，硬件的限制使我們未能在現實世界中復制筆旋轉的動作。盡管如此，我們還是成功地實現了機器狗在瑜伽球上行走的場景，這是無法完全模擬的，因為瑜伽球的彈性和可變形特性難以復制。我們通過不斷的隨機化嘗試，最終找到了一個有效的解決方案。

值得注意的是，Eureka 是一個通用的方法，它成功地在高級推理和低級運動控制之間架起了橋梁。

Eureka 采用了一種混合梯度架構的范式，其中一個大型語言模型（LLM）負責編寫獎勵函數，這代表了高級推理的過程。然后，這個獎勵函數通過強化學習來指導另一個較小的神經網絡，這就是所謂的雙循環設計。

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

Eureka 通過簡單地改變獎勵函數，就能將模擬環境的配置應用到真實世界中，實現了從模擬到現實的無縫過渡。

我設想著這樣一個未來： Eureka ++ 能夠為我設計任務程序，甚至構建起整個模擬環境。想象一下，當我在度假放松時，Eureka ++ 正勤勤懇懇地完成所有的開發工作，自動化整個機器人訓練流程。而我度假歸來，驚喜地發現機器人已經被訓練得得心應手。

這個設想的核心是一種通用算法，它能夠進行簡單的編碼。隨著我們在技術上的不斷探索，我們終將實現一個能夠泛化到所有三個維度上的單一模型，我將這個模型稱為「Foundation Agent」（基礎智能體）。

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」

我相信，訓練這樣的基礎智能體將與訓練 ChatGPT 非常相似，所有的語言任務都可以通過語言來表達，比如輸入和輸出，ChatGPT 只需在大量的文本數據上進行擴展訓練。

基礎智能體的工作方式也與之類似。它接受一個體現規范和語言指令，然后輸出相應的動作。我們只需在廣泛的現實場景中進行大規模擴展。

世界上所有的工具、設備、建筑，包括房屋和餐館，都是為了適應人類而設計的。原則上，只要有足夠先進的仿人硬件，它就能完成任何未經訓練的人類能夠做到的事情。因此，我們的目標是開發出最通用的硬件。現在正是追求這一目標的最佳時機，因為我們觀察到，隨著時間的推移，仿人機器人的制造成本正在指數級下降。

就在兩周前，宇樹公司（Unitree）宣布他們的 G1 機器人的售價僅為3萬美元（9.9萬人民幣）。而傅利葉智能（Fourier Intelligence）公司的 GR-1 機器人能夠通過原始視頻模仿人類跳舞，并且保持平衡。當然，在英偉達轉型為 AI 公司之前，它是一家圖形公司，所以模擬技術實際上是我們的強項。

在 Isaac Lab 中，我們進行大規模的并行模擬，三天的時間相當于十年的訓練。我們希望在模擬中獲得的技能能夠轉移到現實世界的應用中。

是什么讓一只貓成為貓？這是一個深刻的問題。目前，我們還沒有機器人能在敏捷性上與貓相媲美。貓作為具身智能體，擁有卓越的感官運動循環，反應迅速，甚至超過了人類。

我們能否有一天制造出像貓一樣靈活，甚至更勝一籌的機器人？這是一個值得深思的問題。

隨著成本的降低和技術的進步，我相信這一天終將到來。仿人機器人的成本肯定會下降，將趨向于原材料的成本。因此，硬件并不會成為限制因素。硬件目前還不夠完善，但它會迅速改進，并且改進的速度正在加快。

英偉達 Jim Fan：具身智能的難點不是硬件，而是「Foundation Agent」