0
| 本文作者: 賴文昕 | 2024-06-04 14:38 |
作者丨賴文昕 馬蕊蕾
編輯丨陳彩嫻
大模型浪潮一起,被視為是大模型最佳載體的機器人,熱度也隨之飆升,「具身智能」這個在1950年由艾倫·圖靈提出的概念,時隔75年再次成為了 AI 界的寵兒。
2024年才過去不到半年,AI 圈就迎來了 Sora、Claude 3、Devin、GPT-4o 等數顆重磅炸彈,文生視頻、AI Agent(智能體)、多模態等多個方向都有了顯著的進展。但顯然,與屢爆驚喜的模型、應用不同,更「硬」的「具身智能」在產業界掀起商業化與資本狂潮的同時,也面臨著需要冷靜的現實:大模型并未在行業中得到廣泛應用。
那么,代表「大腦」的大模型如何能讓機器人真的擁有「智能」?通往 AGI 的路何時能從數字世界逐步擴展到物理世界?
在 5 月 29 日于舊金山召開的一場 GenAI 峰會上,英偉達高級研究科學家、具身智能負責人 Jim Fan 對這些問題展開了深刻的思考。
Jim Fan 在斯坦福大學視覺實驗室獲得了博士學位,師從李飛飛教授。他的研究領域十分廣泛,包括了多模態基礎模型、強化學習以及計算機視覺,曾實習于谷歌云AI、OpenAI、百度硅谷人工智能實驗室等知名組織。
作為本次 GenAI 峰會主論壇第一位主題分享嘉賓,Jim Fan 分享了對具身智能的見解與對其未來趨勢的看法,內容涉及英偉達的最新進展,包括 Mine Dojo、Voyager、MetaMorph 和 Eureka。
以下是 Jim Fan 本次主題演講的內容,AI科技評論做了不改變原意的編輯:
從 Minecraft 到 AI Agent
Minecraft 游戲及其社區具有豐富的數據,這使其成為一個真正的開放式 AI 游樂場。在這個平臺上,我們見證了許多令人印象深刻的成果。例如,Minecraft 擁有4000萬活躍玩家,這為 AI 研究提供了龐大的數據基礎。
我們的研究系統由三個主要部分組成:一個模擬器、一個數據庫和一個智能體(Agent)。為了充分挖掘 Minecraft 在 AI 研究方面的潛力,我們設計了一個模擬器 API。
我們認為最好的學習方法是通過數據來學習,這樣可以幫助智能體捕捉到像建造房屋這樣的抽象概念。此外,我們收集了一個橫跨 Minecraft 三個部分的互聯網技能知識庫。難以想象,有人在維基上逐頁列出了 Minecraft 中所有事物成千上萬種的配方。
利用這些資源,我們基于對比學習的理念訓練了一個編碼器模型,稱為 Mine-CLIP 模型。簡單來說,Mine-CLIP 模型可以學習視頻和描述視頻中動作的文本之間的關聯。
在 Minecraft 中,智能體在探索過程中會生成視頻片段,然后將其編碼并發送給 Mine-CLIP 模型來計算分數。關聯度越高,分數就越高,這實際上就是一個強化學習算法的獎勵函數。
我們的智能體經過學習后,能夠在各種任務中展示出色的行為。然而,目前的局限性在于,智能體無法自主發現新事物,我們必須手動決定一個任務提示,然后每次針對不同的提示運行訓練。
在 Minecraft 中,我們訓練出一個名為 Voyager 的通用型智能體,它可以在沒有任何人工干預的情況下連續玩幾個小時的游戲。Voyager 能夠探索地形,使用各種材料與怪物戰斗,制作數百種配方,并解鎖不斷擴展的技能樹。

Voyager 的自我反思機制有三個來源:JavaScript 執行引擎、智能體狀態和世界狀態。
一旦一項技能成熟,Voyager 就會將程序存儲到技能庫中。你可以將技能庫看作是一個代碼庫,完全由 Voyager 通過試驗和錯誤編寫而成。將來當 Voyager 面臨類似情況時,它只需從代碼庫中檢索技能并執行它。
Voyager 有一個高級指令,那就是尋找盡可能多的獨特物品。
Voyager 本身會執行一個指令,即不斷尋找并解決難度逐漸增加的新奇挑戰。
從 Minecraft 地圖的鳥瞰圖來看,最大的橙色圓圈代表了 Voyager 與許多基線方法相比所走的距離。
因為 Voyager 非常喜歡旅行,所以我們給它起名叫"旅行者"。與基線方法相比,Voyager 能夠掌握更多的技能,但它仍然只能學會如何控制一個身體。

機器人是用「詞匯」寫成的「句子」
那么,我們能否有一個可以在不同載體上運行的算法呢?
我們創建了一個基礎模型 Metamorph,該模型不僅能控制一個機器人,而且能控制數千個具有不同手臂和腿部配置的機器人。
Metamorph 可以絲滑地適應這些機器人的物理結構,所以我們能很直觀地用一個「詞匯」來描述機器人的身體部位,這樣每個機器人本質上就是用這些「詞匯」寫成的「一句話」。
簡單來說,就是把它們轉換為 tokens,序列本身作為一個「句子」來描述機器人的形態和運動學特性,就能擁有具有不同數量關節和配置的機器人。

我們用一個巨大的 Transformer 模型來控制這些機器人,它就叫「Metamorph」。但與 ChatGPT 不同,MetaMorph 寫出的不是文本,而是「身體」里每個關節上的運動控制。
我們想實現跨形態的通用策略,便把所有「句子」組合在一起,訓練一個大型的多任務網絡。為了加強訓練這些能力,我們教機器人在或平坦或復雜的地形中行走。
在我們的實驗中可以看到, Metamorph 可以控制數千種不同的機器人。更有趣的是,如果我們用更復雜的配置來擴展機器人,那么它能夠推廣到訓練期間從未見過的機器人形態。
我設想有一天,Metamorph2.0 將能夠泛化到機器手、人形機器人、狗、無人機甚至更多領域。與 Voyager 相比,Metamorph在多體控制方面邁出了一大步。
然后讓我們將一切再提升一個層次,即在不同的環境之間轉移技能和載體。
Isaac Sim 的最大優勢是以比實時快一千倍甚至更快的速度運行物理仿真,讓角色在短短的3天內就經歷了10年高強度訓練,學會令人印象深刻的武術。
光線追蹤技術則通過硬件加速,幫助模擬技術跨越了“恐怖谷”效應,實現了更高級別的逼真度,這對于渲染復雜世界和訓練計算機視覺模型至關重要。
現在,我們可以通過硬件加速光線追蹤技術來渲染非常復雜的世界,照片真實感可以幫助訓練計算機視覺模型,而這些模型將成為每個 AI Agent 的眼睛。
像這個五指機器人,Eureka 的第一步是將環境代碼和任務描述作為上下文傳遞給 GPT-4,這里的任務是寫自然語言,使筆旋轉到目標位置。Eureka 對獎勵函數進行采樣,通常這是由非常熟悉物理模擬的專家來設計的。

現在,Eureka能夠自動執行這一過程。一旦確定了獎勵函數,便采用強化學習方法,通過大量的試錯迭代來最大化該函數。一次完整的訓練運行大約需要20分鐘。
完成后,GPT-4 會生成多個獎勵函數組件,Eureka 會傳遞自動反饋,并要求語言模型對結果進行自我反思,這樣它就可以提出更好的獎勵函數來更好地解決問題,繼而循環并重復。
我們發現,Eureka 實際上甚至可以勝過一些有經驗的工程師。
從 Foundation Agent 到具身智能
接下來,我們面臨一個關鍵問題:如何將虛擬世界中的成果轉移到現實世界呢?
這就要提到一個名為「域隨機化」(domain randomization)的概念。其基本思想在于,如果一個模型在一萬個不同的模擬環境中接受訓練,并且這些環境中的重力、摩擦力、物體重量和大小都有所不同,那么該模型便很有可能能夠適應并泛化到我們的現實世界中。
比如我們模擬一只機器狗在向前奔跑,能夠將模擬環境中的這一行為零樣本地轉移到現實世界中,讓一個真實的機器狗,也在進行向前奔跑的動作。同樣,模擬中的手旋轉立方體的動作也可以直接在現實世界中呈現。

然而,硬件的限制使我們未能在現實世界中復制筆旋轉的動作。盡管如此,我們還是成功地實現了機器狗在瑜伽球上行走的場景,這是無法完全模擬的,因為瑜伽球的彈性和可變形特性難以復制。我們通過不斷的隨機化嘗試,最終找到了一個有效的解決方案。
值得注意的是,Eureka 是一個通用的方法,它成功地在高級推理和低級運動控制之間架起了橋梁。
Eureka 采用了一種混合梯度架構的范式,其中一個大型語言模型(LLM)負責編寫獎勵函數,這代表了高級推理的過程。然后,這個獎勵函數通過強化學習來指導另一個較小的神經網絡,這就是所謂的雙循環設計。

Eureka 通過簡單地改變獎勵函數,就能將模擬環境的配置應用到真實世界中,實現了從模擬到現實的無縫過渡。
我設想著這樣一個未來: Eureka ++ 能夠為我設計任務程序,甚至構建起整個模擬環境。想象一下,當我在度假放松時,Eureka ++ 正勤勤懇懇地完成所有的開發工作,自動化整個機器人訓練流程。而我度假歸來,驚喜地發現機器人已經被訓練得得心應手。
這個設想的核心是一種通用算法,它能夠進行簡單的編碼。隨著我們在技術上的不斷探索,我們終將實現一個能夠泛化到所有三個維度上的單一模型,我將這個模型稱為「Foundation Agent」(基礎智能體)。

我相信,訓練這樣的基礎智能體將與訓練 ChatGPT 非常相似,所有的語言任務都可以通過語言來表達,比如輸入和輸出,ChatGPT 只需在大量的文本數據上進行擴展訓練。
基礎智能體的工作方式也與之類似。它接受一個體現規范和語言指令,然后輸出相應的動作。我們只需在廣泛的現實場景中進行大規模擴展。
世界上所有的工具、設備、建筑,包括房屋和餐館,都是為了適應人類而設計的。原則上,只要有足夠先進的仿人硬件,它就能完成任何未經訓練的人類能夠做到的事情。因此,我們的目標是開發出最通用的硬件。現在正是追求這一目標的最佳時機,因為我們觀察到,隨著時間的推移,仿人機器人的制造成本正在指數級下降。
就在兩周前,宇樹公司(Unitree)宣布他們的 G1 機器人的售價僅為3萬美元(9.9萬人民幣)。而傅利葉智能(Fourier Intelligence)公司的 GR-1 機器人能夠通過原始視頻模仿人類跳舞,并且保持平衡。當然,在英偉達轉型為 AI 公司之前,它是一家圖形公司,所以模擬技術實際上是我們的強項。
在 Isaac Lab 中,我們進行大規模的并行模擬,三天的時間相當于十年的訓練。我們希望在模擬中獲得的技能能夠轉移到現實世界的應用中。
是什么讓一只貓成為貓?這是一個深刻的問題。目前,我們還沒有機器人能在敏捷性上與貓相媲美。貓作為具身智能體,擁有卓越的感官運動循環,反應迅速,甚至超過了人類。
我們能否有一天制造出像貓一樣靈活,甚至更勝一籌的機器人?這是一個值得深思的問題。
隨著成本的降低和技術的進步,我相信這一天終將到來。仿人機器人的成本肯定會下降,將趨向于原材料的成本。因此,硬件并不會成為限制因素。硬件目前還不夠完善,但它會迅速改進,并且改進的速度正在加快。

真正的挑戰在于人工智能。目前還沒有人找到最佳的方法來構建一個基礎智能體。我有一些初步的想法,但這些都還在探索階段。即使你擁有成千上萬的 GPU,你也不清楚應該在哪些方面進行擴展:是模擬環境、互聯網數據,還是來自真實機器人的由人類收集的遠程操作數據?
人工智能將成為限制我們前進的關鍵因素。誰能首先解決這個 AI 挑戰,誰就能在市場上占據一席之地。
本文雷峰網(公眾號:雷峰網)作者 anna042023 將持續關注AI大模型領域的人事、企業、商業應用以及行業發展趨勢,歡迎添加交流,互通有無。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。