“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

本文作者：劉潔

2024-11-08 15:31

導語：大模型的預訓練方法也適用機器人，復雜數據無需“量身定做”，也能完美對接。

在機器人領域，一場關于“通用智能”的探索正如火如荼地展開。

MIT 的何愷明和 Lirui Wang 等人最近成功在“通用數據”上取得了進展，讓機器人離擁有“通用大腦”的目標又近了一步。

機器人數據的異質性問題一直是機器人訓練的大難題。

以往，訓練機器人需要為每種任務、每種環境，甚至每臺機器人的不同硬件量身采集數據。

舉個例子，假設需要為一個家庭服務機器人進行訓練，團隊通常要為不同任務和環境單獨收集數據，如廚房中的搬運、清潔任務，或臥室內的物品分類。

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

數據必須特定、精準，這讓數據采集量變得龐大而復雜，相當于不同的電子設備需要各自的“充電接口”，換個場景就得換一套數據格式。

這種方式導致數據難以通用，訓練中存在大量重復勞動。明明數據總量看著比以前多得多，但實際訓練時可用的數據量并沒有實現大幅增長。

想要實現真正的通用機器人，就意味著必須收集盡可能全面的數據集。但這樣一來，收集和整理數據的成本會極高，據估算可能高達數百萬美元，且整個流程耗時數月，效率低下。

為了應對這一問題，研究團隊紛紛嘗試新方法。

比如，斯坦福大學的 RoboTurk 項目想通過遠程操作來降低數據收集成本，但這只能緩解一部分壓力。由于高質量傳感器、定制環境和復雜的演示操作需求，任務專用的數據收集依然耗時且昂貴。

收集不好搞那自己造總行了吧？

許多團隊轉而依靠“合成數據”作為替代。合成數據雖說解決了一部分量的問題，卻仍然無法完全徹底替代真實數據，尤其在應用于多任務通用訓練時依然面臨障礙。

MIT 這支團隊兩個都不選，他們選擇另辟蹊徑，與其不斷增加新的數據，不如著手讓現有數據實現“通用”！

他們的論文將在神經信息處理系統會議上發表，第一作者是來自MIT CSAIL （計算機科學與人工智能實驗室）的副教授何愷明和同一實驗室的博士生 Lirui Wang、趙家梁，第二作者是 Meta 的研究員陳鑫磊。

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

論文里提出了名為“異構預訓練 Transformers”（Heterogeneous Pretrained Transformers，HPT）的新架構。

在他們的研究中，不同來源的數據——無論是模擬數據還是真實機器人傳感數據——都被對齊到一種共享“語言”，使得生成式 AI 模型能夠“理解”這些數據。

換言之，無論是來自視覺傳感器的數據還是機械臂位置編碼器的原始信號，HPT 都能將它們轉化為通用的數據格式，避免了重復的數據收集，也不浪費任何一種數據。

Lirui Wang 認為這樣能夠更好地發揮本體感知的作用，讓機器人實現更多的靈巧動作。

HPT 的優勢不僅在于通用性高，還兼具高效、低成本的特點。由于所需任務專用數據量更少，HPT 在模擬和實際測試中均展現了出色的表現，性能比傳統訓練方式提升了 20% 以上。

來自GPT-4的啟發

機器人通常采用模仿學習的方式，通過人類演示或遠程操控的方式獲取訓練數據，導致一旦環境或任務發生變化，機器人就容易“出錯”。

這種數據非通用性一直是機器人學習的痛點，限制了其在多樣任務中的靈活性，也限制了通用機器人的開發。

研究團隊從 GPT-4 等大語言模型中汲取了靈感：GPT-4 這樣的模型能順利處理多任務的核心在于“大規模預訓練+少量微調”的模式。

即便語言數據類型豐富且復雜，GPT-4 并不需要為每個任務分別準備數據，原因在于所有內容都被視為同一種語言——“句子”。

相比之下，機器人數據更為復雜，不僅有相機圖像、語言指令，還有深度圖等多樣形式。每種數據源的適用性還受到機器人硬件、傳感器等差異的限制。

因此，研究團隊的挑戰在于如何實現一種“通用的語言”來整合機器人數據。

他們提出的解決方案是“異構預訓練 Transformer”（HPT）架構，分成了三個模塊：

在 Stem（莖）部分，HPT 對不同的數據進行對齊，將它們轉化為標準化的令牌序列；接著在 Trunk（樹干）部分，通過多重轉換和編碼操作，將這些令牌轉化為共享的潛在表示；最后在 Head（頭）部分，將潛在表示轉化為具體的動作指令，驅動機器人完成相應操作。

HPT 像“大模型”一樣，隨著處理的數據量增長，模型的性能也逐步提升。

為了支撐這種通用化訓練，團隊建立了一個龐大的數據集，包括 52 個數據集、200,000 條機器人軌跡，涵蓋了人類演示視頻和模擬數據。

借助這一數據集，HPT 可以高效預訓練，用戶只需提供少量特定任務或設計信息，就能讓 HPT 在預訓練知識的基礎上完成微調，適應新任務。

HPT 在預訓練和微調的方式上也有所創新。

與大模型同步更新所有模塊不同，HPT 在預訓練階段只調整 Trunk 參數，而 Stem 和 Head 部分只會在微調階段根據具體任務進行調整。

此外，HPT 不僅處理視覺數據，還支持直接處理傳感器采集的原始信號，進一步擴大了數據使用范圍。

目前，研究團隊還在探索增加數據多樣性，以進一步優化 HPT 的性能。他們的最終目標是實現“通用機器人大腦”，讓用戶即插即用，無需繁瑣的培訓和數據收集，讓機器人訓練變得像下載個 APP 一樣簡單。

不止“看見”，還要“感覺”

以往的研究往往更側重視覺數據，而這篇論文難得的將本體感知也放到了核心部分。

具體來說，本體感知賦予了機器人對關節角度、末端執行器位置、姿態等內部狀態的把控力。

這種能力在執行高精度任務時尤為重要。比如，擰緊螺釘、拿穩玻璃杯這類任務，光靠“看”還不夠，機器人還需要“知道”自己的手臂位置、關節角度等內部信息，防止動作過多或偏移，最終減少失誤。

研究團隊認為本體感知才是讓機器人完成一些精細且復雜的操作的關鍵。如果本體感知信息沒有得到良好的學習和利用，機器人可能會在特定場景和任務中表現出重復的運動或軌跡，導致過擬合。

同樣，具身智能強調的也是機器人與物理環境的交互能力，這種智能不依賴單一模態，而是通過整合外部視覺和內部本體感知，形成一種更全面的任務理解力。

因此，研究團隊將視覺和本體感知信號作為等同重要的數據源進行“通用”處理。

這種綜合處理使得機器人不再單純依靠視覺，而是以一種“通用智能”的方式理解任務。

例如，在清掃任務（Sweep Leftover）中，HPT 架構允許機器人整合視覺和本體感知的多模態數據，結果顯示，經過微調的 HPT-B 和 HPT-XL 模型的任務成功率遠高于只依賴視覺模型的 VC-1。

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

（微調的 HPT 模型與幾種基線模型（包括純視覺預訓練模型）之間的比較）

研究方法

HPT 架構設計

HPT架構把策略神經網絡分為三個模塊：Stem（莖）、Trunk（樹干）和 Head（頭），分別對應特定的實例輸入、通用的處理層和任務特定的輸出。通過這種模塊化設計，HPT 能夠將不同環境和任務下的傳感器和視覺數據對齊為標準化的令牌序列，使機器人可以應對多樣化任務。

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

1. Stem：數據輸入層

Stem 是 HPT 的前端層，用于將不同任務和環境下的傳感器數據（如相機圖像和本體感受）轉換為固定數量的令牌，供后續的通用處理使用。它包含本體感知分詞器和視覺分詞器兩部分。

本體感知分詞器將機器人狀態信息（如執行器位置、關節角度等）編碼為16個標準令牌。首先通過多層感知器（MLP）將輸入數據映射到特征空間，添加正弦位置編碼，再利用注意力機制進行處理。

視覺分詞器處理相機圖像（視頻）數據，采用預訓練的 ResNet18 提取圖像特征，然后展平這些特征，并通過注意力機制轉化為 16 個令牌，確保視覺數據能夠以標準化的格式進入模型。

2. Trunk：共享中間層

Trunk 是 HPT 的核心部分，包含一個可擴展的 Transformer 架構，用于將 Stem 模塊生成的令牌序列轉換為通用的潛在表示。通過自注意力機制和前饋神經網絡，Trunk 將輸入數據編碼成共享的表示，便于不同任務 Head 模塊調用，以輸出特定的機器人指令。

3. Head：任務輸出層

Head 模塊負責將 Trunk 的潛在表示轉化為任務的具體動作。首先，Head 對輸出動作空間進行標準化處理，再根據特定策略（如MLP或Transformer解碼器）將數據映射為控制機器人執行的動作序列。最終，Head 根據不同任務生成適配的輸出。

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

訓練目標

預訓練階段

在預訓練過程中，HPT 的目標是最小化跨多個數據集的行為克隆損失。HPT 通過多數據集的歸一化動作標簽與預測動作的 Huber 損失，優化不同任務下的模型參數。公式如下：

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

在訓練中，Trunk 參數會在每次迭代中更新，而 Stem 和 Head 則基于訓練批次動態更新。

遷移學習

在遷移學習階段，面對新的任務，HPT 會重新初始化 Head 和 Stem 參數，并凍結 Trunk 權重，使 Trunk 的預訓練知識直接遷移到新任務中，減少訓練時間和數據需求。

實驗設計

默認設置

實驗的初始設置中，研究團隊選擇了 27 個機器人遙操作的數據集用于預訓練，每個數據集最多包含 1000 條軌跡，總計約 1.6 萬條軌跡。

模型使用的是 HPT-Small 版本，參數量為 317 萬，訓練批量設置為 256 ，在 80,000 次迭代中完成訓練。

為了評估模型性能，研究者還構建了一個由這 27 個數據集組成的驗證集。

擴展設置

在更大規模的實驗中，研究團隊擴展了數據來源，使用 52 個不同的數據集進行預訓練，這些數據集包括模擬數據、實際部署的機器人數據，以及人類執行任務的視頻數據。每個數據集最多包含 20 萬條軌跡。

這個設置中采用的模型版本為 HPT-XLarge，參數量高達 1 億，訓練批量增至 2048，以更大規模的數據和更高參數量提高模型的泛化能力。

合成數據和互聯網人類視頻

為增強數據多樣性，研究團隊還利用了 7 個模擬數據集和 EPIC 廚房及 PoCo 的互聯網人類視頻數據進行額外的預訓練。

作者介紹

何愷明

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

何愷明，深度殘差網絡（ResNets）的主要發明人，博士畢業于香港中文大學，師從湯曉鷗。現在是 MIT 電氣工程和計算機科學系（EECS）的副教授。

他的研究方向為計算機視覺和深度學習，目前研究目標為通過計算機視覺問題的視角，開發適用于各個領域的可推廣方法。目前的研究重點是構建計算機模型，這些模型可以從復雜世界中學習表示并開發智能。長期研究目標是用更強大的人工智能來增強人類智能。

Lirui Wang

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

Lirui Wang，計算機科學與人工智能實驗室（MIT CSAIL）的博士生，指導老師為 Russ Tedrake 教授，和何愷明教授一起合作。他在華盛頓大學獲得了學士和碩士學位，與 Dieter Fox 教授一起工作，并與 NVIDIA 合作。

他的研究方向為機器學習和機器人技術，特別是開發可以在復雜和非結構化的現實世界環境中泛化的算法和系統，致力于開發可隨異構數據擴展的隊列學習。

趙家梁

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

趙家梁，MIT CSAIL （計算機科學與人工智能實驗室）感知科學小組的博士生，指導老師為 Edward H. Adelson 教授，與 Russ Tedrake 教授和何愷明教授一起合作，目前的研究方向為機器人和人工智能。碩士畢業于卡內基梅隆大學，在 IAM 實驗室與 Oliver Kroemer 教授合作，專注研究機器人操作的機器人學習。

陳鑫磊

“通用大腦”來了！MIT何愷明用大模型思維玩出機器人預訓練新花樣

陳鑫磊，Meta FAIR 實驗室的研究科學家，卡內基梅隆大學語言技術研究所的博士生，本科畢業于浙江大學計算機科學專業。他的研究方向為預訓練，特別是具有自我監督和/或多模態的視覺表征的預訓練。

雷峰網(公眾號：雷峰網)雷峰網

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

劉潔

編輯

發私信

當月熱門文章