0
| 本文作者: 業界評論 | 2026-03-27 13:12 |
3月27日,在中關村論壇“全球對話”活動現場,由北京中關村學院與中關村人工智能研究院孵化的首家具身智能企業——深度機智,正式發布首個以人類學習范式構建的PhysBrain 1.0具身通用智能基座模型。
PhysBrain 1.0體系以PhysBrain基座模型為核心,融合TwinBrainVLA原創雙腦架構與LangForce訓練策略,三大核心技術協同發力,首次通過海量人類第一視角視頻,規模化構建高質量物理常識訓練語料,成功突破具身智能數據獲取與模型訓練的核心瓶頸,激發出模型的“類人”物理智能,推動模型從“模仿動作”向“理解物理”的關鍵“范式躍遷”。
在國際權威測評榜單中,PhysBrain 1.0在空間智能、具身交互等多項權威評測中超越多家頭部公司,達到行業 SOTA(業界最優)成績,全面對標全球頂尖水平。
推出人類學習全新模型架構,重構具身智能底層邏輯
此前,全球主流機器人技術路線本質是教機器人“怎么做”,通過大模型擬合真機或者仿真得到的軌跡數據,試圖逼近通用具身智能。然而,如此訓練的模型缺乏對真實物理世界理解,同一場景,換了不同視角后便極易識別失效,本質上只是為機器人注入了擬合軌跡的數據,而沒有為其注入物理世界的真實交互邏輯,導致擬合軌跡的效率極低。本質上,模型只記住了動作,卻沒有學會為什么要這樣做。
而深度機智給出了另一種思路,讓機器人像人一樣學習,先具備世界物理常識,再執行具體任務。簡單來說就是“知其然,更要知其所以然。” 這種“先理解,后行動”的理念,讓具身智能的發展擁有了非線性突破的可能。
深度機智此次推出的 PhysBrain1.0 具身通用智能大模型,實現了三個層面的核心突破:
1、數據來源創新:從“軌跡數據”到“人類第一視角交互數據”
深度機智率先以海量人類第一視角交互數據為核心訓練語料,而非依賴昂貴的機器人閉環仿真數據、遙操作數據。通過首創的ICDC 情境數采體系,以佩戴式第一視角設備為主,無需在手部佩戴機械裝備,在真實工作情境中采集原生第一視角多模態數據,讓模型訓練數據與人類真實操作邏輯、物理世界規律的對齊。
人類數據天然蘊含任務多樣性、場景多樣性與處理方式多樣性,讓模型從源頭獲得對物理交互的深層理解,而非局限于軌跡擬合,這正是后續泛化能力的根基。
2、數據使用創新:從“簡單擬合軌跡”到“提取物理交互常識”
深度機智的數據增強管線,將海量人類第一視角視頻中的空間關系、力學邏輯、因果推理等隱性經驗,規模化提取為結構化監督信號,并壓縮進多模態大模型。這一過程讓PhysBrain1.0模型在訓練中真正掌握“為什么這樣做”的物理因果,而非“怎么做”的動作軌跡,從“模仿動作”走向“理解物理”,物理常識的注入,是模型具備通用智能的關鍵一步。
3、模型架構創新:從“記憶動作數據”到“學習世界規律”
PhysBrain 1.0采用多模態大模型架構,讓具身智能不再像大語言模型一樣推理“下一個token”,而是將物理常識內化于參數之中,讓模型具備對物理世界理解的時空一致性,在有限數據下實現真正的泛化能力。
原創性TwinBrainVLA “雙腦融合” 架構解決具身微調中存在的災難性遺忘行業難題。左腦凍結,完整保留通用語義理解能力與語言智能;右腦可訓練,專注學習精細動作策略。兩者協同,讓PhysBrain1.0模型在做任務時,真正實現“通專融合”。
獨創LangForce訓練方案,打破VLA學習中的視覺捷徑困境。通過貝葉斯分解強制模型在生成動作前必須最大化動作與指令的互信息,讓機器人真正“聽懂指令”再行動,在保留大模型原有語言能力的同時,大幅提升從未見過場景下的泛化成功率。
通過上述三個維度的創新,PhysBrain1.0 第一次開始“像人一樣思考,同時像人一樣行動”。
在最新的 SimplerEnv 測試中,PhysBrain1.0跑出了 80.2% 的平均成功率,超越了行業標桿 Pi0.5 ( 57.1%),達到行業SOTA,這一結果進一步說明,在具身智能領域,物理常識要比動作模仿更加重要,具身智能必須先具備“物理常識”,才能更高效地學習動作。此外從行業角度而言,深度機智已躋身行業第一梯隊,具備與國際大廠對標的產品技術實力。
不止于模型,打通“具身智能全鏈路”
本次中關村論壇活動,深度機智不僅帶來全新模型,更首次展示基于人類學習技術路線的完整全棧能力。
基于全新范式具身通用智能大腦PhysBrain1.0,深度機智推出了全球首款斷電自主站立的全尺寸擬人體機器人 Prime 。該機器人專為通用具身智能模型研發,全身諧波關節,搭配高自由度靈巧手,可實現高精度的精細操作,具備高度類人化的動作靈活性與環境適應性。
讓機器人不止能實現“取咖啡”等簡單工作,還應該進入“人類最需要的地方”,落地 “險、臟、累、 難、奇” 等場景,讓機器人服務于人類的工作、生活現實場景,成為“真正能干活”的機器人。
此外,為持續完善物理智能數據引擎,深度機智推出了便攜式數采智能終端,可實現在多元場景中低成本高效率地獲取多模態人類第一視角數據,構建高質量訓練數據閉環。
在數據標注方面,深度機智通過標準化人類行為數據,構建“物理世界知識庫”,建立人類第一視角數據物理常識標準平臺,為行業提供可復用的具身智能數據基礎設施。
深度機智通過打通數據采集、常識標注、模型架構、訓練算法、擬人本體等各個關鍵環節,構建了“機器人大腦全鏈路”,該公司也是我國少數具備全棧能力的具身智能公司。
具身智能的“中國時刻”,從“模仿動作”到“理解世界”
技術演進的本質,是認知范式的躍遷。從信息智能到物理智能,全球人工智能發展正在進入一個全新的階段。
過去,美國在大模型領域建立了范式優勢,歐洲定義了工業機器人體系,而或許現在,在具身智能這一新一代核心賽道上,中國企業,正憑借自主創新,正在實現從跟跑到并跑乃至領跑的跨越。
目前物理智能是大模型能力的一個重要板塊,尚處于行業發展早期,中國團隊有機會率先實現從0到1的突破。
其次,具身智能是實現物理智能的加速器,而中國在機器人硬件產業以及大模型上所積累的相對優勢,為中國具身智能創業公司提供了快速成長的土壤。
此外,李飛飛、Yann LeCun、謝賽寧等都是具身智能領域的早期開拓者,而最近我們也慢慢看到,越來越多中國創業者、學者的名字和面孔出現在具身智能的關鍵領域和核心期刊上,這正說明在具身智能領域,中國創業者正在迎頭趕上。
而以深度機智為代表的一批中國創新力量,正從“模仿動作”,走向“理解世界”。這不僅是一項顛覆性技術突破,更是一條通往物理世界AGI的新路徑。
屬于機器人的時代正在到來,而這一次,中國正走在前面。
雷峰網雷峰網雷峰網(公眾號:雷峰網)
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。