0
| 本文作者: 齊鋮湧 | 2026-04-07 15:04 |
2026年,具身智能的泡沫與烈火同時燃燒。
宇樹科技遞交招股書,估值沖擊百億;Figure AI、Physical Intelligence等美國公司融資額屢創新高,將行業熱度推向頂點。國內創業公司緊急跟進——堆數據、搶場景、拼本體,十萬小時真機數據成為新的軍備競賽標的。
但喧囂之下,一個尷尬的共識正在形成:沒有人知道正確的技術路線究竟是什么。遙操作、仿真合成、互聯網視頻、人類第一視角……數據類型的選擇尚未收斂;行星減速、諧波力控、電驅液壓……本體結構的爭論也還沒落地。行業在"大力出奇跡"的信仰下狂奔,卻鮮有人追問:這些海量數據,究竟在教機器人什么?
最近,AI科技評論觀察到,越來越多具身智能公司開始探索一條新的數據路徑:"人類第一視角數據"。
2026年以來,小米、螞蟻、章魚動力等公司在紛紛組建新團隊跟進這一路線。其中,以微軟亞洲研究院前首席研究員陳凱的觀點,引發了行業的熱烈討論。
3月27號,作為深度機智的創始人,陳凱在中關村論壇上代表深度機智,發布了首個具身智能基座模型PhysBrain 1.0,并公布了他們的研究成果。
這個模型僅使用1000小時人類第一視角數據、零真機數據,在多個國際權威榜單上超越了用數萬小時真機數據的競爭對手,在多個國際 Benchmark 上取得 SOTA,比 Physical Intelligence 和英偉達等頭部巨頭表現更好。
某種程度上,一場具身智能領域關于"物理常識"的革命,正在悄然開啟。
模型缺乏物理常識,是具身領域的巨大痛點
"目前不管是VLM(視覺語言模型)還是世界模型,始終會卡在一個點上:它們缺乏物理常識。"深度機智創始人陳凱在中關村論壇上直接指出了這一行業痛點。
這個判斷直指當前具身智能的核心困境。和很多學者遇到的情況一樣,陳凱提到 VLM 模型不理解空間、時序,"桌子上面放了幾個杯子,它數不清有幾個";視頻生成模型"視覺上足以亂真,但運動的真實性和物理真實性比較差"。這些看似基礎的能力缺失,讓機器人在面對真實世界的復雜性時屢屢碰壁。
問題的根源在于數據與學習的錯位。當前行業主流的做法——遙操作采集真機數據、仿真合成虛擬數據、或是模仿人類手部軌跡,本質上都是在教機器人"模仿動作",而非"理解世界"。
"現在非常多的做法——背動作、背軌跡——其實是手把手地教猴子干活。"陳凱用了一個形象的比喻,"而我們正在嘗試的是:請菩提祖師把猴子變成孫悟空,讓它先理解世界,再去學習技能。"
這種"理解優先"的方法論,正在獲得越來越多證據的支持。深度機智近期發布的PhysBrain 1.0模型正式針對這樣的思路,做出的階段性成果。
這一結果挑戰了一個行業默認假設:更多的數據,是否必然帶來更好的智能?
人類第一視角:被重新發現的數據富礦
"人類第一視角數據,因為它是人看過去的第一視角的世界,收集的是真實物理世界的數據,天然就蘊含著各種各樣的物理常識。"陳凱解釋道自己為什么要押注這一路線。
無獨有偶,這種數據類型的價值,在2024-2025年間逐漸被重新發現。2025年5月,特斯拉宣布放棄遙操作,轉向人類第一視角;6月,Figure AI發布"扔積木"的擬人行為Demo;10月,Generalist AI驗證Scaling Law;12月,Physical Intelligence確認人類數據價值;2026年2-3月,英偉達發表論文交叉驗證。
行業共識迅速形成:人類第一視角數據不是遙操作的替代品,而是通往"物理常識"的關鍵路徑。
但分歧依然存在。英偉達的論文仍專注手部軌跡預訓練,而深度機智選擇"直接上來就要增強VLM本身——讓它依據人看到的這個世界去理解世界"。陳凱認為,這種差異讓深度機智"在整個流程上應該比英偉達略有領先"。
更深層的差異在于數據的"多樣性"。遙操作數據記錄機器人視角,任務和場景由人工設計;UMI(通用操作接口)數據需要人手持夾爪,"很難想象工廠主要求員工不能用手干活"。
而人類第一視角數據捕捉的是真實生活,"哪怕你是靜靜地發呆,你看到外面車水馬龍,這些數據對我們都有價值"。
這種多樣性帶來的不僅是數據量的節省,更是學習質量的躍遷。
從"軌跡擬合"到"物理常識":方法論的范式轉移
"智能涌現"現象為這場革命提供了最直觀的證據。
深度機智的測試中,訓練數據全是"夾起胡蘿卜放盤子里",但機械臂碰到胡蘿卜沒夾到時,竟"自發選擇推"——推一次沒推進去,換角度加大力度再推,最后才轉變策略夾起來。另一個案例中,機械爪夾方塊太靠后掉落,它主動回來撿,第一次沒撿起,第二次"做了一個非常輕微的旋轉"成功夾起。
"這種靈活性,甚至你都沒有辦法預編程把它搞出來。"陳凱描述這一現象時強調,"千小時人類數據增強物理常識,自發地把人類靈活變通的能力遷移到了機器人身上。"
這種"涌現"能力揭示了一個深層規律:當模型具備足夠的物理常識,它不再依賴精確的軌跡模仿,而是能夠像人類一樣"理解情境、靈活應對"。這正是"物理常識"革命的核心,從"教動作"到"教理解"的范式轉移。
Physical Intelligence創始人將這種能力稱為"智能的暗物質"(Physical common sense is the dark matter of intelligence)。DeepMind的哈薩比斯則認為,原生多模態模型對物理世界的更好理解,可成為機器人的大腦。(雷峰網(公眾號:雷峰網))
"所有的這些點都歸結到一個:要先去理解這個世界,然后再到這個世界里面去行動。"陳凱總結道。
跨本體能力:物理常識的遷移效應
"物理常識"革命的另一個重要成果,是"跨本體能力"的涌現。
傳統方法需要"把不同形態的機器人的數據做聯合訓練"才能實現技能遷移。但深度機智觀察到:"有了一個理解物理常識的大腦,自然而然知道適配什么樣的身體。"
這一發現顛覆了"一個機器人一套數據"的行業慣例。用LoRA預訓練action expert,再用Franka機械臂微調,數據需求大幅下降——"不同形態機器人背后的物理規律一模一樣"。
"跨本體是物理智能增強自然而然會出現的結果,并不是刻意地把多種機器人數據放在一起訓練出來的結果。"陳凱解釋道。
這意味著,物理常識具有跨平臺、跨形態的通用性。一旦模型掌握了"物體受力會移動""抓取需要摩擦力"等基礎規律,它就能將這些知識遷移到新的硬件平臺上,而無需從頭學習。
這種通用性,正是通往"具身通用智能"的關鍵階梯。
"人類學習路線"正在國內悄然崛起
在全球具身智能競賽中,中國與美國呈現出不同的側重。
過去,中國和美國在具身智能領域內,其實是各有側重,中國聚焦本體,美國是聚焦在大腦上。比較典型的是宇樹科技等公司在硬件迭代上取得顯著成績,但"具身大腦上的團隊其實并沒有那么多"。
這一格局正在改變。2025-2026年間,國內開始涌現專注"大腦"的團隊。深度機智的崛起,以及小米、螞蟻、章魚動力等公司在2026年初紛紛組建新團隊跟進"人類學習路線",標志著行業重心的轉移。
從某種角度上,國內目前的路徑和認知上和世界一流科學家區別不大,但需要更多的投入。其中,數據成本優勢尤為明顯,美國標注第一視角27萬小時花上億美刀,中國千萬小時人力歷史數據今年整個行業就會達到。
2026年,"物理常識"革命仍處于早期,盡管深度機智的1000小時數據"涌現"了糾錯、變通、跨本體等能力,但陳凱承認這仍是"偶然的智能涌現"。2026年底是否會出現"效果出人意料好的具身智能大模型"?兩三年能否重現ChatGPT時刻?
更深層的挑戰在于行業生態。
"物理常識"的提取、標注、利用,需要全新的模型架構和訓練方法,與當前主流的VLA、π0架構并不兼容。這意味著,擁抱"物理常識"革命,可能需要放棄既有的技術積累和基礎設施。
但回報同樣誘人。一旦機器人具備真正的"物理常識",它將不再是"教什么會什么"的專用工具,而是"理解情境、靈活應對"的通用助手。這將徹底改變制造業、服務業、危險作業等無數領域的生產力圖景。
在這方面的認知上,陳凱提到"這可能是人工智能的最后一個機會,也是最大的一次。",這或許是對這場革命押注的決心。(雷峰網)
當行業仍在"大力出奇跡"的信仰下堆砌數據時,一條"理解優先"的新路徑已經顯現。它不是對數據量的否定,而是對學習質的重構——從"模仿動作"到"理解世界",從"教猴子"到"變孫悟空"。
這場"物理常識"革命能否成功,將決定具身智能的下一個十年。而2026年,正是關鍵的轉折之年。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。