0
| 本文作者: 鄭佳美 | 2026-03-24 11:39 |
試想一下,當(dāng)機(jī)器人伸手去拿桌上的杯子,剛把杯子抬起來(lái),又停住了,隨后把它放回原位,然后再次伸手去拿。同一個(gè)動(dòng)作,它重復(fù)了一遍,像是忘記了自己剛剛已經(jīng)做過(guò)什么。類(lèi)似的情況在真實(shí)環(huán)境中并不少見(jiàn):按鈕明明已經(jīng)按下,卻還在反復(fù)按,明明抽屜已經(jīng)關(guān)好,卻還在繼續(xù)推。
這些失敗并不是因?yàn)樗翱床磺濉保且驗(yàn)樗狈σ惶啄軌蚰M時(shí)空演化的“世界模型”。當(dāng)前的視覺(jué)語(yǔ)言行動(dòng)模型雖然能夠理解圖像與指令,但在連續(xù)任務(wù)中仍然只能依賴(lài)當(dāng)前觀(guān)測(cè)做決策,一旦任務(wù)變成長(zhǎng)步驟流程,例如拿起物體、移動(dòng)、放置再到關(guān)閉裝置,就容易出現(xiàn)動(dòng)作重復(fù)和決策中斷的問(wèn)題,其根本原因在于缺乏對(duì)時(shí)間的理解能力。
這一問(wèn)題正在成為具身智能發(fā)展的關(guān)鍵瓶頸。現(xiàn)有方法大多基于“看到什么就做什么”的即時(shí)反應(yīng)機(jī)制,在短任務(wù)中表現(xiàn)良好,但在長(zhǎng)序列任務(wù)中容易出現(xiàn)動(dòng)作不連貫和決策漂移。如何讓模型不僅能感知當(dāng)前狀態(tài),還能記住過(guò)去并預(yù)判未來(lái),成為新的核心挑戰(zhàn)。
在這樣的背景下,西湖大學(xué)王東林團(tuán)隊(duì)提出了論文 《HiF-VLA:Hindsight, Insight and Foresight for Vision-Language-Action Models》。研究中,HiF-VLA 不再簡(jiǎn)單依賴(lài)歷史圖像或未來(lái)畫(huà)面預(yù)測(cè),而是以“運(yùn)動(dòng)”作為時(shí)間信息的核心表達(dá),使模型能夠同時(shí)建模過(guò)去的變化、當(dāng)前狀態(tài)以及未來(lái)趨勢(shì),從而實(shí)現(xiàn)更穩(wěn)定的連續(xù)決策。
這項(xiàng)研究的意義,不僅在于性能上的提升,更在于提出了一種新的范式,即讓機(jī)器人從“被動(dòng)反應(yīng)”走向“邊思考邊行動(dòng)”。在具身智能逐步走向真實(shí)世界的過(guò)程中,這種對(duì)時(shí)間的理解能力,正在成為決定系統(tǒng)是否真正可用的關(guān)鍵因素。

論文地址:https://arxiv.org/pdf/2512.09928
在長(zhǎng)序列任務(wù) LIBERO-Long 上,這項(xiàng)研究主要測(cè)試機(jī)器人是否能夠連續(xù)完成多個(gè)動(dòng)作,例如拿取物體、放置以及關(guān)閉裝置等。研究結(jié)果表明,HiF-VLA 在單視角條件下的成功率達(dá)到 94.4%,在多視角條件下達(dá)到 96.4%。
作為對(duì)比,當(dāng)前較強(qiáng)的方法 OpenVLA-OFT 在單視角下為 91.0%,多視角為 94.0%。由此可以看出,這個(gè)方法在單視角下提升了 3.4 個(gè)百分點(diǎn),在多視角下提升了 2.4 個(gè)百分點(diǎn)。
進(jìn)一步來(lái)看,在 10 個(gè)具體任務(wù)中,有多個(gè)任務(wù)的成功率達(dá)到 100%,而最低的任務(wù)也達(dá)到了 76%,說(shuō)明整體性能穩(wěn)定,并非依賴(lài)個(gè)別任務(wù)拉高平均水平。一個(gè)重要現(xiàn)象是,這個(gè)方法在單視角條件下的表現(xiàn)已經(jīng)接近甚至達(dá)到其他方法在多視角條件下的水平,這意味著其性能提升主要來(lái)源于時(shí)間建模能力,而不是依賴(lài)更多視覺(jué)信息或攝像頭數(shù)量。

在 CALVIN 跨環(huán)境泛化任務(wù)中,研究在 A、B、C 三個(gè)環(huán)境中訓(xùn)練模型,并在未見(jiàn)過(guò)的 D 環(huán)境中進(jìn)行測(cè)試。評(píng)價(jià)指標(biāo)是連續(xù)成功完成任務(wù)的數(shù)量,也就是在不中斷的情況下能夠連續(xù)完成多少個(gè)步驟。結(jié)果顯示,這個(gè)方法在單視角下達(dá)到 4.08,在多視角下達(dá)到 4.35,而 OpenVLA-OFT 約為 4.10,Seer 約為 4.28,RoboVLMs 約為 4.25。
可以看到,這個(gè)方法在多視角條件下取得了最高的 4.35,相比基線(xiàn)提升約 0.25 個(gè)任務(wù)。這個(gè)提升具有重要意義,因?yàn)檫@個(gè)指標(biāo)一旦中間某一步失敗后續(xù)任務(wù)將不再計(jì)入,因此數(shù)值越高說(shuō)明模型在長(zhǎng)時(shí)間連續(xù)決策中的穩(wěn)定性越強(qiáng),也體現(xiàn)了更好的長(zhǎng)期規(guī)劃能力。

在效率與計(jì)算成本方面,研究進(jìn)一步分析了性能提升是否以計(jì)算開(kāi)銷(xiāo)為代價(jià)。結(jié)果顯示,當(dāng)引入基于圖像的未來(lái)子目標(biāo)預(yù)測(cè)時(shí),成功率為 91.8%,但延遲增加到 115.9 毫秒,比基線(xiàn)慢 1.59 倍。當(dāng)采用歷史幀堆疊時(shí),成功率反而下降到 90.4%,延遲上升到 229.5 毫秒,是基線(xiàn)的 3.15 倍,說(shuō)明大量圖像信息不僅帶來(lái)高計(jì)算成本,還會(huì)干擾模型判斷。
相比之下,這個(gè)方法在只加入未來(lái)推理時(shí),成功率為 92.2%,延遲為 82.7 毫秒,幾乎沒(méi)有額外開(kāi)銷(xiāo);只加入歷史信息時(shí),成功率同樣為 92.2%,延遲為 117.7 毫秒;同時(shí)加入兩者后,成功率達(dá)到 93.2%,延遲為 121.6 毫秒。整體來(lái)看,這個(gè)方法在提升成功率的同時(shí),計(jì)算成本遠(yuǎn)低于堆疊歷史幀的方法,說(shuō)明使用運(yùn)動(dòng)信息比直接使用圖像歷史更加高效。

在時(shí)序長(zhǎng)度擴(kuò)展能力方面,研究逐步增加歷史長(zhǎng)度,從 4 到 8,再到 16 和 32。結(jié)果表明,當(dāng)長(zhǎng)度為 8 時(shí)性能最佳,單視角為 94.4%,多視角為 96.4%,繼續(xù)增加長(zhǎng)度反而會(huì)導(dǎo)致性能下降,其原因在于信息過(guò)多帶來(lái)的冗余干擾。在延遲方面,傳統(tǒng)方法的計(jì)算成本會(huì)隨著歷史長(zhǎng)度線(xiàn)性增長(zhǎng),當(dāng)長(zhǎng)度為 8 時(shí)延遲增加約 4.5 倍,而這個(gè)方法的延遲基本保持穩(wěn)定,僅有輕微增長(zhǎng),說(shuō)明其在時(shí)間維度上具有更好的擴(kuò)展性。

在真實(shí)機(jī)器人實(shí)驗(yàn)中,研究設(shè)置了多個(gè)長(zhǎng)序列任務(wù)來(lái)驗(yàn)證實(shí)際效果。在按順序按按鈕任務(wù)中,基線(xiàn)方法的成功率為 17.4%,而這個(gè)方法提升到 34.2%,接近翻倍。在覆蓋與堆疊任務(wù)中,基線(xiàn)為 33.3%,這個(gè)方法達(dá)到 57.9%,提升了 24.6 個(gè)百分點(diǎn)。
在放置任務(wù)中,基線(xiàn)約為 62.5%,這個(gè)方法約為 65%,提升較小但表現(xiàn)更加穩(wěn)定。研究人員分析認(rèn)為,基線(xiàn)方法難以判斷按鈕是否已經(jīng)被按下,因?yàn)闋顟B(tài)變化較為細(xì)微,而這個(gè)方法能夠利用時(shí)間變化信息來(lái)識(shí)別狀態(tài)轉(zhuǎn)變,因此在復(fù)雜任務(wù)中表現(xiàn)更好。這進(jìn)一步說(shuō)明,引入時(shí)間信息能夠顯著提升機(jī)器人在長(zhǎng)序列任務(wù)中的決策能力。

在實(shí)驗(yàn)過(guò)程中,研究首先在數(shù)據(jù)與任務(wù)設(shè)計(jì)上進(jìn)行了系統(tǒng)安排。在模擬環(huán)境中,采用了 LIBERO 數(shù)據(jù)集中的 10 個(gè)長(zhǎng)序列任務(wù),以及 CALVIN 數(shù)據(jù)集中的跨環(huán)境泛化任務(wù)。在真實(shí)機(jī)器人實(shí)驗(yàn)中,每個(gè)任務(wù)收集了 100 條示范數(shù)據(jù),并在測(cè)試階段對(duì)每個(gè)任務(wù)執(zhí)行 20 次,以評(píng)估模型的穩(wěn)定性和泛化能力。
在輸入信息設(shè)計(jì)方面,模型同時(shí)接收三類(lèi)信息,包括當(dāng)前畫(huà)面作為對(duì)當(dāng)前狀態(tài)的感知信息,歷史運(yùn)動(dòng)作為對(duì)過(guò)去動(dòng)態(tài)變化的表達(dá),以及語(yǔ)言指令用于提供任務(wù)目標(biāo),從而使模型能夠在時(shí)間維度和語(yǔ)義層面進(jìn)行聯(lián)合決策。

在對(duì)比實(shí)驗(yàn)設(shè)計(jì)中,研究團(tuán)隊(duì)設(shè)置了多種不同方法進(jìn)行系統(tǒng)比較。第一種方法僅使用當(dāng)前觀(guān)測(cè)信息進(jìn)行決策,不包含任何時(shí)間信息。第二種方法通過(guò)堆疊歷史圖像來(lái)引入時(shí)間信息,但這種方式存在信息冗余嚴(yán)重以及計(jì)算成本較高的問(wèn)題。第三種方法通過(guò)預(yù)測(cè)未來(lái)圖像作為子目標(biāo)來(lái)引導(dǎo)決策,但這種方式容易產(chǎn)生誤差,并且穩(wěn)定性較差。相比之下,所提出的方法采用運(yùn)動(dòng)信息替代圖像來(lái)表示時(shí)間變化,從而減少冗余信息并提高建模效率。

在消融實(shí)驗(yàn)中,研究進(jìn)一步分析了不同設(shè)計(jì)選擇對(duì)性能的影響。首先在歷史長(zhǎng)度方面進(jìn)行實(shí)驗(yàn),結(jié)果表明最優(yōu)長(zhǎng)度為 8,當(dāng)長(zhǎng)度過(guò)短時(shí)無(wú)法提供足夠的信息,而長(zhǎng)度過(guò)長(zhǎng)則會(huì)引入冗余并影響模型判斷。雷峰網(wǎng)
其次在歷史信息的使用方式上,研究比較了兩種策略,一種是將歷史信息直接輸入視覺(jué)語(yǔ)言模型,此時(shí)成功率為 92.8%,另一種是將歷史信息注入到?jīng)Q策模塊中,此時(shí)成功率提升到 94.4%。這一結(jié)果說(shuō)明,將歷史信息直接加入視覺(jué)語(yǔ)言模型會(huì)影響其原有的視覺(jué)與語(yǔ)言理解過(guò)程,而在決策階段引入歷史信息能夠更有效地發(fā)揮其作用。

這項(xiàng)研究首先解決了一個(gè)核心問(wèn)題,即傳統(tǒng)模型在決策過(guò)程中往往只依賴(lài)當(dāng)前觀(guān)測(cè)而忽略時(shí)間信息,從而導(dǎo)致動(dòng)作不連貫以及在長(zhǎng)序列任務(wù)中容易失敗。研究人員指出,問(wèn)題的根本不在于視覺(jué)能力不足,而在于缺乏對(duì)時(shí)間的建模能力。
基于這一認(rèn)識(shí),研究提出了一個(gè)重要發(fā)現(xiàn),即運(yùn)動(dòng)信息比圖像更適合用于表示時(shí)間變化,這是因?yàn)閳D像中包含大量靜態(tài)信息,而運(yùn)動(dòng)信息只保留了真正發(fā)生變化的部分,因此更加高效且更具表達(dá)力。
這一發(fā)現(xiàn)對(duì)機(jī)器人研究帶來(lái)了直接影響,使原本從感知到動(dòng)作的單向過(guò)程轉(zhuǎn)變?yōu)橥瑫r(shí)考慮過(guò)去、現(xiàn)在與未來(lái)的決策過(guò)程,即從簡(jiǎn)單的感知到動(dòng)作轉(zhuǎn)變?yōu)榛谶^(guò)去、當(dāng)前狀態(tài)以及未來(lái)預(yù)測(cè)共同驅(qū)動(dòng)的行動(dòng)決策。
在工程價(jià)值方面,實(shí)驗(yàn)結(jié)果表明這個(gè)方法不僅在性能上取得了顯著提升,例如成功率最高達(dá)到 96.4%,同時(shí)在計(jì)算效率上也具有優(yōu)勢(shì),避免了傳統(tǒng)方法中可能出現(xiàn)的三倍計(jì)算開(kāi)銷(xiāo)問(wèn)題。
此外,這個(gè)方法在不同環(huán)境下表現(xiàn)出更強(qiáng)的泛化能力,并且在真實(shí)機(jī)器人實(shí)驗(yàn)中同樣有效,說(shuō)明其具有較強(qiáng)的實(shí)際應(yīng)用潛力。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
進(jìn)一步來(lái)看,這項(xiàng)研究還推動(dòng)了一種新的智能范式,從“看到就做”的視覺(jué)語(yǔ)言行動(dòng)模型到“邊想邊做”的世界行動(dòng)模型, HiF-VLA 改變的不僅是模型的結(jié)構(gòu)設(shè)計(jì),更是在重新定義機(jī)器人應(yīng)當(dāng)具備的能力邊界。
過(guò)去的系統(tǒng)更像是被動(dòng)反應(yīng)的執(zhí)行者,只對(duì)當(dāng)前輸入做出即時(shí)回應(yīng);而在這種新的范式下,機(jī)器人開(kāi)始具備連續(xù)決策的能力,能夠在行動(dòng)中記住剛剛發(fā)生了什么,判斷當(dāng)前處于什么階段,并預(yù)判接下來(lái)應(yīng)該做什么。
這種變化的意義在于,機(jī)器人不再只是完成單步動(dòng)作,而是能夠理解一整段過(guò)程,并在過(guò)程中不斷調(diào)整自己的行為。這也意味著,具身智能的發(fā)展正在從“感知驅(qū)動(dòng)的反應(yīng)系統(tǒng)”,走向“時(shí)間驅(qū)動(dòng)的推理系統(tǒng)”。
當(dāng)模型真正具備這種能力時(shí),機(jī)器人才能在復(fù)雜、動(dòng)態(tài)的真實(shí)環(huán)境中穩(wěn)定工作,而不僅僅是在受控場(chǎng)景中完成預(yù)設(shè)任務(wù)。
論文的通訊作者王東林,現(xiàn)任西湖大學(xué)人工智能系副主任,是機(jī)器智能實(shí)驗(yàn)室(MiLAB)的創(chuàng)始人和負(fù)責(zé)人,同時(shí)也是西湖機(jī)器人科技(杭州)有限公司的創(chuàng)始人。
他本科和碩士畢業(yè)于西安交通大學(xué)電子信息工程專(zhuān)業(yè),隨后在加拿大卡爾加里大學(xué)獲得電子與計(jì)算機(jī)工程博士學(xué)位,并在加拿大從事博士后研究工作。
之后他在美國(guó)紐約理工學(xué)院任教并晉升為副教授,2017 年回國(guó)加入西湖大學(xué),成為工學(xué)院首批全職教師之一,并創(chuàng)建了機(jī)器智能實(shí)驗(yàn)室。同時(shí),他還擔(dān)任國(guó)家科技創(chuàng)新 2030 重大項(xiàng)目首席科學(xué)家,并入選國(guó)家人社部高層次人才計(jì)劃,在國(guó)家級(jí)科研項(xiàng)目中承擔(dān)重要角色。
在研究方向上,他長(zhǎng)期致力于機(jī)器人學(xué)習(xí)與智能決策領(lǐng)域,重點(diǎn)關(guān)注強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)以及機(jī)器人行為智能,目標(biāo)是讓機(jī)器人具備自主學(xué)習(xí)、快速適應(yīng)新環(huán)境并完成復(fù)雜任務(wù)的能力。其研究不僅關(guān)注感知層面的理解,更強(qiáng)調(diào)從感知到?jīng)Q策再到行動(dòng)的完整閉環(huán),尤其是在長(zhǎng)序列任務(wù)和真實(shí)環(huán)境中的穩(wěn)定執(zhí)行能力。
在學(xué)術(shù)成果方面,他已發(fā)表一百余篇論文,活躍于機(jī)器人學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等前沿領(lǐng)域,并參與國(guó)際學(xué)術(shù)社區(qū)建設(shè)。他的團(tuán)隊(duì)是國(guó)內(nèi)最早專(zhuān)注于機(jī)器人學(xué)習(xí)的團(tuán)隊(duì)之一,提出國(guó)際第一個(gè)四足機(jī)器人VLA大模型、人形機(jī)器人VLA大模型、獎(jiǎng)勵(lì)無(wú)關(guān)人類(lèi)反饋強(qiáng)化學(xué)習(xí)。他近期合作的AAAI 2026 論文斬獲最佳論文獎(jiǎng),同時(shí)帶領(lǐng)研發(fā)的通用行為專(zhuān)家大模型 GAE 也達(dá)到人形機(jī)器人運(yùn)動(dòng)的國(guó)際領(lǐng)先水準(zhǔn)。

參考地址:https://milab.westlake.edu.cn/
另一位通訊作者黃思騰,現(xiàn)任阿里巴巴達(dá)摩院算法專(zhuān)家,博士畢業(yè)于浙江大學(xué)與西湖大學(xué)聯(lián)合培養(yǎng)項(xiàng)目,在機(jī)器智能實(shí)驗(yàn)室完成博士研究,并由王東林教授指導(dǎo)。
在此之前,他于武漢大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)獲得本科學(xué)位。在博士期間,他還在阿里巴巴通義實(shí)驗(yàn)室與達(dá)摩院進(jìn)行長(zhǎng)期研究實(shí)習(xí),隨后進(jìn)入達(dá)摩院從事算法研究工作,整體經(jīng)歷貫穿學(xué)術(shù)研究與工業(yè)界實(shí)踐。
在研究方向上,他主要聚焦于具身智能、多模態(tài)大模型以及高效人工智能,核心關(guān)注如何讓模型同時(shí)理解圖像、視頻、語(yǔ)言以及物理世界中的動(dòng)態(tài)信息,并在真實(shí)環(huán)境中進(jìn)行感知、推理與生成。他的研究不僅涉及多模態(tài)理解與生成,還強(qiáng)調(diào)模型在數(shù)據(jù)、計(jì)算和存儲(chǔ)等方面的效率優(yōu)化,致力于構(gòu)建能夠在現(xiàn)實(shí)世界中高效運(yùn)行的統(tǒng)一智能系統(tǒng)。
在學(xué)術(shù)成果方面,他已在相關(guān)領(lǐng)域發(fā)表三十余篇論文,涵蓋計(jì)算機(jī)視覺(jué)、多模態(tài)學(xué)習(xí)與機(jī)器人方向,并活躍于頂級(jí)國(guó)際會(huì)議和期刊。同時(shí),他參與多個(gè)具身智能與多模態(tài)模型方向的研究工作,包括視覺(jué)語(yǔ)言行動(dòng)模型及統(tǒng)一世界模型等,代表性工作涉及 HiF-VLA、RynnVLA 系列以及 WorldVLA 等框架,推動(dòng)了機(jī)器人在長(zhǎng)序列任務(wù)與真實(shí)環(huán)境中的能力提升。

參考地址:https://kyonhuang.top/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。