西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

本文作者：鄭佳美

2026-03-24 11:39

導(dǎo)語(yǔ)：HiF-VLA：一種利用運(yùn)動(dòng)信息建模時(shí)間，讓機(jī)器人實(shí)現(xiàn)連續(xù)決策的視覺(jué)-語(yǔ)言-動(dòng)作模型。

試想一下，當(dāng)機(jī)器人伸手去拿桌上的杯子，剛把杯子抬起來(lái)，又停住了，隨后把它放回原位，然后再次伸手去拿。同一個(gè)動(dòng)作，它重復(fù)了一遍，像是忘記了自己剛剛已經(jīng)做過(guò)什么。類(lèi)似的情況在真實(shí)環(huán)境中并不少見(jiàn)：按鈕明明已經(jīng)按下，卻還在反復(fù)按，明明抽屜已經(jīng)關(guān)好，卻還在繼續(xù)推。

這些失敗并不是因?yàn)樗翱床磺濉保且驗(yàn)樗狈σ惶啄軌蚰M時(shí)空演化的“世界模型”。當(dāng)前的視覺(jué)語(yǔ)言行動(dòng)模型雖然能夠理解圖像與指令，但在連續(xù)任務(wù)中仍然只能依賴(lài)當(dāng)前觀(guān)測(cè)做決策，一旦任務(wù)變成長(zhǎng)步驟流程，例如拿起物體、移動(dòng)、放置再到關(guān)閉裝置，就容易出現(xiàn)動(dòng)作重復(fù)和決策中斷的問(wèn)題，其根本原因在于缺乏對(duì)時(shí)間的理解能力。

這一問(wèn)題正在成為具身智能發(fā)展的關(guān)鍵瓶頸。現(xiàn)有方法大多基于“看到什么就做什么”的即時(shí)反應(yīng)機(jī)制，在短任務(wù)中表現(xiàn)良好，但在長(zhǎng)序列任務(wù)中容易出現(xiàn)動(dòng)作不連貫和決策漂移。如何讓模型不僅能感知當(dāng)前狀態(tài)，還能記住過(guò)去并預(yù)判未來(lái)，成為新的核心挑戰(zhàn)。

在這樣的背景下，西湖大學(xué)王東林團(tuán)隊(duì)提出了論文《HiF-VLA：Hindsight, Insight and Foresight for Vision-Language-Action Models》。研究中，HiF-VLA 不再簡(jiǎn)單依賴(lài)歷史圖像或未來(lái)畫(huà)面預(yù)測(cè)，而是以“運(yùn)動(dòng)”作為時(shí)間信息的核心表達(dá)，使模型能夠同時(shí)建模過(guò)去的變化、當(dāng)前狀態(tài)以及未來(lái)趨勢(shì)，從而實(shí)現(xiàn)更穩(wěn)定的連續(xù)決策。

這項(xiàng)研究的意義，不僅在于性能上的提升，更在于提出了一種新的范式，即讓機(jī)器人從“被動(dòng)反應(yīng)”走向“邊思考邊行動(dòng)”。在具身智能逐步走向真實(shí)世界的過(guò)程中，這種對(duì)時(shí)間的理解能力，正在成為決定系統(tǒng)是否真正可用的關(guān)鍵因素。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

論文地址：https://arxiv.org/pdf/2512.09928

機(jī)器人不再「忘動(dòng)作」

在長(zhǎng)序列任務(wù) LIBERO-Long 上，這項(xiàng)研究主要測(cè)試機(jī)器人是否能夠連續(xù)完成多個(gè)動(dòng)作，例如拿取物體、放置以及關(guān)閉裝置等。研究結(jié)果表明，HiF-VLA 在單視角條件下的成功率達(dá)到 94.4%，在多視角條件下達(dá)到 96.4%。

作為對(duì)比，當(dāng)前較強(qiáng)的方法 OpenVLA-OFT 在單視角下為 91.0%，多視角為 94.0%。由此可以看出，這個(gè)方法在單視角下提升了 3.4 個(gè)百分點(diǎn)，在多視角下提升了 2.4 個(gè)百分點(diǎn)。

進(jìn)一步來(lái)看，在 10 個(gè)具體任務(wù)中，有多個(gè)任務(wù)的成功率達(dá)到 100%，而最低的任務(wù)也達(dá)到了 76%，說(shuō)明整體性能穩(wěn)定，并非依賴(lài)個(gè)別任務(wù)拉高平均水平。一個(gè)重要現(xiàn)象是，這個(gè)方法在單視角條件下的表現(xiàn)已經(jīng)接近甚至達(dá)到其他方法在多視角條件下的水平，這意味著其性能提升主要來(lái)源于時(shí)間建模能力，而不是依賴(lài)更多視覺(jué)信息或攝像頭數(shù)量。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

在 CALVIN 跨環(huán)境泛化任務(wù)中，研究在 A、B、C 三個(gè)環(huán)境中訓(xùn)練模型，并在未見(jiàn)過(guò)的 D 環(huán)境中進(jìn)行測(cè)試。評(píng)價(jià)指標(biāo)是連續(xù)成功完成任務(wù)的數(shù)量，也就是在不中斷的情況下能夠連續(xù)完成多少個(gè)步驟。結(jié)果顯示，這個(gè)方法在單視角下達(dá)到 4.08，在多視角下達(dá)到 4.35，而 OpenVLA-OFT 約為 4.10，Seer 約為 4.28，RoboVLMs 約為 4.25。

可以看到，這個(gè)方法在多視角條件下取得了最高的 4.35，相比基線(xiàn)提升約 0.25 個(gè)任務(wù)。這個(gè)提升具有重要意義，因?yàn)檫@個(gè)指標(biāo)一旦中間某一步失敗后續(xù)任務(wù)將不再計(jì)入，因此數(shù)值越高說(shuō)明模型在長(zhǎng)時(shí)間連續(xù)決策中的穩(wěn)定性越強(qiáng)，也體現(xiàn)了更好的長(zhǎng)期規(guī)劃能力。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

在效率與計(jì)算成本方面，研究進(jìn)一步分析了性能提升是否以計(jì)算開(kāi)銷(xiāo)為代價(jià)。結(jié)果顯示，當(dāng)引入基于圖像的未來(lái)子目標(biāo)預(yù)測(cè)時(shí)，成功率為 91.8%，但延遲增加到 115.9 毫秒，比基線(xiàn)慢 1.59 倍。當(dāng)采用歷史幀堆疊時(shí)，成功率反而下降到 90.4%，延遲上升到 229.5 毫秒，是基線(xiàn)的 3.15 倍，說(shuō)明大量圖像信息不僅帶來(lái)高計(jì)算成本，還會(huì)干擾模型判斷。

相比之下，這個(gè)方法在只加入未來(lái)推理時(shí)，成功率為 92.2%，延遲為 82.7 毫秒，幾乎沒(méi)有額外開(kāi)銷(xiāo)；只加入歷史信息時(shí)，成功率同樣為 92.2%，延遲為 117.7 毫秒；同時(shí)加入兩者后，成功率達(dá)到 93.2%，延遲為 121.6 毫秒。整體來(lái)看，這個(gè)方法在提升成功率的同時(shí)，計(jì)算成本遠(yuǎn)低于堆疊歷史幀的方法，說(shuō)明使用運(yùn)動(dòng)信息比直接使用圖像歷史更加高效。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

在時(shí)序長(zhǎng)度擴(kuò)展能力方面，研究逐步增加歷史長(zhǎng)度，從 4 到 8，再到 16 和 32。結(jié)果表明，當(dāng)長(zhǎng)度為 8 時(shí)性能最佳，單視角為 94.4%，多視角為 96.4%，繼續(xù)增加長(zhǎng)度反而會(huì)導(dǎo)致性能下降，其原因在于信息過(guò)多帶來(lái)的冗余干擾。在延遲方面，傳統(tǒng)方法的計(jì)算成本會(huì)隨著歷史長(zhǎng)度線(xiàn)性增長(zhǎng)，當(dāng)長(zhǎng)度為 8 時(shí)延遲增加約 4.5 倍，而這個(gè)方法的延遲基本保持穩(wěn)定，僅有輕微增長(zhǎng)，說(shuō)明其在時(shí)間維度上具有更好的擴(kuò)展性。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

在真實(shí)機(jī)器人實(shí)驗(yàn)中，研究設(shè)置了多個(gè)長(zhǎng)序列任務(wù)來(lái)驗(yàn)證實(shí)際效果。在按順序按按鈕任務(wù)中，基線(xiàn)方法的成功率為 17.4%，而這個(gè)方法提升到 34.2%，接近翻倍。在覆蓋與堆疊任務(wù)中，基線(xiàn)為 33.3%，這個(gè)方法達(dá)到 57.9%，提升了 24.6 個(gè)百分點(diǎn)。

在放置任務(wù)中，基線(xiàn)約為 62.5%，這個(gè)方法約為 65%，提升較小但表現(xiàn)更加穩(wěn)定。研究人員分析認(rèn)為，基線(xiàn)方法難以判斷按鈕是否已經(jīng)被按下，因?yàn)闋顟B(tài)變化較為細(xì)微，而這個(gè)方法能夠利用時(shí)間變化信息來(lái)識(shí)別狀態(tài)轉(zhuǎn)變，因此在復(fù)雜任務(wù)中表現(xiàn)更好。這進(jìn)一步說(shuō)明，引入時(shí)間信息能夠顯著提升機(jī)器人在長(zhǎng)序列任務(wù)中的決策能力。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

時(shí)間建模方法的系統(tǒng)性對(duì)比

在實(shí)驗(yàn)過(guò)程中，研究首先在數(shù)據(jù)與任務(wù)設(shè)計(jì)上進(jìn)行了系統(tǒng)安排。在模擬環(huán)境中，采用了 LIBERO 數(shù)據(jù)集中的 10 個(gè)長(zhǎng)序列任務(wù)，以及 CALVIN 數(shù)據(jù)集中的跨環(huán)境泛化任務(wù)。在真實(shí)機(jī)器人實(shí)驗(yàn)中，每個(gè)任務(wù)收集了 100 條示范數(shù)據(jù)，并在測(cè)試階段對(duì)每個(gè)任務(wù)執(zhí)行 20 次，以評(píng)估模型的穩(wěn)定性和泛化能力。

在輸入信息設(shè)計(jì)方面，模型同時(shí)接收三類(lèi)信息，包括當(dāng)前畫(huà)面作為對(duì)當(dāng)前狀態(tài)的感知信息，歷史運(yùn)動(dòng)作為對(duì)過(guò)去動(dòng)態(tài)變化的表達(dá)，以及語(yǔ)言指令用于提供任務(wù)目標(biāo)，從而使模型能夠在時(shí)間維度和語(yǔ)義層面進(jìn)行聯(lián)合決策。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

在對(duì)比實(shí)驗(yàn)設(shè)計(jì)中，研究團(tuán)隊(duì)設(shè)置了多種不同方法進(jìn)行系統(tǒng)比較。第一種方法僅使用當(dāng)前觀(guān)測(cè)信息進(jìn)行決策，不包含任何時(shí)間信息。第二種方法通過(guò)堆疊歷史圖像來(lái)引入時(shí)間信息，但這種方式存在信息冗余嚴(yán)重以及計(jì)算成本較高的問(wèn)題。第三種方法通過(guò)預(yù)測(cè)未來(lái)圖像作為子目標(biāo)來(lái)引導(dǎo)決策，但這種方式容易產(chǎn)生誤差，并且穩(wěn)定性較差。相比之下，所提出的方法采用運(yùn)動(dòng)信息替代圖像來(lái)表示時(shí)間變化，從而減少冗余信息并提高建模效率。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

在消融實(shí)驗(yàn)中，研究進(jìn)一步分析了不同設(shè)計(jì)選擇對(duì)性能的影響。首先在歷史長(zhǎng)度方面進(jìn)行實(shí)驗(yàn)，結(jié)果表明最優(yōu)長(zhǎng)度為 8，當(dāng)長(zhǎng)度過(guò)短時(shí)無(wú)法提供足夠的信息，而長(zhǎng)度過(guò)長(zhǎng)則會(huì)引入冗余并影響模型判斷。雷峰網(wǎng)

其次在歷史信息的使用方式上，研究比較了兩種策略，一種是將歷史信息直接輸入視覺(jué)語(yǔ)言模型，此時(shí)成功率為 92.8%，另一種是將歷史信息注入到?jīng)Q策模塊中，此時(shí)成功率提升到 94.4%。這一結(jié)果說(shuō)明，將歷史信息直接加入視覺(jué)語(yǔ)言模型會(huì)影響其原有的視覺(jué)與語(yǔ)言理解過(guò)程，而在決策階段引入歷史信息能夠更有效地發(fā)揮其作用。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

從「看到就做」到「邊想邊做」

這項(xiàng)研究首先解決了一個(gè)核心問(wèn)題，即傳統(tǒng)模型在決策過(guò)程中往往只依賴(lài)當(dāng)前觀(guān)測(cè)而忽略時(shí)間信息，從而導(dǎo)致動(dòng)作不連貫以及在長(zhǎng)序列任務(wù)中容易失敗。研究人員指出，問(wèn)題的根本不在于視覺(jué)能力不足，而在于缺乏對(duì)時(shí)間的建模能力。

基于這一認(rèn)識(shí)，研究提出了一個(gè)重要發(fā)現(xiàn)，即運(yùn)動(dòng)信息比圖像更適合用于表示時(shí)間變化，這是因?yàn)閳D像中包含大量靜態(tài)信息，而運(yùn)動(dòng)信息只保留了真正發(fā)生變化的部分，因此更加高效且更具表達(dá)力。

這一發(fā)現(xiàn)對(duì)機(jī)器人研究帶來(lái)了直接影響，使原本從感知到動(dòng)作的單向過(guò)程轉(zhuǎn)變?yōu)橥瑫r(shí)考慮過(guò)去、現(xiàn)在與未來(lái)的決策過(guò)程，即從簡(jiǎn)單的感知到動(dòng)作轉(zhuǎn)變?yōu)榛谶^(guò)去、當(dāng)前狀態(tài)以及未來(lái)預(yù)測(cè)共同驅(qū)動(dòng)的行動(dòng)決策。

在工程價(jià)值方面，實(shí)驗(yàn)結(jié)果表明這個(gè)方法不僅在性能上取得了顯著提升，例如成功率最高達(dá)到 96.4%，同時(shí)在計(jì)算效率上也具有優(yōu)勢(shì)，避免了傳統(tǒng)方法中可能出現(xiàn)的三倍計(jì)算開(kāi)銷(xiāo)問(wèn)題。

此外，這個(gè)方法在不同環(huán)境下表現(xiàn)出更強(qiáng)的泛化能力，并且在真實(shí)機(jī)器人實(shí)驗(yàn)中同樣有效，說(shuō)明其具有較強(qiáng)的實(shí)際應(yīng)用潛力。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

進(jìn)一步來(lái)看，這項(xiàng)研究還推動(dòng)了一種新的智能范式，從“看到就做”的視覺(jué)語(yǔ)言行動(dòng)模型到“邊想邊做”的世界行動(dòng)模型， HiF-VLA 改變的不僅是模型的結(jié)構(gòu)設(shè)計(jì)，更是在重新定義機(jī)器人應(yīng)當(dāng)具備的能力邊界。

過(guò)去的系統(tǒng)更像是被動(dòng)反應(yīng)的執(zhí)行者，只對(duì)當(dāng)前輸入做出即時(shí)回應(yīng)；而在這種新的范式下，機(jī)器人開(kāi)始具備連續(xù)決策的能力，能夠在行動(dòng)中記住剛剛發(fā)生了什么，判斷當(dāng)前處于什么階段，并預(yù)判接下來(lái)應(yīng)該做什么。

這種變化的意義在于，機(jī)器人不再只是完成單步動(dòng)作，而是能夠理解一整段過(guò)程，并在過(guò)程中不斷調(diào)整自己的行為。這也意味著，具身智能的發(fā)展正在從“感知驅(qū)動(dòng)的反應(yīng)系統(tǒng)”，走向“時(shí)間驅(qū)動(dòng)的推理系統(tǒng)”。

當(dāng)模型真正具備這種能力時(shí)，機(jī)器人才能在復(fù)雜、動(dòng)態(tài)的真實(shí)環(huán)境中穩(wěn)定工作，而不僅僅是在受控場(chǎng)景中完成預(yù)設(shè)任務(wù)。

HiF-VLA 背后的科研力量

論文的通訊作者王東林，現(xiàn)任西湖大學(xué)人工智能系副主任，是機(jī)器智能實(shí)驗(yàn)室（MiLAB）的創(chuàng)始人和負(fù)責(zé)人，同時(shí)也是西湖機(jī)器人科技（杭州）有限公司的創(chuàng)始人。

他本科和碩士畢業(yè)于西安交通大學(xué)電子信息工程專(zhuān)業(yè)，隨后在加拿大卡爾加里大學(xué)獲得電子與計(jì)算機(jī)工程博士學(xué)位，并在加拿大從事博士后研究工作。

之后他在美國(guó)紐約理工學(xué)院任教并晉升為副教授，2017 年回國(guó)加入西湖大學(xué)，成為工學(xué)院首批全職教師之一，并創(chuàng)建了機(jī)器智能實(shí)驗(yàn)室。同時(shí)，他還擔(dān)任國(guó)家科技創(chuàng)新 2030 重大項(xiàng)目首席科學(xué)家，并入選國(guó)家人社部高層次人才計(jì)劃，在國(guó)家級(jí)科研項(xiàng)目中承擔(dān)重要角色。

在研究方向上，他長(zhǎng)期致力于機(jī)器人學(xué)習(xí)與智能決策領(lǐng)域，重點(diǎn)關(guān)注強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)以及機(jī)器人行為智能，目標(biāo)是讓機(jī)器人具備自主學(xué)習(xí)、快速適應(yīng)新環(huán)境并完成復(fù)雜任務(wù)的能力。其研究不僅關(guān)注感知層面的理解，更強(qiáng)調(diào)從感知到?jīng)Q策再到行動(dòng)的完整閉環(huán)，尤其是在長(zhǎng)序列任務(wù)和真實(shí)環(huán)境中的穩(wěn)定執(zhí)行能力。

在學(xué)術(shù)成果方面，他已發(fā)表一百余篇論文，活躍于機(jī)器人學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等前沿領(lǐng)域，并參與國(guó)際學(xué)術(shù)社區(qū)建設(shè)。他的團(tuán)隊(duì)是國(guó)內(nèi)最早專(zhuān)注于機(jī)器人學(xué)習(xí)的團(tuán)隊(duì)之一，提出國(guó)際第一個(gè)四足機(jī)器人VLA大模型、人形機(jī)器人VLA大模型、獎(jiǎng)勵(lì)無(wú)關(guān)人類(lèi)反饋強(qiáng)化學(xué)習(xí)。他近期合作的AAAI 2026 論文斬獲最佳論文獎(jiǎng)，同時(shí)帶領(lǐng)研發(fā)的通用行為專(zhuān)家大模型 GAE 也達(dá)到人形機(jī)器人運(yùn)動(dòng)的國(guó)際領(lǐng)先水準(zhǔn)。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026

參考地址：https://milab.westlake.edu.cn/

另一位通訊作者黃思騰，現(xiàn)任阿里巴巴達(dá)摩院算法專(zhuān)家，博士畢業(yè)于浙江大學(xué)與西湖大學(xué)聯(lián)合培養(yǎng)項(xiàng)目，在機(jī)器智能實(shí)驗(yàn)室完成博士研究，并由王東林教授指導(dǎo)。

在此之前，他于武漢大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)獲得本科學(xué)位。在博士期間，他還在阿里巴巴通義實(shí)驗(yàn)室與達(dá)摩院進(jìn)行長(zhǎng)期研究實(shí)習(xí)，隨后進(jìn)入達(dá)摩院從事算法研究工作，整體經(jīng)歷貫穿學(xué)術(shù)研究與工業(yè)界實(shí)踐。

在研究方向上，他主要聚焦于具身智能、多模態(tài)大模型以及高效人工智能，核心關(guān)注如何讓模型同時(shí)理解圖像、視頻、語(yǔ)言以及物理世界中的動(dòng)態(tài)信息，并在真實(shí)環(huán)境中進(jìn)行感知、推理與生成。他的研究不僅涉及多模態(tài)理解與生成，還強(qiáng)調(diào)模型在數(shù)據(jù)、計(jì)算和存儲(chǔ)等方面的效率優(yōu)化，致力于構(gòu)建能夠在現(xiàn)實(shí)世界中高效運(yùn)行的統(tǒng)一智能系統(tǒng)。

在學(xué)術(shù)成果方面，他已在相關(guān)領(lǐng)域發(fā)表三十余篇論文，涵蓋計(jì)算機(jī)視覺(jué)、多模態(tài)學(xué)習(xí)與機(jī)器人方向，并活躍于頂級(jí)國(guó)際會(huì)議和期刊。同時(shí)，他參與多個(gè)具身智能與多模態(tài)模型方向的研究工作，包括視覺(jué)語(yǔ)言行動(dòng)模型及統(tǒng)一世界模型等，代表性工作涉及 HiF-VLA、RynnVLA 系列以及 WorldVLA 等框架，推動(dòng)了機(jī)器人在長(zhǎng)序列任務(wù)與真實(shí)環(huán)境中的能力提升。

西湖大學(xué)王東林團(tuán)隊(duì)論文：機(jī)器人需要“通古今，知未來(lái)”丨CVPR 2026