中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

本文作者：鄭佳美

2026-03-30 14:36

導(dǎo)語：基于事件鏈與關(guān)鍵幀機(jī)制，提升時(shí)序與因果一致性。

想象這樣一些常見卻又微妙的場景：一勺蜂蜜緩慢倒入熱茶，本應(yīng)拉出細(xì)長連續(xù)的絲狀流動(dòng)，但很多生成視頻卻會(huì)突然斷裂甚至憑空消失；一塊冰在室溫下逐漸融化，真實(shí)過程應(yīng)該是邊緣先軟化、體積變化、最終消散，而生成結(jié)果卻常常直接從完整變成消失；一個(gè)玻璃球落入水中，本應(yīng)經(jīng)歷接觸水面、減速下沉、逐漸穩(wěn)定的過程，但模型卻可能只給出一個(gè)結(jié)果畫面。

這些現(xiàn)象并不罕見，也正是當(dāng)前視頻生成技術(shù)最容易讓人出戲的地方。畫面看起來像，但過程不對，缺乏因果關(guān)系，也缺乏真實(shí)世界中那種連續(xù)演化的邏輯。

隨著視頻生成模型的發(fā)展，從 OpenAI Sora 到 Kling 等系統(tǒng)不斷刷新視覺質(zhì)量的上限，行業(yè)已經(jīng)基本解決了清晰度和風(fēng)格的問題，卻逐漸暴露出更深層的瓶頸，即模型缺乏對物理規(guī)律的理解能力。

現(xiàn)有方法更多依賴數(shù)據(jù)驅(qū)動(dòng)的模式匹配，本質(zhì)上是在生成看起來合理的結(jié)果，而不是在模擬真實(shí)發(fā)生的過程，這也導(dǎo)致在流體、熱變化以及多物體交互等場景中表現(xiàn)明顯不足。

在這樣的背景下，來自四川大學(xué)的雷印杰團(tuán)隊(duì)提出了一項(xiàng)新的研究工作《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》。這項(xiàng)研究不再直接從文本生成視頻，而是嘗試讓模型先理解物理過程本身，將復(fù)雜現(xiàn)象拆分為一系列具有因果關(guān)系的事件，并結(jié)合物理規(guī)律進(jìn)行約束，再逐步生成視頻內(nèi)容。

通過這種方式，目標(biāo)不再只是讓畫面看起來真實(shí)，而是讓變化過程本身也符合現(xiàn)實(shí)世界的運(yùn)行邏輯，從而在更深層次上提升視頻生成的可信度和一致性。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

論文地址：https://arxiv.org/pdf/2603.09094

更加符合「真實(shí)世界」的方式

在實(shí)驗(yàn)結(jié)果方面，研究團(tuán)隊(duì)首先在 PhyGenBench 數(shù)據(jù)集上進(jìn)行了系統(tǒng)評估。這個(gè)數(shù)據(jù)集包含 160 條物理描述，覆蓋力學(xué)、光學(xué)、熱學(xué)和材料四類典型物理場景。

整體性能上，研究方法取得了 0.66 的得分，而此前最優(yōu)方法 PhysHPO 為 0.61，實(shí)現(xiàn)了 0.05 的絕對提升，對應(yīng)約 8.19% 的相對提升。同時(shí)，與基礎(chǔ)視頻生成模型相比優(yōu)勢更加明顯，例如 Kling 為 0.49，Gen-3 為 0.51，CogVideoX 為 0.45，而研究方法達(dá)到 0.66，相當(dāng)于提升約 0.15 到 0.21，整體相對提升超過 30%，說明性能提升幅度非常顯著。

在分領(lǐng)域結(jié)果上，研究方法在四個(gè)方向分別取得了不同成績。力學(xué)方向?yàn)?0.67，相比此前約 0.55 提升了 0.12；光學(xué)方向?yàn)?0.72，相比 0.68 提升了 0.04，熱學(xué)方向?yàn)?0.65，相比 0.58 提升了 0.07；材料方向?yàn)?0.60，雖然低于最高值 0.65，但仍保持接近水平。從整體來看，在四個(gè)物理領(lǐng)域中有三個(gè)取得第一，綜合表現(xiàn)最強(qiáng)。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

進(jìn)一步的細(xì)粒度分析中，研究團(tuán)隊(duì)將能力拆分為物理現(xiàn)象識別能力和物理順序正確性兩個(gè)指標(biāo)。在力學(xué)場景中，研究方法的物理現(xiàn)象識別為 0.79，物理順序?yàn)?0.79，而對比方法 DiffPhy 分別為 0.73 和 0.53，順序正確性從 0.53 提升到 0.79，提升幅度達(dá)到 0.26。

在光學(xué)場景中，研究方法分別為 0.84 和 0.85，對比方法為 0.83 和 0.66，順序提升為 0.19。在熱學(xué)場景中，研究方法為 0.78 和 0.69，對比方法為 0.70 和 0.58，順序提升為 0.11?？梢钥闯觯铒@著的提升集中在物理過程順序這一指標(biāo)上，說明模型在時(shí)間順序和因果邏輯方面的能力得到明顯增強(qiáng)。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

在 VideoPhy 數(shù)據(jù)集上，研究方法同樣表現(xiàn)出良好的泛化能力。這個(gè)數(shù)據(jù)集包含 688 條更貼近真實(shí)應(yīng)用的提示，涵蓋固體與固體、固體與液體以及液體與液體之間的復(fù)雜交互。評價(jià)指標(biāo)為同時(shí)滿足語義一致性和物理合理性的比例，即語義正確且物理正確。

研究方法取得 49.3% 的結(jié)果，而此前最優(yōu)方法約為 45.9%，提升 3.4%。與基礎(chǔ)模型相比，CogVideoX 為 39.6%，研究方法提升了 9.7%。在不同交互類型中，提升最明顯的是流體相關(guān)場景，例如液體流動(dòng)、蜂蜜倒入等連續(xù)變化過程，整體提升超過 10%，說明在處理連續(xù)物理動(dòng)態(tài)方面具有明顯優(yōu)勢。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

為了進(jìn)一步驗(yàn)證方法的有效性，研究團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)。在去掉物理公式模塊后，性能從 0.66 下降到 0.62，下降 0.04，約 6%。去掉事件分解模塊后，結(jié)果降至 0.59，下降 0.07，約 11%。去掉文本漸進(jìn)生成模塊后，結(jié)果為 0.64，下降 0.02，約 3%。而去掉關(guān)鍵幀生成模塊后，性能降至 0.55，下降 0.11，約 17%，是影響最大的部分。這說明事件鏈結(jié)構(gòu)和關(guān)鍵幀機(jī)制在整個(gè)方法中起到最核心作用。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

此外，研究團(tuán)隊(duì)還分析了事件數(shù)量對性能的影響。當(dāng)事件數(shù)量為 1 到 3 時(shí)，由于信息不足，性能下降；當(dāng)事件數(shù)量為 4 時(shí)，性能達(dá)到最佳；當(dāng)增加到 5 到 6 時(shí)，由于誤差在關(guān)鍵幀和推理過程中逐步累積，性能反而下降。這說明事件數(shù)量存在一個(gè)最優(yōu)范圍，過少無法表達(dá)完整過程，過多會(huì)引入不穩(wěn)定性。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

從一句話，到一整個(gè)物理過程

為了得到滿意的實(shí)驗(yàn)結(jié)果，研究團(tuán)隊(duì)首先進(jìn)行了統(tǒng)一的實(shí)驗(yàn)設(shè)置。視頻生成模型采用 CogVideoX-5B，生成視頻的分辨率為 1360×768，每個(gè)視頻包含 161 幀。在語言推理部分，使用的模型為 GPT-OSS-20B，在圖像編輯階段使用 Qwen-Image 模型，用于生成關(guān)鍵幀并引導(dǎo)后續(xù)視頻生成過程。

在具體流程上，整個(gè)過程按照多個(gè)步驟逐步進(jìn)行。首先輸入文本描述，例如“蜂蜜倒入杯中”。隨后模型對文本進(jìn)行理解，自動(dòng)識別其中涉及的物理規(guī)律，例如判斷屬于流體力學(xué)范疇，并識別出包含體積變化和連續(xù)流動(dòng)等特征。在完成物理規(guī)律識別之后，系統(tǒng)會(huì)從知識庫中檢索與這一過程相對應(yīng)的物理公式，用于后續(xù)推理和約束。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

在此基礎(chǔ)上，研究團(tuán)隊(duì)構(gòu)建事件鏈結(jié)構(gòu)，即通過 PECR 模塊將完整物理過程拆分為多個(gè)連續(xù)事件。例如將“蜂蜜倒入杯中”這一過程分解為開始倒入、接觸杯子、液體逐漸堆積以及液面上升等階段。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

每一個(gè)事件不僅包含對應(yīng)的語義描述，還包含物理參數(shù)信息，例如高度和體積變化，同時(shí)還包括場景關(guān)系信息，例如不同物體之間的上下關(guān)系。通過這種方式，將原本連續(xù)的物理過程轉(zhuǎn)化為離散的事件序列，從而為后續(xù)建模提供清晰的結(jié)構(gòu)。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

接下來進(jìn)入語義提示生成階段。模型會(huì)為每一個(gè)事件生成對應(yīng)的描述語句，然后再將這些描述整合為一個(gè)完整的句子，通常采用“首先、然后、最后”等表達(dá)形式，從而形成具有因果邏輯的整體語義提示，保證事件之間的順序關(guān)系清晰一致。

隨后進(jìn)行視覺提示生成，即關(guān)鍵幀生成階段。針對每一個(gè)事件生成一張對應(yīng)圖像，并通過圖像編輯方式逐步對畫面進(jìn)行修改，同時(shí)控制變化幅度，例如液體高度的增加量。這種方式能夠避免完全隨機(jī)生成，使視覺變化更加穩(wěn)定且符合物理過程。

在關(guān)鍵幀生成完成之后，系統(tǒng)會(huì)在相鄰關(guān)鍵幀之間插入中間幀，通過插值方式構(gòu)建連續(xù)過渡，再將這些信息輸入擴(kuò)散模型，最終生成完整視頻。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

在對比實(shí)驗(yàn)部分，研究團(tuán)隊(duì)采用統(tǒng)一設(shè)置進(jìn)行評估，包括使用相同的文本輸入、相同的數(shù)據(jù)集以及相同的評價(jià)指標(biāo)。在此基礎(chǔ)上，將研究方法與不同類型模型進(jìn)行對比，包括普通視頻生成模型如 Kling 和 Gen-3，以及物理增強(qiáng)模型如 DiffPhy 和 PhysHPO，從而保證實(shí)驗(yàn)結(jié)果具有公平性和可比性。

從生成畫面，到模擬現(xiàn)實(shí)

這項(xiàng)研究的意義，其實(shí)可以從一個(gè)很直觀的變化來理解。以往的視頻生成更像是在“拼畫面”，模型只需要讓結(jié)果看起來像真實(shí)世界即可，但一旦仔細(xì)觀察過程，就會(huì)發(fā)現(xiàn)很多不合理之處。例如液體不會(huì)連續(xù)流動(dòng)，物體運(yùn)動(dòng)缺乏前后關(guān)系，甚至出現(xiàn)違背常識的變化。這些問題本質(zhì)上源于模型缺乏因果關(guān)系、時(shí)間邏輯以及對物理規(guī)律的理解，使得視頻雖然“像”，卻不“真”。

研究團(tuán)隊(duì)在此基礎(chǔ)上帶來的改變，是把視頻生成從簡單的畫面合成，轉(zhuǎn)變?yōu)閷^程本身的建模。原本是從文本直接生成一段圖像序列，現(xiàn)在變成先構(gòu)建一條具有因果關(guān)系的事件鏈，再基于這條事件鏈生成視頻。

這樣的變化意味著模型不再只是輸出結(jié)果，而是開始“經(jīng)歷過程”，在結(jié)構(gòu)上自然引入時(shí)間順序和前后邏輯，使視頻更接近現(xiàn)實(shí)世界的演化方式。雷峰網(wǎng)

這種能力提升的關(guān)鍵在于三個(gè)方面的結(jié)合。首先是物理約束能力，通過引入物理公式，讓生成過程不再隨意變化，而是受到現(xiàn)實(shí)規(guī)律的限制。其次是因果結(jié)構(gòu)建模能力，通過事件鏈明確每一步應(yīng)該如何發(fā)生，保證順序正確。最后是視覺錨點(diǎn)能力，通過關(guān)鍵幀約束中間過程，使畫面變化更加連續(xù)和穩(wěn)定。這三者共同作用，使模型從“生成看起來合理的結(jié)果”，邁向“模擬真實(shí)發(fā)生的過程”。

當(dāng)然，這一變化對普通人的影響其實(shí)非常直接。未來在短視頻創(chuàng)作中，用戶只需要輸入一個(gè)簡單描述，就可以生成更真實(shí)、更連貫的動(dòng)態(tài)內(nèi)容，不再出現(xiàn)違和感；在教育場景中，可以用視頻直觀展示復(fù)雜的物理過程，例如液體流動(dòng)、光線傳播或物體運(yùn)動(dòng)，讓抽象概念變得可視化；在游戲和虛擬世界中，環(huán)境中的變化也會(huì)更加符合現(xiàn)實(shí)規(guī)律，提高沉浸感；甚至在自動(dòng)駕駛和機(jī)器人訓(xùn)練中，這種更真實(shí)的模擬能力也有助于模型更好地理解現(xiàn)實(shí)環(huán)境。

從更長遠(yuǎn)的角度來看，這項(xiàng)研究把視頻生成從視覺任務(wù)提升為物理過程建模問題，為構(gòu)建更接近真實(shí)世界的智能系統(tǒng)提供了基礎(chǔ)。

不過研究團(tuán)隊(duì)也指出，目前方法在面對多個(gè)物理規(guī)律同時(shí)作用的復(fù)雜場景時(shí)仍然存在困難，例如牛頓擺與水爆炸同時(shí)發(fā)生的情況，模型容易失效。這也說明在組合物理推理方面仍有明顯提升空間，也為后續(xù)研究指明了方向。

推動(dòng)生成走向「因果」的他們

這篇論文的通訊作者雷印杰，現(xiàn)為四川大學(xué)教授、博士生導(dǎo)師，同時(shí)入選國家級青年人才項(xiàng)目，長期從事人工智能相關(guān)研究工作。

在個(gè)人經(jīng)歷方面，雷印杰具有系統(tǒng)的學(xué)術(shù)培養(yǎng)背景，分別于 2006 年、2009 年和 2013 年在西南交通大學(xué)、四川大學(xué)和澳大利亞西澳大學(xué)獲得本科、碩士和博士學(xué)位。

2013 年 12 月進(jìn)入四川大學(xué)電子信息學(xué)院，從事教學(xué)與科研工作，隨后在 2017 年 9 月起擔(dān)任四川大學(xué)電子信息學(xué)院副院長。在此過程中，還入選四川省特聘專家、四川省學(xué)術(shù)和技術(shù)帶頭人后備人選，并獲得四川杰出青年科學(xué)基金支持。

在研究方向上，雷印杰主要聚焦人工智能領(lǐng)域相關(guān)問題?？蒲泄ぷ鞣矫?，他長期主持和參與國家級科研項(xiàng)目及企業(yè)合作項(xiàng)目，研究內(nèi)容涵蓋人工智能、計(jì)算機(jī)視覺以及多模態(tài)理解等方向，在學(xué)術(shù)研究與工程應(yīng)用之間形成了較好的結(jié)合。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

參考鏈接：https://eie.scu.edu.cn/info/1044/13503.htm

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章