中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

本文作者：鄭佳美

2026-03-30 14:36

導語：基于事件鏈與關鍵幀機制，提升時序與因果一致性。

想象這樣一些常見卻又微妙的場景：一勺蜂蜜緩慢倒入熱茶，本應拉出細長連續的絲狀流動，但很多生成視頻卻會突然斷裂甚至憑空消失；一塊冰在室溫下逐漸融化，真實過程應該是邊緣先軟化、體積變化、最終消散，而生成結果卻常常直接從完整變成消失；一個玻璃球落入水中，本應經歷接觸水面、減速下沉、逐漸穩定的過程，但模型卻可能只給出一個結果畫面。

這些現象并不罕見，也正是當前視頻生成技術最容易讓人出戲的地方。畫面看起來像，但過程不對，缺乏因果關系，也缺乏真實世界中那種連續演化的邏輯。

隨著視頻生成模型的發展，從 OpenAI Sora 到 Kling 等系統不斷刷新視覺質量的上限，行業已經基本解決了清晰度和風格的問題，卻逐漸暴露出更深層的瓶頸，即模型缺乏對物理規律的理解能力。

現有方法更多依賴數據驅動的模式匹配，本質上是在生成看起來合理的結果，而不是在模擬真實發生的過程，這也導致在流體、熱變化以及多物體交互等場景中表現明顯不足。

在這樣的背景下，來自四川大學的雷印杰團隊提出了一項新的研究工作《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》。這項研究不再直接從文本生成視頻，而是嘗試讓模型先理解物理過程本身，將復雜現象拆分為一系列具有因果關系的事件，并結合物理規律進行約束，再逐步生成視頻內容。

通過這種方式，目標不再只是讓畫面看起來真實，而是讓變化過程本身也符合現實世界的運行邏輯，從而在更深層次上提升視頻生成的可信度和一致性。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

論文地址：https://arxiv.org/pdf/2603.09094

更加符合「真實世界」的方式

在實驗結果方面，研究團隊首先在 PhyGenBench 數據集上進行了系統評估。這個數據集包含 160 條物理描述，覆蓋力學、光學、熱學和材料四類典型物理場景。

整體性能上，研究方法取得了 0.66 的得分，而此前最優方法 PhysHPO 為 0.61，實現了 0.05 的絕對提升，對應約 8.19% 的相對提升。同時，與基礎視頻生成模型相比優勢更加明顯，例如 Kling 為 0.49，Gen-3 為 0.51，CogVideoX 為 0.45，而研究方法達到 0.66，相當于提升約 0.15 到 0.21，整體相對提升超過 30%，說明性能提升幅度非常顯著。

在分領域結果上，研究方法在四個方向分別取得了不同成績。力學方向為 0.67，相比此前約 0.55 提升了 0.12；光學方向為 0.72，相比 0.68 提升了 0.04，熱學方向為 0.65，相比 0.58 提升了 0.07；材料方向為 0.60，雖然低于最高值 0.65，但仍保持接近水平。從整體來看，在四個物理領域中有三個取得第一，綜合表現最強。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

進一步的細粒度分析中，研究團隊將能力拆分為物理現象識別能力和物理順序正確性兩個指標。在力學場景中，研究方法的物理現象識別為 0.79，物理順序為 0.79，而對比方法 DiffPhy 分別為 0.73 和 0.53，順序正確性從 0.53 提升到 0.79，提升幅度達到 0.26。

在光學場景中，研究方法分別為 0.84 和 0.85，對比方法為 0.83 和 0.66，順序提升為 0.19。在熱學場景中，研究方法為 0.78 和 0.69，對比方法為 0.70 和 0.58，順序提升為 0.11。可以看出，最顯著的提升集中在物理過程順序這一指標上，說明模型在時間順序和因果邏輯方面的能力得到明顯增強。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

在 VideoPhy 數據集上，研究方法同樣表現出良好的泛化能力。這個數據集包含 688 條更貼近真實應用的提示，涵蓋固體與固體、固體與液體以及液體與液體之間的復雜交互。評價指標為同時滿足語義一致性和物理合理性的比例，即語義正確且物理正確。

研究方法取得 49.3% 的結果，而此前最優方法約為 45.9%，提升 3.4%。與基礎模型相比，CogVideoX 為 39.6%，研究方法提升了 9.7%。在不同交互類型中，提升最明顯的是流體相關場景，例如液體流動、蜂蜜倒入等連續變化過程，整體提升超過 10%，說明在處理連續物理動態方面具有明顯優勢。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

為了進一步驗證方法的有效性，研究團隊進行了消融實驗。在去掉物理公式模塊后，性能從 0.66 下降到 0.62，下降 0.04，約 6%。去掉事件分解模塊后，結果降至 0.59，下降 0.07，約 11%。去掉文本漸進生成模塊后，結果為 0.64，下降 0.02，約 3%。而去掉關鍵幀生成模塊后，性能降至 0.55，下降 0.11，約 17%，是影響最大的部分。這說明事件鏈結構和關鍵幀機制在整個方法中起到最核心作用。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

此外，研究團隊還分析了事件數量對性能的影響。當事件數量為 1 到 3 時，由于信息不足，性能下降；當事件數量為 4 時，性能達到最佳；當增加到 5 到 6 時，由于誤差在關鍵幀和推理過程中逐步累積，性能反而下降。這說明事件數量存在一個最優范圍，過少無法表達完整過程，過多會引入不穩定性。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

從一句話，到一整個物理過程

為了得到滿意的實驗結果，研究團隊首先進行了統一的實驗設置。視頻生成模型采用 CogVideoX-5B，生成視頻的分辨率為 1360×768，每個視頻包含 161 幀。在語言推理部分，使用的模型為 GPT-OSS-20B，在圖像編輯階段使用 Qwen-Image 模型，用于生成關鍵幀并引導后續視頻生成過程。

在具體流程上，整個過程按照多個步驟逐步進行。首先輸入文本描述，例如“蜂蜜倒入杯中”。隨后模型對文本進行理解，自動識別其中涉及的物理規律，例如判斷屬于流體力學范疇，并識別出包含體積變化和連續流動等特征。在完成物理規律識別之后，系統會從知識庫中檢索與這一過程相對應的物理公式，用于后續推理和約束。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

在此基礎上，研究團隊構建事件鏈結構，即通過 PECR 模塊將完整物理過程拆分為多個連續事件。例如將“蜂蜜倒入杯中”這一過程分解為開始倒入、接觸杯子、液體逐漸堆積以及液面上升等階段。雷峰網

每一個事件不僅包含對應的語義描述，還包含物理參數信息，例如高度和體積變化，同時還包括場景關系信息，例如不同物體之間的上下關系。通過這種方式，將原本連續的物理過程轉化為離散的事件序列，從而為后續建模提供清晰的結構。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

接下來進入語義提示生成階段。模型會為每一個事件生成對應的描述語句，然后再將這些描述整合為一個完整的句子，通常采用“首先、然后、最后”等表達形式，從而形成具有因果邏輯的整體語義提示，保證事件之間的順序關系清晰一致。

隨后進行視覺提示生成，即關鍵幀生成階段。針對每一個事件生成一張對應圖像，并通過圖像編輯方式逐步對畫面進行修改，同時控制變化幅度，例如液體高度的增加量。這種方式能夠避免完全隨機生成，使視覺變化更加穩定且符合物理過程。

在關鍵幀生成完成之后，系統會在相鄰關鍵幀之間插入中間幀，通過插值方式構建連續過渡，再將這些信息輸入擴散模型，最終生成完整視頻。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

在對比實驗部分，研究團隊采用統一設置進行評估，包括使用相同的文本輸入、相同的數據集以及相同的評價指標。在此基礎上，將研究方法與不同類型模型進行對比，包括普通視頻生成模型如 Kling 和 Gen-3，以及物理增強模型如 DiffPhy 和 PhysHPO，從而保證實驗結果具有公平性和可比性。

從生成畫面，到模擬現實

這項研究的意義，其實可以從一個很直觀的變化來理解。以往的視頻生成更像是在“拼畫面”，模型只需要讓結果看起來像真實世界即可，但一旦仔細觀察過程，就會發現很多不合理之處。例如液體不會連續流動，物體運動缺乏前后關系，甚至出現違背常識的變化。這些問題本質上源于模型缺乏因果關系、時間邏輯以及對物理規律的理解，使得視頻雖然“像”，卻不“真”。

研究團隊在此基礎上帶來的改變，是把視頻生成從簡單的畫面合成，轉變為對過程本身的建模。原本是從文本直接生成一段圖像序列，現在變成先構建一條具有因果關系的事件鏈，再基于這條事件鏈生成視頻。

這樣的變化意味著模型不再只是輸出結果，而是開始“經歷過程”，在結構上自然引入時間順序和前后邏輯，使視頻更接近現實世界的演化方式。雷峰網(公眾號：雷峰網)

這種能力提升的關鍵在于三個方面的結合。首先是物理約束能力，通過引入物理公式，讓生成過程不再隨意變化，而是受到現實規律的限制。其次是因果結構建模能力，通過事件鏈明確每一步應該如何發生，保證順序正確。最后是視覺錨點能力，通過關鍵幀約束中間過程，使畫面變化更加連續和穩定。這三者共同作用，使模型從“生成看起來合理的結果”，邁向“模擬真實發生的過程”。

當然，這一變化對普通人的影響其實非常直接。未來在短視頻創作中，用戶只需要輸入一個簡單描述，就可以生成更真實、更連貫的動態內容，不再出現違和感；在教育場景中，可以用視頻直觀展示復雜的物理過程，例如液體流動、光線傳播或物體運動，讓抽象概念變得可視化；在游戲和虛擬世界中，環境中的變化也會更加符合現實規律，提高沉浸感；甚至在自動駕駛和機器人訓練中，這種更真實的模擬能力也有助于模型更好地理解現實環境。

從更長遠的角度來看，這項研究把視頻生成從視覺任務提升為物理過程建模問題，為構建更接近真實世界的智能系統提供了基礎。

不過研究團隊也指出，目前方法在面對多個物理規律同時作用的復雜場景時仍然存在困難，例如牛頓擺與水爆炸同時發生的情況，模型容易失效。這也說明在組合物理推理方面仍有明顯提升空間，也為后續研究指明了方向。

推動生成走向「因果」的他們

這篇論文的通訊作者雷印杰，現為四川大學教授、博士生導師，同時入選國家級青年人才項目，長期從事人工智能相關研究工作。

在個人經歷方面，雷印杰具有系統的學術培養背景，分別于 2006 年、2009 年和 2013 年在西南交通大學、四川大學和澳大利亞西澳大學獲得本科、碩士和博士學位。

2013 年 12 月進入四川大學電子信息學院，從事教學與科研工作，隨后在 2017 年 9 月起擔任四川大學電子信息學院副院長。在此過程中，還入選四川省特聘專家、四川省學術和技術帶頭人后備人選，并獲得四川杰出青年科學基金支持。

在研究方向上，雷印杰主要聚焦人工智能領域相關問題。科研工作方面，他長期主持和參與國家級科研項目及企業合作項目，研究內容涵蓋人工智能、計算機視覺以及多模態理解等方向，在學術研究與工程應用之間形成了較好的結合。

中山大學梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

參考鏈接：https://eie.scu.edu.cn/info/1044/13503.htm

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

鄭佳美

編輯

發私信

當月熱門文章