0
| 本文作者: 鄭佳美 | 2026-03-30 14:53 |
過去兩年,視頻生成模型的發展呈現出一個非常明顯的趨勢:視覺質量在快速逼近真實世界。從最初的模糊片段,到如今可以生成具有復雜場景、多主體交互甚至長時序敘事的視頻,模型在紋理、光影和語義一致性方面已經取得了長足進步。一些系統甚至被稱為通用世界模型的雛形,試圖通過數據驅動的方式重建現實世界的運行規律。
但隨著分辨率和時長的提升,一個更深層的問題開始暴露出來:模型在視覺上越來越真實,卻在物理上仍然不可信。也就是說,模型擅長生成看起來像真實世界的畫面,卻并不真正理解現實世界是如何運作的。這種差距在動態場景中尤為明顯。當場景涉及接觸、受力、流動或能量傳遞時,模型往往無法維持一致的物理邏輯。
例如,在一些生成視頻中,可以觀察到物體在移動過程中缺乏連續的動力來源,運動像被“直接插值”出來;兩個物體發生交互時,接觸關系模糊甚至消失,表現為輕微重疊或延遲響應;再比如布料、煙霧或水流的變化往往只遵循外觀模式,而不是環境約束,導致整體行為缺乏穩定性。
這些問題的本質并不是數據不足,而是模型缺少對物理因果關系和空間約束的建模能力。如何讓視頻生成模型從“視覺擬合”走向“物理一致”,成為當前領域中的關鍵問題之一。
在這樣的背景下,中山大學梁小丹團隊提出了《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》,嘗試系統性地解決這一問題。
與以往方法不同,這項研究不再依賴單一層面的物理提示,而是通過分層建模和逐步對齊的方式,將物理信息從全局語義逐漸細化到局部空間,使模型能夠在不同區域響應不同的物理規律。
更重要的是,研究團隊引入視覺語言模型作為中介,將其在空間理解上的優勢轉化為生成模型的監督信號,從而彌補生成模型在物理定位能力上的不足。這種設計使模型不僅能夠判斷發生了什么,還能夠理解發生在什么位置,并在時間上保持一致的物理行為。
從更宏觀的角度來看,這項工作所指向的并不僅僅是視頻生成質量的提升,而是一個更深層的轉變:生成模型正在從再現視覺現象,逐步邁向對世界運行機制的近似建模。
這一轉變對于未來的智能系統具有基礎性意義,因為只有當模型能夠在動態過程中遵循基本規律時,才有可能被用于更復雜的任務,例如交互式環境構建、真實場景仿真以及決策系統訓練。

論文地址:https://arxiv.org/pdf/2512.05564
整體來看,研究結果主要圍繞一個核心目標展開,也就是讓生成的視頻不僅看起來真實,而且能夠符合物理規律。研究團隊并不是用普通的視頻生成評測方式,而是專門采用了一個面向物理合理性的評測體系 VideoPhy2。
在這個評測中,輸入是一段文本描述,例如“球撞擊地面揚起灰塵”,模型需要根據文本生成視頻,然后由評測系統判斷兩個問題:第一,生成的視頻是否符合物理常識;第二,視頻內容是否符合文本描述。
在這一評測體系中,有三個非常關鍵的指標。第一個是 PC,也就是 Physical Commonsense,用來衡量視頻是否違反基本物理規律,比如重力、流體運動或者碰撞行為。第二個是 SA,也就是 Semantic Adherence,用來判斷視頻是否正確完成了文本描述中的語義任務,例如是否真的發生了“倒水”這一行為。第三個是 Joint,表示同時滿足 PC 和 SA,也就是既符合物理,又符合語義,這是評估模型生成的視頻是否符合物理現象的綜合指標。
在具體實驗結果方面,研究人員首先在 Wan2.1(1.3B)模型上進行了對比。原始模型的 PC 為 57.8,SA 為 30.0,Joint 為 24.8;加入 ProPhy 之后,PC 提升到 65.0,SA 提升到 32.0,Joint 提升到 26.5。可以看到,PC 提升了 7.2,這是最顯著的變化,說明模型明顯減少了違反物理規律的情況,例如更少出現水向上流動或者物體發生穿透的現象。
相比之下,SA 只提升了 2,這說明 ProPhy 的主要作用并不在于提升對文本的理解能力,而是在于增強物理正確性。Joint 只提升了 1.7,原因在于 Joint 必須同時滿足 PC 和 SA,而 SA 本身數值較低,限制了整體提升空間。
在更強的模型 CogVideoX 上,結果同樣顯著。原始模型的 Joint 約為 22.3,加入 ProPhy 后提升到約 26.7,提升幅度約為 4.4。這個結果不僅超過了 WISA,也超過了 VideoREPA,說明這種方法能夠同時提升參數量不同的視頻生成模型的物理生成能力。

為了進一步驗證方法在復雜場景中的表現,研究人員還在 HARD 子集上進行了測試。這一子集包含多物體交互、高速運動以及復雜物理過程等更具挑戰性的情況。在 Wan2.1 上,Joint 從 5.6 提升到 7.2;在 CogVideoX 上,Joint 從 5.0 提升到 6.1。雖然這些數值整體較低,但由于任務本身難度極高,這種提升具有重要意義,說明 ProPhy 在真正需要物理推理的場景中更有效。

除了物理合理性,研究人員還使用VBench 評測體系評估了生成視頻的質量。結果顯示,動態程度從 46.8 提升到 72,總體質量評分從 76.8 提升到 81。這一現象說明物理建模在提升視頻動態表現的同時,略微提升了視頻的質量。深層原因在于,動態如果不符合物理規律,會直接導致視覺不自然,例如水流錯誤會顯得不真實,碰撞錯誤會讓動作顯得不連貫。

在定性結果方面,研究通過多個案例展示模型行為的變化。在揚塵場景中,傳統模型會在球還未落地時就產生灰塵,而 ProPhy 只有在接觸地面之后才產生揚塵,這表明模型學會了“接觸導致結果”的因果關系。
在碰撞場景中,傳統模型可能出現球體穿透或靜止不動,而 ProPhy 能夠表現出動量傳遞,小球在被撞擊后開始運動,說明模型隱式地學習到了動量守恒。在流體場景中,傳統模型可能生成違反約束的水流,而 ProPhy 的流動表現更加合理。
綜合來看,這些結果說明模型不再只是依賴圖像模式進行生成,而是開始遵循一定的物理規則,表現出對物理因果關系的理解能力。雷峰網(公眾號:雷峰網)
實驗經過可以理解為一個從文本到物理再到視頻逐步細化的過程。模型首先接收文本 prompt 作為輸入,隨后依次經歷三個關鍵步驟:提取物理信息,將這些物理信息注入到視頻生成過程中,并在生成過程中逐層進行細化,使物理規律逐漸融入到視頻內容中。
在第一階段,研究團隊設計了語義級物理模塊 SEB,其核心作用是從文本中提取視頻涉及的物理現象,也就是判斷“這個視頻涉及哪些物理過程”。在內部結構上,這一模塊包含 32 個物理專家,每個專家對應一種不同的物理模式,例如燃燒、流體或碰撞等。
SEB 中還存在一個路由器,用于為每個特定領域的隱式物理專家分配權重。通過這種方式,模型可以得到一個加權組合的結果,也就是一個“混合的物理先驗”。從本質上看,SEB 可以理解為一個物理分類器與權重分配器的結合體,它負責在全局層面確定視頻的物理屬性。

在第二階段,研究人員引入了細粒度模塊 REB,用于進行 token 級別的物理建模。引入這一層的原因在于,同一個視頻中往往存在多個不同的物理現象,例如火焰可能出現在畫面左側,而水流可能出現在右側,因此需要對空間進行區分。REB的具體作用是針對每一個 token 判斷其對應的物理現象。
在實現上,與 SEB 不同的是,每個 token 會從中選擇 top-k 個專家進行計算,從而得到更精細的物理表達。最終輸出的是一個空間上的物理分布圖,也就是每個位置對應哪種物理現象。從本質上看,REB可以理解為一個基于VLM的物理分割器,使模型能夠在空間上區分不同物理過程。

在整個方法中,最關鍵的一部分是引入了 VLM 監督機制。研究人員發現,視頻生成模型在識別“物理現象發生在哪里”這一問題上能力較弱,而視覺語言模型在這一任務上表現更強。因此,研究團隊利用 VLM 來為模型提供監督信號。
具體流程分為多個步驟:首先向 VLM 提問“視頻中的燃燒在哪里”,然后得到文本 token 以及與之對應的視覺 token;接著通過計算注意力得到燃燒區域;隨后再詢問“背景是什么”,得到背景區域;最后將兩者相減,從而得到純粹的物理區域。
通過這一過程,可以得到一個矩陣,其中每個 token 對應某種物理現象的概率分布。這個結果被用來訓練 REB,使其逐漸學會識別物理現象在空間中的分布位置,也就是學會“物理在哪里”。

在訓練過程中,研究團隊設計了三個目標函數來約束模型行為。第一個是 Lcoarse,對應語義級對齊,其目標是讓屬于同一物理類別的樣本具有相似表示,而不同類別之間能夠被區分開。第二個是 Lfine-align,對應空間級對齊,其目標是讓模型在 token 層面的預測盡可能接近 VLM 提供的標注。第三個是 Lfine-balance,其目標是保證所有專家都能被有效使用,避免只有少數專家被頻繁激活。三者的權重分別設置為 0.1、0.02 和 0.01,從而在訓練中形成平衡。雷峰網

為了驗證這些設計的必要性,研究人員進行了消融實驗。結果表明,如果去掉 REB,模型將失去空間層面的物理建模能力;如果去掉 SEB,模型的物理分類能力會明顯下降;如果去掉對齊機制,模型訓練會變得不穩定。綜合來看,這三個部分是相互遞進的,缺少任何一部分都會導致性能下降。
最后,研究團隊還分析了不同專家所學習到的物理知識之間的關系。通過計算專家之間的相關性發現,與燃燒相關的專家和爆炸相關的專家之間具有較高相關性,而爆炸與折射之間的相關性較低。
這一現象說明模型不僅學會了單一的物理現象,還捕捉到了不同物理過程之間的結構關系,從而形成了一種更加系統化的物理知識表示。

整體來看,這項研究實驗意義不僅體現在方法層面的改進,還反映了視頻生成技術發展方向的一次重要轉變。
以往的視頻生成模型主要依賴數據中出現頻率較高的視覺模式進行學習,本質上是在回答畫面長什么樣,而不是解釋為什么會出現這樣的變化。這種方式雖然可以生成外觀逼真的視頻,但缺乏對物理規律和因果關系的理解,因此經常出現看似合理卻違背現實規律的現象。
圍繞這一問題,研究團隊提出了幾個關鍵突破。首先,將物理從隱式的統計規律轉變為顯式的知識結構,通過引入物理專家,使模型能夠區分不同類型的物理過程,例如燃燒、流體和碰撞,從而避免將所有現象混合在一起進行學習。
其次,將物理建模從整體層面推進到空間層面,使模型能夠在同一視頻中區分不同區域的物理現象,例如某一位置發生燃燒,而另一位置存在流體運動,這種空間區分能力顯著提高了生成結果的合理性。
再次,引入視覺語言模型作為教師角色,利用其更強的理解能力為生成模型提供物理定位信息,使模型不僅知道發生了什么,還能夠知道發生在什么位置,這種方式形成了一種新的訓練思路,也就是用理解能力更強的模型去指導生成模型學習更復雜的結構。
從更深層的角度來看,這項研究推動人工智能從單純的視覺生成向世界模擬邁進。隨著物理建模能力的加入,模型開始具備一定程度的因果理解能力,能夠在生成過程中遵循基本約束并體現出規律性。這種能力對于未來技術的發展具有重要意義,例如在機器人訓練中,可以通過生成更符合物理規律的環境來提高學習效果,在自動駕駛領域,可以更真實地模擬復雜交通場景,在仿真系統中,可以用于構建更加可靠的虛擬測試環境。
從普通人的角度來看,這項研究的影響也會逐漸顯現。在內容創作方面,視頻生成工具將不再只是生成好看的畫面,而是能夠生成更加真實、更加自然的動態內容,減少違和感,從而提升影視制作、短視頻創作和游戲開發的效率與質量。
在教育領域,可以利用這種技術生成更直觀的物理演示,幫助理解復雜的現象,例如碰撞過程或流體變化。在日常應用中,更真實的虛擬場景也意味著更可靠的數字孿生環境,例如用于訓練或模擬現實任務。
與此同時,研究人員也指出了當前方法的局限性。一方面,物理監督依賴視覺語言模型的標注,而這種標注不可避免地存在噪聲,可能影響學習效果;另一方面,模型目前主要學習的是物理現象的表層模式,而不是基于嚴格方程的物理機制,因此仍然屬于近似模擬。
基于這些問題,未來的研究方向包括引入更加嚴格的物理方程以及構建更強的因果建模能力,使模型能夠從經驗式學習進一步走向更加可靠的物理推理,從而提升對真實世界的理解與模擬水平。
王子俊,中山大學智能工程學院 2025 級博士研究生,本科畢業于中山大學智能工程學院,師從梁小丹教授。他的研究方向是視頻生成和世界模型。

胡攀文,現在是穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺系博士后,主要研究方向為個性化和視頻生成,世界模型。分別于 2023 年和 2018 年從香港中文大學(深圳)和中國科學技術大學獲得博士和碩士學位。

黎漢匯, 分別于 2012 年和 2018 年獲得中山大學計算機科學與技術學士學位和計算機軟件與理論博士學位。他目前是中山大學深圳校區的特聘研究員。此前,他于 2019 年至 2021 年在新加坡南洋理工大學擔任研究員。他的研究方向包括視覺媒體分析與推理。

梁小丹是中山大學深圳校區的教授,同時也是穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺系的副教授。她曾是卡內基梅隆大學的項目科學家,與邢教授合作。
她在視覺語言理解與生成及其在具身人工智能中的應用方面發表了 120 余篇前沿論文,這些論文發表于該領域最負盛名的期刊和會議,谷歌引用量超過 30000 次。
她定期擔任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會議的領域主席,并擔任 CVPR 2021 的教程主席、 CVPR 2023 的評審主席。她曾榮獲ACM中國最佳博士論文獎、CCF 最佳博士論文獎以及阿里巴巴達摩院青年學者獎。她的研究成果已被應用于多家知名人工智能公司(如 Deepseek、聯想、字節跳動和騰訊)的關鍵產品中。

雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。