成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    本文作者: 鄭佳美   2026-03-30 14:36
    導(dǎo)語:基于事件鏈與關(guān)鍵幀機(jī)制,提升時(shí)序與因果一致性。

    想象這樣一些常見卻又微妙的場景:一勺蜂蜜緩慢倒入熱茶,本應(yīng)拉出細(xì)長連續(xù)的絲狀流動(dòng),但很多生成視頻卻會(huì)突然斷裂甚至憑空消失;一塊冰在室溫下逐漸融化,真實(shí)過程應(yīng)該是邊緣先軟化、體積變化、最終消散,而生成結(jié)果卻常常直接從完整變成消失;一個(gè)玻璃球落入水中,本應(yīng)經(jīng)歷接觸水面、減速下沉、逐漸穩(wěn)定的過程,但模型卻可能只給出一個(gè)結(jié)果畫面。

    這些現(xiàn)象并不罕見,也正是當(dāng)前視頻生成技術(shù)最容易讓人出戲的地方。畫面看起來像,但過程不對,缺乏因果關(guān)系,也缺乏真實(shí)世界中那種連續(xù)演化的邏輯。

    隨著視頻生成模型的發(fā)展,從 OpenAI Sora 到 Kling 等系統(tǒng)不斷刷新視覺質(zhì)量的上限,行業(yè)已經(jīng)基本解決了清晰度和風(fēng)格的問題,卻逐漸暴露出更深層的瓶頸,即模型缺乏對物理規(guī)律的理解能力。

    現(xiàn)有方法更多依賴數(shù)據(jù)驅(qū)動(dòng)的模式匹配,本質(zhì)上是在生成看起來合理的結(jié)果,而不是在模擬真實(shí)發(fā)生的過程,這也導(dǎo)致在流體、熱變化以及多物體交互等場景中表現(xiàn)明顯不足。

    在這樣的背景下,來自四川大學(xué)的雷印杰團(tuán)隊(duì)提出了一項(xiàng)新的研究工作《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》。這項(xiàng)研究不再直接從文本生成視頻,而是嘗試讓模型先理解物理過程本身,將復(fù)雜現(xiàn)象拆分為一系列具有因果關(guān)系的事件,并結(jié)合物理規(guī)律進(jìn)行約束,再逐步生成視頻內(nèi)容。

    通過這種方式,目標(biāo)不再只是讓畫面看起來真實(shí),而是讓變化過程本身也符合現(xiàn)實(shí)世界的運(yùn)行邏輯,從而在更深層次上提升視頻生成的可信度和一致性。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    論文地址:https://arxiv.org/pdf/2603.09094

    更加符合「真實(shí)世界」的方式

    在實(shí)驗(yàn)結(jié)果方面,研究團(tuán)隊(duì)首先在 PhyGenBench 數(shù)據(jù)集上進(jìn)行了系統(tǒng)評估。這個(gè)數(shù)據(jù)集包含 160 條物理描述,覆蓋力學(xué)、光學(xué)、熱學(xué)和材料四類典型物理場景。

    整體性能上,研究方法取得了 0.66 的得分,而此前最優(yōu)方法 PhysHPO 為 0.61,實(shí)現(xiàn)了 0.05 的絕對提升,對應(yīng)約 8.19% 的相對提升。同時(shí),與基礎(chǔ)視頻生成模型相比優(yōu)勢更加明顯,例如 Kling 為 0.49,Gen-3 為 0.51,CogVideoX 為 0.45,而研究方法達(dá)到 0.66,相當(dāng)于提升約 0.15 到 0.21,整體相對提升超過 30%,說明性能提升幅度非常顯著。

    在分領(lǐng)域結(jié)果上,研究方法在四個(gè)方向分別取得了不同成績。力學(xué)方向?yàn)?0.67,相比此前約 0.55 提升了 0.12;光學(xué)方向?yàn)?0.72,相比 0.68 提升了 0.04,熱學(xué)方向?yàn)?0.65,相比 0.58 提升了 0.07;材料方向?yàn)?0.60,雖然低于最高值 0.65,但仍保持接近水平。從整體來看,在四個(gè)物理領(lǐng)域中有三個(gè)取得第一,綜合表現(xiàn)最強(qiáng)。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    進(jìn)一步的細(xì)粒度分析中,研究團(tuán)隊(duì)將能力拆分為物理現(xiàn)象識別能力和物理順序正確性兩個(gè)指標(biāo)。在力學(xué)場景中,研究方法的物理現(xiàn)象識別為 0.79,物理順序?yàn)?0.79,而對比方法 DiffPhy 分別為 0.73 和 0.53,順序正確性從 0.53 提升到 0.79,提升幅度達(dá)到 0.26。

    在光學(xué)場景中,研究方法分別為 0.84 和 0.85,對比方法為 0.83 和 0.66,順序提升為 0.19。在熱學(xué)場景中,研究方法為 0.78 和 0.69,對比方法為 0.70 和 0.58,順序提升為 0.11??梢钥闯觯铒@著的提升集中在物理過程順序這一指標(biāo)上,說明模型在時(shí)間順序和因果邏輯方面的能力得到明顯增強(qiáng)。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    在 VideoPhy 數(shù)據(jù)集上,研究方法同樣表現(xiàn)出良好的泛化能力。這個(gè)數(shù)據(jù)集包含 688 條更貼近真實(shí)應(yīng)用的提示,涵蓋固體與固體、固體與液體以及液體與液體之間的復(fù)雜交互。評價(jià)指標(biāo)為同時(shí)滿足語義一致性和物理合理性的比例,即語義正確且物理正確。

    研究方法取得 49.3% 的結(jié)果,而此前最優(yōu)方法約為 45.9%,提升 3.4%。與基礎(chǔ)模型相比,CogVideoX 為 39.6%,研究方法提升了 9.7%。在不同交互類型中,提升最明顯的是流體相關(guān)場景,例如液體流動(dòng)、蜂蜜倒入等連續(xù)變化過程,整體提升超過 10%,說明在處理連續(xù)物理動(dòng)態(tài)方面具有明顯優(yōu)勢。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    為了進(jìn)一步驗(yàn)證方法的有效性,研究團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)。在去掉物理公式模塊后,性能從 0.66 下降到 0.62,下降 0.04,約 6%。去掉事件分解模塊后,結(jié)果降至 0.59,下降 0.07,約 11%。去掉文本漸進(jìn)生成模塊后,結(jié)果為 0.64,下降 0.02,約 3%。而去掉關(guān)鍵幀生成模塊后,性能降至 0.55,下降 0.11,約 17%,是影響最大的部分。這說明事件鏈結(jié)構(gòu)和關(guān)鍵幀機(jī)制在整個(gè)方法中起到最核心作用。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    此外,研究團(tuán)隊(duì)還分析了事件數(shù)量對性能的影響。當(dāng)事件數(shù)量為 1 到 3 時(shí),由于信息不足,性能下降;當(dāng)事件數(shù)量為 4 時(shí),性能達(dá)到最佳;當(dāng)增加到 5 到 6 時(shí),由于誤差在關(guān)鍵幀和推理過程中逐步累積,性能反而下降。這說明事件數(shù)量存在一個(gè)最優(yōu)范圍,過少無法表達(dá)完整過程,過多會(huì)引入不穩(wěn)定性。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    從一句話,到一整個(gè)物理過程

    為了得到滿意的實(shí)驗(yàn)結(jié)果,研究團(tuán)隊(duì)首先進(jìn)行了統(tǒng)一的實(shí)驗(yàn)設(shè)置。視頻生成模型采用 CogVideoX-5B,生成視頻的分辨率為 1360×768,每個(gè)視頻包含 161 幀。在語言推理部分,使用的模型為 GPT-OSS-20B,在圖像編輯階段使用 Qwen-Image 模型,用于生成關(guān)鍵幀并引導(dǎo)后續(xù)視頻生成過程。

    在具體流程上,整個(gè)過程按照多個(gè)步驟逐步進(jìn)行。首先輸入文本描述,例如“蜂蜜倒入杯中”。隨后模型對文本進(jìn)行理解,自動(dòng)識別其中涉及的物理規(guī)律,例如判斷屬于流體力學(xué)范疇,并識別出包含體積變化和連續(xù)流動(dòng)等特征。在完成物理規(guī)律識別之后,系統(tǒng)會(huì)從知識庫中檢索與這一過程相對應(yīng)的物理公式,用于后續(xù)推理和約束。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    在此基礎(chǔ)上,研究團(tuán)隊(duì)構(gòu)建事件鏈結(jié)構(gòu),即通過 PECR 模塊將完整物理過程拆分為多個(gè)連續(xù)事件。例如將“蜂蜜倒入杯中”這一過程分解為開始倒入、接觸杯子、液體逐漸堆積以及液面上升等階段。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

    每一個(gè)事件不僅包含對應(yīng)的語義描述,還包含物理參數(shù)信息,例如高度和體積變化,同時(shí)還包括場景關(guān)系信息,例如不同物體之間的上下關(guān)系。通過這種方式,將原本連續(xù)的物理過程轉(zhuǎn)化為離散的事件序列,從而為后續(xù)建模提供清晰的結(jié)構(gòu)。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    接下來進(jìn)入語義提示生成階段。模型會(huì)為每一個(gè)事件生成對應(yīng)的描述語句,然后再將這些描述整合為一個(gè)完整的句子,通常采用“首先、然后、最后”等表達(dá)形式,從而形成具有因果邏輯的整體語義提示,保證事件之間的順序關(guān)系清晰一致。

    隨后進(jìn)行視覺提示生成,即關(guān)鍵幀生成階段。針對每一個(gè)事件生成一張對應(yīng)圖像,并通過圖像編輯方式逐步對畫面進(jìn)行修改,同時(shí)控制變化幅度,例如液體高度的增加量。這種方式能夠避免完全隨機(jī)生成,使視覺變化更加穩(wěn)定且符合物理過程。

    在關(guān)鍵幀生成完成之后,系統(tǒng)會(huì)在相鄰關(guān)鍵幀之間插入中間幀,通過插值方式構(gòu)建連續(xù)過渡,再將這些信息輸入擴(kuò)散模型,最終生成完整視頻。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    在對比實(shí)驗(yàn)部分,研究團(tuán)隊(duì)采用統(tǒng)一設(shè)置進(jìn)行評估,包括使用相同的文本輸入、相同的數(shù)據(jù)集以及相同的評價(jià)指標(biāo)。在此基礎(chǔ)上,將研究方法與不同類型模型進(jìn)行對比,包括普通視頻生成模型如 Kling 和 Gen-3,以及物理增強(qiáng)模型如 DiffPhy 和 PhysHPO,從而保證實(shí)驗(yàn)結(jié)果具有公平性和可比性。

    從生成畫面,到模擬現(xiàn)實(shí)

    這項(xiàng)研究的意義,其實(shí)可以從一個(gè)很直觀的變化來理解。以往的視頻生成更像是在“拼畫面”,模型只需要讓結(jié)果看起來像真實(shí)世界即可,但一旦仔細(xì)觀察過程,就會(huì)發(fā)現(xiàn)很多不合理之處。例如液體不會(huì)連續(xù)流動(dòng),物體運(yùn)動(dòng)缺乏前后關(guān)系,甚至出現(xiàn)違背常識的變化。這些問題本質(zhì)上源于模型缺乏因果關(guān)系、時(shí)間邏輯以及對物理規(guī)律的理解,使得視頻雖然“像”,卻不“真”。

    研究團(tuán)隊(duì)在此基礎(chǔ)上帶來的改變,是把視頻生成從簡單的畫面合成,轉(zhuǎn)變?yōu)閷^程本身的建模。原本是從文本直接生成一段圖像序列,現(xiàn)在變成先構(gòu)建一條具有因果關(guān)系的事件鏈,再基于這條事件鏈生成視頻。

    這樣的變化意味著模型不再只是輸出結(jié)果,而是開始“經(jīng)歷過程”,在結(jié)構(gòu)上自然引入時(shí)間順序和前后邏輯,使視頻更接近現(xiàn)實(shí)世界的演化方式。雷峰網(wǎng)

    這種能力提升的關(guān)鍵在于三個(gè)方面的結(jié)合。首先是物理約束能力,通過引入物理公式,讓生成過程不再隨意變化,而是受到現(xiàn)實(shí)規(guī)律的限制。其次是因果結(jié)構(gòu)建模能力,通過事件鏈明確每一步應(yīng)該如何發(fā)生,保證順序正確。最后是視覺錨點(diǎn)能力,通過關(guān)鍵幀約束中間過程,使畫面變化更加連續(xù)和穩(wěn)定。這三者共同作用,使模型從“生成看起來合理的結(jié)果”,邁向“模擬真實(shí)發(fā)生的過程”。

    當(dāng)然,這一變化對普通人的影響其實(shí)非常直接。未來在短視頻創(chuàng)作中,用戶只需要輸入一個(gè)簡單描述,就可以生成更真實(shí)、更連貫的動(dòng)態(tài)內(nèi)容,不再出現(xiàn)違和感;在教育場景中,可以用視頻直觀展示復(fù)雜的物理過程,例如液體流動(dòng)、光線傳播或物體運(yùn)動(dòng),讓抽象概念變得可視化;在游戲和虛擬世界中,環(huán)境中的變化也會(huì)更加符合現(xiàn)實(shí)規(guī)律,提高沉浸感;甚至在自動(dòng)駕駛和機(jī)器人訓(xùn)練中,這種更真實(shí)的模擬能力也有助于模型更好地理解現(xiàn)實(shí)環(huán)境。

    從更長遠(yuǎn)的角度來看,這項(xiàng)研究把視頻生成從視覺任務(wù)提升為物理過程建模問題,為構(gòu)建更接近真實(shí)世界的智能系統(tǒng)提供了基礎(chǔ)。

    不過研究團(tuán)隊(duì)也指出,目前方法在面對多個(gè)物理規(guī)律同時(shí)作用的復(fù)雜場景時(shí)仍然存在困難,例如牛頓擺與水爆炸同時(shí)發(fā)生的情況,模型容易失效。這也說明在組合物理推理方面仍有明顯提升空間,也為后續(xù)研究指明了方向。

    推動(dòng)生成走向「因果」的他們

    這篇論文的通訊作者雷印杰,現(xiàn)為四川大學(xué)教授、博士生導(dǎo)師,同時(shí)入選國家級青年人才項(xiàng)目,長期從事人工智能相關(guān)研究工作。

    在個(gè)人經(jīng)歷方面,雷印杰具有系統(tǒng)的學(xué)術(shù)培養(yǎng)背景,分別于 2006 年、2009 年和 2013 年在西南交通大學(xué)、四川大學(xué)和澳大利亞西澳大學(xué)獲得本科、碩士和博士學(xué)位。

    2013 年 12 月進(jìn)入四川大學(xué)電子信息學(xué)院,從事教學(xué)與科研工作,隨后在 2017 年 9 月起擔(dān)任四川大學(xué)電子信息學(xué)院副院長。在此過程中,還入選四川省特聘專家、四川省學(xué)術(shù)和技術(shù)帶頭人后備人選,并獲得四川杰出青年科學(xué)基金支持。

    在研究方向上,雷印杰主要聚焦人工智能領(lǐng)域相關(guān)問題??蒲泄ぷ鞣矫?,他長期主持和參與國家級科研項(xiàng)目及企業(yè)合作項(xiàng)目,研究內(nèi)容涵蓋人工智能、計(jì)算機(jī)視覺以及多模態(tài)理解等方向,在學(xué)術(shù)研究與工程應(yīng)用之間形成了較好的結(jié)合。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    參考鏈接:https://eie.scu.edu.cn/info/1044/13503.htm

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來真實(shí)」到「物理上正確」丨CVPR 2026

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說