類Sora模型到底懂不懂物理？字節完成系統性實驗證明

本文作者：聰聰

2024-11-07 17:33

導語：視頻生成模型可以記憶訓練案例，但暫時還無法真正理解物理規律，做到“舉一反三”。

Sora爆火以來，“視頻生成模型到底懂不懂物理規律”受到熱議，但業界一直未有研究證實。近日，字節跳動豆包大模型團隊公布最新論文，研究歷時8個月，圍繞“視頻生成模型距離世界模型有多遠”首次在業界完成系統性實驗并給出明確結論：視頻生成模型可以記憶訓練案例，但暫時還無法真正理解物理規律，做到“舉一反三”。

圖靈獎得主、Meta首席AI科學家楊立昆點贊并轉發了該研究，表示“結論不令人意外，但很高興終于有人做了這個嘗試！”

自OpenAI發布Sora模型以來，很多視頻生成模型都會強調其生成結果對物理規律的遵循。豆包大模型視覺團隊相關小組，對視頻生成模型究竟能否從視覺數據中“發現”并“理解”物理定律感到好奇，決定深入研究。

歷時8個月，該團隊完成了業界首個系統性的實驗研究。團隊通過專門開發的物理引擎合成了勻速直接運動、小球碰撞、拋物線運動等經典物理場景的運動視頻，用于訓練基于主流DiT架構的視頻生成模型。然后，通過檢驗模型后續生成的視頻在運動和碰撞方面是否符合力學定律，判斷模型是否真正理解了物理規律，并具有“世界模型”的潛力。類Sora模型到底懂不懂物理？字節完成系統性實驗證明

實驗中設計的不同運動場景

豆包大模型團隊的實驗發現，即使遵循“Scaling Law”增大模型參數規模和數據量，模型依然無法抽象出一般物理規則，做到真正“理解”。

以最簡單的勻速直線運動為例，當模型學習了不同速度下小球保持勻速直線運動的訓練數據后，給定初始幾幀，要求模型生成小球在訓練集速度區間內勻速直線運動的視頻，隨著模型參數和訓練數據量的增加，生成的視頻逐漸更符合物理規律。

然而，當要求模型生成未曾見過的速度區間（即超出訓練數據范圍）的運動視頻時，模型突然不再遵循物理規律，并且無論如何增加模型參數或訓練數據，生成的結果都沒有顯著改進。這表明，視頻生成模型無法真正理解物理規律，也無法將這些規律泛化應用到全新的場景中。

通過進一步的實驗分析，研究團隊得出結論，“生成新視頻時，模型主要依賴對訓練案例的記憶和匹配。視頻生成模型就像一個只會‘抄作業’的學生，一旦遇到從未見過的場景，如不同大小、速度的物體相互作用，就會‘犯迷糊’，生成結果與物理規則不符。”

不過，研究中也有一個好消息：如果訓練視頻中所有概念和物體都是模型已熟悉的，此時加大訓練視頻的復雜度，比如組合增加物體間的物理交互，通過加大訓練數據，模型對物理規律的遵循將越來越好。這一結果可為視頻生成模型繼續提升表現提供啟發。

據了解，本研究兩位核心一作都非常年輕，一位是95后，一位是00后，在豆包大模型團隊專注視覺領域的基礎研究工作。作者們一直對世界模型感興趣，在8個月的探索中，他們閱讀了大量物理學研究文獻，也嘗試從游戲中獲得研發靈感，歷經多次失敗后，最終一步步確定研究思路和實驗方法。

雷峰網(公眾號：雷峰網)了解到，今年以來，字節跳動在大模型領域不斷加大投入。不久前，字節豆包大模型團隊還發起Top Seed人才計劃，在全球范圍持續招募大語言模型、視覺、語音、大模型基座等領域的頂尖研究人才，提供充分的創新探索空間。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

聰聰

主筆

個人微信：Congc_a，歡迎添加交流。

發私信

當月熱門文章

360推出國內首個“安全龍蝦”：內置百款大模型，10分鐘裝好一只蝦