對標 Genie 3，螞蟻靈波開源世界模型 LingBot-World，10分鐘長視頻無損生成

本文作者：鄭佳美

2026-01-29 13:01

導語：開源世界模型LingBot-World，高保真高動態，毫秒級實時交互。

1 月 29 日，繼連續發布空間感知與VLA基座模型后，螞蟻靈波科技再次刷新行業預期，開源發布世界模型 LingBot-World。該模型在視頻質量、動態程度、長時一致性、交互能力等關鍵指標上均媲美 Google Genie 3，旨在為具身智能、自動駕駛及游戲開發提供高保真、高動態、可實時操控的“數字演練場”。

對標 Genie 3，螞蟻靈波開源世界模型 LingBot-World，10分鐘長視頻無損生成（圖說：LingBot-World在適用場景、生成時長、動態程度、分辨率等方面均處于業界頂尖水平）

針對視頻生成中最常見的“長時漂移”問題（生成時間一長就可能出現物體變形、細節塌陷、主體消失或場景結構崩壞等現象），LingBot-World 通過多階段訓練以及并行化加速，實現了近 10 分鐘的連續穩定無損生成，為長序列、多步驟的復雜任務訓練提供支撐。

交互性能上，LingBot-World 可實現約 16 FPS 的生成吞吐，并將端到端交互延遲控制在 1 秒以內。用戶可通過鍵盤或鼠標實時控制角色與相機視角，畫面隨指令即時反饋。此外，用戶可通過文本觸發環境變化與世界事件，例如調整天氣、改變畫面風格或生成特定事件，并在保持場景幾何關系相對一致的前提下完成變化。

對標 Genie 3，螞蟻靈波開源世界模型 LingBot-World，10分鐘長視頻無損生成（圖說：一致性壓力測試，鏡頭最長移開60秒后返回，目標物體仍存在且結構一致）

對標 Genie 3，螞蟻靈波開源世界模型 LingBot-World，10分鐘長視頻無損生成（圖說：高動態環境下，鏡頭長時間移開后返回，車輛形態外觀仍保持一致）

對標 Genie 3，螞蟻靈波開源世界模型 LingBot-World，10分鐘長視頻無損生成（圖說：鏡頭長時間移開后返回，房屋仍存在且結構一致）

模型具備 Zero-shot 泛化能力，僅需輸入一張真實照片（如城市街景）或游戲截圖，即可生成可交互的視頻流，無需針對單一場景進行額外訓練或數據采集，從而降低在不同場景中的部署與使用成本。

為解決世界模型訓練中高質量交互數據匱乏的問題，LingBot-World 采用了混合采集策略：一方面通過清洗大規模的網絡視頻以覆蓋多樣化的場景，另一方面結合游戲采集與虛幻引擎（UE）合成管線，從渲染層直接提取無 UI 干擾的純凈畫面，并同步記錄操作指令與相機位姿，為模型學習“動作如何改變環境”提供精確對齊的訓練信號。

具身智能的規?；涞孛媾R一個核心挑戰——復雜長程任務的真機訓練數據極度稀缺。LingBot-World 憑借長時序一致性（也即記憶能力）、實時交互響應，以及對"動作-環境變化"因果關系的理解，能夠在數字世界中"想象"物理世界，為智能體的場景理解和長程任務執行提供了一個低成本、高保真的試錯空間。同時，LingBot-World 支持場景多樣化生成（如光照、擺放位置變化等），也有助于提升具身智能算法在真實場景中的泛化能力。

隨著“靈波”系列連續發布三款具身領域大模型，螞蟻的AGI戰略實現了從數字世界到物理感知的關鍵延伸。這標志著其“基礎模型-通用應用-實體交互”的全棧路徑已然清晰。螞蟻正通過InclusionAI 社區將模型全部開源，和行業共建，探索AGI的邊界。一個旨在深度融合開源開放并服務于真實場景的AGI生態，正加速成型。

目前，LingBot-World 模型權重及推理代碼已面向社區開放。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

鄭佳美

編輯

發私信

當月熱門文章