京東副總裁鄭宇：未來管理智慧城市，會像玩游戲一樣簡單丨GAIR 2025

本文作者：胡清文

2025-12-31 17:02

導語：“數據稀缺體量小、模型時空能力弱、智能方案閉環難”是時空AI在物理世界發揮價值時需克服的三大挑戰。”

12月12日，第八屆GAIR全球人工智能與機器人大會在深圳正式啟幕。

本次大會為期兩天，由GAIR研究院與雷峰網聯合主辦，高文院士任指導委員會主席，楊強院士與朱曉蕊教授任大會主席。

作為觀測AI技術演進與生態變遷的重要窗口，GAIR大會自2016年創辦以來以來，始終與全球AI發展的脈搏同頻共振，見證了技術浪潮從實驗室涌向產業深海。2025年，是大模型從“技術破壁”邁向“價值深耕”的關鍵節點，值此之際GAIR攜手智者觸摸AI最前沿脈動，共同洞見產業深層邏輯。

本次大會上，京東集團副總裁、首席數據科學家、IEEE Fellow、ACM杰出科學家鄭宇教授親臨現場，為參會者帶來了一場鞭辟入里的報告分享。

鄭宇教授指出，人工智能過往取得的顯著成功主要集中在虛擬世界，如大語言模型、數字孿生等，但真正的產業價值需要進入物理世界，即問題與數據的取用和反饋都要體現在物理世界層面。

基于此，鄭宇教授回顧了時空AI的發展歷程，并以雄安新區的智能城市建設為標桿案例，進一步分析了城市計算與具身智能之間的關系。他提出，城市計算可作為具身智能的方法論，而具身智能將成為城市計算的核心組件。未來城市有望成為“巨大的具身智慧體”，而管理城市就像玩游戲。

他認為，當下時空AI要在物理世界發揮價值需克服三大挑戰：

1、數據稀缺體量小：傳感器不可能遍布物理世界的任何地方，數據也不能無時無刻獲得，同時數據采集成本高周期長。

2、模型時空能力弱：目前尚有很多物理規律處于未知狀態，物理世界觀測方法的有限性，以及人為因素的不確定性，三者疊加導致時空AI的建模非常困難。

3、智能方案閉環難：首先需要對物理世界進行觀測獲得數字信號，根據數據將建模形成的結果反饋給人，進而對結果進行修訂和反饋，最終將處理后的結果執行到物理世界，才能形成智能方案的完整閉環，要完成這樣的閉環并不容易。

以下是鄭宇教授演講的精彩內容，雷峰網(公眾號：雷峰網)作了不改變原意的整理與編輯：

何為時空AI？

我們這個工作，其實已經做了二十年，但最近才用時空AI作為話題來做報告，原因有兩個：第一，人工智能要進入物理世界，必須要理解時空，現有的算法存在很大的瓶頸。

第二，我的好朋友李飛飛從視覺的角度出發，她發現視頻中的內容不符合空間約束和物理規律，進而提出了“空間智能”，在整個業界非常火。

所以今天我以《時空AI：人工智能進入物理世界的基礎理論和關鍵技術》為報告題目，來給跟大家講講時空AI的來龍去脈。

一方面，人工智能過往取得的成功主要集中在虛擬世界，包括大語言模型、圖生文、文生圖等，數據和問題也都集中于此。很重要，但遠不夠。

另一方面，我們一部分的工作，在感知完物理世界的狀態之后，將其融入到虛擬世界，但解決的問題還是落在了虛擬世界。例如VR游戲中的體感傳感器，可以感知人的姿態，幫助我們把游戲玩得更好，但本質還是解決虛擬世界的問題。數字人也是如此，它可以通過感知面部表情，幫助數字人更好地理解人的行為，但仍屬于虛擬世界。

因此，人工智能要想發揮巨大的產業價值，一定要進入物理世界。也就是說，問題和數據都要來自于物理世界，隨后通過感知，將數據在物理世界完成建模、分析之后，再反饋回物理世界。如具身智能、無人駕駛、城市應急管理等，都屬于人工智能在物理世界的應用。

時空AI的三大挑戰是什么？

人工智能要進入物理世界，面臨三方面的挑戰：

1、數據在物理世界非常稀缺，采集數據的成本非常高，周期也特別長。

2、物理世界要解決的問題，通常需要了解行業知識，而行業知識的積累需要時間。有時候要解決一個領域的問題，往往會發現這個領域的數據不足，還需要做跨領域數據融合，對多個領域的數據知識進行理解，要做到這一點非常難。

3、現有模型的應用，如自然語言處理、圖像聲音處理等，都不是出于時空角度的考量，要如何對時間空間屬性進行很好地捕捉和體現？這也是一個難點。

京東副總裁鄭宇：未來管理智慧城市，會像玩游戲一樣簡單丨GAIR 2025

今天我主要給大家講講第三個問題。

關于時空AI這個題目，李飛飛院士提的是Special AI，李德仁院士講的是時空AI，他們加了一個Geo，變成Geo Special AI。那么這兩個東西是否一樣呢？我認為，本質上是一樣的。

無論是使用攝像頭、遙感還是地面傳感器，區別只在于感知的手段不同，而感知的對象都是這個物理世界。由于物理世界本身具有時間特性和空間特性，所以感知的結果才會自帶時空屬性。它們只是在不同的角度，通過不同的感知方式，在不同的尺度和力度上做感知。

過去沒有時空AI的相關定義，現在我們給它一個定義，大家一起探討：

基于時間和空間維度的觀測，以帶有時空屬性的數據為主要描述，通過與物理世界的動態交互和循環反饋，來感知、理解、影響和掌控物理世界中的物體行為和自然現象的人工智能理論、機器學習方法和數據挖掘技術，就是時空AI。

京東副總裁鄭宇：未來管理智慧城市，會像玩游戲一樣簡單丨GAIR 2025

這其中包含很多定語，比如物理世界，感知狀態。

那么物理世界與虛擬世界到底有什么不同？總結下來主要有四個方面：

第一是空間約束，包括江河、湖泊、海洋、山川、道路，這都是無法穿越的。

第二是物理規律，包括力學規律、能量守恒定律、星際運行法則等。

第三是物種行為，包括動物遷徙、人類活動、生物繁衍等。

第四是運行法則，包括城市運行管理、交通管理規則、航空運輸法則。

這些不同疊加在一起，使得物理世界與虛擬世界產生顯著差異，而這些不同也是我們的機器學習模型需要重點捕獲的部分。

在物理世界中，我們習慣以時間+空間相結合來表述我們的觀測結果，比如幾點幾分在哪里，要去什么地方，這些都是以時間節點+空間坐標的方式來表述的。觀測方法上，既可以用傳感器來感知，也可以用人來感知。

相對于虛擬世界，物理世界的AI交互方式比較復雜。首先需要對物理世界進行觀測，獲得數字信號，數字信號建模之后形成的結果反饋給人，進而對結果進行修訂和反饋，最終將處理后的結果執行到物理世界，形成完整閉環。

這其中有很大部分人的因素，人不僅需要參于觀測、模型設計、反饋給予，最終也是反饋的執行者之一。例如在無人駕駛過程中，人不一定會完全執行AI的指令，這一切人力因素都使得物理世界的AI交互會變得非常復雜。

在這個基礎上，如前文所講，當下AI進入物理世界的一大難點在于數據的不完備。傳感器不可能遍布任何地方，數據也不能無時無刻獲得。

對此我們的解決方法是，對觀測數據中的時間屬性和空間屬性進行提煉和理解。

其中，時間屬性包含臨近性、周期性、趨勢性等特性，例如今天早上8點的交通流量，跟昨天早上8點的交通流量相似，即便它們隔了24小時，這就是臨近性。但隨著天氣轉冷，大家起床越來越晚，早高峰隨之得越來越晚，這就是趨勢性。

空間屬性方面，空間屬性又包括空間距離、空間層次、及地理學第一定律等特性。例如一個城市包括市、區、街、小區、樓棟、單元門、房間、座位，這是空間的層次感。

京東副總裁鄭宇：未來管理智慧城市，會像玩游戲一樣簡單丨GAIR 2025

只有將這些空間屬性運用到在AI模型當中，才能做到提效和降低復雜度。

到這里，時空特性我們已經清楚地掌握了，大部分的空間約束也都是已知的，可以通過建模、衛星遙感、高精度地圖等得到，那么我們還面臨什么問題呢？

首先，仍有很多物理規律是我們所未知的，需要等待物理學家去挖掘。其次，由于觀測方法的有限性，物理世界觀測數據存在不足或缺失等問題，最后，就是上面提過的人的因素。這三個方面疊加到一塊，使得我們的時空AI建模非常復雜、非常困難。

因此，對于AI在物理世界的實踐與應用，大家要有一個正確的認知，并非如很多新聞所講的日新月異，人形機器人即將迅速普及等等。如果不花上數十年時間，底層理論不攻破，那些是做不出來的。前途很光明，但道路非常曲折，需要大家耐心攻堅關鍵技術和基本理論。

那么難道因為還沒有完全完備，我們就不做了嗎？當然不是，現在可以用思想先解決一些問題。

因為我們拿到的是一些帶有時空屬性的觀測數據，這是很多已知以及未知的綜合關鍵結果。所以在解決問題的時候，需要的是關鍵決策動作，比如開關、紅綠燈、左右轉、開閘放水、調度人力和車輛，這些都是時空動作。

本質上，我們需要在觀測的時空數據與執行的時空數據之間建立映射。即便很多規律目前并不清楚，但也可以做一部分應用。要做好這個應用，就要充分利用好已知的物理學規律和時空數據的特性，把我們的模型變得更加精準、更加簡潔，使模型更好地理解物理世界。

從數據到數據的映射，加上時空屬性和物理學規律的約束，在這種轉換之下仍然有挑戰，包括數據量小、時空如何建模、智能方案怎么閉環等問題。

因此，在過去二十年，我們團隊一直在這個領域，按照這個方法論和框架深耕。

首先，我們要洞悉時空規律的特性。其次，要設計時空AI建模方法，包括兩大類，一類是經典時空特征工程+經典機器學習方法，另一類是時空表征學習+時空深度學習的方法。這兩類方法各有千秋，在不同的場景有不同價值。最后，要提供一套時空AI的機器學習框架，幫助大家快速構建端到端的學習方法。

有了這套體系之后，可以把模型的復雜度降低90%，算法精度可以提升20%，研發效率提升100%，這樣就能解決我們剛剛說的三個挑戰，實現價值。

時空AI已走過五大階段

下面，我們一起回顧一下時空AI的發展歷程。

1、1960-1995，時空經典模型

人去采樣，產生了少量的讀數，根據少量的讀數和經典假設，得出簡單的基于距離的反比差值。比如人去打井，沒有打井的地方讀數是多少，并不知道，所以用距離的反比作為權重來看讀數，相鄰兩個時間點的讀數，隨著時間差的擴大，指數衰減。直到今天，這個統計方法仍然有用，只不過在一些局部方面，它不那么精準。

2、1995-2008，時空模式發掘

1995年，韓家煒老師做了關于時空關聯規則的研究。他發現，如果一條鐵路經過一個大城市，那么這個城市大概率臨河或臨湖。后面Hans-Peter提出基于密度的聚類，其實是對于空間的模式發現。包括Shashi Shekhar發現，麥當勞和肯德基經常一起出現。這些都是時空模式發掘，用的是空間數據庫的技術，采用了空間信息，并沒有考慮時間。

在這一階段，相關研究開始在物體軌跡中找到它們的移動模式，然后我們開始將它應用到更多場景中。

打個比方，很多物體并非一直在一塊，可能剛開始在一塊，然后分開了，最后又合到一塊。例如疫情防控期間的密接，剛開始大家都待在同一個小區里，距離很近，隨后A去買菜了，B去看電影了，C去吃飯了。但只要ABC待在一起的時間足夠長、距離足夠近，就是密接，而我們的算法可以在秒級以內反饋回來結果。

這兩個例子融入了時間的特性，是時空的模式發掘，但用的還是Data Base的方法。我們團隊在2017年，提出了第一個面向時空數據專有的機器學習算法。并不是說以前沒有人把機器學習算法用到時空數據，而是做出面向時空數據專有的時空特征工程和時空經典機器學習模型，我們團隊是第一個。

3、2009-2016，時空經典機器學習

接下來這個例子，就是通過經典機器學習模型加上時空特征工程來完成的工作。2016年霧霾席卷整個中國，北京只有38個空氣質量檢測站點，而部署一個空氣質量監測站點，那個時候需要100多萬，同時還需要人力去維護。而且城市的空氣質量高度不均勻，是非線性的，受很多復雜因素的影響，包括地面的擴散條件、污染源的分布等等。

用過去經典的物理學模型，去推算那些沒有站點的地方空氣質量是多少，只能做到60%的精度。而我們通過大數據和人工智能的方法，將精度做到了80%，提高了20%以上。因為污染物既有本地排放，也有外面的擴散，以及由本地排放和外面污染物所產生的二次化學反應，我們在這些事實的基礎上將模型做了迭代。

高精度的預測結果非常重要，如果政府能夠知道明天的空氣質量從500變成50，就不會再關閉工廠和限流了，而這一個決策價值就是10億以上的GDP。

這個工作我們做了五年才把它真正做好，最后中國300多個城市都用這個技術，節約了國家100多億的污染治理費用。2004年這個工作得了SIGKDD的Test-of-Time Award，同時也是這個領域中最高的技術單項獎。

去做報告的時候，美國人就問我們這個想法是怎么想到的？有兩個原因，一個原因是我學了很多行業知識，知道污染物是由本地排放、外面擴散以及二次化學反應，所以模型能夠很好地耦合這個問題。另一個原因，是我晚上做夢的時候想到的。那段時間工作進展很不順利，別人說你不要搞了，直到有天夜晚我終于在夢中找到了答案，開心到笑醒了，然后趕緊爬起來把這個答案寫了下來。

日有所思，夜有所夢，念念不忘，必有回響，堅持做一件事，做到極致，一定會成功。技術本身沒那么重要，但同學們應該學會這一點。

4、2016-2030，時空大模型

不是有了深度學習技術，就得什么都用深度學習，而是應該用深度學習做的，才用深度學習。當空間和時間跨度特別大的，因素特別復雜的，數據量特別大的時候，可以考慮用深度學習來做。

這個案例，是當時外灘踩踏事件讓我們產生的思考，而在深度學習出來之前，這個問題是解決不了的。如果我們把每個格子看成一個點，觀察有多少個人進和出，要考慮很多復雜因素：比如這個格子前幾個小時有多少人進和出？這個格子周邊的格子有多少人進和出？但是你想不到的是，跟這個格子距離很遠的那些格子的人流量變化，也會影響到這個格子未來的人流量變化。

當一個地方搞活動發生大事件的時候，會有很多人從很遠的地方坐地鐵過來，不經過你周邊就來到了這里，外灘事件就是這樣發生的。一個格子的流量，跟全城的每一個格子都息息相關互相影響，是沒有辦法預測的。

那個時候最好的model是圖模型，將城市劃成均勻的網格，例如2000個節點，2000×2000的邊等等，數量巨大到根本算不出來，所以我們提出了第一個面向時空數據的深度學習模型，從此進入了時空大模型階段。

后面會發現，城市中的區域并不是均一的網格，而是由非規則的道路和河流共同構造的非規則區域。因此我們用了新的方法，一個區域只要有流量經過，就連成一個邊，由每一個幀構造成時空圖來做時空圖卷積，提出了面向時空數據的時空圖卷積模型，能夠知道不同區域之間的轉入和轉出，比如人從哪里來、去到哪里。要從源頭上治理踩踏，這一點很關鍵。

于是我們攻堅進和出的預測，做出來了面向時空數據的模型，復雜度極高，數據更稀疏，這項工作我們一做又是六年。

5、2023-2035，城市大模型

這個階段，首先要做的就是跨域多源多模數據融合。

要想真正要做成產業級應用，只有大模型是不夠的，還要加上深度學習，而且我們面向的城市大模型，不光只是簡單的時空大模型，需要多元數據融合，還得加上文本、語音以及視頻。

關于多模態的文章，近兩年可能有10萬篇以上了，但很多講的都是單域的多源多模數據融合。例如機器人有很多傳感器，包括視覺、聽覺、壓力，但本質來說，這些傳感器從一開始就是幫助機器人理解它周邊的情況和環境。也就是說，不需要人為選擇，數據產生之后，天然是對齊的。不用管它為什么對齊，你只需要做how，不需要去問what或why。

就像我們剛剛做的預測，光用交通數據肯定不行，好比氣象局做天氣預報，并不是為了交通流量預測而做的預報，還需要思考需要的數據在什么地方，以及這些數據為什么可以跟我的這些數據進行融合，并解決這些問題。這兩個問題非常復雜，而真實世界都是這樣的問題。

城市知識體系，是另一個我們需要準備的，它是將城市數據向知識轉化的路徑和方法論。城市知識體系包括四大環節：城市知識體系內容、城市知識體系的表達、城市知識體系的產生以及城市知識體系的應用。其中，城市知識體系內容，包括人力事務組織以及它們的屬性和它們關系的屬性，但這些都是看不見、摸不著的，需要變成數據。

再往后就是真正的城市智能體。城市智能體跟具身智能很像，具身智能的多模態感知、感知要和行動切合等特點，跟城市計算一開始提出的理念一模一樣。城市計算，可以作為實現具身智能的方法論和計算框架。具身智能，可以成為城市計算整個整體中的一個部件。

當整個城市都實現了具身智能之后，整個城市就是一個巨大的具身智能體。具身智能并不是機器人，也不是人形機器人。所有AI與物理世界實體的結合，只要滿足剛剛說的特性自我迭代以及不斷演進的，都是具身智能，它是區別于離身智能的定義。大家千萬不要認為只有宇樹搞了機器人具身智能，這些都是具身智能。

未來，這個超級智能體要怎么運轉？

通過城市感知，第一是及時反饋的感知——馬上決策，比如馬上剎車就剎車，馬上開閘就開閘。第二是感知要往上走，要跟更大的范圍融合。面向三類數據，分別有各自的自動化元件和數據治理體系，形成面向結構化、非結構化和時空數據的標準數據資源體系。這些東西一定要自動化去做，不能人工去做。

再往上，有各種查找的工具對應分析層，包含面向三類不同數據的三種大模型。不是把大語言模型用到時空了結構化數據，而是面向結構化，有專門的結構化模型。再往上，有一個人機交互界面，并且有很多Agent可以調用下面的能力來服務于大家。執行完之后，這個結果又反饋到物理世界，形成閉環、循環，不斷演進，這就是一個真正的城市智能體。

雄安新區正在成為智能城市“新樣本”

那么上述這些要在哪里實現呢？雄安。

雄安就是城市計算指導下的實踐，目前我們已經做到第三期了。雄安的智能城市是以城市計算理論為支撐，以城市計算理論的載體城市操作系統為平臺來開展。總書記提出了一個需求：世界眼光、國際標準、中國特色，高點定位。

這個中心2022年正式投產運行，從我做這個工作到現在，16年了才有了一點水花。所以真正想做成一件大事，3～5年根本不夠，10年可能才剛有成效，15年才有點起色，需要長期支持。

我們看一下雄安的真實情況，這是基于雄安城市操作系統實現的數字孿生，并且是經過脫敏之后的結果。現在雄安的所有數據，無論是消費的、地鐵的、公交的、政務的，還是民生的水電氣熱，全部會實時進到我們的系統當中，經過實時分析、處理、挖掘提供服務。比如A點發生了一起交通事故，我們去判斷它的影響范圍，并且給周邊的出行人員推薦合理的繞行線路。

再看雄安的水電氣熱的生命線數據，通過對各區域的用電量負荷分析，我們能知道用電量的波峰和波谷的差異化變化，從而更合理地制定電價策略，引導大家更合理地用電，以及根據每個區域的用電負荷變化做自動化的擴容，避免電壓器燒壞引起火災。

對于燃氣管網，通過人工智能算法檢測到異常之后，在它爆炸之前就提前預警，我們會調取真實世界的物理攝像頭核實情況并進行驗證，然后查找周邊最近的工作人員，一鍵點擊這個工作人員，隨后進行派單，完成任務。完成之后，這個結果會實時反饋到虛擬世界，形成閉環，就像玩游戲一樣去管理整個城市。

對于雄安所有的人流量情況，人口結構變化、年齡變化，我們都能實時知道。以及雄安的水質，空氣質量未來48小時的變化等等，都是用跨域多元多模式融合的方法來實現的。

雄安的公共安全管理，以雄安新區的白洋淀為例，不僅能知道所有游客的來源，分析游客當前在什么地方聚集，還能知道景區里每一個設備的安全狀態。比如每一艘游船上面有多少游客，油耗多少，航速多少，以及游船每個零部件的安全狀態如何。

一旦游船的安全狀態出現了問題，我們可以第一時間查找它周邊最近的救生船，點擊救生船發動救援。人的快思考、慢思考結合實時反饋，形成一個巨大的城市智能體，這就是真正的具身智能。

時空AI，為人工智能進入物理世界提供關鍵的基礎理論和關鍵技術。前途很光明，但道路很漫長，工作很艱難。尤其是在中美博弈的時代，熱戰有可能會打，也有可能不打，但這場科技戰爭已經開始。

未來，我們國家是否能真正實現中華民族偉大復興？科技戰爭的結果至關重要。而打贏這場仗，就是這十年，在座各位就是實現這場戰爭勝利的中堅力量。

我是湖南人，特別喜歡毛主席的詩詞，也喜歡書法，最后借助主席的詩詞和我自己寫的書法跟大家共勉：“多少事，從來急；天地轉，光陰迫。一萬年太久，只爭朝夕！”

謝謝大家。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

胡清文

編輯

發私信

當月熱門文章