北大林宙辰團隊：從最優傳輸角度訓練時序預測模型丨ICLR 2026

本文作者：鄭佳美

2026-02-26 20:45

專題：ICLR 2019

導語：DistDF：從點對點誤差轉向聯合分布對齊，重構時間序列預測的損失函數。

在時間序列預測研究中，一個耐人尋味的現象長期存在：

一方面，模型結構不斷演進，從循環網絡到 Transformer，再到頻域與混合結構；另一方面，幾乎所有方法在訓練階段依賴同一類損失函數，即以均方誤差（MSE）為代表的點對點誤差。

這使得時間序列預測在方法論層面呈現出一種隱性的停滯，即研究重心持續向模型表達能力傾斜，而對損失函數所隱含的統計假設缺乏系統反思。

點對點誤差的核心假設在于，標簽序列中的各時間步可被視為給定歷史條件下相互獨立的預測對象。然而，這一假設與時間序列數據的生成機制之間始終存在張力。

真實世界中的時間序列由隨機過程演化而來，不同時間點之間存在顯著的相關關系。將多步預測問題拆解為一組獨立的回歸任務，不可避免地為損失函數引入了結構性偏差，使模型難以學習標簽序列的整體形態、相關結構以及條件依賴關系。

針對這一問題，北京大學林宙辰團隊深入剖析了此類結構性偏差的成因。在此基礎上，團隊提出了 DistDF：一種通過聯合分布對齊訓練預測模型的損失函數。DistDF 的提出不僅為時間序列預測提供了一種新的損失函數設計思路，也在更一般的意義上，對序列建模中“應當優化什么”這一長期被默認的問題給出了新的回答。

北大林宙辰團隊：從最優傳輸角度訓練時序預測模型丨ICLR 2026

論文地址：https://arxiv.org/pdf/2510.24574v1

當獨立性假設被實驗證偽之后

當前時間序列預測領域的主流方法普遍采用逐時間點的均方誤差（MSE）作為損失函數：

$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

$$\mathcal{L}_\mathrm{MSE}$$隱式地做了獨立性假設：在給定歷史序列的條件下，標簽序列各時間點的觀測相互獨立。然而，真實時間序列存在顯著的標簽自相關：標簽序列各時間點的觀測往往存在顯著的相關性。因此，$$\mathcal{L}_\mathrm{MSE}$$的獨立性假設與時間序列數據的生成機制相悖，導致其作為損失函數是有偏的（具體見定理1）。

[定理1] 考慮單變量標簽序列$$\mathbf{y}\in\mathbb{R}^{T\times 1}$$，其條件自相關矩陣為$$\mathbf{\Sigma}_\mathbf{x}\in\mathbb{R}^{T\times T}$$，則標簽序列的實用負對數似然可表示為：$$\mathcal{L}_\mathrm{NLL} = \left\|\mathbf{y}-\hat{\mathbf{y}}\right\|_{\mathbf{\Sigma}^{-1}}^2$$。顯然，僅當$$\mathbf{\Sigma}_\mathbf{x}$$是單位陣，即標簽自相關不存在時，才有$$\mathcal{L}_\mathrm{NLL} = \mathcal{L}_\mathrm{MSE}$$。

研究團隊通過實證分析驗證了這一矛盾：在給定歷史序列$$\mathbf{x}$$的條件下，標簽序列仍呈現顯著的條件相關結構，從而在實證意義上證偽了獨立性假設。實驗進一步表明，即使采用頻域變換或主成分分解等標簽變換方法，變換后的標簽序列依然存在殘余相關性；因此，在變換后的標簽應用均方誤差作為損失函數仍會導致結構性偏差。

北大林宙辰團隊：從最優傳輸角度訓練時序預測模型丨ICLR 2026

DistDF：基于分布對齊的時間序列損失函數

為規避傳統方法中的獨立性假設，DistDF 提出直接對齊預測序列的條件分布$$\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})$$與真實標簽的條件分布$$\mathbb{P}(\mathbf{y}|\mathbf{x})$$。直觀上，該目標可通過最小化兩個條件分布間的距離$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$來實現。

然而，直接將其作為損失函數面臨嚴重的樣本稀缺問題。對于給定的歷史序列$$\mathbf{x}$$，時間序列數據集通常僅包含唯一的標簽序列$$\mathbf{y}$$，模型也僅產生單一預測$$\hat{\mathbf{y}}$$。這種“單樣本”情形導致直接估計條件分布距離$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$在統計上不可靠。

為解決這一難題，我們利用概率恒等式$$\mathbb{P}(\mathbf{y},\mathbf{x}) = \mathbb{P}(\mathbf{y}|\mathbf{x})\mathbb{P}(\mathbf{x})$$。因為邊緣分布$$\mathbb{P}(\mathbf{x})$$是共享的，若聯合分布對齊，則條件分布必然對齊。基于此，我們將條件分布匹配問題轉化為聯合分布匹配問題。

進一步結合最優傳輸理論，本文證明了聯合分布的 Wasserstein 距離構成了條件分布 Wasserstein 距離期望的上界：

$$\int \mathcal{W}_p\left(\mathbb{P}(\mathbf{y}|\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})\right) d\mathbb{P}(\mathbf{x}) \leq \mathcal{W}_p \left(\mathbb{P}(\mathbf{y},\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}},\mathbf{x})\right)$$

因此，通過最小化歷史-預測聯合分布$$\mathbb{P}(\hat{\mathbf{y}},\mathbf{x})$$與歷史-標簽聯合分布$$\mathbb{P}(\mathbf{y},\mathbf{x})$$之間的 Wasserstein 距離，可有效實現條件分布對齊，進一步實現預測模型的無偏訓練。同時，這一轉換允許利用整個數據集的樣本來估計聯合分布距離，顯著提升了分布距離估計的可靠性。雷峰網(公眾號：雷峰網)

DistDF 的實現流程如下：

首先，構造聯合序列：$$\mathbf{z}=[\mathbf{y},\mathbf{x}]$$和$$\hat{\mathbf{z}}=[\hat{\mathbf{y}},\mathbf{x}]$$；

接著，計算兩個聯合序列之間的Wasserstein距離：$$\mathcal{L}_\mathrm{dist}=\mathcal{W}_p \left(\mathbb{P}(\mathbf{z}), \mathbb{P}(\hat{\mathbf{z}})\right)$$，

最后，與 MSE 損失加權融合：$$\mathcal{L}_{\alpha} = \alpha \cdot \mathcal{L}_\mathrm{dist} + (1-\alpha) \cdot \mathcal{L}_\mathrm{MSE}$$

DistDF 作為模型無關的損失函數，可適配各類預測模型架構。

在大量實驗中，一致驗證優勢

論文首先將DistDF與現有損失函數進行了比較，包括通過標簽變換削弱標簽相關性的 FreDF 和 Time-o1。結果表明，這些方法雖然減少了似然估計的偏差并提升了性能，但殘差偏差仍然存在，因此性能仍有改進空間。而DistDF通過最小化條件分布之間的距離，實現了預測模型的無偏訓練，取得了最佳的預測性能。

北大林宙辰團隊：從最優傳輸角度訓練時序預測模型丨ICLR 2026

其次，論文通過消融實驗對兩個關鍵因素進行了驗證；分別考察在DF的基礎上，僅對齊均值、僅對齊協方差以及同時對齊二者的情形。結果表明，兩種因素單獨對齊時均能帶來性能提升，而二者同時對齊時效果最為顯著。雷峰網

北大林宙辰團隊：從最優傳輸角度訓練時序預測模型丨ICLR 2026

接著，論文也對模型輸出的預測序列進行了可視化分析。結果表明，采用 DistDF 訓練的模型能夠較好地跟隨序列中的突發變化，使得預測序列在整體形態上更加接近真實數據。這進一步表明，DistDF 的作用不僅體現在降低數值誤差上，更重要的是在訓練過程中引導模型學習到了真實未來時間序列的整體分布形態。

北大林宙辰團隊：從最優傳輸角度訓練時序預測模型丨ICLR 2026

最后，論文對DistDF與不同預測模型的兼容性進行了驗證。結果表明，無論模型本身的復雜度和建模方式如何，引入 DistDF 訓練策略后，模型預測性能幾乎都能夠獲得進一步提升。這一結果表明，DistDF 的作用并非彌補模型結構本身的不足，而是提供了更好的訓練信號。

「多任務學習」需要分布對齊

整體來看，這項研究重新審視了多任務學習場景中的損失函數設計。研究團隊強調：多任務學習的核心目標不應局限于對 T個標簽的逐點建模，而應轉向對一個在任務維度上具有內在相關結構的隨機過程進行整體建模。

在這一視角下，傳統損失函數（如MSE）隱含了“給定輸入條件下各任務標簽相互獨立”的假設，從而將一個高維、相關的隨機過程建模任務退化為一組彼此獨立的標量回歸任務。因該假設忽略了標簽序列的內生結構，這些損失函數往往是有偏的。

DistDF 通過將預測序列與真實標簽建模為概率分布，實現對任務維度上相關結構的整體建模。通過優化基于分布對齊的損失函數，模型能夠顯式學習標簽序列的整體形態、相關結構以及條件依賴關系。

進一步看，該研究揭示的問題具有廣泛的普適性。只要學習任務的輸出構成具有顯著相關性的序列（如語音、圖像、文本或用戶行為），若仍沿用基于獨立性假設的損失函數（如 MSE），則必然會引入結構性偏差。因此，DistDF 所倡導的聯合分布對齊思想，不僅適用于時間序列預測，也同樣適用于語音合成、軌跡預測等任務。它并非針對時間序列任務的特定技巧，而是為多任務學習問題提供了一種更為通用的損失函數構造范式。

作者信息

論文第一作者王浩，現為浙江大學控制學院博士研究生，研究方向聚焦于因果推斷、多任務學習技術及其在大語言模型中的應用。2022 年- 2023 年，他曾在螞蟻金服、微軟亞洲研究院科研實習，從事推薦系統理論研究。2025 年起，他在小紅書參加 RedStar 實習項目，進行大語言模型、可信獎勵模型領域的研究工作。

北大林宙辰團隊：從最優傳輸角度訓練時序預測模型丨ICLR 2026

論文通訊作者林宙辰，現任北京大學智能學院、通用人工智能全國重點實驗室教授。他的研究領域包括機器學習和數值優化。他已發表論文360余篇，谷歌學術引用超過42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG會士，多次擔任CVPR、NeurIPS、ICML等會議的Senior Area Chair，現任ICML Board Member。

北大林宙辰團隊：從最優傳輸角度訓練時序預測模型丨ICLR 2026