成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    本文作者: 鄭佳美   2026-02-26 20:45 專題:ICLR 2019
    導(dǎo)語(yǔ):DistDF:從點(diǎn)對(duì)點(diǎn)誤差轉(zhuǎn)向聯(lián)合分布對(duì)齊,重構(gòu)時(shí)間序列預(yù)測(cè)的損失函數(shù)。


    在時(shí)間序列預(yù)測(cè)研究中,一個(gè)耐人尋味的現(xiàn)象長(zhǎng)期存在:

    一方面,模型結(jié)構(gòu)不斷演進(jìn),從循環(huán)網(wǎng)絡(luò)到 Transformer,再到頻域與混合結(jié)構(gòu);另一方面,幾乎所有方法在訓(xùn)練階段依賴同一類損失函數(shù),即以均方誤差(MSE)為代表的點(diǎn)對(duì)點(diǎn)誤差。

    這使得時(shí)間序列預(yù)測(cè)在方法論層面呈現(xiàn)出一種隱性的停滯,即研究重心持續(xù)向模型表達(dá)能力傾斜,而對(duì)損失函數(shù)所隱含的統(tǒng)計(jì)假設(shè)缺乏系統(tǒng)反思。

    點(diǎn)對(duì)點(diǎn)誤差的核心假設(shè)在于,標(biāo)簽序列中的各時(shí)間步可被視為給定歷史條件下相互獨(dú)立的預(yù)測(cè)對(duì)象。然而,這一假設(shè)與時(shí)間序列數(shù)據(jù)的生成機(jī)制之間始終存在張力。

    真實(shí)世界中的時(shí)間序列由隨機(jī)過(guò)程演化而來(lái),不同時(shí)間點(diǎn)之間存在顯著的相關(guān)關(guān)系。將多步預(yù)測(cè)問(wèn)題拆解為一組獨(dú)立的回歸任務(wù),不可避免地為損失函數(shù)引入了結(jié)構(gòu)性偏差,使模型難以學(xué)習(xí)標(biāo)簽序列的整體形態(tài)、相關(guān)結(jié)構(gòu)以及條件依賴關(guān)系。

    針對(duì)這一問(wèn)題,北京大學(xué)林宙辰團(tuán)隊(duì)深入剖析了此類結(jié)構(gòu)性偏差的成因。在此基礎(chǔ)上,團(tuán)隊(duì)提出了 DistDF:一種通過(guò)聯(lián)合分布對(duì)齊訓(xùn)練預(yù)測(cè)模型的損失函數(shù)。DistDF 的提出不僅為時(shí)間序列預(yù)測(cè)提供了一種新的損失函數(shù)設(shè)計(jì)思路,也在更一般的意義上,對(duì)序列建模中“應(yīng)當(dāng)優(yōu)化什么”這一長(zhǎng)期被默認(rèn)的問(wèn)題給出了新的回答。

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    論文地址:https://arxiv.org/pdf/2510.24574v1

    當(dāng)獨(dú)立性假設(shè)被實(shí)驗(yàn)證偽之后

    當(dāng)前時(shí)間序列預(yù)測(cè)領(lǐng)域的主流方法普遍采用逐時(shí)間點(diǎn)的均方誤差(MSE)作為損失函數(shù):

    $$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

    $$\mathcal{L}_\mathrm{MSE}$$隱式地做了獨(dú)立性假設(shè):在給定歷史序列的條件下,標(biāo)簽序列各時(shí)間點(diǎn)的觀測(cè)相互獨(dú)立。然而,真實(shí)時(shí)間序列存在顯著的標(biāo)簽自相關(guān):標(biāo)簽序列各時(shí)間點(diǎn)的觀測(cè)往往存在顯著的相關(guān)性。因此,$$\mathcal{L}_\mathrm{MSE}$$的獨(dú)立性假設(shè)與時(shí)間序列數(shù)據(jù)的生成機(jī)制相悖,導(dǎo)致其作為損失函數(shù)是有偏的(具體見(jiàn)定理1)。

    [定理1] 考慮單變量標(biāo)簽序列$$\mathbf{y}\in\mathbb{R}^{T\times 1}$$,其條件自相關(guān)矩陣為$$\mathbf{\Sigma}_\mathbf{x}\in\mathbb{R}^{T\times T}$$,則標(biāo)簽序列的實(shí)用負(fù)對(duì)數(shù)似然可表示為:$$\mathcal{L}_\mathrm{NLL} = \left\|\mathbf{y}-\hat{\mathbf{y}}\right\|_{\mathbf{\Sigma}^{-1}}^2$$。顯然,僅當(dāng)$$\mathbf{\Sigma}_\mathbf{x}$$是單位陣,即標(biāo)簽自相關(guān)不存在時(shí),才有$$\mathcal{L}_\mathrm{NLL} = \mathcal{L}_\mathrm{MSE}$$。

    研究團(tuán)隊(duì)通過(guò)實(shí)證分析驗(yàn)證了這一矛盾:在給定歷史序列$$\mathbf{x}$$的條件下,標(biāo)簽序列仍呈現(xiàn)顯著的條件相關(guān)結(jié)構(gòu),從而在實(shí)證意義上證偽了獨(dú)立性假設(shè)。實(shí)驗(yàn)進(jìn)一步表明,即使采用頻域變換或主成分分解等標(biāo)簽變換方法,變換后的標(biāo)簽序列依然存在殘余相關(guān)性;因此,在變換后的標(biāo)簽應(yīng)用均方誤差作為損失函數(shù)仍會(huì)導(dǎo)致結(jié)構(gòu)性偏差。

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    DistDF:基于分布對(duì)齊的時(shí)間序列損失函數(shù)

    為規(guī)避傳統(tǒng)方法中的獨(dú)立性假設(shè),DistDF 提出直接對(duì)齊預(yù)測(cè)序列的條件分布$$\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})$$與真實(shí)標(biāo)簽的條件分布$$\mathbb{P}(\mathbf{y}|\mathbf{x})$$。直觀上,該目標(biāo)可通過(guò)最小化兩個(gè)條件分布間的距離$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$來(lái)實(shí)現(xiàn)。

    然而,直接將其作為損失函數(shù)面臨嚴(yán)重的樣本稀缺問(wèn)題。對(duì)于給定的歷史序列$$\mathbf{x}$$,時(shí)間序列數(shù)據(jù)集通常僅包含唯一的標(biāo)簽序列$$\mathbf{y}$$,模型也僅產(chǎn)生單一預(yù)測(cè)$$\hat{\mathbf{y}}$$。這種“單樣本”情形導(dǎo)致直接估計(jì)條件分布距離$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$在統(tǒng)計(jì)上不可靠。

    為解決這一難題,我們利用概率恒等式$$\mathbb{P}(\mathbf{y},\mathbf{x}) = \mathbb{P}(\mathbf{y}|\mathbf{x})\mathbb{P}(\mathbf{x})$$。因?yàn)檫吘壏植?$\mathbb{P}(\mathbf{x})$$是共享的,若聯(lián)合分布對(duì)齊,則條件分布必然對(duì)齊。基于此,我們將條件分布匹配問(wèn)題轉(zhuǎn)化為聯(lián)合分布匹配問(wèn)題。

    進(jìn)一步結(jié)合最優(yōu)傳輸理論,本文證明了聯(lián)合分布的 Wasserstein 距離構(gòu)成了條件分布 Wasserstein 距離期望的上界:

    $$\int \mathcal{W}_p\left(\mathbb{P}(\mathbf{y}|\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})\right) d\mathbb{P}(\mathbf{x}) \leq \mathcal{W}_p \left(\mathbb{P}(\mathbf{y},\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}},\mathbf{x})\right)$$

    因此,通過(guò)最小化歷史-預(yù)測(cè)聯(lián)合分布$$\mathbb{P}(\hat{\mathbf{y}},\mathbf{x})$$與歷史-標(biāo)簽聯(lián)合分布$$\mathbb{P}(\mathbf{y},\mathbf{x})$$之間的 Wasserstein 距離,可有效實(shí)現(xiàn)條件分布對(duì)齊,進(jìn)一步實(shí)現(xiàn)預(yù)測(cè)模型的無(wú)偏訓(xùn)練。同時(shí),這一轉(zhuǎn)換允許利用整個(gè)數(shù)據(jù)集的樣本來(lái)估計(jì)聯(lián)合分布距離,顯著提升了分布距離估計(jì)的可靠性。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    DistDF 的實(shí)現(xiàn)流程如下:

    首先,構(gòu)造聯(lián)合序列:$$\mathbf{z}=[\mathbf{y},\mathbf{x}]$$和$$\hat{\mathbf{z}}=[\hat{\mathbf{y}},\mathbf{x}]$$;

    接著,計(jì)算兩個(gè)聯(lián)合序列之間的Wasserstein距離:$$\mathcal{L}_\mathrm{dist}=\mathcal{W}_p \left(\mathbb{P}(\mathbf{z}), \mathbb{P}(\hat{\mathbf{z}})\right)$$,

    最后,與 MSE 損失加權(quán)融合:$$\mathcal{L}_{\alpha} = \alpha \cdot \mathcal{L}_\mathrm{dist} + (1-\alpha) \cdot \mathcal{L}_\mathrm{MSE}$$

    DistDF 作為模型無(wú)關(guān)的損失函數(shù),可適配各類預(yù)測(cè)模型架構(gòu)。

    在大量實(shí)驗(yàn)中,一致驗(yàn)證優(yōu)勢(shì)

    論文首先將DistDF與現(xiàn)有損失函數(shù)進(jìn)行了比較,包括通過(guò)標(biāo)簽變換削弱標(biāo)簽相關(guān)性的 FreDF 和 Time-o1。結(jié)果表明,這些方法雖然減少了似然估計(jì)的偏差并提升了性能,但殘差偏差仍然存在,因此性能仍有改進(jìn)空間。而DistDF通過(guò)最小化條件分布之間的距離,實(shí)現(xiàn)了預(yù)測(cè)模型的無(wú)偏訓(xùn)練,取得了最佳的預(yù)測(cè)性能。

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    其次,論文通過(guò)消融實(shí)驗(yàn)對(duì)兩個(gè)關(guān)鍵因素進(jìn)行了驗(yàn)證;分別考察在DF的基礎(chǔ)上,僅對(duì)齊均值、僅對(duì)齊協(xié)方差以及同時(shí)對(duì)齊二者的情形。結(jié)果表明,兩種因素單獨(dú)對(duì)齊時(shí)均能帶來(lái)性能提升,而二者同時(shí)對(duì)齊時(shí)效果最為顯著。雷峰網(wǎng)

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    接著,論文也對(duì)模型輸出的預(yù)測(cè)序列進(jìn)行了可視化分析。結(jié)果表明,采用 DistDF 訓(xùn)練的模型能夠較好地跟隨序列中的突發(fā)變化,使得預(yù)測(cè)序列在整體形態(tài)上更加接近真實(shí)數(shù)據(jù)。這進(jìn)一步表明,DistDF 的作用不僅體現(xiàn)在降低數(shù)值誤差上,更重要的是在訓(xùn)練過(guò)程中引導(dǎo)模型學(xué)習(xí)到了真實(shí)未來(lái)時(shí)間序列的整體分布形態(tài)。

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    最后,論文對(duì)DistDF與不同預(yù)測(cè)模型的兼容性進(jìn)行了驗(yàn)證。結(jié)果表明,無(wú)論模型本身的復(fù)雜度和建模方式如何,引入 DistDF 訓(xùn)練策略后,模型預(yù)測(cè)性能幾乎都能夠獲得進(jìn)一步提升。這一結(jié)果表明,DistDF 的作用并非彌補(bǔ)模型結(jié)構(gòu)本身的不足,而是提供了更好的訓(xùn)練信號(hào)。

    「多任務(wù)學(xué)習(xí)」需要分布對(duì)齊

    整體來(lái)看,這項(xiàng)研究重新審視了多任務(wù)學(xué)習(xí)場(chǎng)景中的損失函數(shù)設(shè)計(jì)。研究團(tuán)隊(duì)強(qiáng)調(diào):多任務(wù)學(xué)習(xí)的核心目標(biāo)不應(yīng)局限于對(duì) T個(gè)標(biāo)簽的逐點(diǎn)建模,而應(yīng)轉(zhuǎn)向?qū)σ粋€(gè)在任務(wù)維度上具有內(nèi)在相關(guān)結(jié)構(gòu)的隨機(jī)過(guò)程進(jìn)行整體建模。

    在這一視角下,傳統(tǒng)損失函數(shù)(如MSE)隱含了“給定輸入條件下各任務(wù)標(biāo)簽相互獨(dú)立”的假設(shè),從而將一個(gè)高維、相關(guān)的隨機(jī)過(guò)程建模任務(wù)退化為一組彼此獨(dú)立的標(biāo)量回歸任務(wù)。因該假設(shè)忽略了標(biāo)簽序列的內(nèi)生結(jié)構(gòu),這些損失函數(shù)往往是有偏的。

    DistDF 通過(guò)將預(yù)測(cè)序列與真實(shí)標(biāo)簽建模為概率分布,實(shí)現(xiàn)對(duì)任務(wù)維度上相關(guān)結(jié)構(gòu)的整體建模。通過(guò)優(yōu)化基于分布對(duì)齊的損失函數(shù),模型能夠顯式學(xué)習(xí)標(biāo)簽序列的整體形態(tài)、相關(guān)結(jié)構(gòu)以及條件依賴關(guān)系。

    進(jìn)一步看,該研究揭示的問(wèn)題具有廣泛的普適性。只要學(xué)習(xí)任務(wù)的輸出構(gòu)成具有顯著相關(guān)性的序列(如語(yǔ)音、圖像、文本或用戶行為),若仍沿用基于獨(dú)立性假設(shè)的損失函數(shù)(如 MSE),則必然會(huì)引入結(jié)構(gòu)性偏差。因此,DistDF 所倡導(dǎo)的聯(lián)合分布對(duì)齊思想,不僅適用于時(shí)間序列預(yù)測(cè),也同樣適用于語(yǔ)音合成、軌跡預(yù)測(cè)等任務(wù)。它并非針對(duì)時(shí)間序列任務(wù)的特定技巧,而是為多任務(wù)學(xué)習(xí)問(wèn)題提供了一種更為通用的損失函數(shù)構(gòu)造范式。

    作者信息

    論文第一作者王浩,現(xiàn)為浙江大學(xué)控制學(xué)院博士研究生,研究方向聚焦于因果推斷、多任務(wù)學(xué)習(xí)技術(shù)及其在大語(yǔ)言模型中的應(yīng)用。2022 年- 2023 年,他曾在螞蟻金服、微軟亞洲研究院科研實(shí)習(xí),從事推薦系統(tǒng)理論研究。2025 年起,他在小紅書(shū)參加 RedStar 實(shí)習(xí)項(xiàng)目,進(jìn)行大語(yǔ)言模型、可信獎(jiǎng)勵(lì)模型領(lǐng)域的研究工作。

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    論文通訊作者林宙辰,現(xiàn)任北京大學(xué)智能學(xué)院、通用人工智能全國(guó)重點(diǎn)實(shí)驗(yàn)室教授。他的研究領(lǐng)域包括機(jī)器學(xué)習(xí)和數(shù)值優(yōu)化。他已發(fā)表論文360余篇,谷歌學(xué)術(shù)引用超過(guò)42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG會(huì)士,多次擔(dān)任CVPR、NeurIPS、ICML等會(huì)議的Senior Area Chair,現(xiàn)任ICML Board Member。

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    參考鏈接:https://zhouchenlin.github.io/

    本工作得到了北京市科學(xué)技術(shù)委員會(huì)、中關(guān)村科技園區(qū)管理委員會(huì)的大力支持,在此深表感謝。

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    北大林宙辰團(tuán)隊(duì):從最優(yōu)傳輸角度訓(xùn)練時(shí)序預(yù)測(cè)模型 丨ICLR 2026

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)