0
| 本文作者: 鄭佳美 | 2026-02-05 10:42 |
在心血管疾病預(yù)防中,一個(gè)長(zhǎng)期存在的難題是:許多疾病在發(fā)病前已在體內(nèi)潛伏多年,但要在早期準(zhǔn)確判斷一個(gè)人未來是否會(huì)同時(shí)面臨多種心血管疾病風(fēng)險(xiǎn),并不容易。
以往的風(fēng)險(xiǎn)評(píng)估主要依賴年齡、血壓、血脂等常規(guī)臨床指標(biāo),或多基因遺傳風(fēng)險(xiǎn)評(píng)分。然而心血管疾病往往是一個(gè)長(zhǎng)期演變、可能同時(shí)出現(xiàn)多種結(jié)局的過程,單一指標(biāo)或針對(duì)單一疾病的預(yù)測(cè)方式,很難全面反映真實(shí)風(fēng)險(xiǎn)。
隨著大規(guī)模人群隊(duì)列和高通量分子檢測(cè)技術(shù)的發(fā)展,研究者發(fā)現(xiàn)血液中的蛋白質(zhì)和代謝物能夠更直接地反映身體當(dāng)前的生理狀態(tài)以及疾病進(jìn)程。這些分子信號(hào)不僅受到遺傳因素影響,也會(huì)隨環(huán)境和生活方式變化,為長(zhǎng)期風(fēng)險(xiǎn)評(píng)估提供了新的信息來源。
在此背景下,由香港大學(xué)數(shù)據(jù)科學(xué)研究院及藥理與藥劑學(xué)系副教授張清鵬領(lǐng)銜的研究團(tuán)隊(duì),基于 UK Biobank 大規(guī)模前瞻性人群數(shù)據(jù),開展了一項(xiàng)多組學(xué)信息與人工智能相結(jié)合的研究。
研究團(tuán)隊(duì)不再局限于“一病一模型”的思路,而是將蛋白組和代謝組信息納入統(tǒng)一框架,同時(shí)評(píng)估多種心血管疾病的長(zhǎng)期風(fēng)險(xiǎn)。相關(guān)成果以《AI-based multiomics profiling reveals complementary omics contributions to personalized prediction of cardiovascular disease 》為題發(fā)表于 Nature Communications,為心血管風(fēng)險(xiǎn)研究提供了一種更整體、也更貼近真實(shí)人群的研究路徑。

論文地址:https://www.nature.com/articles/s41467-026-68956-6
這項(xiàng)研究的核心發(fā)現(xiàn)是:在傳統(tǒng)臨床指標(biāo)的基礎(chǔ)上,引入血液多組學(xué)信息,可以顯著提升對(duì)心血管疾病長(zhǎng)期風(fēng)險(xiǎn)的預(yù)測(cè)能力,而且這種提升在多種心血管疾病中都表現(xiàn)得穩(wěn)定一致。
研究基于 UK Biobank 的長(zhǎng)期隨訪數(shù)據(jù),采用分階段的方式構(gòu)建和驗(yàn)證模型。研究團(tuán)隊(duì)提出了 CardiOmicScore 框架,分別利用血液中的 2,920 種蛋白質(zhì)和 168 種代謝物,訓(xùn)練了兩類人工智能模型,并由此生成了兩種疾病特異性風(fēng)險(xiǎn)評(píng)分:基于蛋白組的 ProScore 和基于代謝組的 MetScore。
與傳統(tǒng)只針對(duì)單一疾病構(gòu)建的風(fēng)險(xiǎn)評(píng)分不同,這兩種評(píng)分是在同一模型中同時(shí)納入多種心血管疾病進(jìn)行訓(xùn)練,系統(tǒng)性地捕捉了多種心血管疾病之間的共性生物學(xué)特征及其各自的分子差異,最終會(huì)為每一種疾病分別生成對(duì)應(yīng)的風(fēng)險(xiǎn)評(píng)分。在隨后納入約 2.4 萬名基線時(shí)未患心血管疾病的驗(yàn)證人群中,研究者系統(tǒng)評(píng)估了這些風(fēng)險(xiǎn)評(píng)分的預(yù)測(cè)效果。

(圖1. 研究設(shè)計(jì)與分析流程。a. 研究人群;b. 模型開發(fā)流程;c. 模型性能評(píng)估。)
結(jié)果顯示,即使不依賴任何傳統(tǒng)臨床指標(biāo),ProScore和MetScore本身就已經(jīng)具備較強(qiáng)的風(fēng)險(xiǎn)識(shí)別能力,能夠在疾病發(fā)生前十年以上發(fā)出預(yù)警信號(hào)。其中,基于蛋白組的ProScore預(yù)測(cè)效果最為穩(wěn)定,其區(qū)分高風(fēng)險(xiǎn)與低風(fēng)險(xiǎn)人群的能力(C-index在0.69-0.82之間)明顯優(yōu)于多基因風(fēng)險(xiǎn)評(píng)分(C-index在0.52-0.60之間),在部分心血管結(jié)局中接近常用的臨床風(fēng)險(xiǎn)模型。基于代謝組的MetScore表現(xiàn)(C-index在0.64-0.74之間)略弱于ProScore,但整體仍優(yōu)于多基因風(fēng)險(xiǎn)評(píng)分。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
在真實(shí)人群中,這些多組學(xué)評(píng)分也能清晰區(qū)分不同風(fēng)險(xiǎn)水平,識(shí)別出更容易發(fā)生心血管事件的個(gè)體。無論是蛋白組還是代謝組評(píng)分,高風(fēng)險(xiǎn)人群在隨訪期間發(fā)生心血管疾病的概率始終顯著高于低風(fēng)險(xiǎn)人群,而且這種差異在六種心血管疾病中均一致存在。

(圖2. MetScore 與 ProScore 對(duì)心血管疾病風(fēng)險(xiǎn)的區(qū)分能力。a. 按MetScore分層的生存概率;b. 按ProScore分層的生存概率;c. MetScore和ProScore與心血管疾病風(fēng)險(xiǎn)的關(guān)聯(lián)強(qiáng)度。)
進(jìn)一步分析發(fā)現(xiàn),多組學(xué)信息在現(xiàn)有臨床評(píng)估基礎(chǔ)上能提供額外價(jià)值。無論模型中已包含多少臨床信息,只要加入蛋白組或代謝組評(píng)分,預(yù)測(cè)效果都會(huì)明顯提升,其中蛋白組評(píng)分帶來的改善最為突出,代謝組次之,而多基因風(fēng)險(xiǎn)評(píng)分的提升相對(duì)有限。這表明,多組學(xué)信號(hào)反映的是傳統(tǒng)臨床檢查難以直接捕捉的分子層面風(fēng)險(xiǎn)。

(圖3. 多組學(xué)信息對(duì)心血管疾病的預(yù)測(cè)性能。a. 模型的判別能力;b. 加入多組學(xué)信息后基線臨床模型預(yù)測(cè)性能的變化。)
從實(shí)際應(yīng)用角度看,加入多組學(xué)信息后的模型預(yù)測(cè)結(jié)果穩(wěn)定可靠,預(yù)測(cè)風(fēng)險(xiǎn)與真實(shí)事件發(fā)生率高度一致,不會(huì)系統(tǒng)性高估或低估風(fēng)險(xiǎn)。在多種模擬的臨床決策場(chǎng)景中,這類模型顯示出更高的潛在收益,有望在減少不必要干預(yù)的同時(shí),更早、更準(zhǔn)確地識(shí)別真正的高風(fēng)險(xiǎn)人群。

(圖4. 心血管疾病預(yù)測(cè)模型的校準(zhǔn)能力和凈收益曲線。a. 校準(zhǔn)曲線;b. 凈收益曲線。)
為了理解模型“為什么這樣預(yù)測(cè)”,研究者通過 SHAP 方法進(jìn)一步分析了模型最依賴的分子特征。結(jié)果顯示,一些臨床上早已熟知的指標(biāo)仍然是核心預(yù)測(cè)因子,例如與心臟負(fù)荷相關(guān)的 NT-proBNP 和 NPPB 蛋白,以及反映腎功能和營(yíng)養(yǎng)狀態(tài)的肌酐和白蛋白。
在此基礎(chǔ)上,模型還識(shí)別出了一批具有潛在價(jià)值的新型生物標(biāo)志物。在蛋白組中,GDF15、MMP12、FASLG 和NEFL 顯示出較強(qiáng)的預(yù)測(cè)能力;在代謝組中,谷氨酰胺、脂肪酸、糖蛋白乙酰基(GlycA)以及多種脂質(zhì)相關(guān)分子同樣具有重要作用。
這些分子在不同心血管疾病中的表現(xiàn)并不完全相同,為深入理解心血管疾病的復(fù)雜分子機(jī)制,以及探索新的干預(yù)靶點(diǎn)提供了線索。這些分子的作用模式,與心肌應(yīng)激、炎癥反應(yīng)和代謝紊亂等已知病理過程高度一致,說明模型確實(shí)抓住了心血管疾病的關(guān)鍵生物學(xué)信號(hào)。

(圖5. 心血管疾病風(fēng)險(xiǎn)預(yù)測(cè)中具有代表性的關(guān)鍵代謝物和蛋白質(zhì)。a. 關(guān)鍵代謝物;b. 關(guān)鍵蛋白質(zhì)。)

(圖6. 代謝物和蛋白質(zhì)在心血管疾病風(fēng)險(xiǎn)預(yù)測(cè)中的相對(duì)貢獻(xiàn)。a. 代謝物的預(yù)測(cè)貢獻(xiàn);b. 蛋白質(zhì)的預(yù)測(cè)貢獻(xiàn)。)
這項(xiàng)研究依托 UK Biobank 大規(guī)模前瞻性隊(duì)列開展。研究采用了“先開發(fā)、再驗(yàn)證”的嚴(yán)謹(jǐn)設(shè)計(jì):首先利用只包含單一組學(xué)信息的大規(guī)模人群數(shù)據(jù)訓(xùn)練模型,其中包括約 22 萬名具有代謝組數(shù)據(jù)的參與者和約 1.9 萬名具有蛋白組數(shù)據(jù)的參與者;隨后,再在一組同時(shí)具備遺傳、代謝和蛋白信息、且基線時(shí)沒有心血管疾病的 2.4 萬名個(gè)體中進(jìn)行獨(dú)立驗(yàn)證。這些人群的中位隨訪時(shí)間約為 15 年,使研究能夠充分觀察心血管疾病的長(zhǎng)期發(fā)生過程。雷峰網(wǎng)
研究重點(diǎn)關(guān)注了六種常見且臨床負(fù)擔(dān)較重的心血管疾病。所有疾病結(jié)局均通過醫(yī)院住院記錄和死亡登記信息進(jìn)行確認(rèn),確保了結(jié)果判定的可靠性和一致性。隨訪時(shí)間從基線評(píng)估開始,一直持續(xù)到疾病發(fā)生、死亡、失訪或隨訪結(jié)束。
在數(shù)據(jù)層面,研究整合了三類關(guān)鍵信息。遺傳風(fēng)險(xiǎn)通過既往全基因組關(guān)聯(lián)研究中已驗(yàn)證的遺傳變異構(gòu)建,用來反映個(gè)體的先天易感性;代謝組數(shù)據(jù)來自血液樣本,涵蓋脂質(zhì)、脂蛋白、氨基酸以及炎癥相關(guān)代謝物,能夠反映機(jī)體當(dāng)前的代謝狀態(tài);蛋白組數(shù)據(jù)則一次性檢測(cè)了近 3,000 種循環(huán)蛋白,覆蓋炎癥、免疫、代謝調(diào)控和心血管結(jié)構(gòu)重塑等多種關(guān)鍵生物過程。
在此基礎(chǔ)上,研究團(tuán)隊(duì)開發(fā)了一套名為 CardiOmicScore 的人工智能模型框架,分別針對(duì)蛋白組(ProNet)和代謝組(MetNet)信息構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型。該框架的一個(gè)重要特點(diǎn)是,它既能學(xué)習(xí)多種心血管疾病之間的共通生物學(xué)特征,也能同時(shí)捕捉每一種疾病特有的分子信號(hào)。模型最終輸出的是連續(xù)的風(fēng)險(xiǎn)評(píng)分,而不是簡(jiǎn)單的“有病或沒病”,因此更適合用于長(zhǎng)期風(fēng)險(xiǎn)評(píng)估。
在驗(yàn)證階段,研究采用了嚴(yán)格的獨(dú)立測(cè)試策略,確保模型在新的人群中依然有效。模型性能不僅通過常用的預(yù)測(cè)準(zhǔn)確度指標(biāo)進(jìn)行評(píng)估,還結(jié)合了校準(zhǔn)分析和決策曲線分析,系統(tǒng)檢驗(yàn)其在真實(shí)臨床使用場(chǎng)景中的可靠性和潛在價(jià)值。
此外,研究還對(duì)模型進(jìn)行了深入解釋,分析哪些具體的蛋白和代謝物在風(fēng)險(xiǎn)預(yù)測(cè)中起到了關(guān)鍵作用。這一步使得模型的預(yù)測(cè)結(jié)果能夠與已知和潛在的生物學(xué)機(jī)制相對(duì)應(yīng),而不是停留在“黑箱預(yù)測(cè)”的層面。
從研究意義上看,這項(xiàng)工作為心血管疾病風(fēng)險(xiǎn)預(yù)測(cè)提供了一種新的整體框架。研究清楚表明,僅依賴傳統(tǒng)臨床指標(biāo)或遺傳信息,很難全面反映一個(gè)人未來的長(zhǎng)期心血管風(fēng)險(xiǎn);而血液中的蛋白質(zhì)和代謝物,能夠更直接地反映身體當(dāng)前的生理狀態(tài)和疾病進(jìn)展過程。將這些信息系統(tǒng)性地整合起來,可以更準(zhǔn)確地預(yù)測(cè)未來心血管事件的發(fā)生。
在臨床應(yīng)用層面,研究提出了一種更高效的風(fēng)險(xiǎn)評(píng)估方式:通過一次血液檢測(cè),同時(shí)評(píng)估多種心血管疾病的長(zhǎng)期風(fēng)險(xiǎn)。這種方法打破了傳統(tǒng)“一病一模型”的做法,更貼近真實(shí)臨床中多種心血管風(fēng)險(xiǎn)往往同時(shí)存在的情況,也為未來開展更精準(zhǔn)、更高效的風(fēng)險(xiǎn)篩查提供了可能。
在精準(zhǔn)醫(yī)學(xué)的背景下,研究進(jìn)一步凸顯了蛋白組和代謝組信息的獨(dú)特優(yōu)勢(shì)。與相對(duì)固定的遺傳風(fēng)險(xiǎn)不同,這些分子能夠反映環(huán)境、生活方式和健康狀態(tài)的綜合影響,因此更適合用于動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)估和早期干預(yù),為心血管疾病的一級(jí)預(yù)防提供了新的科學(xué)依據(jù)。
此外,通過對(duì)模型的解釋性分析,研究不僅驗(yàn)證了傳統(tǒng)的 NT-proBNP 等既往已知的心血管相關(guān)生物標(biāo)志物,還通過AI揭示了一批潛在的新分子線索。這些結(jié)果有助于加深對(duì)心血管疾病分子機(jī)制的理解,并為未來生物標(biāo)志物開發(fā)、藥物靶點(diǎn)發(fā)現(xiàn)以及治療策略優(yōu)化提供方向。
從更長(zhǎng)遠(yuǎn)的角度來看,這項(xiàng)研究展示了一種具有良好擴(kuò)展性的醫(yī)學(xué)人工智能研究范式。隨著未來進(jìn)一步整合影像、心電圖等多模態(tài)數(shù)據(jù),這類模型有潛力發(fā)展為更全面的心血管風(fēng)險(xiǎn)評(píng)估工具,為臨床決策提供更加個(gè)體化和前瞻性的支持。
論文的作者包括:香港大學(xué)羅顏、崔夢(mèng)瑤、張清鵬,天津醫(yī)科大學(xué)第二醫(yī)院劉彤、張楠,南京大學(xué)羊劍楠,香港中文大學(xué)蔡錦輝教授和利物浦大學(xué) Gregory Y. H. Lip,張清鵬與劉彤為共同通訊作者。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。