新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

本文作者：劉海濤

2021-07-29 10:46

導語：提升一半成年人甲狀腺結節良惡性判斷準確度，助力精準醫學，這位海歸教授心中澎湃的AI+蛋白質組革命。

1987年，《紐約時報》雜志曾將人類基因組計劃描述為“歷史上最大、最昂貴、最激進的生物醫學研究計劃。”

但此后三十年時間，測序技術的進步，卻讓基因組學這一技術，成為這個世紀最主要的醫學科研進展之一。

其不僅改變了醫學研究的性質，也讓科學家能夠進行全面且強大的探索，據美國銀行預測，到2025年，與基因組學直接相關的研究產業就會達到410億美元。

而今，同樣的故事也在蛋白質組學研究出現，在人類基因組計劃完成之后，就有科學家在《Science》和《Nature》雜志興奮預言，蛋白質組學時代即將到來，并將取代基因組學成為生命科學研究的焦點。

西湖大學特聘研究員、西湖歐米創始人郭天南表示：一切生命的表現形式，本質上主要就是以蛋白質為主的生物分子的體現，而蛋白質被認為是一切生命活動的齒輪，也是藥物作用的最主要靶點。完整意義上的蛋白質組學，能夠對健康和疾病的發生、發展、轉歸等過程有一個全面的認識，把握疾病診治的關鍵，提高藥物開發的效率。

近些年，隨著蛋白質組大數據和人工智能技術的出現，這一研究領域獲得了極大的加速，并展現出非常廣闊的前景。

近日，雷鋒網《醫健AI掘金志》以“AI制藥·下一個現象級賽道”為主題，邀請燧坤智能、英飛智藥、宇道生物、西湖歐米、華為云，五家先鋒企業，舉辦了一場云峰會分享。

作為此次論壇的嘉賓，西湖歐米聯合創始人、董事長郭天南以《蛋白質組大數據聯合AI在藥物開發中的潛在應用》為題，進行了演講。

郭天南表示：目前，微觀生物世界數據仍是一個黑盒子，成年人身體大約有30萬億個細胞，即使一個非常簡單的真菌細胞也有4千萬個以上蛋白質，而且這些細胞里面蛋白質數量也是目前難以估量的復雜存在。

雖然，我們看不到這些微觀世界的數據，但這與我們的生命和健康都有重要的意義。

以甲狀腺結節良、惡性判斷為例，大約50%以上成年人都有甲狀腺結節，其中絕大多數結節都是良性，但同時也有30%結節無法診斷，如果不切除可能危及生命，如果切除發現是良性可能過度治療，因為患者并不需要在當前這個階段切掉甲狀腺。

過去四年，郭天南的團隊和多國合作者一起，從蛋白質組數據出發，引入神經網絡等技術開發了判斷甲狀腺結節良、惡性的新方法。

該方法通過和新加坡、西湖大學等科研機構合作，對超過6000多個蛋白質組數據做了測試和鑒定，得到新型甲狀腺結節鑒定方法ThyroProt (version1)，使甲狀腺結節良惡性診斷特異性達到93%以上。

目前，該技術和方法正在通過西湖大學校辦企業西湖歐米進行臨床轉化。

以下是演講全部內容，《醫健AI掘金志》做了不改變原意的整理和編輯：

大家晚上好，我是郭天南，是西湖大學特聘研究員、博士生導師，西湖大學蛋白質組大數據實驗室負責人，西湖實驗室iMarker實驗室主任，西湖歐米創始人。

很高興跟大家進行分享，今天的演講題目是“蛋白質組大數據聯合AI在藥物開發中的潛在應用”。

大數據實際上是目前我們數字經濟時代的“石油”，它的價值甚至比石油更加昂貴。

觀察家們預計，數字經濟將成為全球經濟與國家競爭力的又一個分水嶺。

新冠疫情全球爆發，更是加速這一進程，我國計劃總投入50萬億元來推動“新基建”的建設。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

據統計，4年之后，全世界的數據量將達到175ZB，相當于1750億TB，90%以上的數據是過去5年產生，所以今后5年產生的數據可能會更快。

而幾個主要存儲數據的公司都是科技企業。例如Google、Facebook、Microsoft和Mmazon都存儲了至少1200PB信息，數據應該是目前經濟數據及科研的一個制高點。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

我們發現這些數據很多來自于旅行、教育、通訊、購物平臺等，主要是文本、視頻、聲音、圖片等形式，普遍都是宏觀世界數據，也有一些健康和生命相關數據，例如什么病應該掛哪一科室，找哪一個醫生等等。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

前面提到全部都是人類宏觀世界數據。地球約有70億人，像杭州、蘇州常住人口有1000多萬人，每天產生大量宏觀世界數據。但我們還缺乏微觀世界的數據。

我們看不到的微觀世界目前像是一個黑盒子，一個成年人大約有30萬億個細胞，即使一個非常簡單的真菌細胞也有4000萬個以上蛋白質。

我們人類一個細胞蛋白質數量遠遠高于4000萬個蛋白質。每個細胞都有獨特特征，每個細胞里面蛋白質數量是目前無法估量的復雜存在。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

雖然我們肉眼看不到，但可以通過一些模擬，一個視頻感受我們體內的蛋白質機器。例如新冠病毒入侵，將會引起人肺內細胞蛋白質反應。這是我們看不到的過程。

但如果我們有技術把細胞放大幾萬倍，就可以看到里面存在一個全新世界，各種各樣蛋白質機器有條不紊的運動、變化。我們雖然看不到它們存在，但蛋白質組世界同我們健康息息相關。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

再舉一個例子，這是一個ATP合成酶動畫。1997年，獲得諾貝爾化學獎的三位科學家發現了這樣一個蛋白質機器。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

這個機器可以不斷旋轉，可以讓我們吃的食物變成以ATP為主的能量分子，這些紅色、綠色、黃色、藍色就是分子馬達不同部件，他們的運作同我們宏觀世界的汽車和機械表里面的零件很相似。只是生命活動分子馬達不需要電流作為能源來源，是通過我們生物能量來運作。

現在我們有技術可以將這些蛋白質動態變成數據，即蛋白質組大數據。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

這里舉一個例子，圖中每一個像素點都是一個蛋白質片段和一個多肽片段，紅色表示片段強度比較高，黑色表示片段強度比較低。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

如果我們將動畫平鋪到一張圖上，大家可以看到像竹簡一樣一列一列，這就是微量組織產生的蛋白質組大數據視覺化呈現。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

將其中4條挑出來橫著放，可以看到它們具有高度復雜的內容，如果再將其中很小一個區域放大，可以看到像宇宙一樣的星空圖。

宇宙里有很多點紅的、綠的、灰色的，像浩瀚宇宙一樣神秘，這里每一個點對應都是體內蛋白質信息，目前人類對蛋白質組了解非常少。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

我們團隊現在建立了蛋白質大數據新數據結構，叫DIAtensor （DIAT）。有了這樣數據結構，就可以很方便將蛋白質大數據進行視覺化、轉換為各種格式，并且進行深度學習，回答生物醫學健康相關問題。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

下面列舉幾個案例，第一是新冠疫情剛開始階段，我們與浙江省恩澤醫院、迪安凱萊譜一起合作的項目。

武漢疫情報道出來之后，大家非常關注，怎么樣鑒定哪些新冠患者是重癥，因為大部分成年人感染新冠病毒之后沒有任何癥狀，我們體內免疫力可以殺死新冠病毒。

據統計大概80%感染新冠是輕癥，絕大部分輕癥患者只要居家隔離，吃簡單抗病毒藥物，就可以得到有效治療，直至自愈，甚至不經過治療也可以痊愈。

但有20%癥狀新冠患者會出現非常不好情況，呼吸困難，如果不吸氧、不用呼吸機就可能死亡。如果能夠及早發現重癥患者，就可以很有效地利用寶貴的 ICU病房等資源。

當時，要判斷患者是否為重癥，只有當患者呼吸困難、血氧指數下降非常嚴重、進入ICU時才能夠得到鑒定。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

我們去年和醫院合作，做了一個基于蛋白質組學和AI的新診斷方法，可以從血液里的蛋白質、代謝等特征建立模型，提前預判哪些病人會出現重癥，準確度有93.5%。

但其中有兩個患者經常不準確，我們發現其中一個患者模型跟臨床不相符，是XG3患者，他是一個輕癥患者，但模型認為他是一個重癥。

后來發現這位輕癥患者是一個70歲男性，雖然是輕癥，但他是整個研究隊列里年齡最大，所以雖然是輕癥，但他的血液分子特征卻提示和重癥患者更相似。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

上圖中，是一個獨立訓練驗證集，共有10個病人，其中1個患者是XG45，臨床診斷是重癥患者，但模型把他劃在虛線左邊，認為他和輕癥患者更相似。

后來臨床審核發現，這位患者是一位62歲男性，入院之前經過20多天中藥和抗病毒治療，所以臨床上雖然表現為重癥，但實際其分子特征和輕癥更加相似，所以通過分子檢測可以看到臨床表現之外的一些蛛絲馬跡和預兆。

在圖中下方是一位XG22輕癥患者，但模型認為是重癥，和臨床醫生反復的核實臨床資料，發現患者有乙肝傳染史、糖尿病，雖然是輕癥，但住院時間是所有患者最久，甚至我們至今也不知道他為什么50多天才轉陰。

此外，在后續訓練中，我們也發現還有十幾位病人經過分子檢測和AI預測，和臨床診斷也不太相符，最終才知道來自底層的分子診斷可能會更加精準。

例如，樣本X2-22在患者里分數最低，甚至比重癥患者打分更低，但臨床認為他是輕癥。

臨床審核這個患者是一位66歲女性，在采血當天血糖達到27.8mmol/L，正常應該不超過6.1mmol/L，她當時處于非常危險的高血糖危象，好在恩澤醫院對她進行了救治，如果晚一些，患者有可能就會因為高血糖危象而失去生命。

所以我們如果提前有分子檢測模型，就可以預測哪些患者更嚴重，使用蛋白質檢測和AI模型監測病人病情，可以達到非常好效果。

宏觀世界上看不到一些分子機理也可以通過蛋白質檢測來實現，例如找到藥物靶點。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

例如，我們今年完成的一篇發表在CELL上的工作，將當時在武漢協和醫院因為新冠而不幸離世的患者進行尸檢，觀察死亡患者的心、肝、脾、肺、腎、甲狀腺、睪丸等組織器官的細胞層面改變。

過去對類似新冠疾病等未知疾病的理解，通常是宏觀世界癥狀為基礎，將組織用顯微鏡放大，通過病理技術檢測了解疾病對人體影響，但這樣的檢測并不能知道什么病因導致患者死亡，也不能告訴我們什么樣藥物，讓病人病情逆轉，降低死亡率。

我們通過蛋白質檢測可以獲得底層信息，對每一個器官蛋白質發生的改變進行鑒定。

圖中標色的蛋白質都是在心、肝、脾、肺、腎、甲狀腺、睪丸等里面死亡患者的高蛋白表達，這可能是他們治療的靶點。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

這兩個案例說明對于人體所有組織器官、液體、體液等都可以進行蛋白質分析，只要有生命就有蛋白質，有人體活動就有蛋白質變化。

我們可以從血、尿、眼淚等體液中鑒定到大量蛋白質，例如眼淚里有數千個蛋白質、腦積液、唾液、活檢組織、腫瘤組織、冰凍組織、石蠟組織細胞、頭發、牙齒、指甲、骨骼、糞便也含有大量蛋白質。

極小量樣品，小到一個芝麻的1/10或者是一滴血的1/10，或者是幾滴尿液，可以進行有效蛋白質組分析。

大多數人認為蛋白質鑒定比較貴、慢。但現在隨著技術改進，實驗室每天可以快速處理數百個蛋白質組，產生大量用于AI分析的數據。

圖中一個石蠟組織里大部分都是石蠟，腫瘤組織極少，從這么小組織中提取的蛋白質可以進行幾十次蛋白質組分析，實現定量組織的蛋白質組全面分析。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

例如這張圖，是目前廣州健康營養隊列以及西湖大學鄭鉅圣團隊一起合作的蛋白質組項目，項目分析大約18000個血清蛋白質組，進行了代謝綜合征預測。

代謝綜合癥就是三高，高血壓、高血糖、高血脂患者和亞健康狀態患者。

他們從2008年開始，對大約兩千個人進行監測，通過臨床資料，采集血、尿、糞便等，2014年又隨訪了1800多人繼續研究，2018年還有1179位仍然在參與這個項目。

目前的設備用1微升血提出的蛋白質，就足夠做幾百次蛋白質組分析，20分鐘就可以分析一個樣品蛋白質組。

現在分析速度提高，5~10分鐘就可以做一個樣品，分析成本又降低數倍。

我們一共鑒定300多個蛋白質組，建立了機器學習模型，準確度差不多達到80%，這個數據是幾個月前的，最近我們又取得新進展，可以達到約90%準確度。

僅僅通過不到一滴血的12個蛋白質，就可以預測一個人10年當中是否會出現代謝綜合征，這樣技術對健康狀態監測有非常好的應用前景。

此外，新冠病毒研究也有了新發現，通過尿液里蛋白質結合鑒定新冠輕癥和重癥。

醫院檢測尿蛋白是比較傳統的方法，尿蛋白非常高的時候才能測出，而我們通過靈敏蛋白質組技術，發現健康人尿里也有數千個蛋白。

血液蛋白質基本都可以在尿里檢測出，腎小球重吸收導致血高豐度蛋白大大降低，所以可以看到更多蛋白質。

我們通過分子量分析發現，尿液蛋白質分子量大小同血液沒有明顯區別。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

而且，我們的多個研究還發現細胞因子風暴、免疫治療或其他疾病中，尿蛋白都有非常重要指示作用。

尿蛋白質組數據結合機器學習可以進行新冠輕重癥判斷。如圖所示，紅色顏色越深代表預測效果越好，準確度越高。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

最后列舉一個甲狀腺結節分析案例，甲狀腺每個人都有，在脖子下面像蝴蝶一樣的小器官，只有十幾克。

甲狀腺結節也常見，50%以上成年人都有甲狀腺結節，年紀越大發生率越高，大部分經常吃海鮮的人甲狀腺結節概率高達90%以上。

甲狀腺結節分惡性和良性，惡性醫生會建議全切或半切除，但甲狀腺是非常重要的激素器官，患者切除后需要終身服藥，情緒上也會有變化。

目前，有30%結節是無法診斷良惡性，當出現無法診斷結節，病人和醫生都會感到巨大壓力，如果切除可能是過度治療。

因為患者并不需要在當前階段切掉甲狀腺，所以就涉及到精準診斷問題。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

從十幾年前開始，基因測序技術成熟之后，美國FDA就已經批準多個基因診斷試劑盒，通常測量幾十，甚至一百多個基因DNA和RNA來診斷甲狀腺結節良惡性。

經過權威雜志Nature Reviews Endocrinology 在2018年評估，這些基因測序檢測結果靈敏度可以達到83%~100%，即如果結節是惡性，檢測試劑盒基本可以判斷出來，但特異性只有10%~52%。

換句話說試劑盒判斷是惡性結節實際有大約50%~90%是良性，最后會讓最高達90%的患者有過度治療危險。

過去四年，我們首次用蛋白質組大數據結合神經網絡，開發了判斷甲狀腺結節良、惡性的新方法，前面所有診斷方法都是基于基因，而基因跟蛋白質相比疾病相關性相對弱一些。

基因會有很多改變，如果不在蛋白質水平得到體現，很難影響到疾病發生和進展。

而蛋白質檢測難點在于，如何處理小量組織，鑒定更多蛋白，穩定進行蛋白質定量，我們已經有效解決這些技術難點，也開展多中心臨床研究。

我們同新加坡Gopal和Kon教授等團隊合作建立訓練集，采集了578個患者樣品。

新加坡是海邊城市，人吃海鮮比較多，甲狀腺結節也非常多，我們做了1700多個蛋白質組，同時在中國也做了回顧性研究，有3個中心納入271個患者；后來又做了前瞻性研究，納入255個患者，目前這些還都是尚未公開發表的前期數據。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

我們用微量組織高通量蛋白質定量方法，總共鑒定6000多個蛋白，其中神經網絡分析是西湖大學李子青教授團隊完成的。

新加坡樣品得到這個模型，在回顧性隊列和前瞻性隊列綜合都達到90%以上準確度。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

將蛋白質組織更多用于藥物開發，是后續非常有信心要做的一件事，藥物開發是大家非常關注的焦點。

ThyroProt v1基于蛋白質檢測方法，同發表在New England Journal of Medicine的基因診斷方法相比，靈敏度要稍弱一些。

這因為目前蛋白質診斷甲狀腺診斷主要問題是特異性，基因檢測特異性在50%~81%左右，蛋白質可以達到93%，綜合準確度蛋白質是90%以上，基因最高是84%，這是2018年結果。

這個研究說明我們可以對數以千計微量臨床樣品進行有效蛋白組學分析，并且聯合AI改善疾病診斷。

將蛋白質組技術更多用于藥物開發，是我們下一步非常有決心和信心要做的方向，藥物開發是大家非常關注的焦點，所有疾病都希望通過藥物進行有效治療。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

將三個步驟進行分析，會發現蛋白質組學在藥物開發中每一個步驟都有非常大潛作用，幾乎所有藥物都針對蛋白質發揮作用。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

藥物臨床結果預測，通常需要幾個療程，每個療程可能需要幾個月時間甚至更久。

新冠研究里發現，急性期可能在血液已經出現一些征兆，這和后來反應都有一些復雜關聯。已有研究發現，血液里尿蛋白質改變，同幾天或幾周后臨床表現有非常密切關聯。

所以我們有信心通過臨床試驗，加上蛋白質數據，加上模型建立，更快更準確的判斷。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

目前非常受到關注的兩種新型藥物，研究歷史都有十年或十幾年，這些藥物得到國內、外非常多關注。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

第一類是ADC藥物（Antibody-Drug conjugates），它的設計非常巧妙，一個抗體可以結合腫瘤細胞表面一些特異性蛋白，而尾巴上有一些傳統毒素，這使得它具有殺傷力同時又具有特異性。

但特異性前提是能夠找到只在腫瘤細胞表面的高表達蛋白。

我們團隊做了簡單調研，自2000年以來，全球共有11個ADC產品在FDA獲批上市，主要以癌癥為主。

國內ADC稍晚一些，目前ADC藥物研發處于初級階段，有一款藥物今年剛剛獲得批準。

可以看到Nature Reviews Drug Discovery預測結果，今后5年ADC銷量在國外銷量會出現非常大提升。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

ADC研發及蛋白質組學應用難點，重要就是靶向抗原選擇，抗體結合哪些蛋白很重要，這是ADC開發的起點，也是ADC研發企業競爭的熱點。

目前，國內已公開研發藥物中大部分都是靶向HER2，未來預期會有越來越多ADC藥物靶點有待發掘。

蛋白質組學可能有非常巨大作用，團隊也在這方面綜述，現有蛋白質數據可以看到大腸癌、胃癌、肺癌等等，有非常多潛在藥物靶點存在數據當中，我們團隊后面會和一些ADC公司合作，尋找新差異化靶點提供支持。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

此外是臨床試用者選擇，這和前面一樣，雖然已經找到有效藥物，但藥物并不對所有人有效。

通過蛋白質組學、質譜檢測，可以有效確定患者腫瘤組織里有沒有蛋白質高表達，在疾病進展當中有沒有改變，通過蛋白質檢測針對不同個體情況，提供相對應治療方案，為助力精準醫療落地提供有效指導。

第二類創新藥是PROTAC技術，這個技術可以使以前沒有藥物的蛋白靶點有效降解，是非常巧妙的體內泛素化系統。

這個藥物有兩端，一端連接E3連接酶，另外一端連接降解蛋白質，將兩端連接到一起后，靶向蛋白就會被泛素化。

泛素化也被稱為死亡之吻，蛋白質結合這樣一個泛素化蛋白，就會被一個Proteasome機器將蛋白質變成碎片實現降解，這比小分子結合阻斷蛋白功能更加直接有效。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

目前PROTAC相關藥物，國內、外臨床研究還比較早期，人類基因組里面有600多個E3連接酶，其中只有非常少數被用于PROTAC設計，這個領域還有廣泛開發空間。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

表格總結了小分子成功靶向關鍵靶點，這些靶點不是特別多，據不完全統計全球基于PROTAC技術研發管線有60多個，國內也有好多正在啟動。

PROTAC如果成功靶點選擇非常重要。哪些蛋白可以被泛素化或者泛素化效率如何？用了藥物之后被修飾效率有沒有提高？降解程度如何？腫瘤組織和非腫瘤組織有什么區別？哪些蛋白質降解可以全局通過蛋白質組進行系統檢測，都是全新的領域。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

下圖是2015年的文章，文章發現基因組生命科學時代，基因組數據增長更快，把蛋白質加進來增長可能會更快，因為蛋白質比基因更多信息，和生命科學更加相關。

新藥開發、疾病判別...我們還是低估了「AI+蛋白質組學」的威力

蛋白質組大數據距離我們還有多遠？

現在我們擁有將臨床樣品轉化為蛋白質大數據的技術，今后幾年我們將產生更多蛋白質組大數據，聯合AI可以對生命奧妙和調控有更加深刻的理解。

問答環節

Q1：蛋白質組大數據聯合AI診斷疾病準確率高嗎？

郭天南：這是一個非常大的問題，應該針對每一個疾病而定。蛋白質大數據可以理解為一個新興領域，一個新技術，有獨特的優勢，也具有一些局限性。

我們目前在西湖大學做了幾個例子，前面講的甲狀腺結節判斷準確率還可以的。目前經過基因診斷準確度，尤其是特異度，都比不上目前基于蛋白質的診斷方法，對于前面代謝綜合征預測模型也非常好。

但這種方法是不是對所有疾病都非常好，目前尚沒有數據證實或證偽，從理論上看，蛋白質分析應該是任何疾病都需要的。

Q2：蛋白質組中是否含有人類疾病的生物標志物（Biomarker）？

郭天南：肯定是含有的，人類疾病甚至健康狀態改變都會涉及蛋白質改變。

說話、休息、吃飯都有蛋白質改變，當然這些改變是背景改變，蛋白質改變可能是正常改變，有些蛋白質在疾病狀態下改變。

我們需要通過復雜計算方法挑出疾病有影響的蛋白質。

Q3：BCR-ABL融合基因是什么？

郭天南：這是伊馬替尼(imatinib)的藥物靶點，《我不是藥神》電影原型就是這個。

針對慢性髓系白血病，BCR和ABL本來是兩個蛋白，不同染色體編碼兩個蛋白在某一些白血病當中會融合形成新蛋白，具有非常強酶活性，打破生理平衡引發慢性白血病。

神藥出現，實際也是蛋白質檢測的一個成功，當然蛋白質水平源于基因表達，蛋白的融合源自基因融合。

Q4：請問針對不同組學方法得到的數據，該怎么整合？

郭天南：我們有很多嘗試，沒有統一方法可以用于所有多模態、多組學數據，但只要有這樣一個臨床問題，有這樣數據相信一定可以找到方法。

例如甲狀腺，我們用蛋白質組數據進行建模，實際我們還有一個正在進行的項目，是將蛋白質跟基因還有超聲特征，包括人性別年齡等信息全部整合起來，進行AI建模，這是生命科學的新領域。

聽眾當中如果有計算機專家，也歡迎你們加入生命科學這個領域，現在是非常激動人心的時刻。

隨著更多計算機專家加入，這些整合一定可以更加有效實現，前面提到宏觀世界大數據，實際數據結構更加復雜，復雜性不亞于生命科學數據，但照樣可以整合起來。

例如搜索Google，可以告訴我們是什么樣網頁，然后我們看抖音可以推薦喜歡看的視頻，這都是通過算法可以實現，在有經驗計算機專家看來，問題不是很大。

Q5：痕量樣本蛋白檢測的重復性能夠保證嗎？距離臨床檢測應用還有多遠？

郭天南：衡量樣品進行檢測重復性讓我覺得非常驚嘆，可以看到我們的數據，訓練集都是痕量樣品，訓練集是來自于新加坡，新加坡有各種人種，生活環境、經度、緯度跟中國都不太一樣。

但我們從這些數據訓練出的模型，在中國杭州、大連、沈陽患者居然可以適用。并且訓練集樣品是石蠟組織，在石蠟組織中建立模型，同時在前瞻性新鮮組織里也可以達到90%以上綜合準確度。

這個準確度我們都覺得驚訝，非常穩定，但并不表示所有組織和數據都會這么穩定，這里面有很多考量，我們對質控、數據分析要求也非常高。

距離臨床應用檢測還有多遠，我希望在保證質量同時盡快。我們在大學里建立這個模型尚不能直接應用于臨床。

我們正在通過西湖大學校辦企業西湖歐米進行臨床轉化，有可能明年會推出通過志愿者進行臨床檢測。

Q6：蛋白質組中怎么判斷哪些蛋白不會相互作用？準確率多高？比判斷相互作用困難嗎？

郭天南：蛋白質相互作用分析，質譜是可以實現的，如果一個具體問題可以通過一個細胞模型，某個蛋白跟哪個蛋白結合或不結合，都可以通過實驗數據以及后續對應分析方法進行監測。

Q7：計算蛋白質組學有哪些應用場景？

郭天南：這太多了，如果我們有蛋白質大數據，其在生命健康的應用場景不會亞于現在宏觀世界大數據應用場景。

如果你問我宏觀世界大數據有什么應用場景，我可以說它幾乎無所不在。我們的衣、食、住、行都跟宏觀世界大數據相關，但微觀世界數據，一個人細胞數量和地球上所有人數量是同一個量級。

一個成年人有30~70萬億個細胞，很多細胞不斷生成降解，像紅細胞每隔120天就會生成降解，每個細胞里都有數億萬計蛋白質，這些蛋白質數據包含什么信息，有什么應用場景現在沒有人可以估量。

舉例說凡是跟生命健康相關的應用場景，都有可能通過蛋白質智能計算獲得。

Q8：猶如體檢之前會要求禁止飲食，可能會影響體檢結果。患者是否有些行為會影響到蛋白質組學的檢測結果？

郭天南：我們做了18000個血漿蛋白質組預測代謝綜合征，代謝綜合征是三高、高血糖、高血脂、高血壓，是非常復雜的疾病，遺傳因素，生活習慣因素，飲食因素等都會影響到。

我們測出蛋白質組數據，一定會受到各種各樣因素的干擾，好在有大數據可以容忍一些變異，容忍噪音，在大數據層面，AI會自動剔除干擾因素，將好的信號提示出來。

雖然我們有幾百個蛋白被檢測，最后只找到12個最穩定跟疾病最相關，雖然肯定會有影響，但后面會挑出來。

甲狀腺結節診斷也測到6000多個蛋白，最后AI模型只發現其中的20個，這種準確度和其它6000多個蛋白相比，還沒有達到足夠穩定性和信息含量。

Q9：疾病診斷中有沒有采用RNA轉錄組進行判斷的？相比蛋白質組哪個更有優勢呢？

郭天南：像甲狀腺結節的良、惡性判斷，基因診斷試劑盒，很多依賴RNA，但為什么會出現很多問題？

因為RNA很容易降解，并且RNA絕大部分不具有生命活動和執行功能分子，目前已經有很多研究表明， RNA和蛋白質相關性并沒有那么強。

我們之所以要測RNA，一方面是因為有這樣技術很容易檢測，另一方面因為希望通過RNA來預測蛋白質，越來越多研究發現RNA并不能完全預測蛋白質表達。

在臨床應用中二者很容易降解，像甲狀腺穿刺出來，一不小心RNA就會降解，或者測到跟他體內RNA表達并不一致，而蛋白質非常穩定。

研究石蠟組織可以很方便從新加坡接到中國，因為常溫保存運輸，而石蠟組織里是不能做RNA分析，即使能做測出來結果跟他體內狀態也不一樣。

我們團隊前期做了很多工作，發現石蠟組織和新鮮冰凍組織蛋白質表達非常穩定。

Q10：AI+蛋白質預測這樣的前沿技術，目前在產業落地中有哪些比較難的瓶頸？

郭天南：最大瓶頸就是人才隊伍。聽眾里有很多非常優秀人員，可能大家都知道基因組，很多從事生命科學都去做基因相關研究和轉化。

也有更多非常優秀年輕人去做AI，像隔壁的阿里或騰訊都有非常高的工資，而在蛋白質這樣的領域，聯合使用AI還需要進行一定探索，所以如果沒有好的隊伍，這個領域也很難發展起來。

領域重要性毋庸置疑，現在越來越多人關注這個領域，非常高興有這么多人參與討論，相信只要有優秀的人加入，就不會存在什么問題，只是時間的問題，或遲或早，人類總有一天會解密，黑匣子會被打開，我們對生命理解就會更加深刻。

Q11：請問歐米的質譜分析是自己做嗎？跟其他做蛋白質譜的企業相比數據方面有哪些優勢？

郭天南：我們質譜都是自己做，跟其他企業相比有什么優勢這里不便回答。

Q12：郭老師，蛋白質檢測技術和基因檢測相比，區別和優勢有哪些？

郭天南：針對一個難以診斷問題，大家第一想法就是做基因檢測，目前基因檢測學術上是如火如荼。

從產業上大家都可以做，一個基因突變，哪個公司都可以去檢測，沒有什么門檻，而蛋白質檢測有門檻，蛋白質經過挑選之后只有20個蛋白質，在腫瘤和非腫瘤、良、惡性都有。

但基因突變良性沒有惡性有，蛋白質是個連續不一樣的變量，通過不一樣建立模型，進行更加全面精準判斷。

因為生命肯定不會這么簡單，用學術術語來說蛋白質表達具有更高顆粒度，內涵更加的豐富，可以精準描述一個生命狀態，生命肯定不會像基因突變一樣簡單，這就是蛋白質優勢。

蛋白質檢測也有缺點，例如現在沒有技術可以很好擴增蛋白質，以前蛋白質檢測需要大量組織，很多研究不能夠進行，現在可以用比較小微量、痕量組織進行蛋白質分析，很大程度彌補蛋白質基因和蛋白質應用障礙。

很多時候我們能夠分析蛋白質組織，基因測序做不了，但蛋白質可以做，像石蠟組織RNA做不了，而蛋白質可以做的非常好。

我們更喜歡用石蠟組織，還有頭發，里面除了毛囊之外只有蛋白質，所以頭發里面的蛋白質信息是非常豐富，還有牙齒等等。

最后，感謝大家參與這次的交流。雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

劉海濤

編輯

專注AI醫療的新勢力和投融資丨微信ID：Daniel-six

發私信

當月熱門文章