深圳灣實驗室周耀旗：填補AlphaFold 2缺口，開啟所有蛋白質結構的高精度預測時代

本文作者：任平

2023-12-04 11:11

導語：人類能否參透微觀世界的奧秘？

人類能否參透微觀世界的奧秘？

如果把這個問題放在生命科學領域，直接指向就是遺傳信息的最終生成物——蛋白質。

人類的體內有10萬種以上的蛋白質，它們都是由20種氨基酸排列組合產生的。數十到數百的氨基酸集合成為擁有各種立體結構的蛋白質，這些蛋白質在它們的“坑洼”處和特定的物質相結合，而發揮其各種各樣固有的機能。

這也就是說，只要拿到了每一種蛋白質的結構，就能得知它的功能。

那么更進一步地，人類想要在通過蛋白質結構輔助設計、新藥分子設計，研制出可以帶來領域變革的原創新藥，就變的“十拿九穩”。

這并非隨意而下的定論。以醫藥研發行業公認的“雙十定律”來看，創新藥從開始研發到上市最少需要10年，耗資最少10億美元。但即使滿足時間和金錢的雙重成本，創新藥研發成功的概率依然只有不足10%。

“這是一個蛋白質結構預測時代。”厘清生命科學的底層邏輯，在基礎科學與臨床藥物之間搭起一座橋梁，是無數人的終生理想。

在蛋白質這一命題上，曾有全球科技巨頭谷歌旗下的前沿人工智能企業DeepMind，將機器學習和系統神經科學的最先進技術結合起來，建立強大的通用學習算法，最搶眼的一大成果便是在蛋白質結構預測上的應用。

2020年底，其人工智能系統“AlphaFold 2”一戰成名，將人工智能預測的蛋白質結構達到了實驗測定的精確度。直到今年10月底，DeepMind對蛋白質結構的研究仍在繼續，并對外劇透：AlphaFold 3即將推出，已用于藥物設計。

具體細節可點擊文章：「AlphaFold 3」要來了？DeepMind最新推出新一代蛋白質結構預測工具，已用于藥物設計

除了工業界的這位常青選手外，不少學術派也置身其中。

不過，一個最新里程碑進展已經出現：人類可望實現對所有蛋白質結構進行高精度預測，彌補了AlphaFold 2對那些在天然蛋白質中難以找到同源序列的蛋白質無法進行高精度結構預測的不足。

這一成果來自深圳灣實驗室周耀旗教授團隊（湯金樂、張哲、詹劍、周耀旗），目前該論文成果已經上線預印本網站bioRxiv 。

深圳灣實驗室周耀旗：填補AlphaFold 2缺口，開啟所有蛋白質結構的高精度預測時代

鏈接：https://biorxiv.org/cgi/content/short/2023.11.22.568372v1

補上AlphaFold 2的一塊缺口

眾所周知，通過實驗技術確定“高分辨率蛋白質結構”，既昂貴又耗費力。直到AlphaFold 2的出現，開啟了一個基于深度學習的計算預測時代。

但，這一方法也僅適用于那些天然存在的、已有足夠同源序列的蛋白質。

這是因為AlphaFold 2主要依賴于進化信息進行預測。它是通過端到端的深度學習、利用大數據和大模型，找到了多個同源序列與相應的“單一”結構之間的關系。

也就是說，AlphaFold2強烈依賴于多序列比對(MSA)中的進化和協同進化信息。對于找不到太多同源序列的蛋白質(例如抗體，孤兒蛋白，病毒蛋白，復合物等)，AlphaFold 2預測的精確度就會大幅度下降。

數據顯示，雖然估計AlphaFold 2可以覆蓋大約98.5%的人類蛋白質組，但只有58%的殘基可以被可靠地預測，而只有36%的殘基可以被高置信度地預測。

拿抗體來說。抗體本身是針對新的抗原進行的快速突變，進化時間相對較短。它們是基于抗體庫中挑選出來的，因此抗體的序列并不多樣化，這導致過去AlphaFold 2難以準確預測其結構。

但這并非沒有解法。

解決同源序列不足的蛋白質結構預測的兩種方法是：

用新解析的基因組或宏基因組數據更新序列數據庫，并提高同源搜索的靈敏度。這可能對某些蛋白質有效，但不能解決那些缺乏天然同源序列的蛋白質的問題。

另外一種方法是，通過學習數據庫中的其他進化序列，使用隱含進化信息的蛋白質語言模型。

然而，這兩種方法均無法對不同的蛋白質實現一致的、高精度的預測。

“如果天然同源序列不充分，是否可以采用人工生成的同源序列來改進結構預測？”

周耀旗教授作了一個形象比喻：既然上述蛋白質沒有那么多兄弟姐妹，能否人為地制造多個，再用AlphaFold 2來預測結構。

但這一方法的難度在于：

其一，與大多數經過數十億年進化的天然序列不同，人工生成的同源序列是在實驗室進化的短時間內產生的，目前尚不清楚高度同源序列(>95%序列同一性)，是否可以直接用于AlphaFold 2或相關的預測工具。

其二，大多數深度突變掃描實驗都是通過功能篩選進行的。例如抗生素抗性蛋白、熒光蛋白和具有特異結合性能的蛋白。鑒于數千種蛋白質功能，不可能針對不同的功能開發不同的篩選技術，更不用說并不是所有的蛋白質功能都適合高通量研究。

因此，利用人工同源序列進行結構推斷，將需要一種技術，它是基于結構穩定性來篩選結構上同源的序列。

原則上，這種技術可以適用于所有依賴穩定結構發揮功能的蛋白質，無論其功能類型如何。現有的監測蛋白質折疊穩定性的方法，主要依賴于蛋白酶誘導的蛋白質水解或蛋白質片段互補實驗。

然而，每種技術都有其局限性，如篩選能力或靶蛋白的大小限制。更重要的是，這些技術并不是為預測蛋白質結構而設計或測試的。

針對上述問題，周耀旗教授介紹，“我們發現，采用人工生成的、基于結構穩定性篩選的、并通過高通量測序所獲得的同源序列，作為AlphaFold2的輸入，可以實現蛋白質結構的高精度預測。”

深圳灣實驗室周耀旗：填補AlphaFold 2缺口，開啟所有蛋白質結構的高精度預測時代

周耀旗教授

實驗結果表明：

?僅一輪帶有少量突變的大規模篩選，就足以實現結構的高精度預測。

?對于實驗的5個蛋白質中的4個，只進行了一輪深度突變序列的篩選，就足以使預測結構的準確度達到小于2? RMSD。其中3個蛋白質的表現甚至優于使用天然同源序列的AlphaFold2。

?唯一一個預測結構RMSD大于2?（2.92?）的蛋白質，有一個完全暴露在表面上的β發夾，在非結晶條件下可能是可以靈活變動的構象。

值得注意的是，該研究通過將簡單的分子生物學實驗（深度突變掃描加體內或體外篩選）與高通量測序相結合，顯著降低蛋白質結構測定的成本，并提高周轉效率。

也就是說，這種具有成本效益的技術可以在任何分子生物學實驗室進行，而不需要昂貴的設備。相比用實驗方法解析這些結構，如X射線衍射或冷凍電鏡等，費用要低至少一個量級，而且該方法實驗操作簡單，后續有望改寫蛋白質結構的研究范式。

此外，這一技術可以進一步擴展到預測蛋白質復合物，以及具有翻譯后修飾的蛋白質的結構。

據悉，這一方法命名為“Sibs-Seq”，兄弟姐妹的測序。

目前該論文成果已經上線預印本網站 bioRxiv，標題為《Effective High-Accuracy Prediction of Protein Structures from Easily Obtainable Artificial Homologous Sequences by Structure-Stability-Based Selection》（基于結構穩定性的篩選，從容易獲得的人工同源序列中高效高精度地預測蛋白質結構）。

回到新藥研制的社會話題上，該方法也將有極大的應用價值。

通過預測蛋白質的結構和變化，可以更好地了解蛋白質與藥物相互作用的機制、抗體與抗原相互作用機制，從而設計出更有效的藥物。

此外，該方法還可以應用于合成生物學領域。通過預測蛋白質的結構和變化，可以更好地了解合成生物學中的生物系統如何響應外部刺激，從而優化生物系統的設計和性能。

“低突變無用論”成為過去

“在我們的工作過程中有一大驚喜，反而成為了這一研究的重要轉折點。”

周教授意思是指，利用AlphaFold 2進行蛋白結構預測時，如何處理自然進化和人為變異的差異方面，已經有了一些新發現。

由于自然進化需要幾千萬年甚至幾億年的時間，這個過程中許多氨基酸發生了變化，且氨基酸變化的范圍廣泛且變化量大。因此，許多人在處理進化信息時會排除相似同源的信息，認為這些信息量太少沒有用處。

周耀旗團隊雖然認為人工低突變同源序列很有用，可以從中萃取出比較準確氨基酸接觸圖，并在RNA上證明了這一點，但AlphaFold 2是用高突變的同源序列來訓練的，可能需要人工進行多輪進化的多突變序列，才能到達一定的效果。他們沒想到，即使只改變一個或兩個氨基酸，只要有足夠的數量就可以使用AlphaFold 2來預測蛋白質結構，達原子精度。

他們這次實驗一共做了的5個蛋白質，里面有3個，利用獲得的人工同源序列，預測的蛋白質結構比用天然同源序列還要精確，這是一個意外的發現。這表明，盡管天然同源序列對許多蛋白質可以通過搜索獲取，但人工同源序列有它的優勢。

周教授認為：

首先，突變少，意味著對結構的影響小，完全相同結構的可能性遠遠超過天然同源序列，因此大量少突變的人工同源序列比少量多突變的天然同源序列應該對結構預測更有用。其次，不像天然同源序列，人工同源序列的數量是可控的，如果覆蓋率不夠高，可以再做幾輪實驗來達到目標。

其次，自然進化的序列還受功能以及其它與折疊不完全相關的因素決定，也包含著測序、比對可能錯誤等過程帶來的噪音，而人工同源序列則信噪比好很多。

最后，該方法不同于利用功能篩選的方案，比如抗性基因的功能，利用結構的穩定性來篩選，保證了方法的普適性以及突變序列與原來序列結構的一致性。

據周耀旗介紹，這一方法包括深度突變、穩定性篩選、高通量測序和結構預測等四大關鍵步驟。

1，深度突變：對基因進行深度突變。這意味著對基因的整個序列進行隨機突變，以單突變和雙突變為主，涵蓋了所有的位置，突變種類至少10^?6次方以上。

2，穩定性篩選：突變后的>10^?6的基因庫會被裝入一個設計成能夠進行穩定性篩選的質粒，并電轉到大腸桿菌里，其中突變后的蛋白質結構穩定性高的基因變體，它會把鼠源二氫葉酸還原酶兩個片段拉在一起，形成有功能的結構，導致甲氧芐啶耐藥性，大腸桿菌能夠在甲氧芐啶存在的條件下生存，繁殖，和擴增，導致穩定性高的基因變體被富集。反之，對于那些突變后的蛋白質結構不穩定的基因變體，大腸桿菌沒有甲氧芐啶耐藥性，從而這些變體會減少或者消失。

3，高通量測序：在經過一段時間（如12-36小時）的培養后，穩定性高的蛋白質會生長得更快，這樣其序列數目就會更多。通過高通量測序可以測量出很多序列，其中有些序列的數量特別多，有些則非常少，還有的序列已經消失。

4，預測結構：通過比較不同突變體的富集度，可以估算其穩定性。然后把結構穩定的蛋白變體作為同源序列放到AlphaFold 2進行結構預測。這個預測結構的過程就是該方法的最后一步。

回國以來的里程碑工作

2021年3月，周耀旗結束了長達36年國外留學及教學生涯，加入深圳灣實驗室，擔任系統與物理生物學研究所副所長。

現階段主要工作是蛋白質和RNA結構的預測、功能蛋白質設計、以及開發和應用蛋白質和RNA新語言模型。

在RNA結構預測上，周耀旗團隊成功地開發了目前最大的核酸序列數據庫MARS，大大改進了通過RNAcmap進行優質同源序列的搜索，并由此發展了RNA同源序列比對語言模型RNA-MSM，可以更加準確地預測RNA的二級結構和三級結構穩定的堿基對。

此外，團隊也發展了一個基于接觸圖神經網絡的蛋白質設計模型SPIN-CGNN，比目前的方法在多個計算指標上有不少的進步。

而此次所有蛋白質結構的高精度預測工作，也是周耀旗這兩年來研究工作的一大里程碑。

“這是我回國后比較滿意的一個工作。”周耀旗表示。

同時他也指出，“在AlphaFold出現之前，靠測序來解析結構這個念頭就有了。我2006年之后在美國印第安納大學開始做這個項目，在澳洲與詹劍、張哲、熊鵬等合作利用RNA證明了低突變的同源序列具有高質量的結構信息，如今在湯金樂加入團隊后總算證明了人工同源序列的獨特優勢。”

該文以湯金樂，張哲為共同一作，詹劍和周耀旗為共同通信作者發在預印本網站 bioRxiv。先發預印本，周教授期望能夠得到更多的同行們的建議和指正。

詹劍，于2004年、2010年獲得中科大學士和博士學位。2010-2013年在美國印第安納大學與普渡大學印第安納波里斯聯合分校作為博士后，2013-2021年在澳大利亞格里菲斯大學糖組學研究所做研究員，現在是深圳灣實驗室研究員，最近作為創始人建立了礪博生物，從事靶向RNA的小分子藥開發。

湯金樂，于2016年獲得蘇州大學的博士，2016-2021年在北京大學深圳研究生院化學生物學與生物技術學院做博士后和助理研究員，2021年起加入周耀旗課題組擔任助理研究員。

張哲，2013年本科畢業于中科大生物技術專業，2021年通過GU-CAS聯合培養博士項目，獲得澳大利亞格里菲斯大學哲學博士學位，后續跟隨周耀旗回國加入深圳灣實驗室，今年6月起留任周耀旗課題組擔任助理研究員，主要研究方向為RNA相關的結構生物信息學。

深圳灣實驗室周耀旗：填補AlphaFold 2缺口，開啟所有蛋白質結構的高精度預測時代

詹劍、湯金樂、張哲

值得注意的是，回國以來，周耀旗教授也開始做一些比較偏應用和轉化方向的工作。

2022年9月，他聯手詹劍、方超，利用三人分別在計算、生物和化學領域的專長，共同創立了礪博生物（Ribopeutic），從事靶向RNA的小分子藥物的開發。目前基于人工智能、干濕閉環的RNA靶標發現平臺，礪博生物已發現多個選擇性高、活性好，靶向 RNA 的小分子，在癌癥、罕見病和病毒性感染等領域布局。

據周耀旗介紹，他們正在進行另一個與RNA相關的工作，并預計很快就可以投稿。

“在RNA結構預測上，我們希望能夠在RNA結構數量少的情況下，建立可以泛化的、有較高精度的預測模型。為產業界，特別是我們礪博生物的靶向RNA的小分子藥物研發引入AI4S的前沿進展，并提供一系列基于基礎科學研究的源頭創新。”

｜深圳灣實驗室周耀旗課題組，博士后招聘中

周耀旗教授，于2021年3月起作為資深研究員全職加入了深圳灣實驗室。

他于1984年獲中國科技大學學士學位，于1990年獲美國紐約州立石溪大學博士學位。

曾在北卡州立大學、哈佛大學進行博士后研究，師從諾獎得主Martin Karplus教授。相繼在紐約州立布法羅大學擔任助理教授、終身副教授，在印第安納大學任終身正教授，在澳大利亞格里菲斯大學任正教授。主要從事蛋白質/RNA的序列、結構與功能和表型關系方面的基礎研究，以及生物分子檢測、藥物開發方面的應用研究。

周耀旗課題組主要圍繞著RNA和蛋白質的序列、結構及功能之間的關系，以及生物高分子的應用開發等幾方面進行科學研究。

課題組研究的特色是結構生物信息計算和現代高通量、自動進化生物技術相結合來實現對序列、結構及功能之間關系的深刻理解，從而達到生物高分子在多方面應用的這個目標，其中包括精準醫療服務的針對性藥物設計和個性化生物標志物的檢測。

課題組主頁：http://zhouyq-lab.szbl.ac.cn/

有意向者請發送至郵箱：zhouyq@szbl.ac.cn

本文作者吳彤，長期關注醫療科技方向，歡迎添加微信互通有無：icedaguniang 雷峰網雷峰網(公眾號：雷峰網)

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏