英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

本文作者：劉海濤

2021-05-31 10:37

專題：AI新藥研發未來獨角獸云峰會

導語：依托首個AI新藥分子，英矽智能已成為AI制藥新勢力中的佼佼者。

如果對AI制藥新勢力的技術實力進行評比，英矽智能絕對可以稱得上其中的佼佼者。

今年2月，英矽智能用18個月、投入僅260萬美元，就通過新藥靶點發現平臺 PandaOmics 和AI分子生成和設計平臺Chemistry42平臺，研發出特發性肺纖維化（IPF）疾病新靶點。

以及全球首例完全由AI驅動發現的藥物分子，一舉成為AI制藥全球范圍內的一個標志性里程碑事件。

對外合作上，英矽智能也相繼拿下多個大藥企訂單，包括默克、輝瑞、勃林格殷格翰、安斯泰來、強生制藥子公司楊森制藥等。

近日，雷鋒網《醫健AI掘金志》以“AI制藥·下一個現象級賽道”為主題，邀請百圖生科、劑泰醫藥、未知君、望石智慧、英矽智能、星藥科技六家先鋒企業，舉辦了一場線上云峰會。

作為此次活動的演講嘉賓，英矽智能首席科學官、藥物研發負責人任峰，就以《人工智能加速新藥研發》為題，對英矽智能的AI新藥平臺做了介紹。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

任峰表示，大家看到我們貌似很容易，就利用AI在短時間找出新靶點和藥物分子，但18個月研發背后是我們用7年時間對底層技術的默默研發。

在找出肺纖維化（IPF）藥物分子之前，英矽智能就根據新藥研發周期特點，用大量精力研發了三款人工智能軟件“ PandaOmics、Chemistry42和InClinico?！?/p>

這三個軟件，針對藥物研發靶點發現、藥物分子篩選和臨床試驗三個重要周期，可以分別提供：根據組學數據自動尋找新靶點；利用生成式對抗神經網絡生成新的分子化合物；為新靶點和新化合物提供臨床結果預測，三個重要輔助功能。

這次英矽智能拿出的肺纖維化（IPF）藥物分子成果，也正是在三個系統的前后配合之下，才得以快速完成。

以下是演講全部內容，《醫健AI掘金志》做了不改變原意的整理和編輯：

首先感謝線上朋友和各位同仁，一起來討論人工智能對新藥研發的作用，以及AI新藥研發的未來前景。

我叫任峰，是Insilico Medicine（英矽智能）首席科學官，于今年2月份加入英矽智能，主要負責公司內部產品管線以及對外合作。

加入英矽智能之前，我在上海美迪西任高級副總裁，負責生物和化學部兩個部門業務。

今天我想給大家分享的內容是，用人工智能加速新藥研發，也就是AI-accelerated Drug Discovery。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

眾所周知，新藥研發具有費用高、成功率低、耗時長的特點，也即是一高一低一長。

一個新藥平均下來，從開始研發到上市，大概需要10~15年時間，花費超過20億美金；成功率也非常低，從臨床一期到臨床三期大概10%左右。

這是所有新藥研發企業共同面臨的困境，突破困境就需要人工智能等其他輔助手段幫忙。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

新藥研發主要是分成三個部分：

第一靶點發現，包括疾病假設以及靶點發現和驗證，以生物學和IRS為主；

第二臨床候選化合物確定以及臨床前研究，以化學為主；

第三是臨床研究。

傳統藥企里面，這三個部分都是由不同部門完成，或者由不同企業完成。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

英矽智能要做的就是通過人工智能技術，把三個方面結合起來。

首先靶點發現方面，我們希望通過組學數據幫助找新靶點，在這里面，通過找到病人和健康人組學數據之間區別，找到新靶點。

同時，我們還會利用Text-based(文獻和專利)、Financial scores(包括政府支持的科研經費)，以及Key Opinion Leaders等數據，對靶點進行評估，包括新穎性、成藥性和安全性。通過這種方式找到想做的靶點，以及新靶點。

找到靶點之后，通過小分子化合物生成系統來產生新化合物，然后可以把化合物推進至臨床研究。

這部分也有人工智能系統來幫助預測臨床實驗成功和失敗，最主要還是優化臨床實驗方案。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

Insilico Medicine也就是通過人工智能把靶點發現，化后生成，臨床實驗三個方面結合起來。

首先，先用一個案例跟大家分享如何把這三方面結合。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

這是我們的特發性肺纖維化項目，是今年2月份對外做了里程碑式進展發布。這個項目成功實現利用AI完成從早期靶點發現，到臨床候選化合物發現工作。

特發性肺纖維化長期被定義為一個罕見病，也即是rare disease，雖然是罕見病，但全球病人有71萬多人，是非常龐大的病人數量，僅亞洲就有30多萬。

這種疾病如果得不到很好的治療，確診后平均壽命也就4年左右，非常致命。

針對該病的治療，目前市場上批準藥有兩款：吡非尼酮和尼達尼布，這兩款藥在2019年總銷售額在30億美金左右，是一個非常龐大的市場。

但兩款藥有一個共同問題，就是安全窗口非常小，用藥過程經常伴隨嚴重副作用。

基于這種情況，大概10%~40%病人由于無法耐受這種副作用，以至于半途停藥，或者病人耐受劑量范圍之內沒有藥效，所以這是一個未滿足的臨床需求。

所以在這種情況下，我們希望通過前期靶點發現人工智能和化合物生成平臺，來找到全新機制治療特發性肺纖維化藥物。

靶點發現主要是通過組學數據，利用纖維化病人組學數據和健康人組學數據進行對比，找到兩者之間顯著差異，同時用iPANDA技術，在信號通路上找到能夠影響這些信號通路的組學數據，進而找到新靶點。

整個過程我們共發現了20多個靶點，隨后對其進行優先級排序，如果靶點是一種激酶或者GPCR，那么它的成藥性就會比蛋白-蛋白之間相互作用好很多；

在優先級排序中，主要從靶點安全性和未來價值進行篩選，一方需要看有沒有靶點敲除數據，被敲除之后，會不會導致非常嚴重的毒副作用，另一方面，還需要看靶點晶體結構是不是已經報道出來。

通過這一系列流程之后，我們找到了治療特發性肺纖維化表現效果最好的一個全新靶點。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

找到靶點之后，我們又利用Chemistry42平臺（另一款人工智能軟件，主要作用是小分子化后生成）來生成和篩選小分子化合物。

通過這個平臺大概合成了80種化合物，其中13個化合物活性小于10nM，絕大多數（35個）活性在10~10nM，有15個活性在100~1000nM，還有十多個化合物沒有活性。

最終，我們選擇出055化合物，它的活性雖并不是最高，但總體最好，我們在其中主要關注成藥性和活性。

隨后，我們就把055化合物用到小鼠肺纖維化模型上，進行實驗驗證，結果效果是不錯的，可以在低劑量下達到同樣的治療效果。

我們又進一步用肺纖維化病人細胞來進行兩個實驗，首先是肺纖維化病人細胞體外實驗，從纖維化細胞到肌纖維化細胞之間轉化，看到化合物比尼達尼布活性高5倍左右。

另外是EMT實驗，從上皮細胞到間質細胞轉換，活性同樣比尼達尼布高十幾倍左右。

FMT和EMT這兩個過程是特發性肺纖維化發病比較明顯的病理特征，最終證明在肺纖維化病人外細胞上，055比尼達尼具有更強活性，這跟前面的動物實驗結果互為印證。

14天DRF實驗結果也表明，安全窗口大概是尼達尼的60倍左右，現在這個化合物還在做臨床研究，估計今年年底或明年初能就能進入臨床實驗。

總結一下，這個項目總共花了18個月時間，費用是270萬美金，傳統靶點藥物研發一般需要4年半時間，我們只用了一年半，費用也大大降低。

這個案例證明人工智能可以在新藥研發，尤其是原創性新藥研發工作中可以大大縮短研發時間、降低研發成本，提高研發效率。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

我再介紹一下Insilico Medicine，我們現在全球有130多位員工，80多位人工智能科學家；主要強項在靶點發現以及小分子化合物生成；

目前為止，在全球雜志或專利上發表100多篇文章或專利。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

像剛才的介紹，大家看到好像很容易就找出新靶點和藥物分子，但這背后我們歷時7年，在藥物研發三個方面，分別開發了三個人工智能軟件：

第一、PandaOmics，利用組學數據幫助尋找新靶點；

第二、Chemistry42，利用生成式對抗神經網絡來進行深度學習，幫助生成新小分子化合物；

第三、InClinico，進行臨床實驗結果預測，同時幫助更好設計臨床實驗方案。

首先介紹第一個方案PandaOmics，它的主要流程，首先是在里面選擇感興趣的數據庫，包括TCGA、GEO、ArrayExpress等等。

之后在數據里做一些Correlations，也就是找到關聯，發現數據之間區別，它們的差異表達以及功能分析，以此來發現新靶標蛋白，找到新靶點。

第二個方案Chemistry42，這個軟件主要幫助生成小分子化合物。主要包括兩個模型，一個是 Structure-based(基于結構)，另外一個是ligand-basis(基于配體)。

把想要設計化合物的蛋白（例如晶體結構或者小分子結構等）輸到Chemistry42系統里，大概需要2~3天時間，就可以產生針對這些蛋白的小分子化合物，數量大概是幾百個到幾千個之間，然后通過virtual screening排序，挑選效果好的進行合成。

所以，Chemistry42系統最大特點就是能針對所給出的靶點，從無到有產生小分子化合物庫，而且命中率非常高。

基于這些AI制藥工具，我們不僅自己內部開發管線，同時也將AI作為工具和藥企或科研院校合作，幫助他們進行新藥研發，例如Pfizer、Janssen、Merck等，大體可分為六點：

第一，幫助尋找新靶點，主要使用PandaOmics的能力。

第二，用PandaOmics幫助做再利用，例如根據已知靶點，找到最好的indication;

第三，用Chemistry42做Fast follow（快速跟隨），也就是破專利項目，這其實非常容易；

第四，用Chemistry42幫助產生和選擇化合物，例如激酶選擇性，或者針對特殊突變，來對抗resistance靶點，這有可能成為best-in-class（同類最優）或first-in-class（同類第一）的項目;

第五，Chemistry42還可以針對全新靶點，從無到有生成hits（具有活性的藥品分子），同時也可以針對undruggable（無成藥性）或challenging target的目標，來生成hits；

第六，通過人工智能系統幫助更好設計PROTAC分子；

演講最后我分享一下人工智能對 Farce Follow Program的影響。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

這是2018年到2019年我們做的一個項目，靶點是DDR1的kinase(激酶)靶點，是一個全新結構骨架化合物。

拿到這個任務之后，我們首先建數據庫，用了7天時間找到跟靶點相關或無關的kinase數據庫。

然后針對這些數據庫，用12天時間進行深度學習，對模型建模和深度學習，產生3萬個左右化合物。

又用兩天時間對這些化合物進行排序，最后縮小40個化合物范圍，然后從里面選擇6個化合物進行合成，其中有兩個活性在10-100nM之間，兩個活性在100-1000nM之間，另外兩個沒有活性。

最終選出了最好化合物1，這是一個全新骨架，我們把它拿去做DMPK，最終證明其具有很好的PK性質。

英矽智能首席科學官任峰：18個月找出新藥分子的最全細節回顧丨附18個現場問答

從拿到靶點，到找到最合適化合物，完成合成測試，我們這個試驗性項目總共用了46天時間，結果發表在2019年Nature Biotechnology上，進一步證明人工智能可以大大縮減研發周期。

而且，我們也一致認為人工智能需要跟整個藥物研發團隊結合起來才能更有效找到化合物。

在線問答

Q1：靶點發現的AI貢獻是什么？

任峰：在靶點發現階段，AI主要貢獻首先是縮短研究時間，用組學數據比較正常人和病人之間差異，幫助找到新靶點，同時分析這些差異組學在不同信號通路的影響，相較于傳統方式這大大縮短了時間。

另外我們在藥篩選中還引入了時間機器學習模型。

這個模型建好之后，可以用2010年之前組學數據發現或尋找針對某些疾病領域的靶點，因為這些靶點在十年間就已經被臨床驗證，系統可以尋找到靶點通過與現實結果比對，來驗證系統結果真實可靠性，并把這些驗證結果再反饋給Panda Omics系統，進行下一輪機械學習。

經過幾輪學習過程之后，就可以讓它用2010年到2020年之間預測靶點驗證算法，增加系統靶點預測準確率。

Q2：你們與傳統利用生物信息學分析多組學數據+文獻挖掘相比特別之處在哪里？

任峰：特別之處就是用了一個時間機器學習模型，有training過程，傳統方式沒有training過程，這可能是它們之間最大區別。

Q3：找出靶點是針對IPF的新靶點，還是完全沒人做過靶點（針對所有適應癥）？

任峰：我們找到的靶點是針對IPF的新靶點，是包括臨床和臨床前都沒有人做過的。

這個靶點，我們不能說沒有任何人做，做的人非常少，全球目前只有一家小公司在做這樣一個靶點，他們針對的是另外一種適應癥，現在還沒有應用在臨床。

Q4：請教AI公司和CDMO公司是如何合作的？

任峰：目前很多算法或重點都不是和CDMO公司合作，主要還是集中于前期Drug Discover階段，對Development沒有特別涉及。

可能有的AI公司設計化合物合成路線，或者針對工廠自動化可以跟CDMO公司進行深入合作。

Q5：請問有比較好加速binding affinity預測的方法嗎？

任峰：Chemistry42系統，并不能告訴哪些化合物binding affinity比另一些化合物要好，只能幫助產生一些小分子化合物可能binding在蛋白上。

我們也是用像薛定諤binding affinity預測或者優先級排序方式，目前據我所知，用薛定諤預測binding affinity應該已經是比較好的。

Q6：AI用于藥物研發的商業化前景如何呢？例如幾年前很多企業做肺小結節的AI診斷，競爭堪稱紅海，而醫院付費意愿不強烈。對比當下，現在做AI制藥的公司也非常多，是否會出現類似的結果：很多AI公司希望與大藥企合作/license-out，大藥企付費意愿并不強烈？

任峰：用AI來做藥物研發商業化前景非常廣闊，而且大藥企是愿意付錢的，原因基于以下兩點：

第一、大藥企面臨共同問題，研發效率低、研發成本高、研發周期長、失敗率高這樣的問題，藥企希望能有顛覆性技術來改變現狀；

第二、人工智能目前經過一些實例，已經證明確實對解決新藥研發的問題，可以提供顛覆性解決方案能力。

所以基于這兩點來說，大藥企是愿意付錢的。而且最近就有一篇報道，有藥企與AI公司簽訂開發藥物協議，總金額達12億美金左右，同時首付金額也非常高，達到幾千萬美金，這也證明大藥企愿意把這些錢投入到AI輔助藥物研發上。

Q7：AI制藥公司的數據從哪里得來呢？

任峰：目前的AI公司大多是小公司，這些公司絕大多數都是基于公開數據。

接下里，AI公司的競爭則就靠從這個published數據發展而來的私有數據，所以現在有實力的AI公司都在建立自己的數據采集系統。

Q8：AI藥物研發公司建立了自研管線，和潛在合作藥企可能存在利益沖突，這塊是否有什么考慮？

任峰：每一家AI公司都是兩條腿走路，一個是有自研管線，另一方面是跟一些藥企合作，共同開發一些項目。

因為自研管線是通過自己的項目來驗證或優化人工智能平臺，所以并沒有利益沖突。而其這些合作很多都是具有排他性的，自研管線和其他藥企合作是有排它性，不同藥企之間合作也有排它性。

Q9：AI新藥挖掘從苗頭到PCC的各個點的化合物數據庫是哪里來的？

任峰：這需要分成兩個情況：

第一，如果是針對 Fast follow（快跟），那么數據采集都是從文獻和專利上扒下來進行深度學習，對系統進行培訓得來；

第二，如果是全新靶點，就像我們的IPF，就不需要已知數據，針對靶點的數據，人工智能系統可以通過其他項目的蛋白和小分子結合案例培訓，然后它就可以自己設計某個蛋白，不需要針對靶點進行培訓。

Q10：分子生成庫是否基于已有活性化合物結構，有哪些規則？

任峰：我們的Chemistry42分子生成庫不是針對某一個或某一類靶點，而是針對所有的。

根據人工智能系統，利用已知小分子和蛋白結合結合形狀和樣式進行培訓，讓小分子（或片段）能識別蛋白里一些結合口袋。

把這些片段識別出來之后，再通過算法，把這些片段慢慢結合成真正的小分子化合物，這是它的主要邏輯。

Q11：想請問AI企業與研發組織合作，對研發組織自身的數據有沒有什么要求？例如數據格式、數據類型、數據質量。

任峰：這個是有要求的，AI企業跟研發組織合作，如果他們想根據自己數據用AI企業人工智能系統，尋找靶點或發現化合物，就需要按照我們要求的格式錄入到系統當中去。

而且，我們對數據組的質量要求也非常高，因為高質量數據才能產生高質量結果。

數據類型可能每個公司系統都不太一樣，例如我們的PandaOmics，就需要有組學數據，尤其是人組學數據，這樣才更適合找新靶點。

Q12：據我了解，數據庫來自文獻，那數據可靠度怎么解決的，而且不同方法測得數值不一樣？

任峰：這是非常好的問題，也是可能所有人工智能公司所面臨的問題。

每個公司策略可能不同，例如我們的PandaOmics主要是用組學數據，而且組學數據是細分的，最好是在同一個實驗室里產生的祖學數據。

我們不會把所有組學數據累計在一起找新靶點，這樣就可以避免實驗方法不一致造成的困惑。

另外對于化合物，我們Chemistry42生成的小分子，它主要是基于晶體結構，所以晶體結構數據基本上都是比較可靠的，此外我們也會挑比較好的晶體結構來給系統進行training。

Q13：國內外藥企的情況也不一樣，國內做fast-follow、me-too、me-better的可能比較多，可以介紹Insilico在中國的商業化情況嗎？

任峰：Insilico今年才開始在中國商業化，以前在中國沒有團隊，知名度也比較低。

我們從今年開始在中國做一些商業化合作，國內確實做 fast-follow、me-too比較多，我們的Chemistry42，針對fast-follow也有非常好的經驗，它可以小分子化合物選項里，選擇跟已知某一個小分子化合物結構similarity，如果similarity做達到80-90%，

它產生的小分子化合物就跟設定的小分子化合物結構非常類似，同時它有自己的專利空間。所以我們的Chemistry42對于fast-follow是非常高效的，目前也有幾個例子可以證明。

Q14：我想問下如果設計的分子是真正全新的母核、側鏈，是否會因為與數據庫所有分子指紋匹配度不高導致預測準確性會下降？

任峰：這是正常的。我們的Chemistry42里面可以選擇跟已知母核similarity很高的結果，例如80-90%；同時也可以選擇similarity非常低，例如30-40%。這樣涉及到的分子結構是完全不一樣。

從理論上來講，越相似分子活性可能性越大，而且保持好性質的可能性就越大，反之，活性就會低一些，而且有可能完全改變其他性質，

但這些分子會因為是全新組合，跟已知化合物相似度非常小，那么它的專利空間就非常大，所以就需要做一個平衡。

Q15：大分子藥物方面有什么AI的策略或者案例嗎？

任峰：我們Insilicon Medicine目前不涉及大分子，但我們認為人工智能系統在大分子領域將有非常好的應用前景。

由于我們團隊沒有大分子方面人才，所以目前不知道大分子設計的痛點，我們也沒有大分子業務。

Q16：如果靶點蛋白沒有復合物怎么辦，如何預測呢？用同源蛋白建模是好的解決方法嗎？

任峰：是的，如果靶點蛋白沒有復合物，我們的方式就是去找同源性比較高的蛋白，來代替靶向蛋白，放到Chemistry42里面，這樣也可以產生相應小分子化合物。

Q17：臨床數據來源于醫院嗎？

任峰：是的，臨床數據最初肯定來源醫院，但也有一些公開臨床數據，經過我們整理之后放到系統里；

同時我們以前也跟一些其他國家，例如和英國政府合作做臨床數據分析，所以也有一些自有數據。

Q18：三個平臺對外開放嗎？如何收費？

任峰：我們只有PandaOmics對外開放，它是通過組學數據幫助找新靶點，我們已經將其部署在云端。

其他兩個還沒有完成這樣部署，所以暫時還不能開放，我們今年有可能會把Chemistry42也部署到云端。

目前PandaOmics是收取一定的授權費。

再次感謝今天來參加線上會議，然后非常高興有這么多志同道合的朋友對AI感興趣，AI以后會有可能發展成一種顛覆性技術來幫助新藥研發。我們也堅持相信AI只有跟新藥研發團隊結合在一起，才能實現最大價值。雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

AI新藥研發未來獨角獸云峰會

本專題其他文章

劉海濤

編輯

專注AI醫療的新勢力和投融資丨微信ID：Daniel-six

發私信

當月熱門文章