騰訊天衍實(shí)驗(yàn)室鄭冶楓：AI抗疫的核心技術(shù)復(fù)盤丨公開課回顧

本文作者： AI掘金志

編輯：李雨晨

2020-04-14 11:56

導(dǎo)語：科技抗疫急先鋒

近期，雷鋒網(wǎng)AI掘金志邀請(qǐng)騰訊天衍實(shí)驗(yàn)室主任鄭冶楓，做客雷鋒網(wǎng)公開課，以“騰訊抗疫故事”為題，對(duì)騰訊兩個(gè)月相繼做出的健康小程序、新冠肺炎CT輔助診斷、肺炎疫情趨勢(shì)三個(gè)產(chǎn)品做出了技術(shù)分享。

后續(xù)將有更多課程上線，添加微信公眾號(hào) 醫(yī)健AI掘金志報(bào)名聽課，或收看本節(jié)課程視頻回放

過去兩個(gè)月，騰訊作為國內(nèi)互聯(lián)網(wǎng)行業(yè)第一梯隊(duì)，在抗擊疫情中付出了諸多努力，其中騰訊健康小程序提供實(shí)時(shí)疫情展示、線上問診AI自查服務(wù)，累計(jì)有3億用戶使用。

鄭冶楓表示，騰訊健康小程序抗疫專區(qū)上線的15個(gè)工具中，天衍實(shí)驗(yàn)室參與了5項(xiàng)，包括疫情知識(shí)問答、患者同小區(qū)、發(fā)熱自查、發(fā)熱門診、口罩攻略。在疫情問答中，天衍實(shí)驗(yàn)室利用自研LTD-BERT模型識(shí)別用戶意圖，把推理速度提高了40倍，滿足上線大流量需求，理解用戶意圖以后做問答匹配，精準(zhǔn)地給用戶提供疫情信息。

而在新冠肺炎CT輔助診斷產(chǎn)品的研發(fā)上，克服數(shù)據(jù)量不足、標(biāo)注力量不夠等問題，天衍實(shí)驗(yàn)室采用魔方自監(jiān)督學(xué)習(xí)方式訓(xùn)練模型，在小數(shù)據(jù)集上進(jìn)行微調(diào)，就肺炎、非肺炎、病毒性肺炎和非病毒性肺炎做分類。

針對(duì)疫情的宏觀防控，天衍實(shí)驗(yàn)室還利用深度學(xué)習(xí)對(duì)“傳統(tǒng)傳染病動(dòng)力學(xué)模型”進(jìn)行優(yōu)化，為政府做了國內(nèi)各省份和海外國家“肺炎趨勢(shì)預(yù)測(cè)”。預(yù)測(cè)效果上，實(shí)際情況跟模型預(yù)測(cè)非常吻合，在3月3號(hào)發(fā)布的武漢預(yù)測(cè)模型中，后續(xù)實(shí)際證明誤差小于千分之一。

以下為鄭冶楓的演講全文內(nèi)容，雷鋒網(wǎng)做了不改變?cè)獾木庉嫛?/strong>

天衍實(shí)驗(yàn)室是騰訊內(nèi)部，專注于醫(yī)療AI的實(shí)驗(yàn)室, 覆蓋醫(yī)療大數(shù)據(jù)、醫(yī)療自然語言理解、醫(yī)療影像等等。我們的使命是“全面支持公司醫(yī)療線的應(yīng)用”。2019年我們實(shí)驗(yàn)室提交了將近100個(gè)專利，有6個(gè)頂會(huì)論文發(fā)表，參加多項(xiàng)競(jìng)賽，取得5項(xiàng)醫(yī)療AR競(jìng)賽的冠軍。

過去兩個(gè)月對(duì)全國人民來說都是不尋常的兩個(gè)月。今天我跟大家分享我們的一些工作。

今天公開課，首先介紹天衍實(shí)驗(yàn)室，然后分享實(shí)施的三個(gè)項(xiàng)目：

1、騰訊健康小程序抗疫專區(qū)，這是to C的產(chǎn)品，依托于騰訊微信平臺(tái)，目前是給大家做疫情知識(shí)科普，加強(qiáng)防疫意識(shí)；

2、新冠狀肺炎CT輔助診斷，這是to B的項(xiàng)目，最終是部署到醫(yī)院，目標(biāo)是幫助影像科醫(yī)生提高診斷準(zhǔn)確率；

3、肺炎趨勢(shì)預(yù)測(cè)，是政府部門合作項(xiàng)目，為下一步疫情防控提供參考，三個(gè)項(xiàng)目覆蓋了to C、to B和to G。

騰訊健康小程序

新冠肺炎從2019年12月份爆發(fā)以來進(jìn)展非常迅速，1月20號(hào)，鐘南山院士宣布新冠病毒存在人傳人，1月23號(hào)武漢開始封城，疫情在全國全面爆發(fā)。

中國花了一個(gè)多月時(shí)間，完全控制疫情的傳播，當(dāng)時(shí)覺得疫情就像當(dāng)年SARS一樣，過去了，病毒就完全消失了，后來發(fā)現(xiàn)情況比我們想象的要嚴(yán)重。

新冠肺炎已經(jīng)在歐洲和美國已經(jīng)全面爆發(fā)，最近幾天確診患者數(shù)量上漲非常快。有些專家預(yù)言病毒可能會(huì)跟流感病毒一樣，每年冬季爆發(fā)，會(huì)跟人類長期生存。

騰訊作為中國頭部互聯(lián)網(wǎng)公司，過去兩個(gè)月也積極投身國內(nèi)抗疫工作。在3月18號(hào)，騰訊發(fā)布2019年財(cái)報(bào)和2019年第4個(gè)季度財(cái)報(bào)上，專門有章節(jié)介紹抗疫期間的工作，列下來大概有6點(diǎn)，其中兩點(diǎn)是跟天衍實(shí)驗(yàn)室密切相關(guān)。比如，騰訊的15億抗疫基金中，捐贈(zèng)6臺(tái)CT掃描儀搭載新冠CT影像診斷算法，部署到武漢抗疫前線；給鐘南山院士團(tuán)隊(duì)捐贈(zèng)3000萬，用于新冠治療方法研究，建立聯(lián)合實(shí)驗(yàn)室，天衍實(shí)驗(yàn)室是騰訊內(nèi)部專門負(fù)責(zé)對(duì)接的的技術(shù)團(tuán)隊(duì)。

另外相關(guān)的是騰訊健康。騰訊健康小程序提供實(shí)時(shí)疫情展示、線上問診AI自查服務(wù)，累計(jì)有3億用戶使用。

騰訊健康抗疫專區(qū)

雷鋒網(wǎng)在3月3號(hào)發(fā)表了“我們對(duì)「騰訊戰(zhàn)疫」實(shí)情一無所知”，講述了騰訊健康抗疫專區(qū)背后的故事，主要采訪了產(chǎn)品，前臺(tái)開發(fā)、小程序開發(fā)同事，里面的故事非常感人，有很多細(xì)節(jié)也是我們讀了文章才知道，因?yàn)槲覀兒芏嗳耸窃诩乙恢奔影唷?/p>

天衍實(shí)驗(yàn)室屬于后臺(tái)算法開發(fā)，更多是在幕后，用人工智能技術(shù)幫助抗疫專區(qū)項(xiàng)目推進(jìn)，所以今天，我會(huì)從天衍實(shí)驗(yàn)室的角度闡述抗疫工具后面的黑科技。

大家讀這份報(bào)告的時(shí)候可以看到，想法最初是來自1月20號(hào)鐘南山院士宣布疫情全面爆發(fā)以后，我們醫(yī)療線同事就在想我們能做什么，當(dāng)時(shí)就決定在騰訊健康上開辟抗疫專區(qū)，產(chǎn)品的同事花了一天多的時(shí)間加班加點(diǎn)，22號(hào)凌晨8:00上線了抗疫專區(qū)，開發(fā)出很多抗疫工具。

天衍實(shí)驗(yàn)室參與更多的是抗疫工具研發(fā)。微信同事也非常給力，在“我-支付-騰訊服務(wù)”的九宮格里給我們上線了醫(yī)療健康頂級(jí)入口，幫助工具做快速傳播。總共15個(gè)工具中，天衍實(shí)驗(yàn)室參與了其中5項(xiàng)，包括疫情小助手、患者小區(qū)、發(fā)熱自查、發(fā)熱門診、口罩攻略等。

智能知識(shí)問答

這個(gè)產(chǎn)品主要目的有兩個(gè)，“抑制謠言傳播”，“助力權(quán)威信息傳播”，權(quán)威信息傳播了，謠言自然就沒有生存空間。

在疫情開始初期，大家都希望能得到權(quán)威解答，比如，懷疑自己是否得了新冠肺炎會(huì)問新冠肺炎癥狀等，但是網(wǎng)上的信息良莠不齊，甚至有些是故意編造的謠言。

我們希望通過一個(gè)工具，把權(quán)威信息集中起來，有效地給公眾傳播。雖然衛(wèi)健委以及中國頭部醫(yī)療機(jī)構(gòu)會(huì)在官網(wǎng)上放出權(quán)威信息及問答，但這種官網(wǎng)信息最大的問題是流量小、文件篇幅長、難以檢索。

通過不斷積累，我們工具的數(shù)據(jù)來源包括衛(wèi)健委在內(nèi)23個(gè)權(quán)威網(wǎng)站，保證信息權(quán)威性，庫里所有問答最后都是通過中華預(yù)防醫(yī)學(xué)會(huì)專家校驗(yàn)，通過多輪迭代以后，我們的問答覆蓋率已經(jīng)達(dá)到超過97%。

這是我們產(chǎn)品的展示，進(jìn)入這個(gè)界面可以看到先推薦幾個(gè)最熱點(diǎn)問題，假設(shè)用戶感興趣可以直接點(diǎn)擊，如果不感興趣，可以問全新的問題，比如新冠肺炎患者臨床表現(xiàn)，程序會(huì)到數(shù)據(jù)庫匹配，找到最相關(guān)答案展示，回答完這一輪問題以后，會(huì)預(yù)估用戶可能還存在的問題，進(jìn)行自推薦。

技術(shù)總體框架分4層：數(shù)據(jù)層、技術(shù)層、功能層和應(yīng)用層。

數(shù)據(jù)層最重要是數(shù)據(jù)來源，依托互聯(lián)網(wǎng)信息，用爬蟲技術(shù)爬取，當(dāng)然我們也有醫(yī)療知識(shí)庫，對(duì)這些信息校對(duì)。第一個(gè)版本上線，我們覆蓋率并不高，可能只覆蓋到50%的問題，所以我們會(huì)每天分析日志數(shù)據(jù)，找到里面高頻、沒有很好回答的問題進(jìn)行補(bǔ)充；

在技術(shù)層，我們用爬蟲技術(shù)、數(shù)據(jù)庫技術(shù)、人工智能技術(shù)；在功能層；輔用我們以前做的工作，包括拼寫糾錯(cuò)、意圖識(shí)別等；在應(yīng)用層，就是展現(xiàn)給用戶能看到的體驗(yàn)，包括問答系統(tǒng)、個(gè)性化推薦系統(tǒng)等。

信息采集模塊主要有兩塊，一是權(quán)威信息爬取，用自動(dòng)爬蟲工具去爬取數(shù)據(jù)來源，最終達(dá)到23個(gè)，每個(gè)數(shù)據(jù)來源的問答很大部分是重疊的，所以我們做了一些去重的工作，還有每個(gè)網(wǎng)站格式可能不太一樣，我們需要做格式歸一化，最后清洗完將問題入庫。

第一個(gè)版本上線，很多熱點(diǎn)問題沒有覆蓋到，后續(xù)設(shè)置了熱點(diǎn)問題挖掘模塊，發(fā)現(xiàn)新問題沒有回答就用搜索引擎搜索，自動(dòng)從網(wǎng)上找到答案，這些答案可能來源參差不齊，我們會(huì)做一個(gè)質(zhì)量評(píng)估區(qū)分，是來源于權(quán)威網(wǎng)站還是來歷不明網(wǎng)站，只采用權(quán)威網(wǎng)站信息，格式可能跟我們不太一樣，需要做人工改寫。所有改寫完的問答，都會(huì)找中華預(yù)防醫(yī)學(xué)會(huì)專家做人工校對(duì)，確保無誤以后入庫。

智能問答

首先對(duì)輸入層做了很多工作，比如拼寫糾錯(cuò)、因?yàn)檩斎肟赡苁峭糇謺?huì)有拼寫錯(cuò)誤，還有標(biāo)準(zhǔn)化改寫，因?yàn)樾鹿谑切录膊。诮y(tǒng)一名稱之前，不同時(shí)期有不同叫法。

我們還做了意圖識(shí)別，建立三級(jí)意圖體系，第一級(jí)意圖有九個(gè)，包含口罩、新冠知識(shí)、發(fā)熱門診之類等，接著不斷細(xì)分。到第三級(jí)有329個(gè)意圖，比如，口罩細(xì)分層就有購買渠道、價(jià)格、口罩配套、口罩是否可以重復(fù)使用等。

我們是采用最新BERT模型做意圖識(shí)別，把輸入的用戶意圖分類到意圖體系里，但是BERT模型速度比較慢，我們進(jìn)行了模型壓縮，最終用自研LTD-BERT模型把推理速度提高了40倍，滿足上線大流量需求，我們理解用戶意圖以后，會(huì)做問答匹配，精準(zhǔn)給用戶提供答案。

還有個(gè)性化問題推薦功能，根據(jù)用戶輸入，可以做一些推薦，比如，根據(jù)用戶過往問題做相關(guān)后續(xù)追問，或者推薦一些熱點(diǎn)。

用戶甚至可以制定意圖，比如他想知道所有跟口罩相關(guān)的科普知識(shí)，我們會(huì)通過意圖分析，把數(shù)據(jù)庫里信息做分類處理，把口罩相關(guān)信息推送給用戶，讓用戶自由閱覽。

秉承開放的態(tài)度，除了在騰訊健康上線之外，我們還對(duì)外輸出，比如服務(wù)了17個(gè)省區(qū)40個(gè)衛(wèi)計(jì)委和疾控中心，還服務(wù)了近100家醫(yī)院。

甚至還做了一個(gè)接入指南，幫助他們?nèi)ジ焖俚亟尤耄梢园盐覀兊墓ぞ咔度氲剿麄兊男〕绦蚶铮鲋悄軉柎穑灰查_放給行業(yè)合作伙伴，有30多家行業(yè)合作伙伴最終接入了我們的系統(tǒng)。

患者小區(qū)查詢

嚴(yán)格意義上這是患者蹤跡查詢，有些地方會(huì)公布患者蹤跡，去過哪些餐館，哪些公開場(chǎng)所，只要這些信息權(quán)威來源公布，我們就會(huì)納入查詢范圍。

目的是讓信息能夠透明，信息越透明越可以避免民眾恐慌，可以增加政府的公信力，民眾可以更好地理解和配合政府抗疫措施。

因?yàn)槲覀兤脚_(tái)觸及用戶比較多，展現(xiàn)也比較靈活，所以可以更方便把不同來源的信息，包括是官網(wǎng)、微信公眾號(hào)、微博信息集成起來，在一個(gè)平臺(tái)上集中展現(xiàn)。

信息可以展現(xiàn)在地圖上，用戶實(shí)時(shí)交互，得到比較好的用戶體驗(yàn)，我們最終覆蓋城市232個(gè)，城市覆蓋率超過70%。覆蓋小區(qū)數(shù)目超過8000個(gè)。

這是我們產(chǎn)品的展示效果，可以根據(jù)用戶地理位置，可以把周圍小區(qū)都覆蓋在地圖上，以確診患者小區(qū)，畫三公里半徑圓，用戶可以很清楚看到患者小區(qū)距離，也可切換到列表模式，給出小區(qū)名字、地址、距離等信息。

每個(gè)信息我們還注明截止日期、從哪公布，也有訂閱功能，如果你周圍小區(qū)有情況更改，會(huì)自動(dòng)推送。我們還有一些科普的知識(shí)，比如小區(qū)出現(xiàn)患者該怎么辦。

制作工具的難點(diǎn)主要有三個(gè)：

第一個(gè)難點(diǎn)：信息滯后。最笨的方法是人工直接尋找信息，做一次就上線，可這個(gè)方法最大問題是源于信息更新，因?yàn)橐咔楦叻鍟r(shí)期，每天都會(huì)有新的小區(qū)出現(xiàn)，有信息更改，所以希望越自動(dòng)化越好。

我們是采用自動(dòng)定時(shí)爬取的方法，每天爬取2到3次，對(duì)爬取的信息用自然語言理解模型，提取小區(qū)名字、信息發(fā)布來源、信息發(fā)布時(shí)間等信息；提取出信息以后，跟數(shù)據(jù)庫里已有信息做比對(duì)去重，比如小區(qū)不同名稱，最后，所有數(shù)據(jù)都要做人工校驗(yàn)確保來源準(zhǔn)確。

第二個(gè)難點(diǎn)：信息來源欠缺權(quán)威性。我們的受眾比較廣，能力越大責(zé)任就越大，所以當(dāng)時(shí)設(shè)計(jì)產(chǎn)品的時(shí)候，最重要的考慮就是數(shù)據(jù)來源必須官方渠道。

所以我們就開創(chuàng)性地提出，一種正向反向溯源方法提高數(shù)據(jù)質(zhì)量，因?yàn)殚_始冷啟動(dòng)的時(shí)候，沒有權(quán)威信息來源列表，最開始的爬蟲方法信息質(zhì)量沒有保證，所以一旦提取到小區(qū)發(fā)現(xiàn)確診病例，就會(huì)用這個(gè)小區(qū)名字反向搜索，可能出現(xiàn)幾十個(gè)信息來源，最后去定位最權(quán)威來源（一般來源于官方的發(fā)布）。

找到權(quán)威來源之后，我們才把信息放到工具上，沒找到就放在內(nèi)部數(shù)據(jù)庫不會(huì)上線。發(fā)現(xiàn)權(quán)威來源以后，不在我們的白名單里，我們會(huì)把這些來源加入到我們白名單。

第三個(gè)難點(diǎn)：小區(qū)信息未關(guān)聯(lián)具體地址或地理坐標(biāo)。一般官方發(fā)布都只給小區(qū)名字，很難做交互，體驗(yàn)也不好，所以我們跟騰訊地圖合作，他們開放API給我們，拿小區(qū)名字去搜索，然后得到經(jīng)緯度，名稱也做歸一化。

名稱歸一化很重要，官方發(fā)布的小區(qū)名字和騰訊地圖直接做匹配，30%小區(qū)不能匹配，我們花了很多功夫做人工審核、做數(shù)據(jù)清洗保證數(shù)據(jù)準(zhǔn)確性。

這里我只展示一個(gè)技術(shù)，利用BERT模型做小區(qū)信息抽取，抽取的信息包括小區(qū)名稱、發(fā)布時(shí)間、數(shù)據(jù)來源等。對(duì)BERT模型來說，輸入有兩塊，一塊是段落文本，一塊選取信息，假如，想抽取小區(qū)信息就輸入患者小區(qū)4個(gè)字，就會(huì)做詞向量的空間embedding，再加上位置信息，模型會(huì)自動(dòng)告訴我們，提取的信息起始位置、終止位置，做到非常自動(dòng)化，減少人力尋找。

新冠CT輔助診斷

這個(gè)項(xiàng)目的初衷是提高診斷準(zhǔn)確性。現(xiàn)在新冠診斷有兩條技術(shù)路線，一個(gè)是核酸檢測(cè)，核酸陽性就代表攜帶病毒，只要不是操作失誤，就非常準(zhǔn)確，但是有假陰率的情況。核酸檢測(cè)還有供應(yīng)量不足、檢測(cè)時(shí)間長等其他問題，最終確診需要一天或兩天時(shí)間。

另外一種方法是CT檢測(cè)，CT普及率高，一般縣級(jí)醫(yī)院甚至鄉(xiāng)鎮(zhèn)醫(yī)院都有CT掃描儀，掃描速度也很快，5分鐘就可以，假如現(xiàn)場(chǎng)有放射科醫(yī)生閱片，再需要15分鐘左右，就可以知道肺部CT是否有新冠肺炎癥狀，比核酸檢測(cè)更快，敏感性也比較高，根據(jù)鐘南山的論文中76%的患者肺部CT會(huì)出現(xiàn)異常，敏感度超過核酸。

國家衛(wèi)建委第5版新冠肺炎診斷指南里，把CT作為一個(gè)臨床診斷標(biāo)準(zhǔn)（僅限湖北省份）。以后，2020年2月13日，湖北省確診病例單日增加將近15000例，其中大部分是基于CT影像確診的，意味那批核酸陰性的病人，得到了真正的確診，后續(xù)可以更加合理的治療。

CT上可以看到肺炎病人還是有比較明顯的癥狀，當(dāng)然早期、進(jìn)展期、重癥期癥狀是有區(qū)別的。在早期主要是磨玻璃狀陰影，不是完全實(shí)心，可以看到后面的血管，跟正常肺組織差異比較小，到進(jìn)展期、重癥期會(huì)慢慢實(shí)化，最嚴(yán)重時(shí)候可能變白肺。

對(duì)CT的診斷，無論對(duì)醫(yī)生、還是AI算法都是非常巨大的挑戰(zhàn)。

首先新冠肺炎是新疾病，對(duì)醫(yī)生來說，特別是初級(jí)醫(yī)生，都沒見過這種疾病，準(zhǔn)確診斷是很大的挑戰(zhàn)。早期階段表征是磨玻璃狀，背景對(duì)比度不夠強(qiáng)，此外磨玻璃本身就存在同狀異病的情況，診斷準(zhǔn)確率會(huì)受影響。

對(duì)于武漢一線醫(yī)生，做CT檢查人特別多，工作量特別大，每天都是超負(fù)荷工作，一個(gè)薄層CT掃描會(huì)產(chǎn)生300張左右的影像，肉眼閱讀可能需要5到15分鐘，對(duì)醫(yī)生來說確實(shí)需要一個(gè)能夠幫助提高診斷準(zhǔn)確率，加快閱片速度的助手。

對(duì)AI算法來說，也是非常巨大的挑戰(zhàn)，因?yàn)橐咔楸l(fā)初期，很難獲得大量數(shù)據(jù)。我們第一個(gè)版本只用一周時(shí)間就要開發(fā)、迭代，最終落地。還有標(biāo)注的問題，因?yàn)榍熬€醫(yī)生都非常忙，我們不想打擾前線醫(yī)生抗疫工作，也不可能讓前線醫(yī)生給我們標(biāo)很多數(shù)據(jù)。

但好在我們團(tuán)隊(duì)過去兩年一直關(guān)注小樣本學(xué)習(xí)問題，最終用自研小樣本學(xué)習(xí)技術(shù)，在數(shù)據(jù)量不是特別大情況得到比較滿意的準(zhǔn)確率。

我們醫(yī)學(xué)影像團(tuán)隊(duì)過去幾年技術(shù)積累還是非常好的，比如通用技術(shù)，2019年我們參加的醫(yī)學(xué)影像競(jìng)賽，其中拿到5個(gè)競(jìng)賽的冠軍，光在競(jìng)賽總獎(jiǎng)金上就達(dá)到35萬，里面包括檢測(cè)、分割和分類，覆蓋醫(yī)學(xué)影像大部分任務(wù)。

當(dāng)然我們也有很多相關(guān)技術(shù)積累，比如肺結(jié)節(jié)篩查，雖然病例可能不是肺炎但可以作為負(fù)例去訓(xùn)練分類器。

還有更相關(guān)的項(xiàng)目是，我們跟國內(nèi)頂尖的傳染病醫(yī)院，在免疫抑制人群肺炎（PCP）和普通人群肺炎這兩個(gè)分類上做了很多科研工作，這個(gè)工作跟現(xiàn)在新冠肺炎的項(xiàng)目非常像，也積累了很多數(shù)據(jù)。

最后相關(guān)的是小樣本學(xué)習(xí)，我們?cè)谛颖緦W(xué)習(xí)上也有很好的技術(shù)積累，去年我們開源了一個(gè)MedicalNet預(yù)訓(xùn)練模型，通過預(yù)訓(xùn)練，在小樣本上做微調(diào)，可以提高分類準(zhǔn)確率，同時(shí)也研究了很多自監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)技術(shù)，相關(guān)工作也發(fā)表在去年的一些頂會(huì)上。

在落地方面，騰訊走了一套跟別人完全不一樣的落地路線，采用車載CT+AI+遠(yuǎn)程篩查整套方案，項(xiàng)目背景是騰訊基金會(huì)從15億抗疫基金里拿出一部分，捐贈(zèng)了6臺(tái)CT掃描儀。

前期主要是捐獻(xiàn)給廣東醫(yī)療隊(duì)，當(dāng)他們到需要到武漢去，幫助前線抗疫。所以對(duì)這些醫(yī)生來說，他們就像個(gè)戰(zhàn)士，走的時(shí)候必須有武器，沒有CT掃描儀，就沒法做很多檢查，所以我們捐贈(zèng)了6臺(tái)設(shè)備。

這是當(dāng)時(shí)發(fā)車的照片，可以看到這是集裝箱，里面裝載了CT掃描儀和AI服務(wù)器。部署到醫(yī)院以后把集裝箱放下來，通過一兩天連調(diào)就可以上線，開始工作，過程非常快速。

除了捐贈(zèng)6臺(tái)CT掃描儀以外，我們也捐贈(zèng)了7臺(tái)AI服務(wù)器，其中6臺(tái)，搭配著車載CT一起部署到醫(yī)院。

這是我們產(chǎn)品的迭代的路線，大概分幾個(gè)步驟，更新4個(gè)版本。

第1個(gè)版本時(shí)，時(shí)間非常緊，只有一周時(shí)間，因?yàn)榈?臺(tái)捐贈(zèng)CT發(fā)車時(shí)間是2020年2月16號(hào)，我們拿到數(shù)據(jù)已經(jīng)是2月初，后面還要跟CT廠家聯(lián)調(diào)，留給算法開發(fā)的時(shí)間只有一個(gè)星期，當(dāng)時(shí)也是頂著壓力讓同事們一起加班加點(diǎn)，最后順利的完成任務(wù)。

我們分類任務(wù)是進(jìn)行一個(gè)三分類，輸入一個(gè)CT圖像以后，首先分析是不是肺炎，因?yàn)橐部赡苁欠谓Y(jié)節(jié)、其他肺部疾病、正常無疾病。確定是肺炎之后，還需要區(qū)分是病毒性肺炎（新冠肺炎），還是其他肺炎（細(xì)菌引起抗細(xì)菌引起感染引起的肺炎）。

第2個(gè)版本我們又加了肺炎區(qū)域分割，可以統(tǒng)計(jì)病灶數(shù)目、病灶體積、病灶占肺部區(qū)域的百分比等，后面又加了肺葉定位和隨訪功能。

談到分類任務(wù)，因?yàn)榈?個(gè)版本時(shí)間非常緊，數(shù)據(jù)量又非常少，所以我們用自監(jiān)督學(xué)習(xí)方法，也就是魔方自監(jiān)督，這是我們?nèi)ツ暝卺t(yī)療影像AI頂會(huì)（MICCAI）上發(fā)表的論文。

自監(jiān)督學(xué)習(xí)就是給原始圖像額外標(biāo)簽去設(shè)計(jì)任務(wù)，任務(wù)可以從原始圖像中拿到（自己定義）一些標(biāo)簽來監(jiān)督我們網(wǎng)絡(luò)的訓(xùn)練。

當(dāng)時(shí)我們?cè)O(shè)計(jì)任務(wù)是將三維CT圖像切分成一些模塊，比如2×2×2的8個(gè)模塊，拿到這8個(gè)模塊以后，我們隨機(jī)打亂它順序，每個(gè)模塊可以沿著不同的軸做隨機(jī)旋轉(zhuǎn)，就像一個(gè)打亂的魔方。我們的神經(jīng)網(wǎng)絡(luò)就是試圖去恢復(fù)這個(gè)魔方，給每一個(gè)模塊找到原來的位置，然后判斷模塊是不是被旋轉(zhuǎn)過。

神經(jīng)網(wǎng)絡(luò)被訓(xùn)練出來以后，我們采用遷移學(xué)習(xí)方法，在特定任務(wù)上微調(diào)，因?yàn)檫@種預(yù)訓(xùn)練方法不需要標(biāo)簽，可以在大量甚至幾萬例數(shù)據(jù)上做預(yù)訓(xùn)練，得到非常穩(wěn)定的結(jié)果。

然后我們?cè)谛?shù)據(jù)上微調(diào)做分類，就肺炎、非肺炎、病毒性肺炎和非病毒性肺炎分類，可以有效放大有限樣本量的效率，大家要感興趣的話可以參考我們那篇論文。

肺炎分割是一個(gè)比較難的問題，特別早期肺炎，因?yàn)槭悄ゲＡ畹牟∽儯喞⒉磺逦词贯t(yī)生標(biāo)注也有很大的方差，可以比較一下肺炎分割和實(shí)性腫瘤分割的情況。

這是腦膠質(zhì)瘤分割，比較規(guī)則，形狀近似于橢圓形，當(dāng)然也有離群點(diǎn)，但是肺炎離群點(diǎn)更多，即使大塊的肺炎區(qū)域形狀都特別不規(guī)則。

我們用的三維卷積神經(jīng)網(wǎng)絡(luò)，能夠充分利用層與層之間的信息，得到更有效的結(jié)果。對(duì)于這種三維圖像分割，我們還是比較有經(jīng)驗(yàn)的，去年在肝臟分割上拿到了第1名，肺部多器官分割上我們也拿了第1名，所以可以很快就上線功能。

這是我們落地的效果，總體來說靈敏度比較高，自測(cè)至少95%以上，假陽率也是可以接受的范圍。

這是部署到前線以后的第1例案例，我們當(dāng)時(shí)也非常緊張，因?yàn)槲覀円膊恢老到y(tǒng)部署到前線后的實(shí)際表現(xiàn)，患者是武漢醫(yī)院醫(yī)生，在之前患了新冠肺炎，等他痊愈之后，就負(fù)責(zé)主持我們公司捐贈(zèng)醫(yī)院的感染控制。當(dāng)時(shí)他自告奮勇做第1次掃描，我們AI診斷結(jié)果肺部影像是正常的，也符合當(dāng)時(shí)他的情況。

右邊是比較難的案例，已經(jīng)變大白肺，通常認(rèn)為大白肺可能就已經(jīng)是新冠肺炎晚期，初級(jí)醫(yī)生認(rèn)為是新冠肺炎而高年資醫(yī)生復(fù)核認(rèn)為是細(xì)菌感染引起肺水腫，不是新冠病人，最后檢測(cè)結(jié)果確實(shí)是細(xì)菌性肺水腫，和我們AI診斷結(jié)果一致。

肺炎疫情趨勢(shì)預(yù)測(cè)

這是和政府合作的項(xiàng)目，疫情防控部門給我們要求，想知道武漢或者湖北放開管控以后，會(huì)不會(huì)形成反彈，海外輸入風(fēng)險(xiǎn)有多大，哪些國家對(duì)我們風(fēng)險(xiǎn)最大等。

針對(duì)這些題目，我們又做了專題研究，構(gòu)造模型，把結(jié)果跟他們做定期匯報(bào)，為政府決策提供依據(jù)。對(duì)民眾來說，只要了解中長期趨勢(shì)也是有幫助的，因?yàn)槊刻鞌?shù)值都在變，假如他們知道中長趨勢(shì)就會(huì)保持更平和的心態(tài)，更好的規(guī)劃工作和生活。

對(duì)于肺炎趨勢(shì)預(yù)測(cè)來說，大概有兩種方法：

第一種，傳統(tǒng)傳染病動(dòng)力學(xué)模型，這個(gè)方法對(duì)參數(shù)非常敏感，非常難調(diào)，因?yàn)閰?shù)一改變它結(jié)果就出現(xiàn)很大差異，特別是R0參數(shù)（病毒基本傳播數(shù)），表示平均下來一個(gè)病人會(huì)傳染多少正常的人；

第二種是機(jī)器學(xué)習(xí)模型，純數(shù)據(jù)驅(qū)動(dòng)，這種方法的問題是數(shù)據(jù)訓(xùn)練量比較少，做復(fù)雜的模型很有點(diǎn)難度。

里面有幾個(gè)創(chuàng)新，一個(gè)是改造傳統(tǒng)傳染病模型，傳統(tǒng)的SEIR模型中S代表易感人群，E代表潛伏期，I代表你發(fā)病了，R代表你在康復(fù)。這個(gè)模型更多是用于流感病人，比如到醫(yī)院確診流感，醫(yī)生給你開藥回家了，康復(fù)期還在社會(huì)上自由活動(dòng)，就有一定傳染概率。

新冠整個(gè)管控方法是不一樣的，一旦發(fā)現(xiàn)是確診病人就會(huì)被隔離，所以在康復(fù)期就不會(huì)在社會(huì)上自由走動(dòng)，所以把模型最后狀態(tài)改成了Q，變成了SEIQ。

這個(gè)模型整個(gè)來說就是說不同狀態(tài)之間有一個(gè)轉(zhuǎn)化速度，所以有幾個(gè)參數(shù)：β、γ1、γ2等。第1個(gè)改進(jìn)是我們加我們把R替代成Q；第2個(gè)改進(jìn)就是基本傳播參數(shù)。

剛才提到這個(gè)參數(shù)非常敏感，另外參數(shù)還隨時(shí)間變化，隨著病例的不斷增加，政府可能會(huì)采取更加強(qiáng)力的措施，把R0這數(shù)值字降下來。所以我們認(rèn)為R0是隨時(shí)間轉(zhuǎn)化的數(shù)，不是固定值，基本假設(shè)是指數(shù)下降的，有基本、初始的和最終的參數(shù)，中間是指數(shù)下降的過程。

模型的參數(shù)有些是新引入，有些是原來就有。對(duì)于參數(shù)，我們不是直接去指定，而是給一個(gè)預(yù)定范圍，根據(jù)參考文獻(xiàn)或其他途徑，知道預(yù)定范圍，比如R0，我們認(rèn)為在2到7之間比較好。

用機(jī)器學(xué)習(xí)的方法把模型擬合到實(shí)際觀測(cè)數(shù)據(jù)中，找到最優(yōu)的一組參數(shù)，模型訓(xùn)練好之后就可以做預(yù)測(cè)。

這是我們幾個(gè)案例，一個(gè)是全國（非湖北），實(shí)際情況跟我們的模型非常吻合，因?yàn)槿珖蟾攀?月20號(hào)鐘南山院士宣布肺炎人傳人以后，就開始有數(shù)據(jù)出來。

我們用1月20號(hào)到1月27號(hào)這8天數(shù)據(jù)，藍(lán)色是我們訓(xùn)練樣本，黃色是后續(xù)實(shí)際每天確診人數(shù)，紅色是我們的模型預(yù)測(cè)結(jié)果。

可以看到27號(hào)就開始很好的預(yù)測(cè)未來一個(gè)月的變化，隨著訓(xùn)練樣本量越來越多，時(shí)間往前推進(jìn)，可以看到模型越來越準(zhǔn)確。

第2個(gè)是湖北（非武漢）的數(shù)據(jù)，更難一些，因?yàn)殚_始湖北的一些數(shù)據(jù)不符合傳染病規(guī)律，在2月4號(hào)之后，才能夠比較準(zhǔn)確的預(yù)測(cè)。

這是武漢的數(shù)據(jù)，2月13號(hào)湖北改變了診斷策略，把CT診斷加入標(biāo)準(zhǔn)之后，那天增加了很多病人。所以我們也提出一種方法，把病人往前折算到每天，根據(jù)疑似病例和確診病例的比例折算回去，灰色代表折算以后的病例數(shù)目，到2月中旬模型就可以得到不錯(cuò)的結(jié)果。

后面下降期我們預(yù)算很準(zhǔn)確，上升期確實(shí)很難，因?yàn)槌霈F(xiàn)的數(shù)據(jù)偏離傳染病特征，很多病人還在社區(qū)沒有被篩查出來，實(shí)際數(shù)據(jù)不夠真實(shí)。

2月底，負(fù)責(zé)項(xiàng)目的孫繼超博士在內(nèi)部論壇上介紹了我們的算法，回溯性的給了部分結(jié)果，他在3月3號(hào)發(fā)布了一個(gè)預(yù)測(cè)，雖然當(dāng)時(shí)全國很多地方新增變成0，但是武漢每天還在有很多新增數(shù)字。

他預(yù)測(cè)武漢一周以后累積數(shù)字，什么時(shí)候降到個(gè)位數(shù)，什么時(shí)候歸零。我們后來用實(shí)際數(shù)據(jù)驗(yàn)證來看，預(yù)測(cè)的準(zhǔn)確率還是比較不錯(cuò)的。

比如，模型預(yù)測(cè)3月18號(hào)到20號(hào)之間，武漢的新增最后會(huì)歸零，實(shí)際確實(shí)是3月18號(hào)新增數(shù)字歸零，還有預(yù)測(cè)了武漢最終確診病例會(huì)是49941，最終是50005，兩者非常接近，只有千分之一的誤差。

R0隨時(shí)間的變化曲線，可以看到確實(shí)在疫情初期，武漢的傳播系數(shù)非常大，遠(yuǎn)遠(yuǎn)高于全國和湖北非武漢城市，隨著政府管控力度加大，R0的系數(shù)也在不斷減少，最終收斂到0.2左右。

海外疫情爆發(fā)以后，我們的合作單位也希望對(duì)海外的疫情做預(yù)測(cè)，希望得到接下去半個(gè)月之內(nèi)，哪些國家對(duì)我國海外輸入風(fēng)險(xiǎn)最大。

這是還在飛速發(fā)展的幾個(gè)國家，主要是歐洲的意大利、西班牙和德國，在星期一做的預(yù)測(cè)，預(yù)測(cè)之后一個(gè)月的變化情況。

預(yù)測(cè)意大利即將到達(dá)拐點(diǎn)，新增病例達(dá)到頂峰，之后，新增病例量開始往下走，預(yù)計(jì)在4月2號(hào)、3號(hào)左右達(dá)到達(dá)拐點(diǎn)，一個(gè)月以后總確診病例數(shù)達(dá)到24萬。

模型預(yù)測(cè)西班牙的拐點(diǎn)比意大利晚3到5天，會(huì)在4月6號(hào)左右，最終確診數(shù)目可能跟意大利差不多。德國會(huì)更晚一點(diǎn)，要到4月20號(hào)才能夠達(dá)到高峰，然后接下去就往下走。

所有模型預(yù)測(cè)都有很多不確定因素，我們現(xiàn)在放出來，就是想看看，最終實(shí)際情況是不是和模型預(yù)測(cè)一致。

今天又做了美國的預(yù)測(cè)，還是比較難的，可以看到模型預(yù)測(cè)美國每天發(fā)病的數(shù)目和實(shí)際有很大偏差，主要是因?yàn)槊绹据p癥患者，就不做核酸測(cè)試，只有滿足重癥住院要求，才做核酸測(cè)試。

所以看到早期美國數(shù)據(jù)增長非常慢，然后幾天突然增加，原因可能是疫情爆發(fā)，或者是補(bǔ)償性行為。前期被隱藏的病人，開始放開做檢測(cè)，確診量開始補(bǔ)償性增加。我們對(duì)這個(gè)預(yù)測(cè)的信心不是特別足，根據(jù)模型預(yù)測(cè)，估計(jì)在4月17號(hào)左右，會(huì)達(dá)到高峰，接下來緩慢下降。

此外，假如美國不采取更強(qiáng)力的措施，我們估計(jì)5月15號(hào)，確診病例會(huì)超過100萬，希望不要發(fā)生這個(gè)情況，這需要他們的政府采取更強(qiáng)硬的管控措施。

我們跟合作單位還做了另外的課題，是湖北放開管控以后的反彈情況，這個(gè)模型比較受限，參數(shù)比較少，最主要是R0參數(shù)。

假如用其他模型，比如深度學(xué)習(xí)，很多參數(shù)可以直接輸入，比如確診人數(shù)，當(dāng)?shù)厝丝诿芏龋?dāng)?shù)厣钏剑t(yī)院數(shù)目，平均活動(dòng)范圍（代表管控力度），當(dāng)?shù)貧夂驕囟鹊龋@些都可以作為參數(shù)輸入，所以深度學(xué)習(xí)模型，就是這里展示的LSTM模型，會(huì)非常靈活，對(duì)平均活動(dòng)范圍非常敏感。

管控最大的體現(xiàn)就在平均范圍，因?yàn)楣芸亓Χ却螅诩依锩刻旎顒?dòng)范圍就很小，放開到處跑，平均活動(dòng)范圍就大，所以我們發(fā)現(xiàn)模型，對(duì)平均活動(dòng)范圍非常敏感，所以用LSTM模型做了訓(xùn)練和預(yù)測(cè)。

這是當(dāng)時(shí)和合作單位匯報(bào)的結(jié)果，2月17號(hào)做的預(yù)測(cè)，藍(lán)線是真實(shí)，連續(xù)光滑的曲線是我們預(yù)測(cè)結(jié)果，17號(hào)做預(yù)測(cè)，預(yù)測(cè)2月21日、22日、23號(hào)放開后會(huì)出現(xiàn)反彈。

放開有兩種模式，一種全面放開，比如武漢1月22號(hào)封城前的情況，人的平均活動(dòng)半徑從1.8公里增長到22公里，確實(shí)會(huì)出現(xiàn)反彈，但是反彈不是特別致命，假如政府保持發(fā)現(xiàn)即隔離的管控措施會(huì)逐漸下降。

我們又做了不完全放開的預(yù)測(cè)，用武漢2月24號(hào)的數(shù)據(jù)，人群平均活動(dòng)范圍，可以看到不會(huì)反彈，但是下降速度會(huì)稍微慢一點(diǎn)。

對(duì)鄂州做預(yù)測(cè)

我們對(duì)鄂州做了一個(gè)預(yù)測(cè)，它是非常小的地級(jí)市，緊鄰武漢，人口在100萬左右，在27號(hào)做預(yù)測(cè)的時(shí)候，疫情還不夠穩(wěn)定，剛剛過了拐點(diǎn)，還在上下波動(dòng)時(shí)期。當(dāng)時(shí)是按照完全放開進(jìn)行預(yù)測(cè)，出現(xiàn)較大反彈，超過歷史峰值，人數(shù)從50多反彈到180，接近三倍，而不完全放開，保持一定管控力度，反彈力度會(huì)小一些，不過還是會(huì)接著反彈。

最后感謝天衍實(shí)驗(yàn)室大數(shù)據(jù)組、自然語言理解組和影像組的同事，他們過去兩個(gè)月非常辛苦，加班加點(diǎn)，利用人工智能技術(shù)快速上線和落地新的功能，希望我們所做的事情，可以為全國人民的抗疫事業(yè)做出應(yīng)有的貢獻(xiàn)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

分享：

相關(guān)文章

騰訊天衍實(shí)驗(yàn)室

騰訊天衍實(shí)驗(yàn)室鄭冶楓：醫(yī)學(xué)影像AI為什么需要小樣本 ...

騰訊云上海峰會(huì)：發(fā)布Agent產(chǎn)品全景圖，升級(jí)全棧AI能 ...

騰訊元寶派推出電腦版，一鍵開啟龍蝦社交新體驗(yàn)

獨(dú)家丨騰訊云AI業(yè)務(wù)突發(fā)調(diào)整，CTO王慧星分管云產(chǎn)品三 ...

專題

新冠肺炎爆發(fā)，全球科技“戰(zhàn)疫”

本專題其他文章

戴口罩會(huì)感染病毒？新冠陰謀論視頻再度充斥美社交媒體

波士頓動(dòng)力機(jī)器人的前線抗“疫”：協(xié)助醫(yī)生遠(yuǎn)程治療新冠肺炎患者

語出驚人！特朗普稱向人體注射消毒劑以消除新冠病毒，各路專家急忙“矯正”，網(wǎng)友群嘲

鐘南山發(fā)聲！瑞德西韋在中國研究全部暫停，卻在國外傳來好消息，背后原因令人嘆息

神機(jī)妙算！清華校友預(yù)測(cè)美國疫情發(fā)展，準(zhǔn)確率達(dá) 96%，網(wǎng)友：病毒都聽你的，絕了

美國郵政局面臨破產(chǎn)，政府拒絕援助、網(wǎng)友紛紛買郵票特朗普：這鍋亞馬遜背

more

AI掘金志

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

這個(gè)春節(jié)，年輕人靠阿福當(dāng)「云孝子」

告別“櫥窗式AI”：佛山南海跑通“產(chǎn)研用”閉環(huán)，打造AI+醫(yī)療衛(wèi)生落地范本

【會(huì)議預(yù)告】第十四屆國際研討會(huì)12月深圳啟幕，全球大咖共探精準(zhǔn)醫(yī)療新路徑

互聯(lián)網(wǎng)企業(yè)入局醫(yī)療，藥械數(shù)字化轉(zhuǎn)型如何破除信息孤島？

詳解平安戰(zhàn)略模式：獲客近3成，醫(yī)療健康生態(tài)圈如何反哺綜合金融？

渠道為王、捆綁銷售、偽創(chuàng)新，誰來動(dòng)一動(dòng)老牌HIS廠商們的蛋糕？

熱門搜索

AI 谷歌 MIT 安全互聯(lián)網(wǎng) LeiPhone 地平線 Ninebot 夏普手機(jī)游戲劉強(qiáng)東