成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    醫療科技 正文
    發私信給劉偉
    發送

    0

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    本文作者: 劉偉 2017-12-28 19:37
    導語:《未來醫療大講堂——醫學影像專題》第四期總結文。

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    雷鋒網AI掘金志《未來醫療大講堂——醫學影像專題》第四期總結文:一個只給醫療AI從業者、影像科醫生、名校師生、CFDA工作人員看的系列課程。

    注:90分鐘的視頻信息量巨大,文章僅為冰山一角,強烈建議觀看完整版視頻(含57頁PPT),請點擊鏈接:http://www.mooc.ai/open/course/384

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化


    一、數據篇(17頁PPT)

    1.醫學影像數據資產盤點

    2.標注工具——脫敏:大框架、小技巧

    3.標注工具第一類——PC+文件夾處理

    4.標注工具第二類——專用IT系統和工具:客戶端系統與網站系統

    5.第三方標注工具LabelImg

    6.自建工具

    7.標注工具開發心得

    8.標注工具第三類——專用工具+AI輔助標注

    二、算法篇(31頁PPT)

    1.關于數據分割比例

    2.遷移學習

    3.框架選型:Pytorch、Caffe、TensorFlow、MXnet

    4.目標檢測用于面部皮膚疾病分析

    數據脫敏及預處理、皮膚疾病檢測

    5.目標檢測用于宮頸基液細胞分析

    基于深度學習+GBDT的Two Stage模型

    multi CPU+multi GPU宮頸病理三分類系統

    6.3D目標檢測用于肺結節CT分析:

    數據處理、肺結節預測框架、Faster RCNN框架、Online hard Example mining、Loss 函數、框架選擇、我們的模型框架、FROC效果提升、模型網絡結構(150層+,Unet+Resnet)、分類器與融合

    三、算力篇(9頁PPT)

    1.架構選型決策:品牌 VS DIY

    • Intel CPU+Nvidia GPU

    • Power CPU+Nvidia GPU

    • Intel CPU

    • Intel +ASIC

    • Intel +FPGA

    2、選型決策:云VS自建

    亞馬遜云、美團云、阿里云

    3.算力優化:CPU GPU 寬帶優化、CUDA


    吳博從數據、算法和算力三個層面,詳細介紹了自己在AI醫學影像落地方面的實戰經驗和心得。

    他指出,醫療數據的價值評估與鉆石類似,可以從數據質量、同分布來源的影像數據尺寸和數據標注程度這三大維度來考核。沒有經過標注的數據就像未經加工的原石,無法體現其價值,因此數據標注是AI醫學影像落地過程中至關重要的一環。

    吳博對數據標注工具進行了分類,并分享了自己在開發數據標注工具方面的心得。他指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標注調整等需求。

    數據層面,企業能做的決策不多,只能“看菜吃飯”,但在算力層面,企業有很多的選擇,比如選擇什么樣的框架,選擇品牌設備還是DIY設備,選擇云服務還是自建機房等。在課程的最后部分,吳博詳細介紹了許多選型決策和算力優化方面的技巧。

    嘉賓介紹:

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    吳博,宜遠智能CEO

    學術背景:吳博先后在清華大學、香港浸會大學求學,并在英國利茲大學完成博士后,師從計算機視覺專家唐遠炎教授等人。與此同時,他也在ICML/ACL等頂級會議發表多篇人工智能論文。

    工業界經驗:2017年創立醫療AI公司:宜遠智能,該公司集結了20多名人工智能博士以及眾多海內外醫學顧問,為醫療健康領域提供AI增強解決方案,并與多家知名醫院達成合作,并推出成型產品。

    創立宜遠智能之前,吳博曾在愛立信大數據研究院任職。還主導過百億級虛擬品電商、數字貨幣系統的業務及數據架構建設與運營。

    2017年成果:吳博領導的宜遠智能團隊在醫學影像領域,取得以下成績:

    1.阿里天池醫療AI大賽GPU環節國內最佳;開源系統榮獲大賽人氣獎。

    2.面部皮膚診斷分析API、SDK已經進入商業化,并在2017年世界互聯網大會展出。

    3.宮頸基液細胞學診斷AI在權威評測中,超出醫生水平。

    以下圖文為雷鋒網AI掘金志節選的吳博課程部分內容:

    一、數據篇

    如何評估數據價值?

    醫療人工智能建立在海量數據的基礎之上,但優質的醫療數據十分稀缺,其價值隨之凸顯。如何準確評估數據的價值,是醫生和投資人非常關心的話題,對此業內尚未形成共識。

    吳博認為,醫療數據可以類比為鉆石。鉆石的價值評估對應著顏色、凈度、切工和克拉這四個維度,醫療數據也可如此類比。

    顏色越純、凈度越高的鉆石,價值也就越高。對于醫學影像數據來說,它的價值也取決于其干凈、規范、清晰和標準化的程度。如果是從膠片、PACS系統和診斷報告中翻拍而來的數據,必然會包含一些雜質,其價值將大打折扣。吳博指出,高質量的數據需要是Raw Data,比如mhd格式的DICOM影像和openslide病理圖像。

    鉆石單顆克拉數越高,價值也就越大。吳博認為,鉆石的克拉數可類比同分布來源的影像數據尺寸。所謂同分布來源的影像數據,對CT來說就是來自同一設備的,參數和曝光強度都相同的影像數據;對病理圖像來說,則指采用同一染色方法和色度、同一掃描儀及倍數,以及相同存儲格式的影像數據。

    雖然AI企業的最終目標是開發出一套通用性強的算法,能通吃各種數據;但作為數據資產方,同分布同來源的影像數據規模越大,其價值就越高。

    有些醫院雖然擁有大量數據,但它們來自不同的科室,格式也不盡相同,這種數據的價值是要打一些折扣的。

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    鉆石成為商品前需要經過切割等加工,醫療數據同樣要經過標注等處理才能釋放其價值。鉆石的切割工藝分為許多個層級,醫療影像數據的標注亦是如此。從基礎的類別標注到類別+病灶方框標注,再到類別+像素級勾畫,標注的精細度逐級提升,數據的價值亦水漲船高。

    如何選擇數據標注工具?

    工欲善其事,必先利其器。要想對醫療影像數據進行精細化的標注,首先得有好的標注工具。

    吳博將標注工具劃分成了三大類別,他將最基礎的一類稱作“pc+文件夾處理”,即讓醫生在pc和工作站上對數據進行分揀。對于醫生來說,專業的數據標注軟件有一定的學習成本,原始的分揀處理減少了學習成本,而且往往行之有效,還具有不受網絡影響、安全性較高等優點。不足之處則在于,對后期的數據清洗要求更高,而且過程繁雜,十分消耗人工物力。

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    更高階的有專用IT系統和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 標準標注工具 labelImg為代表的第三方工具雖然功能強大,但在通用性和靈活性方面還有所欠缺,因此企業經常不得不開發一些自建工具。

    宜遠智能在開發數據標注工具方面積累了許多心得。吳博指出,通過自建工具能夠更好地滿足項目推進過程中的用戶管理、權限管理、多人協作審核,以及模型迭代標注調整等需求。

    尤其是在醫學影像領域,標注的數據大多為圖片,天然具備便于展示的優點,因此可以本著方便易用的原則采用H5的canvas來設計標注工具,同時結合css3的變換,滿足圖像縮放、標注的需求。標注人員只需打開瀏覽器即可標注,無需復雜軟件部署。

    鑒于有些標注圖片太大(比如一例CT數據多達幾十甚至上百兆,一例病理數據有可能多達1G),網絡傳輸效率低下,有時候需要對標注數據做本地處理。小的項目可以采用數據本地化的方式,使用fiddler等代理軟件將網絡圖片請求代理到本地。大的項目則可以做內網的分布式部署,將標注系統部署在內網服務器上,由標注人員在內網進行標注。

    基于這些自建工具,標注人員可以根據需求選擇本地標注或在線標注,操作集中于鼠標,交互非常友好。標注人員可根據不同標注需求繪制點/線/框,無需復雜設置,打開瀏覽器即可標注,也可以清楚看到哪些已標哪些未標。

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    隨著技術發展,數據標注本身也呈現出了AI化的趨勢。比如基于以往的標注,可以通過AI模型對數據進行預處理,然后由標注人員在此基礎上做一些校正。

    二、算法篇

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    (算法篇 共有31頁信息量極大的PPT

    三、算力篇

    吳博認為,算力優化本質上是跟預算做斗爭,因為任何一家企業的預算和資源都是有限的,必須做很多的決策,要有所取舍。

    數據層面,企業能做的決策不多,只能“看菜吃飯”,有多少數據就做多大的事。但在算力層面,企業有很多的選擇,比如選擇什么樣的框架,選擇品牌設備還是DIY設備,選擇云服務還是自建機房等。


    宜遠智能CEO吳博:醫學影像的數據標注、算法方法與算力優化

    就框架而言,Intel CPU + Nvidia GPU的框架是目前為止的首選,特別是在需要做模型訓練的情況下。但企業也可以根據自身需求選擇其他框架,比如IBM體系的Power CPU + Nvidia GPU框架,性能也很優異,在CPU與CPU、CPU與GPU、GPU與GPU之間都可以提供非常出色的帶寬支持,構成比較高端解決方案。

    而且為了追趕Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持計劃。對于研發團隊來說,加入它們的foundation獲得算力上的支持是個不錯的選擇。而且Power和浪潮的合作非常緊密,這意味著它的國產化將不成問題。

    此外,還有Intel CPU、Intel + ASIC、FPGA等多種框架,它們各有優缺點,企業可以視自身情況作出選擇。

    ……

    學員部分提問

    雷鋒網AI掘金志線上直播結束后,學員從不同維度提出了18個問題,吳博對多數問題進行了耐心解答。

    問題:

    1.多疾病分類的時候,針對嚴重不均衡的數據,除了過采樣以外,還有沒有算法層面的突破?嚴重不均衡的數據集合會不會造成分類時baseline不穩定?

    2.如何對多模態數據進行有效利用?

    3.針對組織器官數據有哪些標注工具?

    4.模型迭代標注調整是什么意思?

    5.今天講的細胞學、病理、肺結節等,有做成產品用到醫院的嗎?

    6.病理圖片的顏色千差萬別,如何做預處理?

    7.液基細胞學用語義分割做的分割效果如何?

    ……

    本文僅展示了部分內容和10頁PPT,剩下的精彩內容和47頁PPT,歡迎點擊鏈接:http://www.mooc.ai/open/course/384

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說