專訪數據挖掘領頭人韓家煒教授：不要迷信權威，做學問要秉承「三個真實」

本文作者：奕欣

2018-08-29 17:43

導語：不要拒絕任何新的東西，也不要迷信某一個東西。

由中國人工智能協會、深圳羅湖區人民政府主辦的「CCAI 2018 中國人工智能大會」于 7 月 28-29 日在深圳召開。

作為第二天的大會嘉賓，美國伊利諾伊大學香檳分校（UIUC）計算機系教授韓家煒圍繞《基于海量文本數據的結構化知識抽取：數據挖掘、機器學習和自然語言處理的融合技術》分享了他在數據挖掘領域的相關研究。

韓家煒認為要想將現有的無結構的 Big Data 變成有用的 Knowledge，首先要做的就是將數據結構化。他提出兩種結構化數據的形式，一種是異質網絡（Heterogeneous Network），另一種是多維文本立方體（Multi-dimensional Text Cube）。由這種結構化數據生成 Knowledge 已經證明是很強大的，但是如何將原始無結構的數據變成有結構的數據（Network 或 Text Cube）則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問題上，韓家煒等人已經做了很多研究工作，也已經由此獲得了很多獎項；在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果。

會后，雷鋒網 AI 科技評論與韓家煒教授進行了一次交流，圍繞他的治學理念及對數據挖掘做了探討。

韓家煒，美國伊利諾伊大學香檳分校（UIUC）計算機系教授，IEEE 和 ACM Fellow，曾任美國 ARL 資助的信息網絡聯合研究中心主任。曾擔任 KDD、SDM 和 ICDM 等國際知名會議的程序委員會主席，創辦了 ACM TKDD 學報并任主編。在數據挖掘、數據庫和信息網絡領域發表論文 600 余篇。出版了數據挖掘專著《Data Mining: Concepts and Techniques》，成為數據挖掘國內外經典教材。曾獲 IEEE ICDM 2002 杰出貢獻獎、ACM SIGKDD 2004 最佳創新獎、 2009 年 IEEE 麥克道爾獎（the McDowell Award）。在谷歌學術的 H-index 中，名列全球計算機科學領域高引作者前三。

以下是雷鋒網 AI 科技評論與韓家煒教授的訪談內容整理。本文得到了韓家煒先生的親自指正，在此致以衷心感謝。同時，特別鳴謝賈偉對本文做出的貢獻。

數據挖掘這個領域本身比較廣泛，主要體現在如下幾個方面。

第一，數據的類型非常多。數據里面有結構化的、比較簡單的數據，也有非結構化的數據，如文本數據。而不同的數據，不同應用，需要不同的方法來挖它，所以可用的方法也非常多，數據挖掘本身就發明了很多算法，然后還要應用一些統計的方法，或者是機器學習的方法。

第二，數據挖掘的相關課題比較多，屬于比較開放的領域，而應用的方法也比較廣泛。也就是說，我們主要考慮方法的適用性和它的有效性，就是對大量的數據，挖掘的效率是不是能夠比較快。因此我們并不拘泥某些固定的方法，只要將有效數據抓取出來，就是最有效的方法。

數據挖掘從某種程度上，可以幫助我們更好地重新理解，或者說認識這個世界。但比較大的區別之處在于，有些研究可能只要做一兩個實驗就可以把一些規律找到；而數據挖掘是在假設這個數據量非常大的前提下做研究的，而且那個規律并不是非常明顯，那么我們就從里面尋找一些相應的規律。

目前數據挖掘領域有很多值得研究的方向，但可能從我們團隊的角度來說，要解決的是一些比較大一點、比較通用的問題，所以我們最近的方向，就是從無結構文本里面挖掘相應的結構。

我是 1979 年中美剛建交的時候去美國讀研究生，當時國內基本沒有大學有計算機系，去海外留學的中國人基本都是從零開始學計算機。當時我學的是數據庫方面的東西。

從整個大環境來看，數據庫當時是一個非常熱門的研究方向，很多公司都在用它，而且從工藝上來說，關系數據庫已經是一個比較成熟的、產品化的系統。

而從研究層面來看，我主要的研究方向是用 expert knowledge 去擴展數據庫，當時叫做 deductive database（演繹數據庫），應用專家給出相應的 rule，發展 deductive database 的方法去找一些新的知識。如果要將數據變成知識，或是將數據變得真正有用，人工智能的作用還是非常重要的，因此我在 PhD 時的研究方向實際上做的就是數據庫（database）和 AI 的結合。

但是我后來發現，由于 rule 都是專家來定義或制定的，實際上存在它的局限性，無法真正從數據中挖掘相應的信息，因此產生了「從數據中尋找 rule」的研究方向轉變的想法，并在畢業后任教期間考慮從數據挖掘的角度來尋找相應的知識和 pattern。

當時剛開始意識到數據挖掘重要性的時候，關注的人不是特別多。原來做數據庫的人，還有原來做機器學習的人，都還在自己原來的領域里做研究。當時最早的除了我，還有 Rakesh Agrawal 和 Christos Faloutsos，這幾個人也就是當時比較中堅的力量。

最早的 KDD workshop 要從 1989 年開始，當時是 IJCAI 旗下的一個 workshop，去的也就 20 至 30 個人，工業界和學術界各一半。一天的會下來，大家都覺得數據挖掘是一個非常好、非常重要的方向。后來再開這個 workshop，參與的人就越來越多了，最終我們決定在 1995 年舉辦第一屆 KDD（KDD95）。

我自己的一個親身感受是，在 90 年代早期，中國乃至整個亞洲的論文幾乎沒能被頂級會議錄用，能有一篇、兩篇文章就很不錯了。但如今的情況已經很不一樣，即使是來自北美或是歐洲的論文，很多也是中國學生寫的。只過了 20、30 年，情況已經今非昔比。中國人在科研力量中所起的作用，已經變成了重要力量。

這一轉變主要是因為中國每年有很多學生去留學。一個國家的發展，必須和世界各國進行交流，學習對方先進的東西。在美國高校做科研的中國學生也都比較聰明和勤奮，對于美國的科研其實是增加了很大的力量；同時在學成之后，也有很多中國留學生在北美和歐洲任教或做科研，不時回到國內交流或是講學，這個交流本身就促進了新一代學生的培養。

不過，中國學生和美國學生的不同之處在于，前者可能有更多就業和未來規劃的考慮，而美國學生更多是基于興趣去念的 PhD，他們大部分還是真正對技術有鉆研精神的。

我自己在輔導學生中，總結了一個「Three R」（三個真實）給學生們。什么叫「Three R」呢？

第一個是 real data。好多人只是抓的小量 data 在做。我和學生們說，如果要解決真正的問題，你要找大量的、真實的數據來做，這樣你做出來的算法，才有影響力。

第二個是 real problem。就是找不少人或實踐中認為是重要的問題去做，而不是你自己坐在書桌前拍腦袋想出來的、不實際的問題。

第三個是 real solution。做的工作要真正 work 才有意義。

所以學生們如果能真正按照「Three R」去找 research topic，最后的工作都算是比較成功，就是他們確確實實用的真實數據，別人一看，也覺得這些數據和問題是非常重要的，不是自己憑空瞎編出來的。

而從研究的角度來看，也是同樣的道理。

首先，你還是要找到真正的、沒有被解決的問題。比如拿不到 facebook 或其它 social network 的真實數據，卻要做 social network 的數據挖掘研究，那么這個工作即不真實，也沒有什么用處。

其次，我最不喜歡的就是跟風研究。我對學生講，別人能做，不見得你就一定能做。有的人跟在別人后面做研究，可能看到這個論文寫得不錯，就照著同一個論文來做。還是用 facebook 的例子來說，相比之下，公司里頭有一群頂級 PhD 在做 social network，又有數據，又有人力，你怎么做得過人家？

沒有真正的 data，沒有真正的問題，一個人在學校做這樣的研究，純粹是浪費時間。但有一些其他問題，公司不能通過解決這個問題去賺錢，可能他們不會去做，但并不見得這個問題就不重要，就沒有研究價值。比如醫學領域，我們之前就從 PubMed（一個醫學文獻庫）中抓取了「心血管疾病」相關的十年的數據，大約有 50 萬篇論文。圍繞這 50 萬篇論文、6 類心臟病以及醫學教授們列出的 250 種蛋白質，我們很快就得到了針對每一類心臟病的相關蛋白質排序，可以給醫生們提供重要的線索，讓他們集中精力針對這些蛋白質去做臨床試驗，這大大地促進了他們的研究。這就是有價值、有意義的工作。

近幾年來我們一直在從無結構文本中挖掘結構，從真實的數據到結構化數據，再到有用的知識，這仍然是一條很長的路。確實這還是一個比較大的問題。目前的機器學習需要依賴大量的 label，不可能每個領域都找到相應的專家去做標記，這個問題是一定要解決的。

標注數據的終究是人。無可避免地，它有主觀和偏見的成分在。但人標注出來的數據，真的有意義嗎？現在用大量的人力做標注，要花多少錢？你從那么多文本里面總結，不用經過標注，你也能知道特朗普是美國總統。你花了錢，讓人力去做這樣的數據標注，純粹是 waste time，waste money。文本那么多，學科那么龐雜，特別是有些偏門學科，根本找不到人來標注，或者成本特別高，因此用人力來標注不可能滿足所有的情況。

仔細想想，我們有那么多的文本，用數據挖掘也能把現在的標簽推導出來，而且有時候還能呈現不同的百分比和概率，準確率甚至比人工標注還強。

所以我就和學生講，不要迷信那些標注，如果可以從你的 data 中把數據標注出來，那么人工的標注是沒有用的。與其用一個可能會有偏差的人工標注，不如就從大量的數據中，用一個科學的方法去標注這些數據，可能更有價值一些。

深度學習在今天有它的意義所在，但我覺得不要迷信某一個「時髦」的算法。第一，不要拒絕任何新的東西，人家的工作做得好，你就應該學它，把好的內容拿來用。第二，不要迷信某一個東西。如果想真正解決一個問題，自己就要先想，如果我要解決這個問題，我要用什么樣的方法。想完了，你再看別人的論文用的是什么方法，這樣下來，你就能夠以一個比較批判的態度來看論文，而不是隨便就把人家的論文奉成神了，說不定，你的辦法比他的還好，那就又有一篇 paper 可以發了（笑）。

雷鋒網AI科技評論獨家報道。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

5人收藏

奕欣

初心者

掃描關注作者微信

發私信

當月熱門文章