成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給奕欣
    發送

    0

    專訪數據挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個真實」

    本文作者: 奕欣 2018-08-29 17:43
    導語:不要拒絕任何新的東西,也不要迷信某一個東西。

    專訪數據挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個真實」

    由中國人工智能協會、深圳羅湖區人民政府主辦的「CCAI 2018 中國人工智能大會」于 7 月 28-29 日在深圳召開。

    作為第二天的大會嘉賓,美國伊利諾伊大學香檳分校(UIUC)計算機系教授韓家煒圍繞《基于海量文本數據的結構化知識抽取:數據挖掘、機器學習和自然語言處理的融合技術》分享了他在數據挖掘領域的相關研究。

    韓家煒認為要想將現有的無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。他提出兩種結構化數據的形式,一種是異質網絡(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由這種結構化數據生成 Knowledge 已經證明是很強大的,但是如何將原始無結構的數據變成有結構的數據(Network 或 Text Cube)則是非常困難的。

    在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經做了很多研究工作,也已經由此獲得了很多獎項;在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果。

    會后,雷鋒網 AI 科技評論與韓家煒教授進行了一次交流,圍繞他的治學理念及對數據挖掘做了探討。

    韓家煒,美國伊利諾伊大學香檳分校(UIUC)計算機系教授,IEEE 和 ACM Fellow,曾任美國 ARL 資助的信息網絡聯合研究中心主任。曾擔任 KDD、SDM 和 ICDM 等國際知名會議的程序委員會主席,創辦了 ACM TKDD 學報并任主編。在數據挖掘、數據庫和信息網絡領域發表論文 600 余篇。出版了數據挖掘專著《Data Mining: Concepts and Techniques》,成為數據挖掘國內外經典教材。曾獲 IEEE ICDM 2002 杰出貢獻獎、ACM SIGKDD 2004 最佳創新獎、 2009 年 IEEE 麥克道爾獎(the McDowell Award)。在谷歌學術的 H-index 中,名列全球計算機科學領域高引作者前三。

    以下是雷鋒網 AI 科技評論與韓家煒教授的訪談內容整理。本文得到了韓家煒先生的親自指正,在此致以衷心感謝。同時,特別鳴謝賈偉對本文做出的貢獻。

    數據挖掘這個領域本身比較廣泛,主要體現在如下幾個方面。

    第一,數據的類型非常多。數據里面有結構化的、比較簡單的數據,也有非結構化的數據,如文本數據。而不同的數據,不同應用,需要不同的方法來挖它,所以可用的方法也非常多,數據挖掘本身就發明了很多算法,然后還要應用一些統計的方法,或者是機器學習的方法。

    第二,數據挖掘的相關課題比較多,屬于比較開放的領域,而應用的方法也比較廣泛。也就是說,我們主要考慮方法的適用性和它的有效性,就是對大量的數據,挖掘的效率是不是能夠比較快。因此我們并不拘泥某些固定的方法,只要將有效數據抓取出來,就是最有效的方法。

    數據挖掘從某種程度上,可以幫助我們更好地重新理解,或者說認識這個世界。但比較大的區別之處在于,有些研究可能只要做一兩個實驗就可以把一些規律找到;而數據挖掘是在假設這個數據量非常大的前提下做研究的,而且那個規律并不是非常明顯,那么我們就從里面尋找一些相應的規律。

    目前數據挖掘領域有很多值得研究的方向,但可能從我們團隊的角度來說,要解決的是一些比較大一點、比較通用的問題,所以我們最近的方向,就是從無結構文本里面挖掘相應的結構。

    我是 1979 年中美剛建交的時候去美國讀研究生,當時國內基本沒有大學有計算機系,去海外留學的中國人基本都是從零開始學計算機。當時我學的是數據庫方面的東西。

    從整個大環境來看,數據庫當時是一個非常熱門的研究方向,很多公司都在用它,而且從工藝上來說,關系數據庫已經是一個比較成熟的、產品化的系統。

    而從研究層面來看,我主要的研究方向是用 expert knowledge 去擴展數據庫,當時叫做 deductive database(演繹數據庫),應用專家給出相應的 rule,發展 deductive database 的方法去找一些新的知識。如果要將數據變成知識,或是將數據變得真正有用,人工智能的作用還是非常重要的,因此我在 PhD 時的研究方向實際上做的就是數據庫(database)和 AI 的結合。

    但是我后來發現,由于 rule 都是專家來定義或制定的,實際上存在它的局限性,無法真正從數據中挖掘相應的信息,因此產生了「從數據中尋找 rule」的研究方向轉變的想法,并在畢業后任教期間考慮從數據挖掘的角度來尋找相應的知識和 pattern。

    當時剛開始意識到數據挖掘重要性的時候,關注的人不是特別多。原來做數據庫的人,還有原來做機器學習的人,都還在自己原來的領域里做研究。當時最早的除了我,還有 Rakesh Agrawal 和 Christos Faloutsos,這幾個人也就是當時比較中堅的力量。

    最早的 KDD workshop 要從 1989 年開始,當時是 IJCAI 旗下的一個 workshop,去的也就 20 至 30 個人,工業界和學術界各一半。一天的會下來,大家都覺得數據挖掘是一個非常好、非常重要的方向。后來再開這個 workshop,參與的人就越來越多了,最終我們決定在 1995 年舉辦第一屆 KDD(KDD95)。

    我自己的一個親身感受是,在 90 年代早期,中國乃至整個亞洲的論文幾乎沒能被頂級會議錄用,能有一篇、兩篇文章就很不錯了。但如今的情況已經很不一樣,即使是來自北美或是歐洲的論文,很多也是中國學生寫的。只過了 20、30 年,情況已經今非昔比。中國人在科研力量中所起的作用,已經變成了重要力量。

    這一轉變主要是因為中國每年有很多學生去留學。一個國家的發展,必須和世界各國進行交流,學習對方先進的東西。在美國高校做科研的中國學生也都比較聰明和勤奮,對于美國的科研其實是增加了很大的力量;同時在學成之后,也有很多中國留學生在北美和歐洲任教或做科研,不時回到國內交流或是講學,這個交流本身就促進了新一代學生的培養。

    不過,中國學生和美國學生的不同之處在于,前者可能有更多就業和未來規劃的考慮,而美國學生更多是基于興趣去念的 PhD,他們大部分還是真正對技術有鉆研精神的。

    我自己在輔導學生中,總結了一個「Three R」(三個真實)給學生們。什么叫「Three R」呢?

    第一個是 real data。好多人只是抓的小量 data 在做。我和學生們說,如果要解決真正的問題,你要找大量的、真實的數據來做,這樣你做出來的算法,才有影響力。

    第二個是 real problem。就是找不少人或實踐中認為是重要的問題去做,而不是你自己坐在書桌前拍腦袋想出來的、不實際的問題。

    第三個是 real solution。做的工作要真正 work 才有意義。

    所以學生們如果能真正按照「Three R」去找 research topic,最后的工作都算是比較成功,就是他們確確實實用的真實數據,別人一看,也覺得這些數據和問題是非常重要的,不是自己憑空瞎編出來的。

    而從研究的角度來看,也是同樣的道理。

    首先,你還是要找到真正的、沒有被解決的問題。比如拿不到 facebook 或其它 social network 的真實數據,卻要做 social network 的數據挖掘研究,那么這個工作即不真實,也沒有什么用處。

    其次,我最不喜歡的就是跟風研究。我對學生講,別人能做,不見得你就一定能做。有的人跟在別人后面做研究,可能看到這個論文寫得不錯,就照著同一個論文來做。還是用 facebook 的例子來說,相比之下,公司里頭有一群頂級 PhD 在做 social network,又有數據,又有人力,你怎么做得過人家?

    沒有真正的 data,沒有真正的問題,一個人在學校做這樣的研究,純粹是浪費時間。但有一些其他問題,公司不能通過解決這個問題去賺錢,可能他們不會去做,但并不見得這個問題就不重要,就沒有研究價值。比如醫學領域,我們之前就從 PubMed(一個醫學文獻庫)中抓取了「心血管疾病」相關的十年的數據,大約有 50 萬篇論文。圍繞這 50 萬篇論文、6 類心臟病以及醫學教授們列出的 250 種蛋白質,我們很快就得到了針對每一類心臟病的相關蛋白質排序,可以給醫生們提供重要的線索,讓他們集中精力針對這些蛋白質去做臨床試驗,這大大地促進了他們的研究。這就是有價值、有意義的工作。

    近幾年來我們一直在從無結構文本中挖掘結構,從真實的數據到結構化數據,再到有用的知識,這仍然是一條很長的路。確實這還是一個比較大的問題。目前的機器學習需要依賴大量的 label,不可能每個領域都找到相應的專家去做標記,這個問題是一定要解決的。

    標注數據的終究是人。無可避免地,它有主觀和偏見的成分在。但人標注出來的數據,真的有意義嗎?現在用大量的人力做標注,要花多少錢?你從那么多文本里面總結,不用經過標注,你也能知道特朗普是美國總統。你花了錢,讓人力去做這樣的數據標注,純粹是 waste time,waste money。文本那么多,學科那么龐雜,特別是有些偏門學科,根本找不到人來標注,或者成本特別高,因此用人力來標注不可能滿足所有的情況。

    仔細想想,我們有那么多的文本,用數據挖掘也能把現在的標簽推導出來,而且有時候還能呈現不同的百分比和概率,準確率甚至比人工標注還強。

    所以我就和學生講,不要迷信那些標注,如果可以從你的 data 中把數據標注出來,那么人工的標注是沒有用的。與其用一個可能會有偏差的人工標注,不如就從大量的數據中,用一個科學的方法去標注這些數據,可能更有價值一些。

    深度學習在今天有它的意義所在,但我覺得不要迷信某一個「時髦」的算法。第一,不要拒絕任何新的東西,人家的工作做得好,你就應該學它,把好的內容拿來用。第二,不要迷信某一個東西。如果想真正解決一個問題,自己就要先想,如果我要解決這個問題,我要用什么樣的方法。想完了,你再看別人的論文用的是什么方法,這樣下來,你就能夠以一個比較批判的態度來看論文,而不是隨便就把人家的論文奉成神了,說不定,你的辦法比他的還好,那就又有一篇 paper 可以發了(笑)。

    雷鋒網AI科技評論獨家報道。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

    專訪數據挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個真實」

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說