專訪｜百度IDL負責人林元慶：告別蹣跚 AI大幕已啟

本文作者：宗仁

2016-10-12 19:07

導語：雷鋒網在演講過后采訪了林元慶，請他講了關于IROS，關于開源平臺，關于AI眼下最重要一步的看法。以下是采訪全文。

近日，在有韓國“硅谷”之稱的韓國大田，IROS 2016正在如火如荼地舉行，在Special論壇的人工智能／深度學習專場，百度深度學習實驗室（IDL）主任林元慶做了《AI，the (next) big thing》（《人工智能：大幕已啟》）的主題演講，作為計算機視覺和機器學習領域非常活躍的一名成員，現百度IDL負責人，目前他領導的IDL正進行著PaddlePaddle深度學習開源框架、圖片搜索、基礎圖像識別技術、人臉識別、OCR（光學字符識別）、視頻分析、學習機器人、細粒度圖像識別、AR以及醫療影像分析等十多個研究方向。雷鋒網在演講過后采訪了林元慶，請他講了關于IROS，關于開源平臺，關于AI眼下最重要一步的看法。以下是采訪全文。

雷鋒網：此行來IROS的目的？

IROS是世界上最大的關于Robitics的國際會議之一，大會的Plenary talk是會議眾多演講的重中之重。雖然平時我很少在外面公開做演講，但這樣一個學術性的talk既然主動邀請，就過來了，另外這也是向世界的Robotics研究人員介紹百度人工智能的好機會。

雷鋒網：作為一個機器人會議中受邀的AI演講者，機器人中需要用到AI的地方，可以概括一下？

很多，像我剛剛說的百度大腦里面，有語音識別，計算機視覺，NLP，推薦／預測，運動／控制，決策／規劃，這幾個AI大方向都是機器人學的重要基礎技術。

雷鋒網：CPU＋FPGA，CPU＋GPU組合更看好哪個？百度不同業務去分配的時候是如何決定用哪個組合的？

這兩個技術都在進步，我們沒有一個預設的立場，百度這兩個方向都在應用。選擇上，百度不同業務，訓練階段大部分用的大部分是GPU，testing階段有用GPU，也有用FPGA的，更成熟的業務可能會選擇FPGA，這樣優化的空間會更大一些。

（看你剛剛放的PPT劃分的百度AI相關業務，這些業務用哪個組合會有明確的選擇嗎？）

這個很難講，人工智能不是單個技術，而是包含很多很多的不同技術，以計算機視覺為例，它就有圖像分類，物體檢測，圖像分割等不同技術。GPU和FPGA對不同的任務，可能各有優缺點。

（就是一項業務訓練的時候用的GPU，實際應用的時候可能轉到FPGA？）

對，是這樣。

雷鋒網：現在ImageNet比賽結果對工業界的意義在哪里？

這幾年ImageNet的競賽涌現出一些非常有用的算法，比如AlexNet之后的GoogleNet, VGG, ResNet等，對工業界的技術性能的提高，有很大的推動作用。ImageNet一個很大的意義是在于推動算法的革新。這對工業界和學術界，都是非常有意義的。

同時，工業界打造的產品，常常需要go beyond ImageNet。我記得第一年（2010年）ImageNet比賽我們拿了第一名。我是當時項目的負責人。但之后我們發現ImageNet的結果很難直接用在產品上。我們后來開始主攻細粒度圖像識別。百度糯米這個月下旬將推出一個非常重要的功能，其中的一個重要技術就是菜品圖像的細粒度識別（識別圖片里的菜品是哪個餐館的哪道菜）。即使是通用的圖像分類，百度的圖像庫有接近1億張帶類別標簽的圖片，比ImageNet Challenge（150萬張圖片）的大很多。我們內部的數據要比公開的數據大很多，需要更好地反應我們要解決的問題。

雷鋒網：你現在領導的十個業務都跟之前主攻方向之一大規模細粒度圖像識別有何關系？

對，有很多關聯的。最直接的當然是細粒度圖像識別方向。我們希望在百度搭建一個非常強大的細粒度圖像識別的研發團隊。其它的項目與這也有關聯。比如人臉識別就是一個最經典的細粒度圖像識別任務。很多技術是相通的。還比如我們的醫學圖像分析，它的很多做法與細粒度圖像識別也有相通之處。

我們現在強調做instance-level的細粒度圖像識別。比如，我們身下坐的這把椅子，我們不單單只是識別這是一把椅子，我們還需要識別出這是哪個廠家哪個型號的椅子。還比如前面提到的“哪個餐館哪道菜”的識別。這些都是非常精細的識別。這些問題當然都很難，需要投入很大的研發力量。但應用前景是非常大的。

雷鋒網：跟之前NEC的工作有什么內在聯系？

NEC美國實驗室在美國是非常優秀的實驗室，也在AI上做了非常多的工作。我也非常幸運地在那里做了7年半的研究，包括最后三年多作為實驗室媒體分析部門的負責人。當時的工作與現在的工作一脈相承。

雷鋒網：剛在演講最后，你講到AI大幕已啟，接下來讓它走地更遠的話，最重要的一步是什么？

最重要的一步是要有用，能解決實際問題，真正能解決一些很重要的問題。比如自動駕駛，那就是要真正能上路。人臉識別，就是什么情況下人臉識別都能識別得非常精準。

雷鋒網：作為過來人分享一下，學生選Robotics專業的時候要注意什么？

機器人，包括AI，大家可能會有一些誤解，覺得這是單一技術，但其實它涵蓋的技術非常復雜，而一個人是很難去解決所有的技術的。像今天第一個talk講的機器手抓取，從應用角度來看這是一個非常特定的領域，但這個方向做學問的話你都可以做很久。

我個人的傾向是注意不要大而全，要根據自身的興趣和特長定一些側重點。我經常會跟我身邊的人說，要認準一個方向，做到這個方向的Mr. something，比如Mr. fine-grained image recognition。這樣你的事業可能就越走越寬。

雷鋒網：作為一個AI參與者，前不久余凱發了一個聲明：“一直以來我非常欽佩谷歌的Jeff Dean在MapReduce和谷歌大腦（TensorFlow）等項目上的杰出成就。但是，我必須指出，放任TensorFlow成為世界上占統治地位的人工智能開發平臺對世界是危險的。……” 如何看這個觀點？

AI的平臺很重要，確實需要多樣化的選擇，上次我也回了他朋友圈，認為我們這一代人應該團結起來，推動深度學習平臺的開放和多樣化。百度現在有PaddlePaddle深度學習平臺，這個其實是百度花了非常大的資源做的一個平臺，現在開源了，希望能在中國人工智能領域貢獻一些我們的力量。

雷鋒網：之前PC時代，Windows出現了就有Mac OS，還有Linux；移動互聯網時代，iOS出現了就有Android；從來沒有一家獨大的時候，會不會AI平臺也不用擔心？

還是不太一樣。很多AI技術有一個正循環效應，越多的人來用，你的系統越好，這樣會吸引越多的人來用。你已經快速迭代了甚至已經做到極致了，別人再去重新開始一個，難度是比較高的。

小結：

林元慶在演講的過程中，以及會后采訪的過程中，一直在強調AI大幕“已經啟動”這個關鍵動作，雖然“人工智能”這個概念最早從1955年8月31日就開始提出，但從當時的誕生，到中間的兩起兩落，一直像個蹣跚學步的孩子一樣經歷了60年才迎來了第三次復興的浪潮。

1956年到1974年，全球第一次人工智能浪潮出現。
1974年到1980年。第一次人工智能冬天出現。
80年代出現了人工智能數學模型方面的重大發明，第二次浪潮出現。
1987年到1993年現代PC的出現，讓人工智能的寒冬再次降臨。

不過這一次，隨著硬件，數據，算法三板斧的默契配合和發展，AlphaGo與世界頂級圍棋高手李世石的人機世紀對戰，人工智能已經從基本的語音識別，圖像識別，向著自動駕駛，視頻，AR，醫療，金融等各種領域無聲地滲透，也引發了全民關注AI復興的熱潮。

老驥伏櫪，志在千里。如果說過去60年是它從孕育到躊躇的“蹣跚”周期，那往后60年，將會是它揭開“無窮大”大幕的周期。

專訪｜百度IDL負責人林元慶：告別蹣跚 AI大幕已啟

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

宗仁

專注AIR(人工智能+機器人)

專注人工智能+機器人報道，經驗分享請加微信keatslee8（請注明原因）。科學的本質是：問一個不恰當的問題，于是走上了通往恰當答案的路。

掃描關注作者微信

發私信

當月熱門文章

專訪｜百度IDL負責人林元慶：告別蹣跚 AI大幕已啟

雷鋒網：此行來IROS的目的？

雷鋒網：作為一個機器人會議中受邀的AI演講者，機器人中需要用到AI的地方，可以概括一下？

雷鋒網：CPU＋FPGA，CPU＋GPU組合更看好哪個？百度不同業務去分配的時候是如何決定用哪個組合的？

雷鋒網：現在ImageNet比賽結果對工業界的意義在哪里？

雷鋒網：你現在領導的十個業務都跟之前主攻方向之一大規模細粒度圖像識別有何關系？

雷鋒網：跟之前NEC的工作有什么內在聯系？

雷鋒網：剛在演講最后，你講到AI大幕已啟，接下來讓它走地更遠的話，最重要的一步是什么？

雷鋒網：作為過來人分享一下，學生選Robotics專業的時候要注意什么？

雷鋒網：之前PC時代，Windows出現了就有Mac OS，還有Linux； 移動互聯網時代，iOS出現了就有Android；從來沒有一家獨大的時候，會不會AI平臺也不用擔心？

小結：

雷鋒網：之前PC時代，Windows出現了就有Mac OS，還有Linux；移動互聯網時代，iOS出現了就有Android；從來沒有一家獨大的時候，會不會AI平臺也不用擔心？