3
| 本文作者: 宗仁 | 2016-10-12 19:07 |
近日,在有韓國“硅谷”之稱的韓國大田,IROS 2016正在如火如荼地舉行,在Special論壇的人工智能/深度學習專場,百度深度學習實驗室(IDL)主任林元慶做了《AI,the (next) big thing》(《人工智能:大幕已啟》)的主題演講,作為計算機視覺和機器學習領域非常活躍的一名成員,現百度IDL負責人,目前他領導的IDL正進行著PaddlePaddle深度學習開源框架、圖片搜索、基礎圖像識別技術、人臉識別、OCR(光學字符識別)、視頻分析、學習機器人、細粒度圖像識別、AR以及醫療影像分析等十多個研究方向。雷鋒網在演講過后采訪了林元慶,請他講了關于IROS,關于開源平臺,關于AI眼下最重要一步的看法。以下是采訪全文。
IROS是世界上最大的關于Robitics的國際會議之一,大會的Plenary talk是會議眾多演講的重中之重。雖然平時我很少在外面公開做演講,但這樣一個學術性的talk既然主動邀請,就過來了,另外這也是向世界的Robotics研究人員介紹百度人工智能的好機會。
很多,像我剛剛說的百度大腦里面,有語音識別,計算機視覺,NLP,推薦/預測,運動/控制,決策/規劃,這幾個AI大方向都是機器人學的重要基礎技術。
這兩個技術都在進步,我們沒有一個預設的立場,百度這兩個方向都在應用。選擇上,百度不同業務,訓練階段大部分用的大部分是GPU,testing階段有用GPU,也有用FPGA的,更成熟的業務可能會選擇FPGA,這樣優化的空間會更大一些。
(看你剛剛放的PPT劃分的百度AI相關業務,這些業務用哪個組合會有明確的選擇嗎?)
這個很難講,人工智能不是單個技術,而是包含很多很多的不同技術,以計算機視覺為例,它就有圖像分類,物體檢測,圖像分割等不同技術。GPU和FPGA對不同的任務,可能各有優缺點。
(就是一項業務訓練的時候用的GPU,實際應用的時候可能轉到FPGA?)
對,是這樣。
這幾年ImageNet的競賽涌現出一些非常有用的算法,比如AlexNet之后的GoogleNet, VGG, ResNet等,對工業界的技術性能的提高,有很大的推動作用。ImageNet一個很大的意義是在于推動算法的革新。這對工業界和學術界,都是非常有意義的。
同時,工業界打造的產品,常常需要go beyond ImageNet。我記得第一年(2010年)ImageNet比賽我們拿了第一名。我是當時項目的負責人。但之后我們發現ImageNet的結果很難直接用在產品上。我們后來開始主攻細粒度圖像識別。百度糯米這個月下旬將推出一個非常重要的功能,其中的一個重要技術就是菜品圖像的細粒度識別(識別圖片里的菜品是哪個餐館的哪道菜)。即使是通用的圖像分類,百度的圖像庫有接近1億張帶類別標簽的圖片,比ImageNet Challenge(150萬張圖片)的大很多。我們內部的數據要比公開的數據大很多,需要更好地反應我們要解決的問題。
對,有很多關聯的。最直接的當然是細粒度圖像識別方向。我們希望在百度搭建一個非常強大的細粒度圖像識別的研發團隊。其它的項目與這也有關聯。比如人臉識別就是一個最經典的細粒度圖像識別任務。很多技術是相通的。還比如我們的醫學圖像分析,它的很多做法與細粒度圖像識別也有相通之處。
我們現在強調做instance-level的細粒度圖像識別。比如,我們身下坐的這把椅子,我們不單單只是識別這是一把椅子,我們還需要識別出這是哪個廠家哪個型號的椅子。還比如前面提到的“哪個餐館哪道菜”的識別。這些都是非常精細的識別。這些問題當然都很難,需要投入很大的研發力量。但應用前景是非常大的。
NEC美國實驗室在美國是非常優秀的實驗室,也在AI上做了非常多的工作。我也非常幸運地在那里做了7年半的研究,包括最后三年多作為實驗室媒體分析部門的負責人。當時的工作與現在的工作一脈相承。
最重要的一步是要有用,能解決實際問題,真正能解決一些很重要的問題。比如自動駕駛,那就是要真正能上路。人臉識別,就是什么情況下人臉識別都能識別得非常精準。
機器人,包括AI,大家可能會有一些誤解,覺得這是單一技術,但其實它涵蓋的技術非常復雜,而一個人是很難去解決所有的技術的。像今天第一個talk講的機器手抓取,從應用角度來看這是一個非常特定的領域,但這個方向做學問的話你都可以做很久。
我個人的傾向是注意不要大而全,要根據自身的興趣和特長定一些側重點。我經常會跟我身邊的人說,要認準一個方向,做到這個方向的Mr. something,比如Mr. fine-grained image recognition。這樣你的事業可能就越走越寬。
AI的平臺很重要,確實需要多樣化的選擇,上次我也回了他朋友圈,認為我們這一代人應該團結起來,推動深度學習平臺的開放和多樣化。百度現在有PaddlePaddle深度學習平臺,這個其實是百度花了非常大的資源做的一個平臺,現在開源了,希望能在中國人工智能領域貢獻一些我們的力量。
還是不太一樣。很多AI技術有一個正循環效應,越多的人來用,你的系統越好,這樣會吸引越多的人來用。你已經快速迭代了甚至已經做到極致了,別人再去重新開始一個,難度是比較高的。
林元慶在演講的過程中,以及會后采訪的過程中,一直在強調AI大幕“已經啟動”這個關鍵動作,雖然“人工智能”這個概念最早從1955年8月31日就開始提出,但從當時的誕生,到中間的兩起兩落,一直像個蹣跚學步的孩子一樣經歷了60年才迎來了第三次復興的浪潮。
1956年到1974年,全球第一次人工智能浪潮出現。
1974年到1980年。第一次人工智能冬天出現。
80年代出現了人工智能數學模型方面的重大發明,第二次浪潮出現。
1987年到1993年現代PC的出現,讓人工智能的寒冬再次降臨。
不過這一次,隨著硬件,數據,算法三板斧的默契配合和發展,AlphaGo與世界頂級圍棋高手李世石的人機世紀對戰,人工智能已經從基本的語音識別,圖像識別,向著自動駕駛,視頻,AR,醫療,金融等各種領域無聲地滲透,也引發了全民關注AI復興的熱潮。
老驥伏櫪,志在千里。如果說過去60年是它從孕育到躊躇的“蹣跚”周期,那往后60年,將會是它揭開“無窮大”大幕的周期。

雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。