0
| 本文作者: 葉騰琪 | 2017-07-15 12:52 |
Data is not information.
Information is not knowledge.
Knowledge is not wisdom.
本文作者都柏林城市大學(xué)葉騰琪同學(xué),本文為參加CCF-GAIR大會之后的觀后感。通過他的文章,能夠還原出一位學(xué)術(shù)青年眼中的CCF-GAIR大會。如果你也想就此次大會給我們投稿,歡迎聯(lián)系我們:lizongren@leiphone.com。
最近深圳天氣不太好,陰雨連綿,但會議地點還是很給力的。深圳喜來登酒店就在地鐵口出口旁。酒店非常氣派,一應(yīng)俱全,有圖有真相。會議有三天,各自都分為A, B, C三個專場。

(大會現(xiàn)場的安保)

(會場內(nèi)很豪華)
第一天的Session A聚焦AI發(fā)展前沿,由徐揚生院士主持,主要耕耘于機器人領(lǐng)域。第一位嘉賓是中國工程院院士潘云鶴,潘院士作為曾經(jīng)的浙大校長,現(xiàn)在是候補中央委員,同時也是AI 2.0計劃的倡議者。潘院士的演講主要還是圍繞AI 2.0計劃的詳細介紹。
AAAI主席Kambhampati教授是主會場第二位演講嘉賓,他的演講中提到人工智能是計算機里面很大的主流方向,這也意味著子方向之間的差別可以非常大,也可以非常小。比如,做機器學(xué)習(xí)方向的學(xué)者對于電路可能一點都不清楚,但在機器人領(lǐng)域這應(yīng)該是基礎(chǔ)知識。再比如,機器學(xué)習(xí)和數(shù)據(jù)挖掘大部分工作都是一樣的,但各個方向的側(cè)重點又有所不同。數(shù)據(jù)挖掘不會像機器學(xué)習(xí)一樣那么關(guān)注模型的可解釋性和計算能力,機器學(xué)習(xí)也不會像數(shù)據(jù)挖掘一樣去那么關(guān)心通過現(xiàn)實生活中的一些場景假設(shè)去解決問題。所以就像不是所有學(xué)計算機科學(xué)的都會修電腦,人工智能相關(guān)的學(xué)者不是所有的人工智能領(lǐng)域都會精通。
回到Kambhampati教授的演講,雖然筆者之前的實驗室印度人不少,但是聽該教授的口音很重的英語仍然有些吃力。首先該教授對AAAI會議做了一番軟文,呼吁更多的中國學(xué)者加入AAAI會員(多交錢),多投稿(增加影響力)。AAAI和IJCAI是AI領(lǐng)域最好的兩個會,因為投稿領(lǐng)域最全,但在機器學(xué)習(xí)方面這兩個會也就一般。AI領(lǐng)域的機器學(xué)習(xí)方向的論文往往追求新穎的想法和故事,但是論文嚴(yán)謹(jǐn)性不夠,所以導(dǎo)致論文可信度不高。

回到演講,教授又用了AI在社交網(wǎng)絡(luò)和美國政府經(jīng)費方面的例子說明現(xiàn)在AI形式大好。其實對hype cycle比較熟悉的人是可以看出,上升期之后緊接著就是泡沫破裂時期。然后教授又比較了人工智能和人類智能,和人工智能發(fā)展歷史。他還提到了AI研究的倫理,舉了一個臭名昭著的關(guān)于“看相”的研究。雖然剩下大部分科普內(nèi)容對于筆者來說干貨不多,但是教授還是指出了幾個研究方向供我們研究(灌水):從更少的訓(xùn)練樣本中學(xué)習(xí)、機器的常識、不完整性和交互。Deep learning的有效性是基于海量樣本數(shù)據(jù),但是人類智能似乎不需要太多的樣板就可以學(xué)習(xí)。最后,教授主要介紹了一下他組里面的工作,演講就結(jié)束了。
譚鐵牛院士第三個登臺分享。Google scholar上顯示他的論文總引用次數(shù)約28000,重點關(guān)注模式識別的研究方向。我個人認為譚院士的演講是本次大會中最不能錯過的演講,原因在于有干貨有總結(jié)。教授根據(jù)他自己的經(jīng)驗總結(jié)讓我很有共鳴,同時從演講中可以看出,教授仍然活躍在科研第一線,時不時能讓我在細節(jié)中發(fā)現(xiàn)驚喜。
譚院士指出現(xiàn)在模式識別的挑戰(zhàn)主要有兩個,第一是不穩(wěn)定,例如在強光照下,現(xiàn)有的很多視覺算法就會失效。第二是課解釋性差,比如像深度學(xué)習(xí),現(xiàn)在學(xué)界普遍只能當(dāng)成黑箱。
看到這里,想必很多讀者要問了,黑箱就黑箱,能用就行啊。黑箱的主要壞處有兩點,第一是無法解釋可信性就差。為什么現(xiàn)在大家很喜歡在深度學(xué)習(xí)灌水呢?因為你改個網(wǎng)絡(luò)結(jié)構(gòu),發(fā)個論文,宣稱它好,大家也不知道到底真的還是假的。很多代碼作者不公開,連實驗做沒做都不知道。要是真的有人嘗試重復(fù)結(jié)果卻比論文差太多,作者也可以宣稱調(diào)參“技巧”沒達到。這個道理和我國前段時間生物界出的問題一樣,也可以解釋為什么生物是造假重災(zāi)區(qū),數(shù)學(xué)卻無法造假。第二是你無法解釋,也就不知道如何最好的改進結(jié)構(gòu),結(jié)果變好變差全憑運氣。接著演講說,教授接著從生物啟發(fā)的角度進行了很多歸納,比如記憶問題(sequence learning),啟發(fā)問題(transfer learning),多神經(jīng)元等。教授基本上字字珠璣、全程無尿點,強烈推薦。
Session B的主題是AI學(xué)術(shù)前沿,由楊強教授主持。對于楊強教授,他的“遷移學(xué)習(xí)”理論深受廣大學(xué)術(shù)青年們關(guān)注。遷移學(xué)習(xí)研究的是不同domain之間的遷移。例如,我會中文,我有本中英詞典,理論上我可以就看懂英文文獻了。再比如,我們平時的場景是3D,但是我們的大腦仍然可以理解2D的電影場景。
Session B中第一個做演講的是來自CMU的金出武雄教授。計算機科學(xué)方向有四個吊炸天的學(xué)校的存在,江湖人稱Top 4,MIT, CMU, Stanford, UC Berkeley。金出武雄同時享有ACM, IEEE, AAAI三個Fellow,國內(nèi)只有周志華教授同時拿了這三個Fellow。金出武雄的主要工作是機器人方向的視覺,在google scholar上擁有十萬的引用次數(shù),相比之下Kambhampati教授的引用次數(shù)是八千,楊強教授的引用次數(shù)是三萬。
金出武雄教授的演講主要是圍繞他們組的工作展開,詳細講解了自動駕駛、自動汽車等實際場景下的視覺解決。就我個人的感覺而言,他們的工作相比較于現(xiàn)在廣泛的計算機視覺來說,對于模型的依賴少,但是更側(cè)重于圖片處理,甚至是通過硬件去改變成像。中間有個令人印象深刻的例子。下雨和下雪時候的反光會嚴(yán)重干擾車載前頭的圖片,他們通過在攝像頭之前加一個類似于偏振片的鏡片,使得雨滴在圖片里面的成像變得很淡。另外,演講里面還有很多各種好玩的機器人的視頻,我才不要告訴你,你自己去看吧。
第二個做演講的是倫敦大學(xué)學(xué)院教授汪軍,他的論文引用次數(shù)在4000次左右,他的研究方向是AI在社群和團體方向的應(yīng)用。比如說多個多智能體的強化學(xué)習(xí)(游戲里面的不同AI單位的合作)、購物區(qū)域的自動規(guī)劃、分揀機器人。他里面提出了一個類似與GAN的想法就是在強化學(xué)習(xí)里面生成環(huán)境。這個想法還是很新穎的。
這些演講者的演講內(nèi)容可以總結(jié)為三類:打廣告的(給協(xié)會、給研究組、給公司)、分享研究成果和宣傳的、有總結(jié)和思考的。
下午是張宏江教授,他可是大有來頭的。他引用次數(shù)是5.5萬,曾經(jīng)是微軟亞洲工程院院長,所以和下午很多做演講的嘉賓都有淵源。下午第一個演講就不說了,純做廣告的。第二為演講嘉賓為曠視科技首席科學(xué)家孫劍。孫劍有著2.4萬的Google scholar引用次數(shù),研究方向為深度學(xué)習(xí)在計算機視覺方面的應(yīng)用。
他總結(jié)了計算機的核心也是經(jīng)典問題可以歸納為分類(圖像)、檢測(區(qū)域)、分割(像素)和序列(視頻)。分類的意思是識別,舉個例子,圖片里面的動物是貓是狗?兩張不同的圖片里面的人臉是不是屬于同一個人?因此識別都是圖像級別的。檢測最著名的一個例子是大家手機里面拍照的時候都會顯示出框來標(biāo)識人臉,也就是要找到物體所在的區(qū)域。分割是把圖像上面的不同物體的輪廓給區(qū)分出來。視頻可以看成是圖像的序列。這幾個任務(wù)看似簡單,但實際上不是。很多的計算機視覺問題都可以最后轉(zhuǎn)化為這幾個問題。因為篇幅愿意就不細說了。
孫劍最后還提到了他覺得現(xiàn)在計算機視覺方向的難點,供大家研究。
Session C最后一個演講的是360首席科學(xué)家顏水成,他的論文引用次數(shù)為3.5萬。顏水成主要講述了他們在360內(nèi)部的工作研究工作,都是一些比較熟悉的內(nèi)容。然后,他提到了一些他在工業(yè)界使用深度學(xué)習(xí)的一些思考,千言萬語總結(jié)起來就是與其為了場景研究開發(fā)算法(追求精度),同等重要的,是為一些達到一定精度的算法找到好的應(yīng)用場景(追求體驗)。
第二天筆者參加的是金融專場。Session G是陳邦道主持,首位分享嘉賓為牛津大學(xué)教授、英國皇家工程院院士、歐洲科學(xué)院院士Prof. Bill Roscoe,陳邦道正是Bill Roscoe的學(xué)生。Prof.Roscoe 的演講方向筆者不太熟悉,主要介紹了一些安全、區(qū)塊鏈、哈希簽名等,個人感覺和AI的關(guān)系不太大。
第二個位演講嘉賓為香港科技大學(xué)教授張曉泉,他的演講中介紹了很多Business Intelligence的方面,也就是金融和AI的融合,舉的例子里面主要是quant了,即量化。筆者曾經(jīng)對這一方向有所涉及,讀者感興趣可以自行研究。不過,張教授的部分觀點筆者不太認同,這里和大家討論一下。
張教授說機器學(xué)習(xí)是無法解釋可以預(yù)測的。實際上,機器學(xué)習(xí)的其中很重要的一部分工作就是模型的可解釋性和模型的預(yù)測能力評估,比較著名的成果是拿了圖靈獎的PAC。而且在Machine learning中,statistical based machine learning也是一個很重要的部分,而這一部分基本上都是可以解釋的。可能是因為Deep learning目前主流看法是不能嚴(yán)格證明和解釋,所以造成了很多錯覺。個人理解,關(guān)于神經(jīng)網(wǎng)絡(luò)其實也是有部分可解釋性,其中比較有名的是Universal approximation theorem,關(guān)于計算機理論的會議非常有名的有COLT和AISTATS。
接下來的三個演講都是從企業(yè)界來的,其中一個是筆者的校友。因為其實精華比較少,這里就總結(jié)在一起。首先,企業(yè)做得模塊大同小異。比如都有一些反欺詐、智能獲客、客戶畫像、智能客服等。模塊里面的技術(shù)點也差不多。其次,大數(shù)據(jù)很重要,人工經(jīng)驗的融合(專家系統(tǒng))也是很必要的。最后,他們說自己做得都很成功,AI能成功解決他們的大部分問題。對此,你怎么看?

最后一天必然去的是機器學(xué)習(xí)專場Session Q,但是大部分內(nèi)容其實仍然不是機器學(xué)習(xí)。下午是CV+專場,因為篇幅原因就不展開了,但MSRA的梅濤博士的演講是值得強烈推薦的,要知道MSRA基本上撐起了亞洲計算機視覺的半壁江山。

先說說個人收獲。說幾個直觀的方面。
1)現(xiàn)在的AI技術(shù)的的確確在很多方面達到了工業(yè)要求,但是AI本身和人類的智能仍然差很多。所以從學(xué)術(shù)的角度來說,我們在深度學(xué)習(xí)之后又一次來到了一個新的瓶頸期,如果你是真心搞學(xué)術(shù)而不是想灌水的話有幾個方向這些嘉賓覺得可以突破。一個是理論方向,可解釋性為什么重要我之前也說過。如果深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))可以在數(shù)學(xué)上透徹分析,我們很有可能馬上找出深度學(xué)習(xí)的短板,從而馬上可以突破瓶頸。還有一個是仿生學(xué)角度,大自然往往是最好的老師。雖然生物學(xué)的角度并不能讓我們得到數(shù)學(xué)證明,但是如果效果的確有突破性的飛躍,比如說我們能夠發(fā)現(xiàn)總結(jié)哪些結(jié)構(gòu)很好哪些不行,那么對AI的研究也有很大的促進。最后一個是在目前的基礎(chǔ)上補足一些明顯不好的地方,比如環(huán)境影響很大等。這個簡單來說就是應(yīng)用方向了。從工業(yè)上來說,為一個靠譜的算法找一個新穎的應(yīng)用是重中之重。
2)學(xué)術(shù)圈也存在馬太效應(yīng),也就是好的導(dǎo)師往往能帶出好的學(xué)生,好的學(xué)生反過來會促進原來的研究組,比如像這會圍繞MSRA的幾個演講者和主持還有牛津的一對師徒。這里說的好是包括人品和學(xué)術(shù)水平,人品是主要的。學(xué)術(shù)水平的話,你感興趣的領(lǐng)域的世界領(lǐng)先的組就那么幾個,大部分學(xué)生是無緣的。擁有好人品的導(dǎo)師至少能在他擁有的資源上給你利用,包括讓你去更好的地方做訪問、讓你想去工作的時候可以實習(xí)、發(fā)了論文可以去參加會議。這樣的老師都有一個共同點,就是他門下的很多學(xué)生畢業(yè)之后還都會和他有學(xué)術(shù)上的合作、項目上的聯(lián)系甚至生活中經(jīng)常訪問。我身邊中很多朋友因為少不更事,碰上了一些人品差的導(dǎo)師(這些導(dǎo)師不少是國外的),這些導(dǎo)師對學(xué)生來說真的是人生的一場災(zāi)難。關(guān)于這方面以后有時間和讀者再詳細介紹。
3)本次大會也有很多嘉賓做得非常認真,比如像譚鐵牛院士。他的PPT中的引用都很規(guī)范,而且那些引用都不是亂放的。學(xué)術(shù)經(jīng)驗少的讀者可能對這個就會產(chǎn)生疑問。實際上,作為一個比較好的研究者必然需要閱讀大量的論文并且對最新論文都有跟進。所以在高層次的學(xué)術(shù)活動中的引用都不是亂放的,而譚院士放出的引用的論文質(zhì)量都非常高。第一說明他仍然活躍在科研一線、第二說明他做事很認真。我和他利益完全不相關(guān)。很多讀者對搞研究的方法還不是很懂,一言以蔽之,讀論文是一個非常基本的指標(biāo)。
最后對回憶本身總結(jié)一下。筆者之前在國外的時候就發(fā)現(xiàn),他們特別喜歡舉行一些類似的活動,我個人覺得這個對整個行業(yè)促進是非常有用的。對于還只是第二屆的GAIR大會,雷鋒網(wǎng)已經(jīng)遠超我的預(yù)期了,再次感謝雷鋒網(wǎng)。能請到一些水平高、仍然在科研一線、有誠意來演講的大牛真的非常不容易。不過,有些地方可以改進的,比如學(xué)術(shù)會議一般會安排茶歇和會餐方便大家互相交流、演講最后和圓桌會議應(yīng)該提供觀眾提問等(雷鋒網(wǎng)小編已經(jīng)記下了,明年的GAIR 大會歡迎大家現(xiàn)場提問)。
最后,我想說的是,國內(nèi)其實已經(jīng)在很多方面慢慢超越國外了。我每次開國際學(xué)術(shù)會議,中國人的比例遠遠高于中國人口比例,雖然參加的中國人是從各個國家來的。至于中國能不能在AI方向快速超車從而實現(xiàn)中華歷史偉大復(fù)興呢?讓我們拭目以待!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。