0
| 本文作者: AI科技評論 | 2017-11-16 14:03 |
雷鋒網按:本文為Yann Lecun在CoRL 2017大會上做的演講的概述,雷鋒網作為受邀媒體參加了CoRL大會,所有資料來自于官方公開資源整理。
Lecun為Facebook AI研究院院長,他同時也是紐約大學的終身教授。他因著名的卷積神經網絡(CNN)相關的工作而被人稱為CNN之父。在演講中,Lecun回顧了其早期利用神經網絡用于機器人的研究做了一個基本的介紹,在當時Lecun的論文被RSS拒稿,然而今天CNN卻在人工智能領域大放異彩,新技術的發展往往是螺旋式的發展,然而卻又能帶來驚人的變化,實在難以預料。
接著Lecun重點講解了他的成名作——卷積神經網絡(CNN),并分析了阻礙人工智能繼續前進的因素,在他看來,現在的人工智能系統距離真正的人工智能相去甚遠,要想讓機器像人或動物一樣有效學習,需要更好地就無監督學習上繼續研究,并討論了利用對抗網絡進行無監督學習的重要性。

Lecun的演講標題是:《機器該如何像動物和人類一樣有效學習》?

Lecun先從今年9月的CCN(Cognitive Computational Neuroscience,認知計算神經科學)大會上,MIT的認知計算專家Josh Tennenbaum的一句話說起:我們現在看到的所有AI系統都不是真正的AI。這是因為,大腦的學習效率比我們目前所有的機器學習方法效率都要高:監督學習需要大量的范例,增強學習需要上百萬次試錯,這也是我們的機器人無法像貓或老鼠一樣靈活、以及無法造出擁有常識的對話系統的原因。

我們可以通過強化學習訓練機器識別如桌子、凳子、夠、汽車、飛機等實例,只要我們有足夠的計算能力和訓練樣本,機器業能識別出之前未見過的東西。

Lecun還比較了傳統的模式識別方法、改進的模式識別方法、深度學習的不同。

從2013年到2017年,從VGG到DenseNet(這也是Facebook用于圖像識別的網絡結構),深度卷積神經網絡變得越來越深,識別效果也變得越來越好。

而在Lecun將機器學習應用于機器人的研究在2003年,當時DARPA找到Lecun,通過模仿學習進行避障的研究。2005年,Lecun將論文投給了第一屆RSS(機器人領域的頂級學術會議之一),但很不幸的被拒了,隨后Lecun將論文轉投當年的NIPS,論文被收錄發表。而這一研究的階段性成果也打動了DARPA,并催生了之后的DARPA LAGR項目(這么說來,Lecun在機器人方面的研究天賦是不是被RSS耽誤了呢)。

DARPA LAGR:一個將機器學習應用于地面機器人、基于感知的自主導航項目。


Lecun在機器人上使用了一個叫ComNet的網絡,在當時算是非常前衛的做法。

當時的識別效果,在地圖上設定終點后可自主進行路線規劃。

然而,每秒只能進行一幀圖像的識別,無法有效躲避突然出現的行人。

若干年后的另一個研究,將視頻中的場景識別為不同種類,如道路、汽車、建筑等。當時還缺乏對應的數據集,需要進行大量的標注。由于缺乏數據,這并不是卷積神經網絡的強項,只是相比其他方法來說算是一個不錯的選擇而已(直到2012年ImageNet上的突破)。

2012年在FPGA上跑到20幀,這也推動了之后如Mobileye和NVIDIA在無人駕駛上的研究。

其他的應用,如將Mask R-CNN用于實例分割;

Mask R-CNN在COCO數據集上的圖像分割結果。

以及姿態預估的結果;

3D語義識別;

用于翻譯;

視覺推理中的推斷和執行(雖然Lecun懟過Jurgen,但不得不說LSTM還是很有用的嘛);

諸多的用促成了FAIR的諸多開源項目(Lecun說,這里大多數項目自己沒有參與,他只是在說別人的研究工作);

展望未來,Lecun認為阻礙人工智能繼續前進的因素在于目前我們打開AI的方式不正確,像人或動物都無需大量的標識數據或者大量試錯;

這當中的差別在于“常識”,就是通過想象來填補空白的能力,這也是某種形式的非監督學習。

大多數人或動物的學習方式都是非監督學習。

人類具有通過觀察形成常識的能力,例如“Josh拿起包離開了房間”,我們人類很容易理解相應的行為,但很難教機器去理解這一系列動作;

從認知科學的角度,人類在嬰兒時期學習到各種概念的時間表;

為什么下需要進一步發展非監督學習?這是由于用于訓練一個大的學習機器的必要樣本量取決于我們要求它能預測多少信息,你對機器要求越多,所需要的數據也越多。在人類大腦中有10^14個神經元觸突,而人的一生大概有10^9秒,這意味著在人類大腦這個系統中參數遠遠大于數據量,而機器想要趕上人類,必須模仿人類的非監督學習方式。

三種不同學習方式的比較。

然后Lecun展示了他著名的“蛋糕”理論。“真正的”強化學習好比蛋糕上的櫻桃,監督學習好比蛋糕上的糖衣,而蛋糕本身是非監督學習(預測學習)。這里Lecun也表示,這一比喻對做強化學習的兄弟可能不太友好——“Because the cherry is not optional”。


在Lecun看來,真正的強化學習是很難在現實世界中應用的,一不小心出錯就會釀成大禍,還是玩玩游戲就好了。

比如說,打星際。

經典的強化學習框架Dyna:“現在大腦中推演然后再行動”;

以及經典的基于模型的最優控制理論。

Lecun進行了概括:未來的AI革命必然是非監督學習。

人工智能系統的兩個重要組成部分:一個會學習的Agent和一個不變的目標函數。Agent從世界中感知,做實際決策,再感知,再做決策………通過這樣一個不斷循環迭代的過程,達到長期的期望損失最小化的目標。

預測+規劃=推理,而通過最小化預測損耗,可以使Agent進一步優化決策過程。

對應的迭代式的學習方式和優化如上圖所示。這種非監督學習方式也是人類諸如學開車等技能獲得的重要方式,因為人們會推演行為帶來的后果,并不斷調整達到最優。


基于卷積網絡的PhysNet,可預測物體的掉落軌跡;

Lecun的學生不久前做的另一個前向模型,可模擬飛船在星際旅行中的運動規劃。


關于問答與對話系統中的預測模型。Lecun稱要預測未來,你首先要記住過去,因而需要將記憶引入神經網絡中,即所謂的記憶網絡(Memory Network)。

以及關于記憶網絡的若干模型。


端到端的記憶網絡。你之前告訴機器的東西會被儲存起來,并在之后詢問提及時被激活,這一方式可以用于構建對話系統,而且對話系統和機器人與世界進行交互的過程有著諸多相似之處;


如果要設計一個好的對話系統,需要對對話有良好的預測能力。


在這方面的一些研究。

然后Lecun提到了在非確定條件下的預測方式(非監督學習)。

簡單來說就是學習一個能量函數,使得其在數據流形狀上具有較低的值,而在其他地方具有較高的值。

即在希望的輸出上壓低能量值,在其他地方提高能量值。但是我們如何確定什么地方應該提高呢?這當有八、九種方法,比如蒙特卡洛方法等。

而對抗網絡也是新的處理這一問題的有效手段。

到具體的問題,最困難之處在于基于不確定性的預測。例如放開一支筆,讓系統回答筆半秒鐘后會導向何方,系統感知到的輸入X只是世界里真實分布的一個采樣,假設其由某個隱變量Z而決定,如果Z不同,預測的結果Y也會不一樣,即便是我們人類也很難預測Y在空間中的帶狀分布。

對抗學習:由生成器來決定讓哪些點的能量值變高或者變低;


基于能量的生成對抗網絡在ImageNet上訓練的例子。


我們同樣還可以將生成對抗網絡應用在視頻預測上。

我們是否可以訓練機器像我們大腦一樣,對未來進行預測呢?通過生成對抗網絡,我們已經取得了一些進展,但這個問題仍然遠遠未能解決。


用生成對抗網絡預測未來5幀的例子總體來說不錯,但如果我們預測未來50幀的狀態就要大打折扣了。

Lecun最近的研究:視頻預測的語義分割


該研究在如自動駕駛等領域將會有不錯的應用,例如預測0.5秒后行人或其他車輛的狀態;


Lecun最新的研究:錯誤編碼網絡(將在明天發布到Arxiv上,雷鋒網也將進一步跟進。)

在一個測試集上的例子:用機器手臂戳物體并預測其位置。
Lecun稱,對未來的預測是AI系統的一個重要環節,而這一問題尚未得到解決。生成對抗網絡為解決這一問題提供了一個思路,同時他也期待有其他更好的方法來解決這一問題。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。