3
雷鋒網按:本文作者朱不換。
【雷鋒網導讀】“讓機器會做夢,從某種程度上來說,是人工智能發展的一個關鍵技能”,Bengio在接受O'reilly的采訪時說到。在這里,“做夢”代表的是想象的能力,也是監督學習和無監督學習的主要區分之一,如果只能通過監督學習的方法來學習,那就必須要通過真實經歷,才能產生認知。在對真正的人工智能的探索中,無監督學習仍然是關鍵謎題之一。我們可以在一個最不可思議的地方,即機器所做的夢里,找到一種對我們朝著這一目標的進度的測量。

Yoshua Bengio 是蒙特利爾大學計算機科學與運籌學系教授,也是該系的機器學習實驗室(MILA)主任,并擔任加拿大統計學學習算法研究主席。他的研究目標是理解那些產生智能的學習過程的原則。
自然語言處理(NLP)自出現以來已走過了一段很長的路。通過向量描述和定制的深度神經網絡等技術,該領域已經向著真正的語言理解邁出了有意義的步伐。
深度學習所支持的語言模型與喬姆斯基學派的模型不符,而是源于從1980年代開始流行的聯結主義思想。
在神經科學與機器學習的關系方面,二者總是互相激勵,一方的進步為另一方帶來新的啟發。
在對真正的人工智能的探索中,無監督學習仍然是關鍵謎題之一。我們可以在一個最不可思議的地方——機器所做的夢里——找到一種對我們朝著這一目標的進度的測量。

Yoshua Bengio 是蒙特利爾大學計算機科學與運籌學系教授
該系的機器學習實驗室(MILA)主任
加拿大統計學學習算法研究主席
【O'reilly】讓我們從聊聊你的個人背景開始吧。
【Yoshua】我從1980年代起就研究神經網絡。我于1991年在麥吉爾大學獲得了博士學位,此后我在麻省理工學院跟從Michael Jordan做博士后研究。之后,我在貝爾實驗室與Yann LeCun, Patrice Simard, Léon Bottou, Vladimir Vapnik等人一起工作。后來我又回到了蒙特利爾,并在這里度過了人生的大部分時光。
由于造化弄人,神經網絡在1990年代遇冷,直到上一個十年才復興。不過在那段時間里,我的實驗室和其他幾個團隊仍在前進。而后在2005年或2006年前后,我們取得了突破。我們首次發現了能成功地訓練神經網絡的方法,而此前的嘗試都未能成功。
從那時起,我的實驗室便逐漸成長為一個擁有五到六位教授的研究機構,總共擁有65位研究員。在這些年間,除了促進無監督學習領域的發展之外,我們的團隊還對自然語言、遞歸網絡等不少領域作出了貢獻。其中,遞歸網絡是一種用來處理語言和其他領域中的序列的神經網絡。
同時,我也對神經科學與深度學習之間的聯系非常感興趣。這種關系是雙向的。一方面,19世紀50年代,人工智能最開始發端時,某些研究趨勢是從人類心智研究來支撐的。不過,自從神經網絡東山再起之后,情況就反轉了,我們開始指望機器學習作為一種思路,發現對大腦學習過程的高階理論解釋。
【O'reilly】讓我們接下來談談自然語言。這個領域是如何發展的?
【Yoshua】我在2000年的神經信息處理系統進展大會(NIPS)上發表了我的第一篇關于自然語言處理的重要文章。當時人們普遍認為,最高水平的語言處理方法也無法實現人工智能,直白地說,因為這些方法還太笨了。當時流行的基本技術是去數一下某個詞后面跟著另一個詞的情況出現過多少次,或者一個由三個詞組成的序列出現過多少次——并由此來預測某個詞的下一個詞或者去翻譯一個詞或詞組。
然而,這樣一種方法缺乏關于意義的概念,不能運用于那些高度復雜的概念,也無法被正確泛化到未曾見過的詞語??紤]到這一點,我便用神經網絡來著手處理這一問題,我相信神經網絡能夠克服“維數災難”,并提出了一組方法和論證 。從那時起,這些方法和論證便成為了對深度學習的理論分析的核心方法和論證。
這個所謂的“維數災難”涉及機器學習面臨的一個基礎性難題。當我們試圖使用大量變量來預測某個東西的時候,這些變量的各種可能的組合方式的數量極大,而這使得問題的難度會呈指數級增加。例如,如果你考慮一個由三個詞組成的序列,其中每個詞都來自一個十萬詞的詞庫,那么一共有多少個可能的序列呢?一共有10,0000的3次方個序列。一個人一輩子也不可能把所有這些序列都數完。更糟糕的是,典型的短句子大約由十個左右的單詞構成,而如果你考慮一個由十個詞構成的序列,那么你將面臨的數字是10,0000的10次方,一個大得不可思議的數字。
值得慶幸的是,我們可以用對詞的代表(即所謂的詞向量)來替代詞,并學習這些詞向量。每個詞都被映射到一個向量,而這個向量自身是一組數字,這些數字分別對應于從詞上自動學習到詞的特征。學習系統同時利用這些特征來學習如何在給定前面的詞的情況下去預測下一個詞,或者學習如何產生一個譯文句子。
可以把詞向量設想為一個(以詞為行,以特征為列的)巨大表格,其中每一個詞向量都由數百個特征構成。機器讀取這些特征并把它們輸入到一個神經網絡。這個神經網絡有多個輸出,它為詞庫中的每個詞都產生一個輸出,而除此之外它在其他方面都類似于傳統網絡。要正確地預測句子中的下一個詞,或者要確定句子的正確譯文,該神經網絡可能需要產生100,000個輸出。
這個方法很管用。剛開始時,我們在比較小的規模上測試這一方法。接下來的十年,研究者在“更大的數據集上訓練越來越大的模型”這個方向取得了巨大的進步。這一技術已經取代了一些陳舊的自然語言處理方法,并一再戰勝那些最高水平的測試標準。說得更大一點,我相信我們正處于自然語言處理領域的巨大轉變之中,特別是在涉及語義的方面。換句話說,我們正在通向對自然語言的理解,尤其能體現出這一點的是,近期對遞歸網絡的擴展已包含了推理的部分。
除了對自然語言處理的直接影響之外,該工作也涉及到人工智能領域的其他臨近主題,例如機器如何回答問題和進行對話。此前,DeepMind 在《自然》雜志上發表了一篇論文,其主題與關于對話的深度學習緊密相關。他們的論文描述了一種擊敗了歐洲圍棋冠軍的深度強化學習系統。無論以何種標準,圍棋都是一種非常難的游戲,這使得許多人預測要到幾十年后電腦才能與職業圍棋手對戰。換個角度看,一個像圍棋這樣的游戲很像一場人類玩家與機器之間的對話。我很期待能看到這些研究將通向何方。
【O'reilly】深度學習與喬姆斯基的語言理論的相符程度如何?
【Yoshua】深度學習指向與喬姆斯基完全相反。深度學習幾乎完全依賴通過數據進行的學習。當然,我們設計了神經網絡的構架,但在大部分時候,它都依賴于數據、大量的數據。至于喬姆斯基,則是聚焦于固有語法和對邏輯的使用,而深度學習則關注意義。我們發現,語法只是像蛋糕上的糖霜一樣的表層的東西。相反,真正重要的東西是我們的意圖:我們對詞的選擇決定了我們要表達什么意義,而與詞相聯系的意義是可以被學習的。這些思想都與喬姆斯基學派的觀點針鋒相對。
【O'reilly】是否有其他語言學學派的觀點與深度學習更吻合呢?
【Yoshua】1980年代的時候,一些心理學家、計算機科學家和語言學家發展出了認知心理學的聯結主義路徑。通過使用神經網絡,這些研究者依靠來自神經科學的概念為人類如何思考、如何學習的問題帶來了新的啟發。實際上,反向傳播算法和其他一些今天仍在使用的算法都可以回溯到當年的那些努力。
【O'reilly】這是否意味著兒童早期語言發展或者人類心智的其他功能有可能在結構上與反向傳播算法或其他這類算法相同?
【Yoshua】我們研究社區中的研究者們有時會從大自然與人類智能中尋找啟發。舉個例子,就拿課程學習(curriculum learning)這種方法來說吧。這種方法促進了深度學習,特別是在推理任務方面。相反,傳統的機器學習把所有的實例都裝進一個大袋子,并讓機器以隨機的順序檢測這些實例。人類可不是以這種方式來學習的。通常,在教師的指導下,一開始,我們學習比較容易的概念,隨后才逐步學習處理那些越來越難和復雜的概念,整個過程都建立在我們早先的進展的基礎之上。
從最優化的角度來看,訓練一個神經網絡是困難的。盡管如此,通過從小處著手并逐漸地增加難度的層級,我們可以解決一些此前被認為是太困難而無法學習的任務。
【O'reilly】你的工作包括關于深度學習構架的相關研究。你可以談談這些構架是如何隨著時間演化的嗎?
【Yoshua】我們從1980年代到21世紀的第一個十年都在使用同一種非線性構架,但我們不一定非要使用這種構架。
過去,我們依賴雙曲正切函數,它是一種平緩遞增的曲線,對小數值和大數值的變化不敏感,但卻會對中間數值做出反應。在我們的工作中,我們發現了另一種隱藏在平凡外表之下的非線性,即整流函數(rectifier),它讓我們能夠訓練更深度的網絡。這一模型從人腦那里獲得了啟發,因為與雙曲正切函數相比,人腦更符合整流函數的模式。有趣的是,這種模型為什么會有效,其原因仍然有待澄清。在機器學習領域,理論常常產生于實驗之后。
【O'reilly】未來有哪些其他的挑戰是你想談談的呢?
【Yoshua】除了理解自然語言之外,我們也在關注推理本身。對符號、數據結構和圖象進行處理,這曾經是(無學習的)人工智能的經典領域,但在過去幾年中,神經網絡重新導向了這類嘗試。我們已經看到一些模型,它們能夠處理堆棧和圖象等數據結構,用內存來儲存和提取對象,通過一連串的步驟進行工作。這些模型在支持對話和其他需要綜合不同證據的任務時也有一定的潛力。
除了推理之外,我也對無監督學習很感興趣。在很大程度上,機器學習的進步是由對大規模數據集進行訓練所帶來的利益所驅動的,這些數據集帶有數以百萬計的標記實例,而對這些標記實例的解釋是由人來完成的。這樣的方法無法規?;涸诂F實中我們不可能為每一件東西做標記并一絲不茍地向電腦解釋所有的細節。而且,人類在學習大多數東西的時候也根本不是這樣學的。
當然,作為有思考能力的動物,我們人類既向我們的環境和人類同伴提供反饋,也依賴來自他們的反饋。但如果與一個典型的標記數據集相比較的話,這些反饋的數量是十分稀少的。簡單說來,就是一個孩子在世界中觀察他的環境,不斷努力地理解環境以及事物背后的原因。在他追求知識的過程中,他試驗并提出問題,從而持續地對他為環境所建立的內在模型進行修正。
若要機器以類似的方式學習,我們需要在無監督學習方面取得更多進步。目前,這一探索中最令人振奮的領域是圖像生成??疾煲粋€機器的無監督學習能力的一種方式是:向它展現許多圖像,比方說汽車的圖像,并要求它“想象”出一個新的汽車模型——人們已經證明這種方法適用于汽車、臉龐和其他種類的圖像。不過,與計算機繪圖(computer graphics)所能達到的水平相比,這些生成的圖像的視覺質量仍相當糟糕。
如果當我們要求計算機生成一幅嶄新但像樣的圖像的時候,它能產生一個合理的、并非復制品的輸出,這就將意味著它對這些對象的理解已經達到了很深的水平。也就是說,在某種意義上,這臺計算機已經發展出了一種對這些對象的深層解釋的理解。
【O'reilly】你剛才說你會要求計算機“做夢”。在某種意義上,或許可以問,是不是像Philip K.Dick說的那樣,機器人也會夢見電子羊呢?
【Yoshua】是的。我們的機器已經在做夢了,不過是以一種模糊的方式。我們通過“想象”這種工具來設想那些我們并未實際經歷的東西,而機器人的夢仍不如人類的夢和想象那樣活潑和富于內容。我能夠想象,開車時因為轉向錯誤而與迎面來車相撞的后果,謝天謝地我并不需要實際經歷這些就能認識到這樣做的危險。如果只能通過監督學習的方法來學習,那就必須真實經歷這些場景以及這些場景的無窮無盡的置換排列。我們在無監督學習方面的研究目標是,幫助機器在它關于世界的現有知識的前提下推理和預測將來可能發生什么。這代表了人工智能的一種關鍵技能。
正是這樣的方法在驅動著科學的前進。那就是,從給定的觀察中辨認出因果解釋的方法論路徑。換句話說,我們致力于讓計算機能像小科學家或小孩子一樣做研究。或許需要幾十年才能達到這種真正自主的無監督學習,不過我們已經在這條探索之路上了。
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。