伯克利AI研究所：新型元學習法MAML的前世今生。

本文作者：汪思穎

編輯：楊曉凡

2017-07-21 17:50

導語：伯克利AI研究所帶來了他們的最新研究——未知模型元學習法（MAML）。這種方法非常簡單，并且優于已知的很多方法。

雷鋒網 AI科技評論按：伯克利AI研究所帶來了他們的最新研究——未知模型元學習法（MAML）。它不會對模型的形式做任何假設，也沒有為元學習引入額外的參數，極易應用于許多領域，包括分類、回歸和強化學習。這種方法非常簡單，并且優于已知的很多方法。

雷鋒網 AI科技評論將其編譯如下：

智能的一個關鍵層面是多才多藝——即擁有做許多不同事情的能力。目前的人工智能系統擅長掌握單一技能，如精通圍棋的Go、深度回答能力超強的Watson，甚至還有自動控制直升機系統。但是，當你讓人工智能系統去做不同種類看似簡單的問題時，它就會舉步維艱。在《Jeopardy》中的智力問答冠軍Watson不能交談，一個能熟練操控直升機飛行的系統不能應用于其他新的、簡單的情形，比如為了撲滅火災，進行定位、飛行和懸停操作。相比之下，人類可以做很多事，智能地適應各種新的、未曾看過的情形。怎樣才能使人工智能變得像人一樣多才多藝呢?

已經有了幾種技術來解決上述問題，在這篇文章中，伯克利AI研究所評價了這些技術，同時討論了他們針對上述問題的最新技術——未知模型元學習法（點擊打開關于這個方法的論文以及代碼）。

當前的AI系統能從零開始學習，花費大量的時間和經驗掌握一項復雜的技能。但是，如果希望系統能夠掌握許多技能并適應多種狀況，從零開始逐個技能逐步訓練的代價太大了。現在需要系統重用以前的經驗，更快地學習新任務，而不是從頭學習。這種方法叫學會學習或元學習，是通往全能型系統的關鍵踏腳石，這種通用系統在生命期內能從大量任務中持續不斷地學習。

什么是學會學習，它現在都有哪些應用？

最早的元學習方法可以追溯到上世紀80年代末和90年代初，Jürgen Schmidhuber的論文、Yoshua和Samy Bengio的工作中都有提到。近年來，元學習成為熱門話題，關于它的論文席卷而來。它最常用在這些地方：超參數和神經網絡優化，發掘好的網絡架構，小樣本圖像識別和快速的強化學習。

伯克利AI研究所：新型元學習法MAML的前世今生。

上圖是幾種常見的元學習方法

小樣本學習

2015年，Brendan Lake等人發表了一篇論文，挑戰了現代機器學習方法。他們指出機器可以通過一個概念中的單個或幾個例子學會新的概念。例如，Lake認為人類可以只看到一張圖片(如下圖所示)就學會識別“新型雙輪車”，而在這之前的機器則不能像人一樣泛化概念。(對于從未見過的字母表中的字符，人類也可以在見過一個示例之后將它畫出來)。

伯克利AI研究所：新型元學習法MAML的前世今生。

和論文一起，Lake還公布了Omniglot數據集，這個數據集是MNIST的“轉置”，共計1623類字符，每類包含20個樣本。很快，緊隨2016年ICML的論文，出現了兩種深度學習模型，它們使用的是記憶增強神經網絡和順序生成模型，這表明，深度模型通過少量例子學會學習是可能的，雖然還沒有達到人類的水平。

目前元學習方法的工作原理

先是讓系統接觸大量的任務進行訓練,然后再測試這個系統學習新任務的能力。比如會有這樣的任務：要識別一張新圖像是五個分類中的哪一個，每個分類只有一張示例圖像；或學會在一次遍歷之后高效的走出迷宮。這與許多標準的機器學習技術不同，它們的方法是在單個任務上進行訓練，在任務中單獨留出的樣例中進行測試。

伯克利AI研究所：新型元學習法MAML的前世今生。

元學習過程中，在元訓練集中訓練模型學習任務。有兩種優化在起作用——一種是學習器，它負責學習新任務；另一種是元學習器，它負責訓練學習器。元學習的方法通常分為三類:循環模型、度量學習和學習優化器法。

循環模型

有一些做法可以訓練出一個循環模型，例如LSTM網絡，先是連續地接收數據集，然后處理來自目標任務的輸入。對于圖像識別來說，可能需要持續把數據集中成對的圖像—標簽對傳遞給網絡，然后再傳遞要識別的新樣例。

伯克利AI研究所：新型元學習法MAML的前世今生。

元學習器使用梯度下降法，而學習器只是簡單地在循環網絡中執行。這是最常見的方法之一，已經被用于小樣本識別和回歸、元強化學習。由于其靈活性，這種方法比其他方法(從元的角度)更低效，因為學習器網絡需要從零開始找到學習策略。

度量學習

這種方法需要學習一個度量空間，在這個空間里學習特別高效。該方法主要用于小樣本識別。直觀地說，如果目標是從少量的樣本圖像中學習，那么有一種簡單的方法是用已有的樣本圖像與試圖識別的圖像作比較。

但是，正如你可能想象的那樣，在像素空間中比較圖像不會起到很好的效果。你可以在一個訓練好的度量空間里訓練孿生網絡或執行比較。與以前的方法一樣，元學習使用梯度下降法（或你偏好的神經網絡優化器），鑒于學習器扮演的角色是元訓練度量空間中的對比體系，例如近鄰算法。這些方法可以很好地用于小樣本識別，即使在回歸或強化學習等其他元學習領域尚未證實有同樣的效果。

學習優化器法

最后一個方法是學習優化器法。在這種方法中，一個網絡（元學習器）學習更新另一個網絡（學習器），以便學習器高效地學習任務。為了更好地優化神經網絡，人們對這種方法進行了廣泛的研究。元學習器通常是循環網絡，以便記住之前是如何校正學習器模型的。元學習器可以用強化學習或監督學習的方式來訓練。Ravi和Larochelle最近演示了這種方法用于小樣本圖像識別的優點，提出了這樣的觀點：學習器模型也是一種需要學習的優化過程。

像元學習一樣學會初始化

可以證明，目前為止，遷移學習最大的成果是用ImageNet預訓練來初始化視覺網絡權重。特別是，當處理新的視覺任務時，眾所周知的范式是首先為任務收集帶標簽的數據集，得到預訓練過的ImageNet分類器，然后利用梯度下降法，基于采集到的數據來微調網絡。使用這種方法，神經網絡可以更有效地從更少的數據集中學習新的基于圖像的任務。

然而，預訓練的效果也就這樣。因為網絡的最底層仍然需要高度適應新的任務，像小樣本學習那樣太小的數據集仍會造成嚴重的過擬合。此外，遺憾的是現在在語音、語言和控制等非視覺領域沒有類似的預訓練體系。從微調的方法既然取得了這么好得效果，有什么可以借鑒的嗎?

未知模型元學習法（Model-Agnostic Meta-Learning ，MAML）

需要找到能夠根據少量樣本高效地進行微調的表征，那么有沒有可能直接對初始表征做優化呢？這是伯克利AI研究所最近提出的未知模型元學習法（MAML）背后的想法。和其他元學習法一樣，MAML能在大量不同的任務上訓練，通過少量的梯度步驟，能快速得到適應新任務的表征。

元學習器試圖找到一個初始值，不僅可以適應各種問題，而且可以快速（只需少量步驟）高效（只使用幾個例子）地適應。下面是一個可視化圖–假設我們正試圖尋找一組具有高度適應性的參數θ，在元學習過程中（粗線），MAML優化一組參數，以便當執行關于某個任務i（灰線）的梯度步驟時，參數接近i任務的最優參數θi*。

伯克利AI研究所：新型元學習法MAML的前世今生。

這種方法非常簡單，并且有許多優點。它不會對模型的形式做任何假設。它相當有效——沒有為元學習引入額外的參數，并且使用已知的優化過程(梯度下降法)，而不是必須從零開始想出策略。最后，它極易應用于許多領域，包括分類、回歸和強化學習。

盡管這種方法很簡單，令人驚訝的是，它在流行的小樣本圖像識別基準、Omniglot和MiniImageNet2上優于現在的許多方法，包括更復雜的或適用于特定領域的方法。

除了識別之外，他們還試圖學習如何讓模擬機器人的行為適應不同的目標，這類似于文章最開始提到多才多藝性。為此，他們將MAML與強化學習中的策略梯度方法結合。通過MAML可以學到一種策略，它可以讓模擬機器人在單一的梯度更新中適應移動方向和速度。請看如下視頻：伯克利AI研究所：新型元學習法MAML的前世今生。