效果超過SGD和Adam，谷歌大腦的「神經網絡優化器搜索」自動找到更好的訓練優化器

本文作者：楊曉凡

2017-09-25 11:34

導語：自動找到新的深度學習訓練優化器，效果還更好

雷鋒網 AI 科技評論按：谷歌大腦近期放出了一篇論文「Neural Optimizer Search with Reinforcement Learning」（強化學習的神經網絡優化器搜索），用強化學習的方法為神經網絡（尤其是深度學習）找到最佳的優化算法/權重更新規則。論文并沒有重新制造輪子，但也取得了不錯的效果，而且也引起了一定的關注。雷鋒網 AI 科技評論把論文內容簡介如下。

效果超過SGD和Adam，谷歌大腦的「神經網絡優化器搜索」自動找到更好的訓練優化器

要成功訓練一個深度學習模型，選擇一個適當的優化方法是非常重要的。雖然隨機梯度下降法（SGD）通常可以一上手就發揮出不錯的效果，不過 Adam 和 Adagrad 這樣更先進的方法可以運行得更快，尤其是在訓練非常深的網絡時。然而，為深度學習設計優化方法是一件非常困難的事情，因為優化問題的本質是非凸問題。

在這篇論文中，谷歌大腦的研究員們討論了一種方案，它可以自動設計優化方法中的權重更新規則，尤其是對于深度學習架構。這個方案的重點是使用了一個RNN結構的控制器，這個控制器可以給優化器生成權重更新方程。這個RNN結構的控制器是通過強化學習的方式訓練的，一個具體的網絡結構用它生成的更新規則進行同樣次數的訓練后，可以把模型準確率最大化。這個過程如下圖。

效果超過SGD和Adam，谷歌大腦的「神經網絡優化器搜索」自動找到更好的訓練優化器

神經網絡優化器搜索的總體架構

訓練神經網絡很慢、很困難，之前有許多人設計了各種各樣的方法。近期的優化方法結合了隨機方法和批量方法的特點，比如用mini-batch，跟SGD類似，但是實現了更多的啟發式方法來估計二階對角信息，就和無黑塞方法（Hessian-free）或者L-BFGS類似。這樣吸收了兩種方法優點的方案通常在實際問題中有更快的收斂速度，比如 Adam 就是一個深度學習中常用的優化器，實現了簡單的啟發式方法來估計梯度的均值和變化幅度，從而能夠在訓練中更加穩定地更新權重。

之前的許多權重更新規則都借鑒了凸函數分析中的想法，雖然神經網絡中的優化問題是非凸的。近期通過非單調學習速率的啟發式方法得到的經驗結果表明，在神經網絡的訓練方面我們仍然知之甚少，還有許多非凸優化的方法可以用來改進訓練過程。

谷歌大腦的研究員們的研究目標是在人們已經熟悉的領域內為神經網絡訓練找到更好的更新規則。換句話說，他們沒打算靠自己重新建立一套全新的更新規則，而是用機器學習算法在現有的更新規則中找到比較好用的。最近也有研究人員提出類似的方法，用模型學習生成更新數值。這里的關鍵區別是，谷歌大腦的這項研究是為權重更新生成數學形式的方程，而不是直接生成數值。生成一個方程的主要好處是可以輕松地遷移到更大的任務中，而無需為新的優化問題額外訓練別的神經網絡。而且，雖然他們設計這個方法的目的不是為了優化更新規則的內存占用的，不過還是能夠在得到與 Adam 或者 RMSProp 等同的更新規則的情況下占用更少的內存。

論文中的方法受到了近期用強化學習做模型探索的研究的啟發，尤其是在神經網絡結構搜索上，其中用了一個 RNN 生成神經網絡架構的設置文本。除了把這些關鍵思想用在不同的應用中，論文中的方法還展現出了一種全新的模式，把原有的輸入以靈活得多的方法組合起來，從而讓搜索新型的優化器變得可能。

效果超過SGD和Adam，谷歌大腦的「神經網絡優化器搜索」自動找到更好的訓練優化器

控制器 RNN的總體結構。控制器會迭代選擇長度為5的子序列。它首先選擇前兩個操作數和兩個一元函數來應用操作數，然后用一個二進制函數合并兩個一元函數的輸出。獲得的結果b就可以被下一輪子序列選中作為預測，或者成為更新規則。每次的預測都是由一個softmax分類器執行的，最后成為下一輪迭代的輸入。

根據論文中的實驗結果，在用 CIFAR-10 訓練一個小型的卷積網絡中，他們的方法比 Adam、RMSProp、帶或者不帶 Momentum 的 SGD 找到了許多條更好的更新規則，而且這些生成的更新公式中很多都可以輕松地遷移到新的模型架構或者數據集中使用。比如，在小型卷積網絡訓練中發現的權重更新規則在Wide ResNet 的訓練中取得了比 Adam、RMSProp、帶或者不帶 Momentum 的 SGD 更好的結果。對于 ImageNet 數據集，他們新找到的更新規則在目前最先進的移動設備級別模型的 top-1 和 top-5 正確率基礎上繼續提升了最高 0.4%。同樣的更新規則在谷歌的神經機器翻譯系統上也取得了不錯的成果，在WMT 2014 英文到德文的翻譯任務中最高能帶來0.7BLEU的提升。

更多詳細內容參見原論文：https://arxiv.org/abs/1709.07417 。雷鋒網 AI 科技評論編譯

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

13人收藏

楊曉凡

讀論文為生

日常笑點滴，學術死腦筋

發私信

當月熱門文章