神經網絡的氣宗與劍宗之爭：先驗強大的網絡甚至不需要訓練

本文作者：楊曉凡

2019-06-14 10:11

導語：神經網絡形態的新思考

雷鋒網 AI 科技評論按：深度神經網絡中有許多連接權重，這些權重的值對網絡表現有巨大影響；通過反向傳播可以定向優化這些權重，提高網絡的表現，這個過程被稱作「訓練」；訓練過程通常需要多輪迭代，需要大量的稠密矩陣運算；這些都是領域內的常識。因為訓練過程如此地重要，深度學習研究人員們都會設立多 GPU 陣列加速訓練過程，關于訓練技巧的論文連篇累牘，甚至還有「深度學習調參師」、「玄學調參」、「希望上帝給我一個好的初始隨機種子」之類的調侃。

那么連接權重是影響神經網絡表現的唯一因素嗎？應該也不是。不僅近幾年中人類手工設計的許多網絡架構以更少的參數、更高的表現證明了網絡架構重要性，神經架構搜索（NAS）更在各種任務中分別找到了可以達到更高表現的網絡架構。不過，這些網絡架構都仍然需要經過適當的訓練才能得到好的表現，似乎只是說明了「適當的架構和適當的訓練可以相得益彰」。

本著對照實驗的精神，我們似乎應該設計另一組實驗：為了說明訓練的影響，我們在相同架構的網絡上做不同的訓練；那為了說明架構的影響，我們需要在不同架構的網絡上做相同的訓練；根據實驗結果我們就可以定性、定量地分析訓練和架構各自的影響，厘清這場神經網絡的「氣宗與劍宗之爭」（網絡結構與訓練的影響之爭）。

說明架構影響的這件事并不好做，如何在不同架構的網絡上做相同的訓練就首先是一個難題。谷歌大腦的研究人員 Adam Gaier 和 David Ha 在近期的論文《Weight Agnostic Neural Networks》（https://arxiv.org/abs/1906.04358）中做出了自己的嘗試，得到了有趣的結果。雷鋒網 AI 科技評論簡單介紹如下。

尋找連接權重不重要的神經網絡

之前就有研究人員展示了權重隨機初始化的 LSTM 和 CNN 網絡具有意外地好的表現，在這篇論文中兩位作者更進一步地提出要尋找 weight agnostic neural networks，WANN，權重不可知的神經網絡，即具有強大的歸納偏倚、以至于只使用隨機權重就能夠執行多種任務的神經網絡。

為了能夠完成實驗，作者們提出了新的實驗思路：

網絡中的每個連接都使用同一個隨機參數作為權重 —— 最小化權重（也就是訓練過程）的影響，同樣也最大程度簡化了模型表現的采樣空間
在很大的范圍內取這個參數的值，多次評估網絡的表現 —— 不再以最優的權重設置作為網絡表現評價的唯一目標

根據算法信息理論，作者們并不滿足于能夠找到滿足要求的網絡，而是能最簡單地描述的網絡。比如，有兩個不同的網絡能帶來類似的表現的話，他們會留下更簡單的那個 —— 網絡大小也就成為了搜索過程中的一個附加目標。結合連接計算成本以及其它一些技巧，他們希望最終找到的網絡要盡可能簡單、模塊化以及可演化，并且更復雜的網絡必須能夠帶來更好的表現。

神經網絡的氣宗與劍宗之爭：先驗強大的網絡甚至不需要訓練

某個搜索過程的圖示：圖從左側為環境參數的輸入，右側為運動控制的輸出。早期的網絡搜索結果在各種權重取值下表現都不好；后來網絡建立起一些輸入量之間的聯系后，在某些范圍的權重取值下可以達到較好的表現

具體搜索過程請參見論文原文。

實驗結果

作者們在多個連續控制任務中評估了搜索得到的網絡。

CartPoleSwingUp，一個小車上用鉸鏈懸掛一根棍子，小車只能通過橫向移動把棍子在上方直立起來并保持；這個過程里小車只能在有限的范圍內運動。這個任務無法通過一個簡單的線性控制器解決。
BipedalWalker，控制一個雙足機器人的兩個髖關節和兩個膝關節，讓它在隨機地形上行走。
CarRacing，根據上帝視角的畫面像素輸入控制賽車在賽道上運動。

神經網絡的氣宗與劍宗之爭：先驗強大的網絡甚至不需要訓練

左圖：為 BipedalWalker 任務找到的網絡；右圖：為 CarRacing 任務找到的網絡

神經網絡的氣宗與劍宗之爭：先驗強大的網絡甚至不需要訓練

上圖表格展示的是 WANN 找到的網絡在超過 100 次試驗中的表現（所以分數呈現為范圍）。縱向對比的是傳統的強化學習算法，橫向的四項子分數分別是：

Random weights，每個連接權重分別從 (-2,2) 范圍隨機取值；
Random shared weight，所有連接使用同一個權重，從 (-2,2) 范圍隨機取值；
Tuned shared weight，所有連接使用同一個權重，從 (-2,2) 范圍內取值時的最好表現；
Tuned weights，有權重優化過程，不同的權重允許有不同的變化（也就是傳統的訓練）

根據表格可以看到，傳統強化學習算法中的權重必須經過訓練以后才能得到好的表現，相比之下 WANN 尋找到的網絡只需要所有連接都使用同一個隨機權重就有機會得到好的表現。

所有連接使用同一個權重時得到的最好表現是喜人的，晃悠幾次就可以讓小棍平衡，走路時可以有高效的步法，開賽車的時候甚至還能從內側切彎。而進一步進行傳統意義上的訓練以后，網絡的表現還能有進一步的改善。

另外，作者們也做了監督學習（MNIST 數字識別）實驗，也找到了能夠比隨機權值 CNN 得到更好表現的網絡。

結果解讀

神經網絡的氣宗與劍宗之爭：先驗強大的網絡甚至不需要訓練

搜索到的在 BipedalWalker 中表現最好的網絡結構

由于 WANN 搜索到的網絡相對簡單，作者們也嘗試解讀這些網絡架構。首先，網絡架構中明顯地為任務編碼了強大的偏倚，在如此淺層的連接中可以明顯看到網絡對不同輸入信號的處理加工過程；但同時，找到的網絡的表現也并不是與權重的值完全無關，在某些隨機值下還是會出現不好的表現。可以看作，WANN 搜索到的網絡對輸入輸出間的關系進行了強大的編碼，雖然權值的大小相比之下變得不重要，但信號的連續性、符號一致性還是有影響的。觀察搜索過程中網絡如何一步步變得復雜的也能得到類似的感受。

WANN 搜索到的網絡的最佳表現最終還是比不上 CNN 的最佳表現，這并不奇怪，畢竟 CNN 本身也是帶有很強的視覺偏倚的架構，而且經過了如此多年的持續優化改進。

在這項研究中雷鋒網 AI 科技評論感覺到的是，解決指定任務所需的偏倚總需要通過某種方式編碼到網絡內。傳統的深度學習研究中都是固定網絡架構（基礎模塊和連接方式），用連接權重的更新體現這些偏倚；在 WANN 中，架構和權重的位置調換，用隨機取值且不要求優化過程的共享權重限制了偏倚在權重中的儲存，從而得以讓偏倚顯式地體現為架構的更新。從另一個角度看：網絡結構占據絕對支配地位以后，連接權重可以不必關注，只需要考慮如何解釋結構，這就容易多了。這也是神經網絡可解釋性的一大步。

作者們也在論文的討論章節中指出，這種思路在小樣本學習、在線學習、終生學習中都可能能夠派上用場（持續地優化更新網絡架構）。這不僅新奇，也是繼續探索神經網絡潛力的一條新的道路。「氣」和「劍法」并重，也許未來我們有機會能夠改進神經網絡的更多弱點。

雷鋒網 AI 科技評論報道。

論文原文地址：https://arxiv.org/abs/1906.04358

互動式論文頁面（帶有 demo）：https://weightagnostic.github.io/

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

6人收藏

楊曉凡

讀論文為生

日常笑點滴，學術死腦筋

發私信

當月熱門文章