人機大戰第二場綜述：“自我強化”比2:0更值得注意

本文作者：溫曉樺

2016-03-10 19:22

導語：由于AlphaGo執黑的先手權，我們也看到了它學習和創新能力的一面。

via medium

今日，圍棋“人機大戰”第二場于北京時間中午12點開戰。下午4點半，韓國棋手李世乭九段再次輸給 Google 的圍棋程序 AlphaGo。本輪對戰的結果雖然還是讓人震驚，但人們更多地也開始感嘆AlphaGo的優異之處。

今日，AlphaGo的表現中，計算力的先決優勢依然不變，同時，由于AlphaGo執黑的先手權，我們也看到了它學習能力和創新能力的一面。

AlphaGo的“特異功能”：自我強化

在DeepMind，愛丁堡和Facebook，研究人員希望神經網絡能像人類選手一樣，通過觀看棋盤學習圍棋。Facebook在最新的研究中表明，這種方法確實可行。結合深度學習與蒙特卡洛樹搜索方法，Facebook打敗了一些人類選手，雖然并非是Crazystone和其他頂尖選手。

但DeepMind走得更遠。在經過3000萬步人類走法的訓練后，它的神經網絡能以57%的準確度（此前記錄是44%）預測人類的下一步。然后Hassabis和團隊通過強化學習技術，讓這一神經網絡與它自己的另一個稍有區別的版本對戰。兩者互搏中，系統會評估哪一步效果最好，即占領更多棋盤區域。最終，神經網絡在判斷哪一步更好時會越來越優秀。

DeepMind的研究者David Silver表示，“在與其它神經網絡和它自己對戰數百萬局后，AlphaGo學會了自己發現新策略。”

正是這種方法，AlphaGo超越了其它圍棋AI系統，并讓戰勝人類選手成為可能。那么，在今天的表現中，AlphaGo如何體現出這樣的能力呢？

讓人意外的開局

今天的第二局中， AlphaGo執黑先手，眾人也紛紛猜測：它會如何開局？會走公認有優勢的中國流嗎？然而，兩手之后，AlphaGo沒有選擇中國流，而直接掛角。

人機大戰第二場綜述：“自我強化”比2:0更值得注意

隨后，按照這種定式，職業棋手通常會先在下邊完成拆邊的定型。不過，AlphaGo并沒有這么做，而是走出令人眼前一亮的走法：黑棋脫先，還原成中國流布局。

人機大戰第二場綜述：“自我強化”比2:0更值得注意

為何要脫先？為何要用這種方式完成中國流布局？在AlphaGo數據庫中，應該有更多的選擇來參考變化。而根據接下來十幾手毫不示弱的走法看，這手脫先也許代表著機器人對布局有了新的理解。

出其不意攻其不備

除了開局的策略展示出計算機圍棋的另類，AlphaGo在開局后的走子也時常走出出人意料的招數，形成一股“機器風”。

比如，下圖黑1的這一手，飄防的走法在過去的棋譜中較為罕見，但其妙處也給了人們新的啟發。這手最新的黑1余此前J16的一手遙相呼應，防守中做好進攻的勢來。李喆六段表示：“對于黑方這步棋，作為棋手，我的震撼比看到外星人還要大。”這一手讓對手李世乭長考了一陣。

人機大戰第二場綜述：“自我強化”比2:0更值得注意

由于掌握先手，AlphaGo進取的一面也更清楚地展現了出來。比如，在左下方的局部爭奪上，擁有強大計算力的AlphaGo應戰積極，非常自信。

人機大戰第二場綜述：“自我強化”比2:0更值得注意

最優化計算：無劫爭是必然還是偶然？

今天，許多人都提出了一個疑問：為何兩局結束后還沒有出現劫爭的情形？甚至推論AlphaGo不懂得打劫，且Google方面可以隱瞞。我們暫且不去猜測這種可能性，不妨看看它與AlphaGo走子毫不保留之間的聯系。

人機大戰第二場綜述：“自我強化”比2:0更值得注意

AlphaGo今天表現出一個特點是：毫不保留。如上圖黑2，又是一手把變化走干凈的棋，與職業選手喜歡有所保留的習慣不同。對此，小編有兩個想法：一是，正因為AlphaGo精密的計算力以及作為機器以最強點為首的原則，所以它才會每一步都走到盡，才會走出許多的“怪棋”。二是，也因為如此才導致局面缺乏劫材。

曹大元九段表示，極度復雜打劫的情況本身千年難遇，哪怕是人與人之間的對弈。

人機大戰第二場綜述：“自我強化”比2:0更值得注意

AlphaGo能給人類圍棋帶來啟發嗎？

經此一弈，AlphaGo在許多地方走出特別的一手，給人類棋手帶來新的思考。某些也許是失誤（但究竟什么是失誤，誰知道呢），但某些地方，直播中的曹大元表示：不可思議，我要報警了！不過，這對職業棋手也有很大的啟發，可以進行深度研究。互聯網進化論提出者劉鋒則表示，通過這些跡象，也能幫助我們更好地研究AlphaGo。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

溫曉樺

編輯

掃描關注作者微信

發私信

當月熱門文章