成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    國(guó)際 正文
    發(fā)私信給李尊
    發(fā)送

    1

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    本文作者: 李尊 2016-07-19 19:06
    導(dǎo)語(yǔ):最新排名顯示,AlphaGo以3612分登頂世界第一,超越了所有人類棋手。

    世界職業(yè)圍棋排名網(wǎng)站GoRatings最新排名顯示,連續(xù)24個(gè)月排名世界第一的中國(guó)棋手柯潔被谷歌人工智能機(jī)器人AlphaGo反超。截止目前,AlphaGo以3612分登頂世界第一,超越了所有人類棋手。

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    如上圖所示,目前Google Deepmind AlphaGo以3611分排名世界第一,柯潔以3608分排名世界第二,而之前與AlphaGo進(jìn)行“人機(jī)大戰(zhàn)”以1:4告負(fù)的韓國(guó)棋手李世石以3557排名第四。

    按照Goratings世界圍棋排名的規(guī)則,如果一名新加入的棋手只贏不輸?shù)脑挘遣荒鼙凰闳胝脚琶摹6饲癆lphaGo正好輸了李世石一盤,因此給了AlphaGo入圍排名榜單的機(jī)會(huì),此前一直排名世界第二。另外,Goratings的規(guī)則要求之前有過(guò)交手的雙方,如果對(duì)手的積分發(fā)生改變,則自身積分也會(huì)相應(yīng)調(diào)整。AlphaGo此前以4勝1負(fù)戰(zhàn)勝李世石,因此只要李世石的積分提升,AlphaGo也會(huì)跟著提升。而柯潔的排名之所以下降是因?yàn)榻赵诮鹆⒈瓋砂妒澜绻谲姞?zhēng)霸賽表現(xiàn)不佳,勝周俊勛,負(fù)時(shí)越和唐韋星,這才給了AlphaGo稱為世界第一的機(jī)會(huì)。

    至此,AlphaGo以3612分登頂世界第一,超越了所有人類棋手。這讓我們不由得想,到底是什么使得AlphaGo如此不同,能在所有的圍棋AI中拔得頭籌,甚至打敗人類登頂世界第一?

    在剛剛過(guò)去的IJCAI2016(第25屆國(guó)際人工智能聯(lián)合會(huì)議)學(xué)術(shù)大會(huì)中,谷歌 DeepMind 研究員、AlphaGo幕后英雄之一David Sliver 發(fā)表了題為“使用深度神經(jīng)網(wǎng)絡(luò)和樹(shù)搜索來(lái)精通圍棋游戲(Mastering the Game of Go with Deep Neural Networks and Tree Search)”的特邀演講。在演講中,他主要闡述了AlphaGo的實(shí)現(xiàn)原理并對(duì)AlphaGo與人類棋手對(duì)弈結(jié)果進(jìn)行了分析。

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    在演講中他提到AlphaGo主要是改進(jìn)了以下兩種方法

    l  MCTS搜索(蒙特卡洛樹(shù)搜索)

    l  CNN(卷曲神經(jīng)網(wǎng)絡(luò))

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

     Value Networks(價(jià)值網(wǎng)絡(luò))和 Policy Networks(策略網(wǎng)絡(luò))方面:

    Value Networks 評(píng)估棋盤位置,Policy Networks 選擇下棋步法,這些神經(jīng)網(wǎng)絡(luò)模型通過(guò)一種新的方法進(jìn)行訓(xùn)練,結(jié)合人類專家比賽中學(xué)到的監(jiān)督學(xué)習(xí),以及在自己和自己下棋(Self-Play)中學(xué)到強(qiáng)化學(xué)習(xí),其實(shí)質(zhì)是深度學(xué)習(xí)網(wǎng)絡(luò)(CNN)跟蒙特卡羅搜索樹(shù)(MCTS)進(jìn)行結(jié)合。

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    基于全局特征和深度卷積網(wǎng)絡(luò)(CNN)訓(xùn)練出來(lái)的策略網(wǎng)絡(luò)(Policy Network),其主要作用是給定當(dāng)前盤面狀態(tài)作為輸入,輸出下一步棋在棋盤其它空地上的落子概率。

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    另一個(gè)是利用局部特征和線性模型訓(xùn)練出來(lái)的快速走棋策略(Rollout Policy),策略網(wǎng)絡(luò)速度較慢但精度較高,快速走棋策略則反之。

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    策略網(wǎng)絡(luò)上的監(jiān)督學(xué)習(xí)

    l  12層的卷曲神經(jīng)網(wǎng)絡(luò)

    l  使用Google Cloud在超過(guò)50個(gè)GPU中訓(xùn)練四周的時(shí)間

    l  在測(cè)試數(shù)據(jù)集上57%的準(zhǔn)確率(目前最佳44%)

    策略網(wǎng)絡(luò)上的強(qiáng)化學(xué)習(xí)

    l  12層的卷曲神經(jīng)網(wǎng)絡(luò)

    l  使用Google Cloud在超過(guò)50個(gè)GPU中訓(xùn)練一周的事件

    l  相比監(jiān)督學(xué)習(xí)實(shí)現(xiàn)了80%的結(jié)果,業(yè)余3段水準(zhǔn)

    策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對(duì)弈,利用增強(qiáng)式學(xué)習(xí)來(lái)修正策略網(wǎng)絡(luò)的參數(shù),最終得到增強(qiáng)的策略網(wǎng)絡(luò)。

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    實(shí)現(xiàn)過(guò)程如下:

    利用普通的策略網(wǎng)絡(luò)來(lái)生成棋局的前U-1步(U是一個(gè)屬于[1, 450]的隨機(jī)變量),然后利用隨機(jī)采樣來(lái)決定第U步的位置(這是為了增加棋的多樣性,防止過(guò)擬合)。

    隨后,利用增強(qiáng)的策略網(wǎng)絡(luò)來(lái)完成后面的自我對(duì)弈過(guò)程,直至棋局結(jié)束分出勝負(fù)。此后,第U步的盤面作為特征輸入,勝負(fù)作為label,學(xué)習(xí)一個(gè)價(jià)值網(wǎng)絡(luò)(Value Network),用于判斷結(jié)果的輸贏概率。價(jià)值網(wǎng)絡(luò)其實(shí)是AlphaGo的一大創(chuàng)新,圍棋最為困難的地方在于很難根據(jù)當(dāng)前的局勢(shì)來(lái)判斷最后的結(jié)果,這點(diǎn)職業(yè)棋手也很難掌握。通過(guò)大量的自我對(duì)弈,AlphaGo產(chǎn)生了3000萬(wàn)盤棋局,用來(lái)訓(xùn)練價(jià)值網(wǎng)絡(luò)。但由于圍棋的搜索空間太大,3000萬(wàn)盤棋局也不能幫AlphaGo完全攻克這個(gè)問(wèn)題。 

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    AlphaG的一個(gè)關(guān)鍵之處在蒙特卡羅搜索樹(shù)(MCTS)中嵌入了深度神經(jīng)網(wǎng)絡(luò)來(lái)減少搜索空間,這大大減少了不必要的搜索步驟,通過(guò)價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)顯著提升了其勝率。

     登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    使用策略網(wǎng)絡(luò)減少其寬度

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    使用價(jià)值網(wǎng)絡(luò)減少深度

    利用這兩個(gè)改進(jìn)的網(wǎng)絡(luò)來(lái)分別判斷局勢(shì),兩個(gè)局勢(shì)得分相加為此處最后走棋獲勝的得分。這里使用快速走棋策略是一個(gè)用速度來(lái)?yè)Q取量的方法,從被判斷的位置出發(fā),快速行棋至最后,每一次行棋結(jié)束后都會(huì)有個(gè)輸贏結(jié)果,然后綜合統(tǒng)計(jì)這個(gè)節(jié)點(diǎn)對(duì)應(yīng)的勝率。而價(jià)值網(wǎng)絡(luò)只要根據(jù)當(dāng)前的狀態(tài)便可直接評(píng)估出最后的結(jié)果,兩者各有優(yōu)缺點(diǎn)并進(jìn)行互補(bǔ)。

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    在2015年10月5:0戰(zhàn)勝歐洲圍棋冠軍樊麾(三屆歐洲圍棋冠軍)之后,AlphaGo于2016年3月4:1戰(zhàn)勝韓國(guó)傳奇棋手李世石(近十年內(nèi)圍棋頂尖棋手之一)。在第四局中由于李世石棋手的“神之一手”,AlphaGo落敗,也給了AlphaGo入圍Goratings排名榜單的機(jī)會(huì)。

    登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

    在David Silver看來(lái),AlphaGo已超越了所有其他圍棋AI程序。在首爾與李世石對(duì)弈過(guò)程中,他認(rèn)為AlphaGo已經(jīng)展現(xiàn)出超越專業(yè)9段棋手的水準(zhǔn),按Goratings分?jǐn)?shù)來(lái)排名的話應(yīng)該接近4500分左右。這個(gè)分?jǐn)?shù)不僅超過(guò)中國(guó)棋手柯潔九段的最高分?jǐn)?shù),也比其自身目前分?jǐn)?shù)要高。究竟這個(gè)驚人的成績(jī)是否屬實(shí),讓我們期待AlphaGo與柯潔九段的終極“人機(jī)大戰(zhàn)“。

    參考資料 

    PS : 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!

    via David Silver IJCAI2016

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)