亚洲V国产一区二区三区,国产福精品利视频免费,国产精品福利一区,日韩一级无码av毛片免费

<source id="4el0m"></source><tt id="4el0m"><i id="4el0m"><bdo id="4el0m"></bdo></i></tt>

  • <progress id="4el0m"></progress>

          <table id="4el0m"><p id="4el0m"><thead id="4el0m"></thead></p></table>
        1.    
           您當(dāng)前的位置 : 體育新聞>體育快訊>

          Facebook工程師解疑:AlphaGo為什么這么厲害?

          ??诰W(wǎng) http://fewfxpb.cn 時(shí)間:2016-03-14 15:51

          ?

          人工智能系統(tǒng)AlphaGo

            Facebook田淵棟解析算法技術(shù):AlphaGo為什么這么厲害?

            最近我仔細(xì)看了下AlphaGo在《自然》雜志上發(fā)表的文章,寫(xiě)一些分析給大家分享。

            AlphaGo這個(gè)系統(tǒng)主要由幾個(gè)部分組成:

             走棋網(wǎng)絡(luò)(Policy Network),給定當(dāng)前局面,預(yù)測(cè)/采樣下一步的走棋。

            快速走子(Fast rollout),目標(biāo)和1一樣,但在適當(dāng)犧牲走棋質(zhì)量的條件下,速度要比1快1000倍。

             估值網(wǎng)絡(luò)(Value Network),給定當(dāng)前局面,估計(jì)是白勝還是黑勝。

            蒙特卡羅樹(shù)搜索(Monte Carlo Tree Search,MCTS),把以上這三個(gè)部分連起來(lái),形成一個(gè)完整的系統(tǒng)。

            我們的DarkForest和AlphaGo同樣是用4搭建的系統(tǒng)。DarkForest較AlphaGo而言,在訓(xùn)練時(shí)加強(qiáng)了1,而少了2和3,然后以開(kāi)源軟件Pachi的缺省策略(default policy)部分替代了2的功能。以下介紹下各部分。

            1. 走棋網(wǎng)絡(luò)

            走棋網(wǎng)絡(luò)把當(dāng)前局面作為輸入,預(yù)測(cè)/采樣下一步的走棋。它的預(yù)測(cè)不只給出最強(qiáng)的一手,而是對(duì)棋盤(pán)上所有可能的下一著給一個(gè)分?jǐn)?shù)。棋盤(pán)上有361個(gè)點(diǎn),它就給出361個(gè)數(shù),好招的分?jǐn)?shù)比壞招要高。DarkForest在這部分有創(chuàng)新,通過(guò)在訓(xùn)練時(shí)預(yù)測(cè)三步而非一步,提高了策略輸出的質(zhì)量,和他們?cè)谑褂迷鰪?qiáng)學(xué)習(xí)進(jìn)行自我對(duì)局后得到的走棋網(wǎng)絡(luò)(RL network)的效果相當(dāng)。當(dāng)然,他們并沒(méi)有在最后的系統(tǒng)中使用增強(qiáng)學(xué)習(xí)后的網(wǎng)絡(luò),而是用了直接通過(guò)訓(xùn)練學(xué)習(xí)到的網(wǎng)絡(luò)(SL network),理由是RL network輸出的走棋缺乏變化,對(duì)搜索不利。

            有意思的是在AlphaGo為了速度上的考慮,只用了寬度為192的網(wǎng)絡(luò),而并沒(méi)有使用最好的寬度為384的網(wǎng)絡(luò)(見(jiàn)圖2(a)),所以要是GPU更快一點(diǎn)(或者更多一點(diǎn)),AlphaGo肯定是會(huì)變得更強(qiáng)的。

            所謂的0.1秒走一步,就是純粹用這樣的網(wǎng)絡(luò),下出有最高置信度的合法著法。這種做法一點(diǎn)也沒(méi)有做搜索,但是大局觀非常強(qiáng),不會(huì)陷入局部戰(zhàn)斗中,說(shuō)它建模了“棋感”一點(diǎn)也沒(méi)有錯(cuò)。我們把DarkForest的走棋網(wǎng)絡(luò)直接放上KGS就有3d的水平,讓所有人都驚嘆了下??梢哉f(shuō),這一波圍棋AI的突破,主要得益于走棋網(wǎng)絡(luò)的突破。這個(gè)在以前是不可想像的,以前用的是基于規(guī)則,或者基于局部形狀再加上簡(jiǎn)單線(xiàn)性分類(lèi)器訓(xùn)練的走子生成法,需要慢慢調(diào)參數(shù)年,才有進(jìn)步。

            當(dāng)然,只用走棋網(wǎng)絡(luò)問(wèn)題也很多,就我們?cè)贒arkForest上看到的來(lái)說(shuō),會(huì)不顧大小無(wú)謂爭(zhēng)劫,會(huì)無(wú)謂脫先,不顧局部死活,對(duì)殺出錯(cuò),等等。有點(diǎn)像高手不經(jīng)認(rèn)真思考的隨手棋。因?yàn)樽咂寰W(wǎng)絡(luò)沒(méi)有價(jià)值判斷功能,只是憑“直覺(jué)”在下棋,只有在加了搜索之后,電腦才有價(jià)值判斷的能力。

             2. 快速走子

            那有了走棋網(wǎng)絡(luò),為什么還要做快速走子呢?有兩個(gè)原因,首先走棋網(wǎng)絡(luò)的運(yùn)行速度是比較慢的,AlphaGo說(shuō)是3毫秒,我們這里也差不多,而快速走子能做到幾微秒級(jí)別,差了1000倍。所以在走棋網(wǎng)絡(luò)沒(méi)有返回的時(shí)候讓CPU不閑著先搜索起來(lái)是很重要的,等到網(wǎng)絡(luò)返回更好的著法后,再更新對(duì)應(yīng)的著法信息。

            其次,快速走子可以用來(lái)評(píng)估盤(pán)面。由于天文數(shù)字般的可能局面數(shù),圍棋的搜索是毫無(wú)希望走到底的,搜索到一定程度就要對(duì)現(xiàn)有局面做個(gè)估分。在沒(méi)有估值網(wǎng)絡(luò)的時(shí)候,不像國(guó)象可以通過(guò)算棋子的分?jǐn)?shù)來(lái)對(duì)盤(pán)面做比較精確的估值,圍棋盤(pán)面的估計(jì)得要通過(guò)模擬走子來(lái)進(jìn)行,從當(dāng)前盤(pán)面一路走到底,不考慮岔路地算出勝負(fù),然后把勝負(fù)值作為當(dāng)前盤(pán)面價(jià)值的一個(gè)估計(jì)。這里有個(gè)需要權(quán)衡的地方:在同等時(shí)間下,模擬走子的質(zhì)量高,單次估值精度高但走子速度慢;模擬走子速度快乃至使用隨機(jī)走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。所以說(shuō),如果有一個(gè)質(zhì)量高又速度快的走子策略,那對(duì)于棋力的提高是非常有幫助的。

            為了達(dá)到這個(gè)目標(biāo),神經(jīng)網(wǎng)絡(luò)的模型就顯得太慢,還是要用傳統(tǒng)的局部特征匹配(local pattern matching)加線(xiàn)性回歸(logistic regression)的方法,這辦法雖然不新但非常好使,幾乎所有的廣告推薦,競(jìng)價(jià)排名,新聞排序,都是用的它。與更為傳統(tǒng)的基于規(guī)則的方案相比,它在吸納了眾多高手對(duì)局之后就具備了用梯度下降法自動(dòng)調(diào)參的能力,所以性能提高起來(lái)會(huì)更快更省心。AlphaGo用這個(gè)辦法達(dá)到了2微秒的走子速度和24.2%的走子準(zhǔn)確率。24.2%的意思是說(shuō)它的最好預(yù)測(cè)和圍棋高手的下子有0.242的概率是重合的,相比之下,走棋網(wǎng)絡(luò)在GPU上用2毫秒能達(dá)到57%的準(zhǔn)確率。這里,我們就看到了走子速度和精度的權(quán)衡。

            和訓(xùn)練深度學(xué)習(xí)模型不同,快速走子用到了局部特征匹配,自然需要一些圍棋的領(lǐng)域知識(shí)來(lái)選擇局部特征。對(duì)此AlphaGo只提供了局部特征的數(shù)目(見(jiàn)Extended Table 4),而沒(méi)有說(shuō)明特征的具體細(xì)節(jié)。我最近也實(shí)驗(yàn)了他們的辦法,達(dá)到了25.1%的準(zhǔn)確率和4-5微秒的走子速度,然而全系統(tǒng)整合下來(lái)并沒(méi)有復(fù)現(xiàn)他們的水平。我感覺(jué)上24.2%并不能完全概括他們快速走子的棋力,因?yàn)橹灰咤e(cuò)關(guān)鍵的一步,局面判斷就完全錯(cuò)誤了;而圖2(b)更能體現(xiàn)他們快速走子對(duì)盤(pán)面形勢(shì)估計(jì)的精確度,要能達(dá)到他們圖2(b)這樣的水準(zhǔn),比簡(jiǎn)單地匹配24.2%要做更多的工作,而他們并未在文章中強(qiáng)調(diào)這一點(diǎn)。

            在AlphaGo有了快速走子之后,不需要走棋網(wǎng)絡(luò)和估值網(wǎng)絡(luò),不借助任何深度學(xué)習(xí)和GPU的幫助,不使用增強(qiáng)學(xué)習(xí),在單機(jī)上就已經(jīng)達(dá)到了3d的水平(見(jiàn)Extended Table 7倒數(shù)第二行),這是相當(dāng)厲害的了。任何使用傳統(tǒng)方法在單機(jī)上達(dá)到這個(gè)水平的圍棋程序,都需要花費(fèi)數(shù)年的時(shí)間。在AlphaGo之前,Aja Huang曾經(jīng)自己寫(xiě)過(guò)非常不錯(cuò)的圍棋程序,在這方面相信是有很多的積累的。

            3. 估值網(wǎng)絡(luò)

            AlphaGo的估值網(wǎng)絡(luò)可以說(shuō)是錦上添花的部分,從Fig 2(b)和Extended Table 7來(lái)看,沒(méi)有它AlphaGo也不會(huì)變得太弱,至少還是會(huì)在7d-8d的水平。少了估值網(wǎng)絡(luò),等級(jí)分少了480分,但是少了走棋網(wǎng)絡(luò),等級(jí)分就會(huì)少掉800至1000分。特別有意思的是,如果只用估值網(wǎng)絡(luò)來(lái)評(píng)估局面(2177),那其效果還不及只用快速走子(2416),只有將兩個(gè)合起來(lái)才有更大的提高。我的猜測(cè)是,估值網(wǎng)絡(luò)和快速走子對(duì)盤(pán)面估計(jì)是互補(bǔ)的,在棋局一開(kāi)始時(shí),大家下得比較和氣,估值網(wǎng)絡(luò)會(huì)比較重要;但在有復(fù)雜的死活或是對(duì)殺時(shí),通過(guò)快速走子來(lái)估計(jì)盤(pán)面就變得更重要了??紤]到估值網(wǎng)絡(luò)是整個(gè)系統(tǒng)中最難訓(xùn)練的部分(需要三千萬(wàn)局自我對(duì)局),我猜測(cè)它是最晚做出來(lái)并且最有可能能進(jìn)一步提高的。

            關(guān)于估值網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)的生成,值得注意的是文章中的附錄小字部分。與走棋網(wǎng)絡(luò)不同,每一盤(pán)棋只取一個(gè)樣本來(lái)訓(xùn)練以避免過(guò)擬合,不然對(duì)同一對(duì)局而言輸入稍有不同而輸出都相同,對(duì)訓(xùn)練是非常不利的。這就是為什么需要三千萬(wàn)局,而非三千萬(wàn)個(gè)盤(pán)面的原因。對(duì)于每局自我對(duì)局,取樣本是很有講究的,先用SL network保證走棋的多樣性,然后隨機(jī)走子,取盤(pán)面,然后用更精確的RL network走到底以得到最正確的勝負(fù)估計(jì)。當(dāng)然這樣做的效果比用單一網(wǎng)絡(luò)相比好多少,我不好說(shuō)。

            一個(gè)讓我吃驚的地方是,他們完全沒(méi)有做任何局部死活/對(duì)殺分析,純粹是用暴力訓(xùn)練法訓(xùn)練出一個(gè)相當(dāng)不錯(cuò)的估值網(wǎng)絡(luò)。這在一定程度上說(shuō)明深度卷積網(wǎng)絡(luò)(DCNN)有自動(dòng)將問(wèn)題分解成子問(wèn)題,并分別解決的能力。

            另外,我猜測(cè)他們?cè)谌∮?xùn)練樣本時(shí),判定最終勝負(fù)用的是中國(guó)規(guī)則。所以說(shuō)三月和李世石對(duì)局的時(shí)候也要求用中國(guó)規(guī)則,不然如果換成別的規(guī)則,就需要重新訓(xùn)練估值網(wǎng)絡(luò)(雖然我估計(jì)結(jié)果差距不會(huì)太大)。至于為什么一開(kāi)始就用的中國(guó)規(guī)則,我的猜測(cè)是編程非常方便(我在寫(xiě)DarkForest的時(shí)候也是這樣覺(jué)得的)。

             4. 蒙特卡羅樹(shù)搜索

            這部分基本用的是傳統(tǒng)方法,沒(méi)有太多可以評(píng)論的,他們用的是帶先驗(yàn)的UCT,即先考慮DCNN認(rèn)為比較好的著法,然后等到每個(gè)著法探索次數(shù)多了,選擇更相信探索得來(lái)的勝率值。而DarkForest則直接選了DCNN推薦的前3或是前5的著法進(jìn)行搜索。我初步試驗(yàn)下來(lái)效果差不多,當(dāng)然他們的辦法更靈活些,在允許使用大量搜索次數(shù)的情況下,他們的辦法可以找到一些DCNN認(rèn)為不好但卻對(duì)局面至關(guān)重要的著法。

            一個(gè)有趣的地方是在每次搜索到葉子節(jié)點(diǎn)時(shí),沒(méi)有立即展開(kāi)葉子節(jié)點(diǎn),而是等到訪問(wèn)次數(shù)到達(dá)一定數(shù)目(40)才展開(kāi),這樣避免產(chǎn)生太多的分支,分散搜索的注意力,也能節(jié)省GPU的寶貴資源,同時(shí)在展開(kāi)時(shí),對(duì)葉節(jié)點(diǎn)的盤(pán)面估值會(huì)更準(zhǔn)確些。除此之外,他們也用了一些技巧,以在搜索一開(kāi)始時(shí),避免多個(gè)線(xiàn)程同時(shí)搜索一路變化,這部分我們?cè)贒arkForest中也注意到了,并且做了改進(jìn)。

             5. 總結(jié)

            總的來(lái)說(shuō),這整篇文章是一個(gè)系統(tǒng)性的工作,而不是一兩個(gè)小點(diǎn)有了突破就能達(dá)到的勝利。在成功背后,是作者們,特別是兩位第一作者David Silver和Aja Huang,在博士階段及畢業(yè)以后五年以上的積累,非一朝一夕所能完成的。他們能做出AlphaGo并享有現(xiàn)在的榮譽(yù),是實(shí)至名歸的。

            從以上分析也可以看出,與之前的圍棋系統(tǒng)相比,AlphaGo較少依賴(lài)圍棋的領(lǐng)域知識(shí),但還遠(yuǎn)未達(dá)到通用系統(tǒng)的程度。職業(yè)棋手可以在看過(guò)了寥寥幾局之后明白對(duì)手的風(fēng)格并采取相應(yīng)策略,一位資深游戲玩家也可以在玩一個(gè)新游戲幾次后很快上手,但到目前為止,人工智能系統(tǒng)要達(dá)到人類(lèi)水平,還是需要大量樣本的訓(xùn)練的。可以說(shuō),沒(méi)有千年來(lái)眾多棋手在圍棋上的積累,就沒(méi)有圍棋AI的今天。

            在AlphaGo中,增強(qiáng)學(xué)習(xí)(Reinforcement Learning)所扮演的角色并沒(méi)有想像中那么大。在理想情況下,我們希望人工智能系統(tǒng)能在對(duì)局中動(dòng)態(tài)地適應(yīng)環(huán)境和對(duì)手的招式并且找到辦法反制之,但是在AlphaGo中增強(qiáng)學(xué)習(xí)更多地是用于提供更多質(zhì)量更好的樣本,給有監(jiān)督學(xué)習(xí)(Supervised Learning)以訓(xùn)練出更好的模型。在這方面增強(qiáng)學(xué)習(xí)還有很長(zhǎng)的路要走。

            另外,據(jù)他們的文章所言,AlphaGo整個(gè)系統(tǒng)在單機(jī)上已具有了職業(yè)水平,若是谷歌愿意開(kāi)幾萬(wàn)臺(tái)機(jī)器和李世石對(duì)決(這對(duì)它來(lái)說(shuō)再容易不過(guò)了,改個(gè)參數(shù)就行),相信比賽會(huì)非常精彩。

            下面是根據(jù)讀者提問(wèn)做的一些更新。

             問(wèn)題1:“Alphago的MCTS做rollout的時(shí)候,除了使用快速走子,還用了搜索樹(shù)的已有部分,看起來(lái)像是AMAF/RAVE反過(guò)來(lái):AMAF是把快速走子的信息傳導(dǎo)到樹(shù)的其它無(wú)關(guān)部分,Alphago是把樹(shù)的其它無(wú)關(guān)部分拿來(lái)增強(qiáng)快速走子。我懷疑這是不是它棋力比其它DCNN+MCTS強(qiáng)的原因之一?!?/p>

            這個(gè)辦法在解死活題的文章中出現(xiàn)過(guò),會(huì)在一定程度上提高搜索效率,但是提高多少還不知道。

            問(wèn)題2:“rollout的走法質(zhì)量變好可能會(huì)導(dǎo)致棋力下降?!?/p>

            這里要分兩種情況,tree policy和default policy。在AlphaGo的文章里面已經(jīng)說(shuō)過(guò)了,tree policy的分布不能太尖,不然在搜索時(shí)太過(guò)重視一些看起來(lái)的好著,可能使得棋力下降。但是除了這種原因,一般來(lái)說(shuō)tree policy變好棋力還是會(huì)變強(qiáng)的。

            default policy這邊,即(半)隨機(jī)走子到最后然后判分,就很復(fù)雜了,質(zhì)量變好未必對(duì)局面能估得更準(zhǔn)。default policy需要保證的是每塊棋的死活大體正確,不要把死的棋下成活的或者反之,而對(duì)大局觀的要求反而沒(méi)有那么高。雙方完全可以配合著把每塊棋下完,然后轉(zhuǎn)戰(zhàn)另一塊,而不是說(shuō)搶在對(duì)方前去別處占先手。

          [來(lái)源:Facebook] [作者:] [編輯:符德銘]
          版權(quán)聲明:

          ·凡注明來(lái)源為“海口網(wǎng)”的所有文字、圖片、音視頻、美術(shù)設(shè)計(jì)等作品,版權(quán)均屬??诰W(wǎng)所有。未經(jīng)本網(wǎng)書(shū)面授權(quán),不得進(jìn)行一切形式的下載、轉(zhuǎn)載或建立鏡像。

          ·凡注明為其它來(lái)源的信息,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。

          ?
          圖解??谝恢軣崧劊汉?谌?qǐng)?bào)??诰W(wǎng)入駐“新京號(hào)”
          圖解??谝恢軣崧剕多彩節(jié)目,點(diǎn)亮繽紛假期!
          圖解海口一周熱聞:??谛履暌魳?lè)會(huì)將于2024年1月1日舉辦
          圖解海口一周熱聞:??谡胁乓菍?zhuān)場(chǎng)誠(chéng)意攬才受熱捧
          圖解??谝恢軣崧劊汉?讷@評(píng)國(guó)家食品安全示范城市
          災(zāi)后重建看變化·復(fù)工復(fù)產(chǎn)
          圓滿(mǎn)中秋
          勇立潮頭踏浪行
          “發(fā)現(xiàn)??谥馈睌z影大賽
               
               
               
          排行
           
          旅客注意!??诿捞m機(jī)場(chǎng)T2值機(jī)柜臺(tái)17日起調(diào)整
          尋舊日時(shí)光 海口部分年輕人熱衷“淘”老物件
          ??冢涸贫匆r晚霞 美景入眼中
          嗨游活力???樂(lè)享多彩假日
          ??冢撼鞘猩v煙火氣 夜間消費(fèi)活力足
          ??冢洪L(zhǎng)假不停歇 工地建設(shè)忙
          市民游客在海口度過(guò)美好假期
          2023“??诒狈悾ň①悾┗盍﹂_(kāi)賽
          ??谔炜罩襟A站:晚照醉人
          千年福地尋玉兔 共慶??谧钪星?/a>
           
          |
          |
           
               fewfxpb.cn All Rights Reserved      
          海口網(wǎng)版權(quán)所有 未經(jīng)書(shū)面許可不得復(fù)制或轉(zhuǎn)載
          互聯(lián)網(wǎng)新聞信息服務(wù)許可證:46120210010
          違法和不良信息舉報(bào)電話(huà): 0898—66822333  舉報(bào)郵箱:jb66822333@163.com

          網(wǎng)絡(luò)內(nèi)容從業(yè)人員違法違規(guī)行為舉報(bào)郵箱:jb66822333@126.com

          瓊公網(wǎng)安備 46010602000160號(hào)

            瓊ICP備2023008284號(hào)-1
          中國(guó)互聯(lián)網(wǎng)舉報(bào)中心