自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

人類竟能再度擊敗頂級(jí)圍棋AI？一招逆風(fēng)翻盤，這個(gè)業(yè)余四段棋手完勝

作者：新智元 2023-02-20 09:39:32

人工智能新聞

時(shí)隔7年，人類圍棋選手首次「大勝」頂尖AI棋手！是什么策略，讓李世石都甘拜下風(fēng)的人工智能鎩羽而歸呢？

2016年，是人工智能的崛起之年。

自從AlphaGo完勝圍棋世界冠軍李世石之后，代表圍棋頂尖水平的玩家再也不是人類。

然而，今天金融時(shí)報(bào)的一篇文章讓圍棋重回人們的視野：人類找到了戰(zhàn)勝AI的方法！

蟄伏7年，人類棋手要卷土重來了嗎？

圍棋逆風(fēng)翻盤，人類戰(zhàn)勝AI？

FT報(bào)道稱，來自美國的業(yè)余四段棋手Kellin Pelrine，一舉擊敗了頂級(jí)的下棋AI——KataGo。

在15場(chǎng)線下比賽中，Perline在沒有計(jì)算機(jī)的幫助下，贏得了14場(chǎng)比賽。

而這個(gè)讓人類棋手奪回圍棋桂冠的計(jì)劃，出自加州研究公司FAR AI的研究人員之手。該團(tuán)隊(duì)通過分析AI棋手的弱點(diǎn)加以針對(duì)，從而獲得最后的勝利。

FAR AI的首席執(zhí)行官Adam Gleave說：「對(duì)我們來說，利用這個(gè)系統(tǒng)非常容易。」

Gleave表示，團(tuán)隊(duì)研發(fā)的AI在與KataGo進(jìn)行了100多萬次的對(duì)局之后，發(fā)現(xiàn)了一個(gè)人類玩家可以利用的「bug」。

Pelrine說，他們發(fā)現(xiàn)的獲勝策略「對(duì)人類來說并不難」，中級(jí)玩家可以使用它來擊敗機(jī)器。他還使用這種方法戰(zhàn)勝了另一個(gè)頂級(jí)圍棋系統(tǒng)Leela Zero。

Kellin Pelrine

FT寫道，雖然有計(jì)算機(jī)的幫助，但這場(chǎng)決定性的勝利還是為人類棋手打開了一扇大門。

七年之前，人工智能在這項(xiàng)最復(fù)雜的游戲中遙遙領(lǐng)先于人類。

?由DeepMind設(shè)計(jì)的AlphaGo系統(tǒng)，在2016年以4比1擊敗了圍棋世界冠軍李世石。李世石也在慘敗三年后宣布退役，稱AlphaGo是「無法擊敗的」。

而對(duì)于人工智能的這種強(qiáng)勢(shì)，Pelrine不以為然。在他看來，棋局中大量的組合和變化，意味著計(jì)算機(jī)不可能評(píng)估棋手所有可能的未來招式。

簡單來說，Pelrine使用的策略是「聲東擊西」。

一方面，Pelrine在棋盤的各個(gè)角落落子，迷惑AI；另一方面，Pelrine認(rèn)準(zhǔn)AI棋手的一片領(lǐng)域，逐漸將其四周包圍。

Pelrine說，即使包圍即將完成，AI棋手也沒有注意到這一片區(qū)域的危險(xiǎn)。他接著說：「但是作為人類，這些漏洞是很容易被發(fā)現(xiàn)的。」

加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授Stuart Russell說，一些最先進(jìn)的圍棋游戲機(jī)被發(fā)現(xiàn)存在弱點(diǎn)，這表明支撐當(dāng)今最先進(jìn)AI的深度學(xué)習(xí)系統(tǒng)存在根本缺陷。

他表示，這些系統(tǒng)只能「理解」他們經(jīng)歷過的特定情況，并且無法和人類一樣，對(duì)策略進(jìn)行簡單的概括。

能戰(zhàn)勝AI的，只有AI！

不過嚴(yán)格意義上來說，研究人員是通過AI打敗了AI，或者說，用AI幫助人類在圍棋中擊敗AI。

作為參考來源的論文，首次發(fā)表于2022年11月并在今年1月進(jìn)行了更新，作者則分別來自于MIT、UC伯克利等機(jī)構(gòu)。

文中，研究人員訓(xùn)練出了一個(gè)具有抗性策略的AI，進(jìn)而擊敗了最先進(jìn)的圍棋人工智能系統(tǒng)KataGo。

項(xiàng)目地址：https://goattack.far.ai/adversarial-policy-katago#contents

論文地址：https://arxiv.org/abs/2211.00241

結(jié)果顯示，當(dāng)KataGo不使用搜索樹時(shí)，攻擊者在1000盤棋中取得了100%的勝率，而當(dāng)KataGo使用足夠多的搜索時(shí)，勝率超過97%。

對(duì)此，研究人員強(qiáng)調(diào)，對(duì)抗性策略AI可以擊敗KataGo，但它卻會(huì)被人類業(yè)余愛好者戰(zhàn)勝，與此同時(shí)人類業(yè)余愛好者是打不贏KataGo的。

也就是說，這個(gè)AI能夠取勝，并不是因?yàn)閲逑碌酶?，而是它能誘使KataGo去犯下嚴(yán)重的錯(cuò)誤。

攻擊策略

在此之前，像是KataGo和AlphaZero等等這些下棋AI，都通過自我博弈進(jìn)行訓(xùn)練的。

但在這項(xiàng)被作者稱為「受害者游戲」（victim-play）的研究中，攻擊者（adversary）需要通過與一個(gè)固定的受害者（victim）進(jìn)行博弈，來訓(xùn)練自己的制勝策略（不是模仿對(duì)手的下法）。

對(duì)此，研究人員引入了兩個(gè)不同的對(duì)抗性MCTS（A-MCTS）策略來解決這個(gè)問題。

樣本A-MCTS-S：研究人員設(shè)置的搜索過程為：當(dāng)受害者下棋時(shí)，從受害者的策略網(wǎng)絡(luò)中采樣；當(dāng)輪到攻擊者時(shí)，從攻擊者的策略網(wǎng)絡(luò)中采樣。
遞歸A-MCTS-R：由于A-MCTS-S低估了受害者的實(shí)力，因此研究人員提出了一種新的策略A-MCTS-R。然而，這種變化增加了攻擊者訓(xùn)練和推理的計(jì)算復(fù)雜性。

具體來說，在A-MCTS-R中，研究人員會(huì)在受害者節(jié)點(diǎn)上使用一個(gè)新的（遞歸）MCTS搜索來進(jìn)行模擬，從而取代A-MCTS-S中的受害者采樣步驟。

雖然這不再是一個(gè)完美的受害者模型，但它往往比A-MCTS-S更準(zhǔn)確，因?yàn)楹笳邥?huì)錯(cuò)誤地假設(shè)受害者不進(jìn)行搜索。

評(píng)估結(jié)果如下，具體細(xì)節(jié)可參閱原文。

責(zé)任編輯：張燕妮來源：新智元

人工智能棋手

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營