人類竟能再度擊敗頂級(jí)圍棋AI?一招逆風(fēng)翻盤,這個(gè)業(yè)余四段棋手完勝
2016年,是人工智能的崛起之年。
自從AlphaGo完勝圍棋世界冠軍李世石之后,代表圍棋頂尖水平的玩家再也不是人類。
然而,今天金融時(shí)報(bào)的一篇文章讓圍棋重回人們的視野:人類找到了戰(zhàn)勝AI的方法!
蟄伏7年,人類棋手要卷土重來了嗎?
圍棋逆風(fēng)翻盤,人類戰(zhàn)勝AI?
FT報(bào)道稱,來自美國的業(yè)余四段棋手Kellin Pelrine,一舉擊敗了頂級(jí)的下棋AI——KataGo。
在15場(chǎng)線下比賽中,Perline在沒有計(jì)算機(jī)的幫助下,贏得了14場(chǎng)比賽。
而這個(gè)讓人類棋手奪回圍棋桂冠的計(jì)劃,出自加州研究公司FAR AI的研究人員之手。該團(tuán)隊(duì)通過分析AI棋手的弱點(diǎn)加以針對(duì),從而獲得最后的勝利。
FAR AI的首席執(zhí)行官Adam Gleave說:「對(duì)我們來說,利用這個(gè)系統(tǒng)非常容易。」
Gleave表示,團(tuán)隊(duì)研發(fā)的AI在與KataGo進(jìn)行了100多萬次的對(duì)局之后,發(fā)現(xiàn)了一個(gè)人類玩家可以利用的「bug」。
Pelrine說,他們發(fā)現(xiàn)的獲勝策略「對(duì)人類來說并不難」,中級(jí)玩家可以使用它來擊敗機(jī)器。他還使用這種方法戰(zhàn)勝了另一個(gè)頂級(jí)圍棋系統(tǒng)Leela Zero。
Kellin Pelrine
FT寫道,雖然有計(jì)算機(jī)的幫助,但這場(chǎng)決定性的勝利還是為人類棋手打開了一扇大門。
七年之前,人工智能在這項(xiàng)最復(fù)雜的游戲中遙遙領(lǐng)先于人類。
?由DeepMind設(shè)計(jì)的AlphaGo系統(tǒng),在2016年以4比1擊敗了圍棋世界冠軍李世石。李世石也在慘敗三年后宣布退役,稱AlphaGo是「無法擊敗的」。
而對(duì)于人工智能的這種強(qiáng)勢(shì),Pelrine不以為然。在他看來,棋局中大量的組合和變化,意味著計(jì)算機(jī)不可能評(píng)估棋手所有可能的未來招式。
簡單來說,Pelrine使用的策略是「聲東擊西」。
一方面,Pelrine在棋盤的各個(gè)角落落子,迷惑AI;另一方面,Pelrine認(rèn)準(zhǔn)AI棋手的一片領(lǐng)域,逐漸將其四周包圍。
Pelrine說,即使包圍即將完成,AI棋手也沒有注意到這一片區(qū)域的危險(xiǎn)。他接著說:「但是作為人類,這些漏洞是很容易被發(fā)現(xiàn)的。」
加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授Stuart Russell說,一些最先進(jìn)的圍棋游戲機(jī)被發(fā)現(xiàn)存在弱點(diǎn),這表明支撐當(dāng)今最先進(jìn)AI的深度學(xué)習(xí)系統(tǒng)存在根本缺陷。
他表示,這些系統(tǒng)只能「理解」他們經(jīng)歷過的特定情況,并且無法和人類一樣,對(duì)策略進(jìn)行簡單的概括。
能戰(zhàn)勝AI的,只有AI!
不過嚴(yán)格意義上來說,研究人員是通過AI打敗了AI,或者說,用AI幫助人類在圍棋中擊敗AI。
作為參考來源的論文,首次發(fā)表于2022年11月并在今年1月進(jìn)行了更新,作者則分別來自于MIT、UC伯克利等機(jī)構(gòu)。
文中,研究人員訓(xùn)練出了一個(gè)具有抗性策略的AI,進(jìn)而擊敗了最先進(jìn)的圍棋人工智能系統(tǒng)KataGo。
項(xiàng)目地址:https://goattack.far.ai/adversarial-policy-katago#contents
論文地址:https://arxiv.org/abs/2211.00241
結(jié)果顯示,當(dāng)KataGo不使用搜索樹時(shí),攻擊者在1000盤棋中取得了100%的勝率,而當(dāng)KataGo使用足夠多的搜索時(shí),勝率超過97%。
對(duì)此,研究人員強(qiáng)調(diào),對(duì)抗性策略AI可以擊敗KataGo,但它卻會(huì)被人類業(yè)余愛好者戰(zhàn)勝,與此同時(shí)人類業(yè)余愛好者是打不贏KataGo的。
也就是說,這個(gè)AI能夠取勝,并不是因?yàn)閲逑碌酶?,而是它能誘使KataGo去犯下嚴(yán)重的錯(cuò)誤。
攻擊策略
在此之前,像是KataGo和AlphaZero等等這些下棋AI,都通過自我博弈進(jìn)行訓(xùn)練的。
但在這項(xiàng)被作者稱為「受害者游戲」(victim-play)的研究中,攻擊者(adversary)需要通過與一個(gè)固定的受害者(victim)進(jìn)行博弈,來訓(xùn)練自己的制勝策略(不是模仿對(duì)手的下法)。
對(duì)此,研究人員引入了兩個(gè)不同的對(duì)抗性MCTS(A-MCTS)策略來解決這個(gè)問題。
- 樣本A-MCTS-S:研究人員設(shè)置的搜索過程為:當(dāng)受害者下棋時(shí),從受害者的策略網(wǎng)絡(luò)中采樣;當(dāng)輪到攻擊者時(shí),從攻擊者的策略網(wǎng)絡(luò)中采樣。
- 遞歸A-MCTS-R:由于A-MCTS-S低估了受害者的實(shí)力,因此研究人員提出了一種新的策略A-MCTS-R。然而,這種變化增加了攻擊者訓(xùn)練和推理的計(jì)算復(fù)雜性。
具體來說,在A-MCTS-R中,研究人員會(huì)在受害者節(jié)點(diǎn)上使用一個(gè)新的(遞歸)MCTS搜索來進(jìn)行模擬,從而取代A-MCTS-S中的受害者采樣步驟。
雖然這不再是一個(gè)完美的受害者模型,但它往往比A-MCTS-S更準(zhǔn)確,因?yàn)楹笳邥?huì)錯(cuò)誤地假設(shè)受害者不進(jìn)行搜索。
評(píng)估結(jié)果如下,具體細(xì)節(jié)可參閱原文。