自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人類竟能再度擊敗頂級(jí)圍棋AI?一招逆風(fēng)翻盤,這個(gè)業(yè)余四段棋手完勝

人工智能 新聞
時(shí)隔7年,人類圍棋選手首次「大勝」頂尖AI棋手!是什么策略,讓李世石都甘拜下風(fēng)的人工智能鎩羽而歸呢?

2016年,是人工智能的崛起之年。

自從AlphaGo完勝圍棋世界冠軍李世石之后,代表圍棋頂尖水平的玩家再也不是人類。

然而,今天金融時(shí)報(bào)的一篇文章讓圍棋重回人們的視野:人類找到了戰(zhàn)勝AI的方法!

圖片

蟄伏7年,人類棋手要卷土重來了嗎?

圍棋逆風(fēng)翻盤,人類戰(zhàn)勝AI?

FT報(bào)道稱,來自美國的業(yè)余四段棋手Kellin Pelrine,一舉擊敗了頂級(jí)的下棋AI——KataGo。

在15場(chǎng)線下比賽中,Perline在沒有計(jì)算機(jī)的幫助下,贏得了14場(chǎng)比賽。

而這個(gè)讓人類棋手奪回圍棋桂冠的計(jì)劃,出自加州研究公司FAR AI的研究人員之手。該團(tuán)隊(duì)通過分析AI棋手的弱點(diǎn)加以針對(duì),從而獲得最后的勝利。

FAR AI的首席執(zhí)行官Adam Gleave說:「對(duì)我們來說,利用這個(gè)系統(tǒng)非常容易。」

Gleave表示,團(tuán)隊(duì)研發(fā)的AI在與KataGo進(jìn)行了100多萬次的對(duì)局之后,發(fā)現(xiàn)了一個(gè)人類玩家可以利用的「bug」。

Pelrine說,他們發(fā)現(xiàn)的獲勝策略「對(duì)人類來說并不難」,中級(jí)玩家可以使用它來擊敗機(jī)器。他還使用這種方法戰(zhàn)勝了另一個(gè)頂級(jí)圍棋系統(tǒng)Leela Zero。

圖片

Kellin Pelrine

FT寫道,雖然有計(jì)算機(jī)的幫助,但這場(chǎng)決定性的勝利還是為人類棋手打開了一扇大門。

七年之前,人工智能在這項(xiàng)最復(fù)雜的游戲中遙遙領(lǐng)先于人類。

?由DeepMind設(shè)計(jì)的AlphaGo系統(tǒng),在2016年以4比1擊敗了圍棋世界冠軍李世石。李世石也在慘敗三年后宣布退役,稱AlphaGo是「無法擊敗的」。

而對(duì)于人工智能的這種強(qiáng)勢(shì),Pelrine不以為然。在他看來,棋局中大量的組合和變化,意味著計(jì)算機(jī)不可能評(píng)估棋手所有可能的未來招式。

簡單來說,Pelrine使用的策略是「聲東擊西」。

一方面,Pelrine在棋盤的各個(gè)角落落子,迷惑AI;另一方面,Pelrine認(rèn)準(zhǔn)AI棋手的一片領(lǐng)域,逐漸將其四周包圍。

圖片

Pelrine說,即使包圍即將完成,AI棋手也沒有注意到這一片區(qū)域的危險(xiǎn)。他接著說:「但是作為人類,這些漏洞是很容易被發(fā)現(xiàn)的。」

加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授Stuart Russell說,一些最先進(jìn)的圍棋游戲機(jī)被發(fā)現(xiàn)存在弱點(diǎn),這表明支撐當(dāng)今最先進(jìn)AI的深度學(xué)習(xí)系統(tǒng)存在根本缺陷。

他表示,這些系統(tǒng)只能「理解」他們經(jīng)歷過的特定情況,并且無法和人類一樣,對(duì)策略進(jìn)行簡單的概括。

能戰(zhàn)勝AI的,只有AI!

不過嚴(yán)格意義上來說,研究人員是通過AI打敗了AI,或者說,用AI幫助人類在圍棋中擊敗AI。

作為參考來源的論文,首次發(fā)表于2022年11月并在今年1月進(jìn)行了更新,作者則分別來自于MIT、UC伯克利等機(jī)構(gòu)。

文中,研究人員訓(xùn)練出了一個(gè)具有抗性策略的AI,進(jìn)而擊敗了最先進(jìn)的圍棋人工智能系統(tǒng)KataGo。

圖片

項(xiàng)目地址:https://goattack.far.ai/adversarial-policy-katago#contents

論文地址:https://arxiv.org/abs/2211.00241

結(jié)果顯示,當(dāng)KataGo不使用搜索樹時(shí),攻擊者在1000盤棋中取得了100%的勝率,而當(dāng)KataGo使用足夠多的搜索時(shí),勝率超過97%。

對(duì)此,研究人員強(qiáng)調(diào),對(duì)抗性策略AI可以擊敗KataGo,但它卻會(huì)被人類業(yè)余愛好者戰(zhàn)勝,與此同時(shí)人類業(yè)余愛好者是打不贏KataGo的。

也就是說,這個(gè)AI能夠取勝,并不是因?yàn)閲逑碌酶?,而是它能誘使KataGo去犯下嚴(yán)重的錯(cuò)誤。

圖片

攻擊策略

在此之前,像是KataGo和AlphaZero等等這些下棋AI,都通過自我博弈進(jìn)行訓(xùn)練的。

但在這項(xiàng)被作者稱為「受害者游戲」(victim-play)的研究中,攻擊者(adversary)需要通過與一個(gè)固定的受害者(victim)進(jìn)行博弈,來訓(xùn)練自己的制勝策略(不是模仿對(duì)手的下法)。

對(duì)此,研究人員引入了兩個(gè)不同的對(duì)抗性MCTS(A-MCTS)策略來解決這個(gè)問題。

  • 樣本A-MCTS-S:研究人員設(shè)置的搜索過程為:當(dāng)受害者下棋時(shí),從受害者的策略網(wǎng)絡(luò)中采樣;當(dāng)輪到攻擊者時(shí),從攻擊者的策略網(wǎng)絡(luò)中采樣。
  • 遞歸A-MCTS-R:由于A-MCTS-S低估了受害者的實(shí)力,因此研究人員提出了一種新的策略A-MCTS-R。然而,這種變化增加了攻擊者訓(xùn)練和推理的計(jì)算復(fù)雜性。

具體來說,在A-MCTS-R中,研究人員會(huì)在受害者節(jié)點(diǎn)上使用一個(gè)新的(遞歸)MCTS搜索來進(jìn)行模擬,從而取代A-MCTS-S中的受害者采樣步驟。

雖然這不再是一個(gè)完美的受害者模型,但它往往比A-MCTS-S更準(zhǔn)確,因?yàn)楹笳邥?huì)錯(cuò)誤地假設(shè)受害者不進(jìn)行搜索。

圖片

評(píng)估結(jié)果如下,具體細(xì)節(jié)可參閱原文。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-11-10 13:57:48

2022-11-03 14:09:26

2018-07-18 17:58:00

2020-06-10 10:32:10

人工智能技術(shù)編輯

2019-11-29 08:00:36

AI 數(shù)據(jù)人工智能

2011-02-24 17:52:22

Watsonibm

2021-01-10 08:21:43

Chrome瀏覽器系統(tǒng)技巧

2022-02-15 14:06:26

人工智能程序員圍棋

2025-03-13 08:01:32

2016-12-02 20:10:22

人工智能唇語序列

2022-02-13 07:48:57

工具macOS蘋果

2019-01-28 05:48:15

5G無線網(wǎng)絡(luò)運(yùn)營商

2013-07-30 11:24:33

SAP“簡化IT 一招

2017-01-05 09:09:10

2024-05-09 12:18:00

AI醫(yī)院

2021-11-22 11:30:37

JavaScript代碼瀏覽器

2021-09-14 07:10:34

人工智能AI深度學(xué)習(xí)

2009-03-23 19:23:20

四核服務(wù)器AMD

2018-08-31 15:37:10

數(shù)據(jù)

2021-05-08 08:19:20

電腦C盤系統(tǒng)垃圾軟件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)