自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擊敗申真谞陪練的圍棋AI,卻輸給了業(yè)余人類棋手

人工智能
由于KataGo對(duì)勝利過(guò)于自信——認(rèn)為如果游戲結(jié)束并計(jì)算分?jǐn)?shù)自己就會(huì)贏——所以KataGo會(huì)主動(dòng)pass,然后攻擊者也pass,從而結(jié)束游戲,開(kāi)始計(jì)分。

一個(gè)連業(yè)余棋手都打不過(guò)的新模型,竟然擊敗了世界最強(qiáng)圍棋AI——KataGo?

沒(méi)錯(cuò),這驚掉人下巴的結(jié)果來(lái)自MIT、UC伯克利等的最新論文。

研究人員利用對(duì)抗攻擊方法,抓住了KataGo的盲點(diǎn),并基于該技術(shù)使一個(gè)菜鳥級(jí)圍棋程序成功打敗了KataGO。

在沒(méi)有搜索的情況下,這一勝率甚至達(dá)到了99%。

這么算下來(lái),圍棋界的食物鏈瞬間變成了:業(yè)余棋手>新AI>頂級(jí)圍棋AI?

等等,這個(gè)神奇的新AI是怎么做到又菜又厲害的?

刁鉆的攻擊角度

在介紹新AI之前,讓我們先來(lái)了解一下這次被攻擊的主角——KataGo。

KataGo,目前最強(qiáng)大的開(kāi)源圍棋AI,由哈佛AI研究員開(kāi)發(fā)。

此前,KataGo戰(zhàn)勝了超人類水平的ELF OpenGo和Leela Zero,即使沒(méi)有搜索引擎的情況下,其水平也與歐洲前100名圍棋專業(yè)選手相當(dāng)。

剛剛拿下三星杯冠軍、實(shí)現(xiàn)“三年四冠”的韓國(guó)圍棋“第一人”申真谞,就一直用的KataGo進(jìn)行陪練。

圖片

△圖源:Hangame

面對(duì)實(shí)力如此強(qiáng)勁的對(duì)手,研究人員選擇的方法可以說(shuō)是四兩撥千斤了。

他們發(fā)現(xiàn),盡管KataGo通過(guò)與自己進(jìn)行數(shù)百萬(wàn)次游戲來(lái)學(xué)習(xí)圍棋,但這仍然不足以涵蓋所有可能的情況。

于是,這次他們不再選擇自我博弈,而是選擇對(duì)抗攻擊方法:

讓攻擊者(adversary)和固定受害者(victim,也就是KataGo)之間進(jìn)行博弈,利用這種方式訓(xùn)練攻擊者。

這一步改變讓他們僅用訓(xùn)練KataGo時(shí)0.3%的數(shù)據(jù),訓(xùn)練出了一個(gè)端到端的對(duì)抗策略(adversarial policy)。

具體來(lái)說(shuō),該對(duì)抗策略并不是完全在做博弈,而是通過(guò)欺騙KataGo在對(duì)攻擊者有利的位置落子,以過(guò)早地結(jié)束游戲。

以下圖為例,控制著黑子的攻擊者主要在棋盤的右上角落子,把其他區(qū)域留給KataGo,并且還心機(jī)的在其他區(qū)域下了一些容易被清理的棋子。

論文共同一作Adam Gleave介紹:

這種做法會(huì)讓KataGo誤以為自己已經(jīng)贏了,因?yàn)樗牡乇P(左下)比對(duì)手的要大得多。

但左下角的區(qū)域并沒(méi)有真正貢獻(xiàn)分?jǐn)?shù),因?yàn)槟抢锶粤粲泻谧?,這意味著它并不完全安全。

圖片

由于KataGo對(duì)勝利過(guò)于自信——認(rèn)為如果游戲結(jié)束并計(jì)算分?jǐn)?shù)自己就會(huì)贏——所以KataGo會(huì)主動(dòng)pass,然后攻擊者也pass,從而結(jié)束游戲,開(kāi)始計(jì)分。(雙方pass,棋就結(jié)束)

但正如Gleave分析的一樣,由于KataGo圍空中的黑子尚有活力,按照圍棋裁判規(guī)則并未被判定為“死子”,因此KataGo的圍空中有黑子的地方都不能被計(jì)算為有效目數(shù)。

因此最后的贏家并不是KataGo,而是攻擊者。

這一勝利并不是個(gè)例,在沒(méi)有搜索的情況下,該對(duì)抗策略對(duì)KataGo的攻擊達(dá)到了99%的勝率。

當(dāng)KataGo使用足夠的搜索接近超人的水平時(shí),他們的勝率達(dá)到了50%。

圖片

另外,盡管有這種巧妙的策略,但攻擊者模型本身的圍棋實(shí)力卻并不強(qiáng):事實(shí)上,人類業(yè)余愛(ài)好者都可以輕松地?fù)魯∷?/p>

圖片

研究者表示,他們的研究目的是通過(guò)攻擊KataGo的一個(gè)意想不到的漏洞,證明即使高度成熟的AI系統(tǒng)也會(huì)存在嚴(yán)重的漏洞。

正如共同一作Gleave所說(shuō):

(這項(xiàng)研究)強(qiáng)調(diào)了對(duì)AI系統(tǒng)進(jìn)行更好的自動(dòng)化測(cè)試以發(fā)現(xiàn)最壞情況下的失敗模式的必要性,而不僅僅是測(cè)試一般情況下的性能。

研究團(tuán)隊(duì)

該研究團(tuán)隊(duì)來(lái)自MIT、UC伯克利等,論文共同一作為Tony Tong Wang和Adam Gleave。

圖片

Tony Tong Wang,麻省理工學(xué)院計(jì)算機(jī)科學(xué)專業(yè)博士生,有過(guò)在英偉達(dá)、Genesis Therapeutics等公司實(shí)習(xí)的經(jīng)歷。

圖片

Adam Gleave,加州大學(xué)伯克利分校人工智能博士生,碩士和本科畢業(yè)于劍橋大學(xué),主要研究方向是深度學(xué)習(xí)的魯棒性。

圖片

論文的鏈接附在最后,感興趣的小伙伴們可以自取~

論文鏈接:https://arxiv.org/abs/2211.00241

參考鏈接:https://arstechnica.com/information-technology/2022/11/new-go-playing-trick-defeats-world-class-go-ai-but-loses-to-human-amateurs/

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2022-11-03 14:09:26

2023-02-20 09:39:32

2022-04-02 10:18:04

AI棋牌程序

2019-11-29 08:00:36

AI 數(shù)據(jù)人工智能

2019-11-18 10:34:24

戴爾

2018-08-31 15:37:10

數(shù)據(jù)

2023-07-13 15:10:06

2019-08-09 17:00:18

2022-02-15 14:06:26

人工智能程序員圍棋

2018-10-20 15:20:10

2022-07-01 11:06:25

AI人工智能科技巨頭

2025-02-27 09:26:58

2024-08-09 12:46:04

2017-01-05 09:09:10

2021-01-15 13:04:57

人工智能人工智能趨勢(shì)

2016-03-10 19:53:13

2009-12-04 09:57:02

微軟Linux

2019-01-25 18:37:20

AI數(shù)據(jù)科技

2022-07-06 14:51:07

人工智能技術(shù)研究

2019-05-06 14:30:40

AI人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)