自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepMind再登Science!AI「破壁者」玩心機吊打人類大師

人工智能
很多AI玩撲克不行,是因為它們不會像人類一樣「玩心眼」。而DeepMind最新的DeepNash,唬起人來可是一套一套的。

近日,DeepMind的AI智能體DeepNash,在西洋陸軍棋(Stratego)中花式戰(zhàn)勝專業(yè)級人類玩家,成功躋身Top 3。

12月1日,論文正式在Science上發(fā)表。

圖片

論文地址:http://www.science.org/doi/10.1126/science.add4679

用這個AI,致敬約翰·納什

在如今這個時代,玩游戲的AI已經(jīng)發(fā)展到一個全新的階段。

以往,許多科學家會用國際象棋和圍棋訓(xùn)練AI,而DeepMind這次用的Stratego,是一款經(jīng)典的棋盤游戲,要比國際象棋和圍棋更復(fù)雜,比撲克更巧妙。

圖片

而這個名為DeepNash的AI智能體,通過與自己對戰(zhàn)的方式,從零開始學習Stratego。

現(xiàn)在,DeepNash在世界上最大的在線Stratego平臺Gravon的人類專家中,排名歷史前三。

圖片

DeepNash采用的是一種全新的打法,理論依據(jù)是博弈論和無模型深度強化學習。

看得出來,這個名字也意在致敬著名的美國數(shù)學家約翰·納什(John Nash)。

他提出的納什均衡(Nash equilibrium),又稱為非合作博弈均衡,是博弈論中非常重要的一環(huán)。

Stratego的玄機在哪里?

歷來,棋盤游戲就一直是衡量AI進步的標準,因為它能夠使我們研究人類和機器如何在受控環(huán)境中,制定和執(zhí)行策略。

而這個Stratego的玄機,究竟在哪里呢?

圖片

與國際象棋和圍棋的不同之處在于,Stratego是一種不完全信息博弈:玩家無法直接觀察對手棋子的身份。

圖片

因為這種復(fù)雜性,基于AI的Stratego系統(tǒng),往往再努力,也就是業(yè)余水平,不可能達到「專家」的水準。

在以往,各種AI之所以在游戲中大獲全勝、完爆人類,是因為一種叫「博弈樹搜索」的AI技術(shù)。

圖片

「博弈樹搜索」雖然可以在充分掌握信息的各種游戲中大殺四方,但對于Stratego這樣的游戲,卻有些束手無策,因為它的可擴展性不夠。

而在這一點上,DeepNash就完爆了博弈樹搜索。

實際上,DeepNash掌握了Stratego的價值,已經(jīng)遠遠超越了這個游戲本身。

現(xiàn)實世界往往就是很復(fù)雜,信息是有限的。真正先進的AI系統(tǒng),所面臨的環(huán)境就如同Stratego這樣。

DeepNash成功地向我們展示了,AI如何在不確定的情況下,成功地平衡了結(jié)果,解決了復(fù)雜的問題。

Stratego怎么玩

Stratego是一款回合制奪旗游戲。游戲中,玩家需要虛張聲勢,迂回戰(zhàn)術(shù),收集信息,巧妙地操作。

它是一款零和博弈,所以一個玩家的任何收益,都代表著對手同等數(shù)量的損失。

聽起來似乎與我們的軍棋很像。

Stratego與軍棋的不同之處在于,它有更多數(shù)量的棋子、更多的軍銜較多,棋盤設(shè)計較簡單,沒有鐵路、行營和裁判。

圖片

雙方布陣時,要將所有棋子豎立,不能讓對方看到。

布陣完成之后,由紅方先走棋,隨后輪流移動一枚棋子。

棋子中,軍旗和地雷不能移動,偵察兵可以橫豎移動任意格,不可越過棋子,其余棋子只能橫豎走一格。

圖片

當雙方棋子在同一格內(nèi),就一同揭開,判斷大小,勝的棋子放回原位、正面朝后,輸?shù)钠遄泳捅灰瞥?/p>

Stratego勝利方式與中國軍棋類似,以奪得對方軍旗或消滅所有能動的棋子為勝利。

圖片

為什么Stratego對于AI這么有挑戰(zhàn)性?部分原因在于,它是一種不完全信息博弈。

Stratego中的兩位玩家,在把40個棋子排成起始陣型時,是彼此隱藏的。

因為玩家無法獲得相同的知識,因此在做出任何決定時,他們都需要平衡所有可能的結(jié)果。

圖片

Stratego棋子的種類和排名

左:棋子排名。在游戲中,軍銜較高的棋子獲勝,唯一的例外是10(元帥)被間諜攻擊;炸彈總是獲勝,唯一的例外是被礦工捕獲。

中間:可能的起始陣型。旗幟要安全地藏在后面,兩側(cè)的炸彈提供保護。兩個淡藍色區(qū)域是「湖泊」,永遠不能進入。

右:一盤正在進行的游戲,可以看到,藍方的間諜捕獲了紅方的元帥。

這個游戲,把AlphaZero都難倒了

在Stratego中,信息都是隱藏的。

只有遭遇其他玩家時,對方棋子的身份才會顯露出來。

而國際象棋和圍棋的不同之處在于,它們是「完美信息博弈」,因為對戰(zhàn)雙方確切地知道每一顆棋子的位置和身份。

DeepMind的AlphaZero,在完美信息博弈中表現(xiàn)一向出色,但在Stratego中,它卻被難倒了。

圖片

在國際象棋中,AlphaZero在4小時后就超越了Stockfish;在將棋中,AlphaZero在2小時后超越了Elmo;而圍棋中,AlphaZero在30小時后超越了擊敗李世石的AlphaGo

Stratego更類似于德州撲克,需要類似人類的能力——人類需要在信息不全的情況下做出決定,還需要虛張聲勢。

美國作家杰克倫敦曾經(jīng)指出:「生活中,我們并不總是持有好牌,但有時,一手爛牌也能打得很好?!?/p>

圖片

其實很多AI也很擅長打德?lián)洌鼈兠鎸tratego時,卻懵逼了——這個游戲的流程實在是太長了!

玩家要獲勝,需要走出數(shù)百步。所以游戲中的推理,必須針對大量的連續(xù)動作,在這個過程中,很難明顯看出每個動作對于最終結(jié)果會有怎樣的影響。

圖片

國際象棋、撲克、圍棋和Strateg之間的規(guī)模差異

而且,與國際象棋、圍棋和撲克牌相比,可能的博弈狀態(tài)數(shù)量(「博弈樹復(fù)雜性」)已經(jīng)超出了圖表,解決起來更是異常困難。

而這,也正是Stratego令人如此興奮的原因——它代表了AI社區(qū)長達數(shù)十年的挑戰(zhàn)。

Stratego:AI要征服的高地

多年來,如何讓人工智能在Stratego游戲中脫穎而出,成為AI研究者的重點。

圖片

在這個游戲中戰(zhàn)勝人類玩家,主要有兩大難點。

首先,該游戲的博弈樹有10的535次方種狀態(tài),即一局游戲中會有10的535次方種可能的布局。相比之下,圍棋的布局也只有10的360次方種可能。

圖片

其次,在Stratego中,人工智能需要推理對手超過10的66次方種部署策略,而撲克只有一千種可能出現(xiàn)的牌對。

因此,想要破解Stratego紛繁復(fù)雜的布局并非易事,如何戰(zhàn)勝人類Stratego玩家,是AI研究者面對的前所未有的挑戰(zhàn)。

如何完爆其他AI?靠R-NaD這個核心利器

DeepNash之所以完爆其他AI,是因為它采用了一種基于博弈論和無模型深度強化學習相結(jié)合的新穎方法。

「無模型」就意味著,DeepNash并沒有試圖在游戲中明確地模擬對手的狀態(tài)。

尤其是在博弈的早期階段,當DeepNash對對手的棋子知之甚少時,這種建模即使可能完成,大概率也是無效的。

而且,由于Stratego的博弈樹復(fù)雜性如此之大,DeepNash無法采用其他AI在玩游戲時用的蒙特卡洛樹搜索。后者正是AI在不太復(fù)雜的棋盤游戲和撲克中,取得里程碑式成就的關(guān)鍵。

可見,均衡策略雖然可以在對局雙方輪流行動的完全信息博弈中發(fā)揮作用,但它在不完全信息博弈中就顯得力不從心。

DeepNash采用的,是一種新的博弈論算法思想——正則化納什動態(tài)規(guī)劃(Regularized Nash Dynamic,R-NaD)。

圖片

這個無模型的強化學習算法,是DeepNash的核心。

它引導(dǎo)著DeepNash,讓它的學習行為朝著納什均衡的方向發(fā)展。

圖片

DeepNash將R-NaD與深度神經(jīng)網(wǎng)絡(luò)架構(gòu)相結(jié)合,并收斂到納什均衡。

包括三步:獎勵轉(zhuǎn)換(reward transformation)、動態(tài)規(guī)劃(dynamics)和更新迭代(udate)。

圖片

研究團隊通過重復(fù)應(yīng)用這三個步驟,直到生成一系列固定點用以證明算法收斂到原始博弈的納什均衡。

對戰(zhàn)最強的Stratego機器人(包括計算機戰(zhàn)略世界錦標賽的幾位獲勝者)時,DeepNash的勝率高達97%,經(jīng)常取得100%的勝率。

而在Gravon游戲平臺上,對抗頂級的人類玩家時,DeepNash取得了84%的勝率,贏得了歷史前三的排名。

當然,在對局中不能無限制地通過博弈論達到納什均衡,因為這種方式下玩家的勝率無法保證。

均衡策略只在完全信息博弈下充分適用,在不完全信息的游戲下,還需要別的策略才能出奇制勝。

在初始的排兵布陣上,DeepNash就采用了一些非凡的玩法。為了變得難以利用(hard to exploit),DeepNash制定了一種不可預(yù)測的策略(unpredictable strategy)。

這意味著在初期的部署上,就要足夠多變,防止對手在隨后的一系列對陣中,發(fā)現(xiàn)自己的模式。

而在博弈階段,DeepNash也會在看似相同的動作之間,盡量地隨機化(randomise),來防止自己變得可利用。

在這個過程中,隱藏信息非常重要。

圖片

隱藏信息,讓對手摸不著頭腦

現(xiàn)實場景下,人們還會用其他手段來取得勝利,如詐唬(bluffing)。

正如「博弈論之父」馮·諾伊曼所描述的那樣:「現(xiàn)實生活中充滿『虛張聲勢』、『欺騙的小伎倆』以及『猜測別人會認為我打算做什么』?!?/p>

圖片

陶哲軒的「紅眼睛與藍眼睛自殺難題」:我知道,我知道他知道,我知道他知道他知道……

在這方面,DeepNash也是不遑多讓。

研究團隊展示了DeepNash的兩種唬人技巧:主動詐唬(positive bluffing)與被動詐唬(negative bluffing)。

所謂主動詐唬,就是假裝自己的棋子等級很高,威懾對手。簡單來說就是「虛張聲勢」。

在這個例子中,DeepNash就給我們好好地上了一課:

在對戰(zhàn)人類玩家(紅方)時,DeepNash(藍方)在游戲初期以犧牲了 7(少校)和 8(上校)等棋子的代價,找出了對手的 10(元帥), 9(將軍),一個8和兩個7。

圖片

至此,DeepNash(藍方)就找到對手的許多最強大的棋子,同時,將自己的關(guān)鍵棋子隱藏起來。

乍一看,DeepNash似乎處于明顯劣勢:它的7和8 out 了,但人類對手保留了排名7及以上的所有棋子。

但是,DeepNash笑到了最后——憑借著自己探得的對方高層的可靠情況,它估算自己的獲勝幾率為70%。

最終,它的確獲勝了。

虛張聲勢的「藝術(shù)」

在撲克中,優(yōu)秀的玩家會玩心理戰(zhàn),即使在我方弱勢的情況下,也要讓對方形成威懾。

DeepNash也學會了這種虛張聲勢的策略——被動詐唬(negative bluffing)。

也就是我們常說的「扮豬吃老虎」:將自己等級高的棋子偽裝成等級低的棋子,等到對方上當后再一舉拿下。

在下面這個例子中,DeepNash使用2(很弱是偵察兵)去追擊對手暴露身份的8。

人類對手據(jù)此判斷,追擊者很可能是10,因此嘗試引誘它進入間諜的伏擊圈。

最終,DeepNash成功地以小博大,用小棋子2成功地滅掉了對手的關(guān)鍵棋子間諜。

圖片

人類玩家(紅方)確信追逐自己的8的未知棋子一定是 DeepNash 的 10(因為此時DeepNash已經(jīng)輸?shù)袅俗约何ㄒ坏?

以下是DeepNash與(匿名)人類專家進行的這四個完整游戲視頻,第 1場、第 2場、第 3場、第 4 場,點擊進去,你會收獲更多的驚喜。(視頻地址在引用素材中列出)

DeepNash的游戲水平讓我感到驚訝。我從未聽說過,有哪個人造Stratego玩家的水平,能接近贏得人類玩家所需的水平。

但親自與DeepNash交手后,我對它在Gravon上取得前3的排名并不驚訝。我預(yù)測:如果讓它參加人類的世界錦標賽,它會做得很好。

——Vincent de Boer,論文合著者,前Stratego世界冠軍

未來不可估量

可以看到,DeepMind的這種新穎的R-NaD方法,可以直接應(yīng)用于完美或不完美信息的其他雙人零和博弈。

R-NaD有潛力超越雙人游戲的設(shè)定,解決大規(guī)模的現(xiàn)實世界問題。

此外,R-NaD還有望在其他不同目標的領(lǐng)域,解鎖AI的新應(yīng)用。

比如在交通管理的規(guī)模優(yōu)化中,人們不清楚他人的意圖或環(huán)境信息,此時R-NaD有望優(yōu)化司機的出行時間。

人類的世界,天然地具有不可預(yù)測性。

而現(xiàn)在,人們創(chuàng)建了一個面對不確定性時具有魯棒性的通用AI系統(tǒng),這讓我們對于人類的未來充滿了想象。

參考資料:

http://www.science.org/doi/10.1126/science.add4679

https://www.nature.com/articles/d41586-022-04246-7

https://www.deepmind.com/blog/mastering-stratego-the-classic-game-of-imperfect-information

https://youtu.be/HaUdWoSMjSY

https://youtu.be/L-9ZXmyNKgs

https://youtu.be/EOalLpAfDSs

https://youtu.be/MhNoYl_g8mo

責任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2021-07-19 16:25:50

人工智能語音安全

2023-09-20 12:58:00

訓(xùn)練研究

2022-11-24 10:39:08

AI外交

2024-11-08 12:18:39

SynthID谷歌AI

2016-09-01 09:44:56

技術(shù)

2024-05-13 13:37:10

模型數(shù)據(jù)

2022-12-09 13:54:49

編程AI

2024-09-11 13:04:53

2023-12-01 09:47:31

AI技術(shù)

2024-04-01 07:00:00

模型AI

2022-10-08 09:53:17

AI算法

2020-04-10 21:02:51

人工智能

2022-03-04 19:14:06

AI深度學習DeepMind

2016-11-29 17:13:25

大數(shù)據(jù)

2024-01-25 11:19:53

AI科學

2022-07-12 14:56:30

AI模型研究

2024-05-11 07:00:00

GPT-4AGI人腦3D地圖

2024-05-27 00:00:00

2023-09-01 13:36:24

2023-09-09 12:56:36

點贊
收藏

51CTO技術(shù)棧公眾號