自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepMind再登Science！AI「破壁者」玩心機吊打人類大師

作者：新智元 2022-12-02 15:25:03

很多AI玩撲克不行，是因為它們不會像人類一樣「玩心眼」。而DeepMind最新的DeepNash，唬起人來可是一套一套的。

近日，DeepMind的AI智能體DeepNash，在西洋陸軍棋（Stratego）中花式戰(zhàn)勝專業(yè)級人類玩家，成功躋身Top 3。

12月1日，論文正式在Science上發(fā)表。

論文地址：http://www.science.org/doi/10.1126/science.add4679

用這個AI，致敬約翰·納什

在如今這個時代，玩游戲的AI已經(jīng)發(fā)展到一個全新的階段。

以往，許多科學家會用國際象棋和圍棋訓(xùn)練AI，而DeepMind這次用的Stratego，是一款經(jīng)典的棋盤游戲，要比國際象棋和圍棋更復(fù)雜，比撲克更巧妙。

而這個名為DeepNash的AI智能體，通過與自己對戰(zhàn)的方式，從零開始學習Stratego。

現(xiàn)在，DeepNash在世界上最大的在線Stratego平臺Gravon的人類專家中，排名歷史前三。

DeepNash采用的是一種全新的打法，理論依據(jù)是博弈論和無模型深度強化學習。

看得出來，這個名字也意在致敬著名的美國數(shù)學家約翰·納什（John Nash）。

他提出的納什均衡（Nash equilibrium），又稱為非合作博弈均衡，是博弈論中非常重要的一環(huán)。

Stratego的玄機在哪里？

歷來，棋盤游戲就一直是衡量AI進步的標準，因為它能夠使我們研究人類和機器如何在受控環(huán)境中，制定和執(zhí)行策略。

而這個Stratego的玄機，究竟在哪里呢？

與國際象棋和圍棋的不同之處在于，Stratego是一種不完全信息博弈：玩家無法直接觀察對手棋子的身份。

因為這種復(fù)雜性，基于AI的Stratego系統(tǒng)，往往再努力，也就是業(yè)余水平，不可能達到「專家」的水準。

在以往，各種AI之所以在游戲中大獲全勝、完爆人類，是因為一種叫「博弈樹搜索」的AI技術(shù)。

「博弈樹搜索」雖然可以在充分掌握信息的各種游戲中大殺四方，但對于Stratego這樣的游戲，卻有些束手無策，因為它的可擴展性不夠。

而在這一點上，DeepNash就完爆了博弈樹搜索。

實際上，DeepNash掌握了Stratego的價值，已經(jīng)遠遠超越了這個游戲本身。

現(xiàn)實世界往往就是很復(fù)雜，信息是有限的。真正先進的AI系統(tǒng)，所面臨的環(huán)境就如同Stratego這樣。

DeepNash成功地向我們展示了，AI如何在不確定的情況下，成功地平衡了結(jié)果，解決了復(fù)雜的問題。

Stratego怎么玩

Stratego是一款回合制奪旗游戲。游戲中，玩家需要虛張聲勢，迂回戰(zhàn)術(shù)，收集信息，巧妙地操作。

它是一款零和博弈，所以一個玩家的任何收益，都代表著對手同等數(shù)量的損失。

聽起來似乎與我們的軍棋很像。

Stratego與軍棋的不同之處在于，它有更多數(shù)量的棋子、更多的軍銜較多，棋盤設(shè)計較簡單，沒有鐵路、行營和裁判。

雙方布陣時，要將所有棋子豎立，不能讓對方看到。

布陣完成之后，由紅方先走棋，隨后輪流移動一枚棋子。

棋子中，軍旗和地雷不能移動，偵察兵可以橫豎移動任意格，不可越過棋子，其余棋子只能橫豎走一格。

當雙方棋子在同一格內(nèi)，就一同揭開，判斷大小，勝的棋子放回原位、正面朝后，輸?shù)钠遄泳捅灰瞥?/p>

Stratego勝利方式與中國軍棋類似，以奪得對方軍旗或消滅所有能動的棋子為勝利。

為什么Stratego對于AI這么有挑戰(zhàn)性？部分原因在于，它是一種不完全信息博弈。

Stratego中的兩位玩家，在把40個棋子排成起始陣型時，是彼此隱藏的。

因為玩家無法獲得相同的知識，因此在做出任何決定時，他們都需要平衡所有可能的結(jié)果。

Stratego棋子的種類和排名

左：棋子排名。在游戲中，軍銜較高的棋子獲勝，唯一的例外是10（元帥）被間諜攻擊；炸彈總是獲勝，唯一的例外是被礦工捕獲。
中間：可能的起始陣型。旗幟要安全地藏在后面，兩側(cè)的炸彈提供保護。兩個淡藍色區(qū)域是「湖泊」，永遠不能進入。
右：一盤正在進行的游戲，可以看到，藍方的間諜捕獲了紅方的元帥。

這個游戲，把AlphaZero都難倒了

在Stratego中，信息都是隱藏的。

只有遭遇其他玩家時，對方棋子的身份才會顯露出來。

而國際象棋和圍棋的不同之處在于，它們是「完美信息博弈」，因為對戰(zhàn)雙方確切地知道每一顆棋子的位置和身份。

DeepMind的AlphaZero，在完美信息博弈中表現(xiàn)一向出色，但在Stratego中，它卻被難倒了。

在國際象棋中，AlphaZero在4小時后就超越了Stockfish；在將棋中，AlphaZero在2小時后超越了Elmo；而圍棋中，AlphaZero在30小時后超越了擊敗李世石的AlphaGo

Stratego更類似于德州撲克，需要類似人類的能力——人類需要在信息不全的情況下做出決定，還需要虛張聲勢。

美國作家杰克倫敦曾經(jīng)指出：「生活中，我們并不總是持有好牌，但有時，一手爛牌也能打得很好?！?/p>

其實很多AI也很擅長打德?lián)洌鼈兠鎸tratego時，卻懵逼了——這個游戲的流程實在是太長了！

玩家要獲勝，需要走出數(shù)百步。所以游戲中的推理，必須針對大量的連續(xù)動作，在這個過程中，很難明顯看出每個動作對于最終結(jié)果會有怎樣的影響。

國際象棋、撲克、圍棋和Strateg之間的規(guī)模差異

而且，與國際象棋、圍棋和撲克牌相比，可能的博弈狀態(tài)數(shù)量（「博弈樹復(fù)雜性」）已經(jīng)超出了圖表，解決起來更是異常困難。

而這，也正是Stratego令人如此興奮的原因——它代表了AI社區(qū)長達數(shù)十年的挑戰(zhàn)。

Stratego：AI要征服的高地

多年來，如何讓人工智能在Stratego游戲中脫穎而出，成為AI研究者的重點。

在這個游戲中戰(zhàn)勝人類玩家，主要有兩大難點。

首先，該游戲的博弈樹有10的535次方種狀態(tài)，即一局游戲中會有10的535次方種可能的布局。相比之下，圍棋的布局也只有10的360次方種可能。

其次，在Stratego中，人工智能需要推理對手超過10的66次方種部署策略，而撲克只有一千種可能出現(xiàn)的牌對。

因此，想要破解Stratego紛繁復(fù)雜的布局并非易事，如何戰(zhàn)勝人類Stratego玩家，是AI研究者面對的前所未有的挑戰(zhàn)。

如何完爆其他AI？靠R-NaD這個核心利器

DeepNash之所以完爆其他AI，是因為它采用了一種基于博弈論和無模型深度強化學習相結(jié)合的新穎方法。

「無模型」就意味著，DeepNash并沒有試圖在游戲中明確地模擬對手的狀態(tài)。

尤其是在博弈的早期階段，當DeepNash對對手的棋子知之甚少時，這種建模即使可能完成，大概率也是無效的。

而且，由于Stratego的博弈樹復(fù)雜性如此之大，DeepNash無法采用其他AI在玩游戲時用的蒙特卡洛樹搜索。后者正是AI在不太復(fù)雜的棋盤游戲和撲克中，取得里程碑式成就的關(guān)鍵。

可見，均衡策略雖然可以在對局雙方輪流行動的完全信息博弈中發(fā)揮作用，但它在不完全信息博弈中就顯得力不從心。

DeepNash采用的，是一種新的博弈論算法思想——正則化納什動態(tài)規(guī)劃（Regularized Nash Dynamic，R-NaD）。

這個無模型的強化學習算法，是DeepNash的核心。

它引導(dǎo)著DeepNash，讓它的學習行為朝著納什均衡的方向發(fā)展。

DeepNash將R-NaD與深度神經(jīng)網(wǎng)絡(luò)架構(gòu)相結(jié)合，并收斂到納什均衡。

包括三步：獎勵轉(zhuǎn)換（reward transformation）、動態(tài)規(guī)劃（dynamics）和更新迭代（udate）。

研究團隊通過重復(fù)應(yīng)用這三個步驟，直到生成一系列固定點用以證明算法收斂到原始博弈的納什均衡。

對戰(zhàn)最強的Stratego機器人（包括計算機戰(zhàn)略世界錦標賽的幾位獲勝者）時，DeepNash的勝率高達97%，經(jīng)常取得100%的勝率。

而在Gravon游戲平臺上，對抗頂級的人類玩家時，DeepNash取得了84%的勝率，贏得了歷史前三的排名。

當然，在對局中不能無限制地通過博弈論達到納什均衡，因為這種方式下玩家的勝率無法保證。

均衡策略只在完全信息博弈下充分適用，在不完全信息的游戲下，還需要別的策略才能出奇制勝。

在初始的排兵布陣上，DeepNash就采用了一些非凡的玩法。為了變得難以利用（hard to exploit），DeepNash制定了一種不可預(yù)測的策略（unpredictable strategy）。

這意味著在初期的部署上，就要足夠多變，防止對手在隨后的一系列對陣中，發(fā)現(xiàn)自己的模式。

而在博弈階段，DeepNash也會在看似相同的動作之間，盡量地隨機化（randomise），來防止自己變得可利用。

在這個過程中，隱藏信息非常重要。

隱藏信息，讓對手摸不著頭腦

現(xiàn)實場景下，人們還會用其他手段來取得勝利，如詐唬（bluffing）。

正如「博弈論之父」馮·諾伊曼所描述的那樣：「現(xiàn)實生活中充滿『虛張聲勢』、『欺騙的小伎倆』以及『猜測別人會認為我打算做什么』?！?/p>

陶哲軒的「紅眼睛與藍眼睛自殺難題」：我知道，我知道他知道，我知道他知道他知道……

在這方面，DeepNash也是不遑多讓。

研究團隊展示了DeepNash的兩種唬人技巧：主動詐唬（positive bluffing）與被動詐唬（negative bluffing）。

所謂主動詐唬，就是假裝自己的棋子等級很高，威懾對手。簡單來說就是「虛張聲勢」。

在這個例子中，DeepNash就給我們好好地上了一課：

在對戰(zhàn)人類玩家（紅方）時，DeepNash（藍方）在游戲初期以犧牲了 7（少校）和 8（上校）等棋子的代價，找出了對手的 10（元帥）， 9（將軍），一個8和兩個7。

至此，DeepNash（藍方）就找到對手的許多最強大的棋子，同時，將自己的關(guān)鍵棋子隱藏起來。

乍一看，DeepNash似乎處于明顯劣勢：它的7和8 out 了，但人類對手保留了排名7及以上的所有棋子。

但是，DeepNash笑到了最后——憑借著自己探得的對方高層的可靠情況，它估算自己的獲勝幾率為70%。

最終，它的確獲勝了。

虛張聲勢的「藝術(shù)」

在撲克中，優(yōu)秀的玩家會玩心理戰(zhàn)，即使在我方弱勢的情況下，也要讓對方形成威懾。

DeepNash也學會了這種虛張聲勢的策略——被動詐唬（negative bluffing）。

也就是我們常說的「扮豬吃老虎」：將自己等級高的棋子偽裝成等級低的棋子，等到對方上當后再一舉拿下。

在下面這個例子中，DeepNash使用2（很弱是偵察兵）去追擊對手暴露身份的8。

人類對手據(jù)此判斷，追擊者很可能是10，因此嘗試引誘它進入間諜的伏擊圈。

最終，DeepNash成功地以小博大，用小棋子2成功地滅掉了對手的關(guān)鍵棋子間諜。

人類玩家（紅方）確信追逐自己的8的未知棋子一定是 DeepNash 的 10（因為此時DeepNash已經(jīng)輸?shù)袅俗约何ㄒ坏?

以下是DeepNash與（匿名）人類專家進行的這四個完整游戲視頻，第 1場、第 2場、第 3場、第 4 場，點擊進去，你會收獲更多的驚喜。（視頻地址在引用素材中列出）

DeepNash的游戲水平讓我感到驚訝。我從未聽說過，有哪個人造Stratego玩家的水平，能接近贏得人類玩家所需的水平。

但親自與DeepNash交手后，我對它在Gravon上取得前3的排名并不驚訝。我預(yù)測：如果讓它參加人類的世界錦標賽，它會做得很好。

——Vincent de Boer，論文合著者，前Stratego世界冠軍

未來不可估量

可以看到，DeepMind的這種新穎的R-NaD方法，可以直接應(yīng)用于完美或不完美信息的其他雙人零和博弈。

R-NaD有潛力超越雙人游戲的設(shè)定，解決大規(guī)模的現(xiàn)實世界問題。

此外，R-NaD還有望在其他不同目標的領(lǐng)域，解鎖AI的新應(yīng)用。

比如在交通管理的規(guī)模優(yōu)化中，人們不清楚他人的意圖或環(huán)境信息，此時R-NaD有望優(yōu)化司機的出行時間。

人類的世界，天然地具有不可預(yù)測性。

而現(xiàn)在，人們創(chuàng)建了一個面對不確定性時具有魯棒性的通用AI系統(tǒng)，這讓我們對于人類的未來充滿了想象。

參考資料：

http://www.science.org/doi/10.1126/science.add4679

https://www.nature.com/articles/d41586-022-04246-7

https://www.deepmind.com/blog/mastering-stratego-the-classic-game-of-imperfect-information

https://youtu.be/HaUdWoSMjSY

https://youtu.be/L-9ZXmyNKgs

https://youtu.be/EOalLpAfDSs

https://youtu.be/MhNoYl_g8mo

責任編輯：武曉燕來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營