自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

游戲 AI 挑戰(zhàn)進階,即時策略游戲和非完美信息游戲成為熱點

人工智能
在這篇文章里,我們將分享幾個近年來非常成功的游戲 AI,同時介紹幾個尚未被 AI 攻克的流行游戲,它們無疑代表著未來游戲 AI 的發(fā)展方向和趨勢。

在前面兩篇文章中,我們回顧了游戲 AI 歷史上的幾個經典算法和里程碑事件,還介紹了如何從數學角度衡量象棋、圍棋、撲克、麻將等棋牌類游戲 AI 的復雜度。在這篇文章里,我們將分享幾個近年來非常成功的游戲 AI,同時介紹幾個尚未被 AI 攻克的流行游戲,它們無疑代表著未來游戲 AI 的發(fā)展方向和趨勢。

達到或超過人類水平的游戲 AI

多人德州撲克:Pluribus

不同于國際象棋和圍棋,德州撲克作為一個不完美信息游戲,有著不同的挑戰(zhàn):玩家看不見彼此的牌,并且玩家往往會利用這種不對稱進行詐唬(Bluff),從而誤導對手。AlphaGo/AlphaZero 等適用于完美信息游戲的算法無法在撲克中直接使用。在 AI 領域,德州撲克仍然被視為尚未被攻克的挑戰(zhàn)。

最近由 CMU 聯(lián)合 Facebook 開發(fā)的 Pluribus,在六人不限注德州撲克中戰(zhàn)勝了人類玩家。這些人類玩家都是曾經贏下超過百萬美金的職業(yè)選手,Pluribus 在12天之內和這些人類玩家進行了超過10,000次對局,并最終取得勝利。

Pluribus 的訓練并未借助人類牌譜,而是從零開始,通過與6個自己的副本進行對戰(zhàn),不斷提高自己的性能。在自我對局中,Pluribus 通過基于 MCCFR(Monte Carlo CFR)算法搜索和學習更好的打牌技巧,并將不同的自我對局結果稱之為藍圖(Blueprint)策略。由于不限注德州撲克的狀態(tài)空間過大,該藍圖策略只能涉及到有限的策略空間,因此在實際對戰(zhàn)中, Pluribus 會采用藍圖策略做初步決策;并在之后的對局中,通過往前搜索有限的幾步來做進一步細化的決策。Pluribus 的主要開發(fā)者 Noam Brown 相信,Pluribus 的一些策略將會改變職業(yè)玩家的打法。

但是,盡管德州撲克屬于非完美信息游戲,給定任何局面,每個對手可能的隱藏狀態(tài)數目只有一千多種(從50張牌中選擇2張)。不管是 Pluribus,還是另一個非常成功的撲克 AI DeepStack 的算法,都非常依賴于對手牌的概率分布的估計來做細粒度搜索,其實現(xiàn)難度相對可控。而這些近似算法在隱藏狀態(tài)數目大得多的游戲中(比如橋牌和麻將),是很難適用的。

游戲 AI 挑戰(zhàn)進階,即時策略游戲和非完美信息游戲成為熱點
圖1:Pluribus在和五個職業(yè)玩家的對戰(zhàn)中做了一個詐唬

星際爭霸2:AlphaStar

AlphaStar 是由 DeepMind 聯(lián)合暴雪開發(fā)的「星際爭霸2」游戲 AI,其在2019年1月戰(zhàn)勝了頂尖的職業(yè)玩家。

「星際爭霸」是一款多人即時戰(zhàn)略游戲,常見的1v1對戰(zhàn)模式中,每個玩家會從三個種族中選擇一個,在不同的地圖上進行對戰(zhàn)。游戲開始時,每個玩家會分配一些初始單位,基于這些單位,玩家需要從地圖上獲取可發(fā)展資源,并利用這些資源建造更多的單位和科技。游戲的目標是通過運營資源,制造軍隊,從而摧毀對方所有的單位。

星際爭霸玩家需要同時考慮宏觀規(guī)劃和微觀操作,游戲的時間可以長達一個小時,這意味著 AI 的策略需要有長期規(guī)劃的能力。且不同于傳統(tǒng)的棋牌游戲,星際玩家需要在短時間內連續(xù)地操作分布于不同地區(qū)的多個單位。此外,星際爭霸也是一個不完美信息游戲,初始的地圖上彌漫著一層「戰(zhàn)爭迷霧」,使得對方的信息不可見,因此玩家需要不斷地試探對方的位置,并作出相應的應對操作。

AlphaStar 使用深度神經網絡接收由暴雪提供的游戲內部信息,然后輸出一系列指令來指導 AI 做出行為選擇。該智能體首先通過學習人類玩家的對戰(zhàn)模式,然后通過多智能體(multi-agent)強化學習算法來進一步提高性能。AlphaStar 的網絡結構結合了Transformer、LSTM、Auto-Regressive policy head、指針網絡(pointer network)以及中心化評分基準(centralized value baseline)。

在監(jiān)督學習之后,AlphaStar 創(chuàng)建了一個可以讓 AI 之間自我學習的聯(lián)賽機制,通過基于人口理論的強化學習算法,使得 AI 可以在保持足夠的多樣性的前提下,能夠不斷地變得強大。由于星際爭霸2中不同的策略和種族有一些相生相克的關系,該訓練方式使得 AI 能夠朝著綜合實力更強的方向進行訓練。

AlphaStar 無疑是非常成功的,但是也有很多人持有不同的看法,在和人類的較量中,AlphaStar 仍然存在策略之外的不對等:AI 可以在極短的時間內,高細粒度地操控上百個不同的個體,進行不同的任務。這種短時間內的高細粒度、多任務的操控,與人類玩家相比,有著巨大的優(yōu)勢。此外,AlphaStar 只在特定地圖上訓練了特定的種族,仍然可能有短板。

AlphaStar 開發(fā)團隊希望他們的模型可以對其他任務有所幫助,尤其是需要對長序列進行建模,并且有很大的輸出空間的任務,比如機器翻譯、語言模型和視覺表達等。

游戲 AI 挑戰(zhàn)進階,即時策略游戲和非完美信息游戲成為熱點
圖2:AlphaStar 和 MaNa(頂級人類玩家)對戰(zhàn)的可視化。圖中展示了 AI 眼中的游戲:包括輸入到神經網絡的原始信息,神經網絡的內部激活單元,一些備選的動作以及輸贏的概率等。

Dota2:OpenAI Five

Dota2 也是一款需要多人參與的即時戰(zhàn)略游戲(MOBA),比賽由兩個隊伍進行對戰(zhàn),每個團隊由五位「英雄」組成,這些英雄往往有著不同的特色和各自的職責,因此,團隊的獲勝依賴于不同職責的選手們之間的分工合作,是一款非常強調團隊協(xié)作的游戲。和星際爭霸類似,Dota2 也是非完美信息游戲,玩家們需要搶占地圖上的不同資源和視野,最終打倒對方隊伍的核心建筑。

不同于 AlphaStar,Dota2 的訓練則完全從自我對戰(zhàn)中進行學習,通過近端策略優(yōu)化(Proximal Policy Optimization)來更新它們的神經網絡。很多研究員認為,要想解決 Dota 中的長期規(guī)劃問題,需要類似分層強化學習這樣的技術來分別處理長期和短期的規(guī)劃。但他們驚喜地發(fā)現(xiàn),僅僅通過強化學習訓練的策略也會擁有長期規(guī)劃的能力。

OpenAI Five 用五個神經網絡代表五位“英雄”。五位“英雄”的神經網絡之間并沒有顯式的連接,而是通過控制自己和團隊的獎勵(reward)的權重來學習協(xié)作。

2019年4月,OpenAI Five 在三局兩勝制的比賽中,以2-0的分數戰(zhàn)勝了 Dota2 世界冠軍 OG 俱樂部。但隨著 OpenAI Five 的策略被進一步地分析,網友們也找到了OpenAI Five 的弱點——擅長團隊作戰(zhàn)卻不擅長分推,并根據弱點定制戰(zhàn)術,戰(zhàn)勝了OpenAI Five.

游戲 AI 的下一輪挑戰(zhàn):橋牌和麻將

在以上游戲中,AI 均可以達到或者超過頂尖人類玩家的水平。而擁有廣泛群眾基礎的橋牌和麻將,因為有著諸多不同的屬性,現(xiàn)有的算法并不能很好地處理。毋庸置疑,它們將會是游戲 AI 的下一輪挑戰(zhàn)目標。

橋牌

橋牌是非完美信息4人游戲,在游戲的開始,玩家只能看見自己的手牌。橋牌分為叫牌、打牌兩個步驟。

不同于德州撲克,橋牌擁有大得多的隱藏信息,尤其是在叫牌和打牌的初期階段。計算機非常擅長在完全信息下做搜索,但人類玩家更擅長在非完美信息下進行推理和決策,而這恰恰是計算機不擅長的。此外,橋牌中4個玩家之間既有競爭又有合作,玩家在兩兩合作的同時,不僅需要估計對手的信息,還需要估計隊友的信息。

現(xiàn)在的橋牌算法會隨機生成很多次符合當前局面的對手手牌,然后使用雙明手算法(double-dummy-solver)估算出牌方式,最終選擇所有抽樣手牌中綜合性能好的出牌。這樣的算法非常依賴于隨機生成手牌的數量和質量,以及雙明手算法的性能。在游戲快結束的時候,因為隱藏的手牌不多,通過抽樣做搜索的算法可能會更加有效。

從1997年開始,每年都有世界計算機橋牌大賽,但是至今仍然沒有一個 AI 可以戰(zhàn)勝頂級的人類玩家。

麻將

麻將也是一個多人非完美信息博弈游戲,在世界各地,尤其是亞洲有著廣泛的群眾基礎。

常見的麻將由4位玩家組成,每個玩家可以有13張私有手牌。類似于圍棋,麻將有著巨大的狀態(tài)復雜度。和德州撲克相比,麻將在任一局面下,每個對手的隱藏狀態(tài)數要大出十幾個數量級,這種不確定性讓玩家很難估計對手的狀態(tài)。人類玩家在游戲的過程中,會根據“直覺”估算對手的一些影響自己決策的信息,比如聽牌狀態(tài)、聽牌分數等;而對于自己的手牌部分,往往對能夠拿到什么分數做了精確的搜索。如何平衡模糊估計和精確搜索,對 AI 來說是一個巨大的挑戰(zhàn)。

不同于德州撲克和橋牌,麻將玩家在出牌前,需要從底牌中隨機抽出一張牌替換丟掉的這張手牌。因為這張隨機抽取的底牌,麻將的強隨機性貫穿游戲的始終,并將深刻地改變游戲的結果。舉個例子,如果有兩位玩家同時聽相同的牌,最終誰是贏家,主要取決于運氣。

麻將的強隨機性將使 AI 的學習效率成為一種挑戰(zhàn)。假如我們想知道:“玩家打贏了,是因為打得好還是運氣好?”,要想得到這個答案,我們通常需要進行大量的游戲來衡量。如何在強隨機性的環(huán)境中更高效地進行自我學習,是 AI 需要解決的一個難題。

同時,由于麻將游戲強大的隨機性,如何衡量麻將 AI 的水平也是一個挑戰(zhàn)。

小結

為了解決這些新的挑戰(zhàn),未來,游戲 AI 需要具備在大量隱藏狀態(tài)下進行推理決策、高效學習的能力,也需要更強大的應對隨機事件能力和協(xié)作能力。我們期待游戲 AI 技術能夠在這些充滿挑戰(zhàn)的游戲中不斷突破,同時將從游戲中學到的經驗和能力應用在真實世界中,幫助人類更出色地完成各種復雜任務。

 

責任編輯:未麗燕 來源: 51CTO.com
相關推薦

2022-12-05 13:58:36

2010-11-30 08:44:38

2021-09-01 08:53:47

DDoS攻擊網絡攻擊網絡安全

2011-10-12 10:59:13

Linux即時戰(zhàn)略游戲

2021-03-29 23:12:51

機器學習人工智能游戲

2022-06-01 13:57:05

區(qū)塊鏈NFT游戲

2023-02-22 08:00:00

2015-07-15 14:53:38

Windows 10游戲

2013-07-24 10:10:08

2013-07-17 18:38:32

Android游戲源碼Android源碼下載Android坦克大戰(zhàn)

2021-09-23 22:25:53

人工智能科學營銷

2025-02-20 08:20:00

AISOC網絡攻擊

2012-09-26 14:02:17

游戲游戲主機云游戲

2021-09-24 21:05:57

人工智能大數據機器人

2016-04-22 14:10:51

VR大會現(xiàn)場報道袁健博

2011-12-12 13:58:11

TinyCoiOSAndroid

2011-07-18 11:07:12

iPhone 游戲 引擎

2011-07-18 10:53:09

2009-05-11 17:59:05

華碩顯卡多核
點贊
收藏

51CTO技術棧公眾號