自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

新聞 人工智能 算法
在這篇論文中,研究者提出了一個在 reward-space 進行探索的新算法 RPG(Reward-Randomized Policy Gradient),并且在存在多個納什均衡 (Nash Equilibrium, NE) 的挑戰(zhàn)性的多智能任務中進行了實驗驗證。

 在這篇論文中,研究者提出了一個在 reward-space 進行探索的新算法 RPG(Reward-Randomized Policy Gradient),并且在存在多個納什均衡 (Nash Equilibrium, NE) 的挑戰(zhàn)性的多智能任務中進行了實驗驗證,實驗結果表明,RPG 的表現(xiàn)顯著優(yōu)于經(jīng)典的 policy/action-space 探索的算法,并且發(fā)現(xiàn)了很多有趣的、人類可以理解的智能體行為策略。除此之外,論文進一步提出了 RPG 算法的擴展:利用 RR 得到的多樣性策略池訓練一個新的具備自適應能力的策略。

在法國啟蒙思想家盧梭(Jean-Jacques Rousseau)的《論人類不平等起源》中,提到這樣一個獵鹿(StagHunt)故事:一群獵人安靜地在陷阱旁等待鹿的出現(xiàn),獵到鹿的收益較大,可以讓所有獵人都吃飽,但是由于鹿十分機敏,需要大家都耐心等待。這個時候一只兔子出現(xiàn)了,兔子體型較小,一人便可以成功捕獵,但是相應的收益也很小。

于是每一個獵人有了兩個選擇:繼續(xù)等待鹿的出現(xiàn)還是立刻跳起來捕兔?如果獵人選擇立刻捕兔,那么他可以捕到兔,得到較小的收益;如果獵人選擇繼續(xù)等待鹿,若所有其他獵人也都選擇了繼續(xù)等待鹿,那么他們最終可以獵到鹿,得到最大收益,但是一旦有任何一個其他獵人選擇立刻捕兔,那么選擇等待鹿的獵人只能挨餓(既沒有捕兔,也沒有機會再獵到鹿)。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 1:StagHunt 游戲,a>b>=d>c

我們考慮 2 個獵人的情況,然后把各種情況的收益抽象出來,就引出了博弈論中非常經(jīng)典的 2x2 矩陣游戲 StagHunt。如圖 1 所示,每個獵人可以執(zhí)行兩種動作:獵鹿(Stag,縮寫為 S)和捕兔(Hare,縮寫為 H),如果兩個獵人都選擇獵鹿(S,S),可以得到最大收益 a(吃飽);如果兩人都選擇捕兔(H,H),得到較小收益 d(需分享兔子);如果一人獵鹿一人捕兔(S,H),那么捕兔的人得到收益 b(獨自吃兔),而獵鹿的人得到最小收益 c(挨餓)。這些收益情況滿足大小關系 a (吃飽)> b (獨自吃兔子)>=d (兩個人分享兔子)> c (挨餓)。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 2:PPO 在 StagHunt 游戲中的表現(xiàn),其中,a=4,b=3,d=1,10 個隨機種子

在這個游戲中存在兩個純策略納什均衡(Nash Equilibrium,NE):一個是Stag NE,即兩個獵人都選擇等待鹿,每一個獵人都可以得到很高的回報,但這是一個風險很高的合作策略。因為一旦其中一個獵人選擇不合作,該獵人本身的收益不會發(fā)生劇烈變化 -- 從最大收益 a(吃飽)變?yōu)槭找?b(獨自吃兔),然而,對另一名獵人來說損失卻是巨大的 -- 從最大收益 a(吃飽)變?yōu)樽钚∈找?c(挨餓)。而這個損失(也就是 a-c)越大,意味著獵人選擇合作的風險也就越高。另一個納什均衡是Hare NE,即兩個獵人都選擇捕兔,盡管每個獵人只能得到較低的回報,但這是一個保守的策略,因為無論對方怎么選,自己都會獲得一定的收益 -- 對方選獵鹿,自己獲得較大收益 b(獨自吃兔),對方選捕兔,自己獲得較小收益 d(分享兔子)。在這個任務中,現(xiàn)有的強化學習算法會收斂到哪個 NE 呢?作者做了一個實驗,固定 a=4,b=3,d=1,變化 c 的取值,從圖 2 可以看出:獨自獵鹿的懲罰越大,現(xiàn)有的算法收斂到 Stag NE 的概率會越低,也就是更傾向于選擇保守的捕兔策略。這與之前的分析是也是吻合的。

那么,如何才能讓強化學習收斂到收益最優(yōu)的策略呢?為了解決這個問題,來自清華大學、北京大學、UC 伯克利等機構的研究者提出了一個簡單有效的技術,獎勵隨機化(Reward Randomization,RR)。不同于傳統(tǒng)強化學習中的在狀態(tài)空間(state-space)中進行探索(exploration)的方法,獎勵隨機化是一個在獎勵空間(reward-space)進行探索的方法。這項研究已被 ICLR 2021 大會接收為 Poster 論文。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

論文地址:
https://arxiv.org/abs/2103.04564

如圖 3 所示,在一個獎勵設置比較極端的游戲里,強化學習通常很難探索到最優(yōu)策略(左圖,灰色區(qū)域表示可能收斂到最優(yōu)解的子空間,由于獎勵極端而非常狹小);但是同樣的策略在其他獎勵設置的游戲中可能很容易被探索到(右圖)。這就演變出論文的核心觀點:通過獎勵隨機化對原始游戲(StagHunt)的獎勵(reward)進行擾動,將問題轉化為在擾動后的游戲中尋找合作策略,然后再回到原始游戲中進行微調(fine-tune),進而找到最優(yōu)策略。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 3:獎勵隨機化的示意圖

進一步地,論文將獎勵隨機化和策略梯度法(Policy Gradient,PG)相結合,提出一個在 reward-space 進行探索的新算法 RPG(Reward-Randomized Policy Gradient)。實驗結果表明,RPG 的表現(xiàn)顯著優(yōu)于經(jīng)典的 policy/action-space 探索的算法,并且作者還利用 RPG 發(fā)現(xiàn)了很多有趣的、人類可以理解的智能體行為策略。

首先,論文在 GridWorld 中進行了實驗,其中有一個任務叫 Monster-Hunt(如圖 4 所示),這個任務設定是這樣的:圖中分別用黃色和藍色表示兩個智能體(Agent),他們可以在 5*5 格子中移動,紅色表示怪獸(Monster),怪獸可以在格子中隨機游走,并且怪獸有一個特點是它會朝著離自己最近的智能體移動。綠色表示食物蘋果(Apple),蘋果不能移動。如果兩個智能體同時碰到了怪獸,那么每個智能體將會獲得 + 5 獎勵,如果智能體單獨碰到了怪獸,那么他將會受到 - 2 懲罰,智能體也可以吃蘋果,每個蘋果將會帶來 + 2 獎勵。顯然,在這個任務中存在兩個納什均衡,即兩個智能體同時遇到怪獸(高風險,高收益)或者各自去吃蘋果(低風險,低收益)。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 4:Monster-Hunt 任務示意圖

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 5:在 Monster-Hunt 任務中不同算法的性能對比

圖 5 給出了 RPG 與不同算法對比的結果,這些算法包括標準的策略梯度法、智能體共享獎勵的策略梯度法、population-based 算法和一些探索(exploration)算法,包括 MAVEN, Count-based 和 Diayn??梢钥闯?RPG 在這個任務中顯著優(yōu)于 baseline。并且從圖中可以注意到,即便 RR 階段并沒有找到最優(yōu)策略,RPG 依然可以通過 fine-tune 階段進一步提升性能,找到最優(yōu)策略。那么,RPG 到底發(fā)現(xiàn)了哪些策略呢?除了自然的各自單獨吃蘋果和單獨碰到 Monster,作者還發(fā)現(xiàn)了另外兩種合作策略:圖 6(a)展示的是發(fā)現(xiàn)的次優(yōu)合作策略,游戲開始后,兩個智能體會移動到 5*5 格子的同一個角落,然后合體原地不動,因為怪獸的一個特點是會朝著離自己最近的智能體移動,因此兩個智能體原地不動也會一起碰到怪獸,得到較高的收益,這個合作策略看起來也十分合理,那么還有沒有更優(yōu)的合作策略呢?答案是有的,圖 6(b)展示的是 RPG 發(fā)現(xiàn)的最優(yōu)策略,游戲開始后,兩個智能體會首先匯合,然后合體一起朝著怪獸移動,加上怪獸也會朝著智能體移動,這就大大加快了一起碰到怪獸的速度,因而可以得到更高的收益。圖 7 是最優(yōu)合作策略的演示動圖。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 6:Monster-Hunt 任務中兩種不同合作策略

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 7 Monster-Hunt 任務中最優(yōu)合作策略演示

接下來介紹在論文中首次開源的新環(huán)境 Agar.io,這也是該論文的一大貢獻。Agar.io 是一個非常流行的在線多玩家游戲(游戲地址:http://agar.io),每個玩家可以通過鼠標控制運動方向來吃掉比自己小的智能體(可以是食物,也可以是其他玩家)。論文只考慮 2 個玩家的情況,下圖(a)表示任務的示意圖,同樣用黃色和藍色表示兩個智能體。紅色表示地圖中隨機生成的食物,玩家通過吃掉食物或者其他比自己小的玩家來獲得獎勵(獎勵大小等于吃掉的質量),同理如果丟掉了質量也會受到相當?shù)膽土P。下圖(b)表示的是玩家常見的行為,例如用過分裂(Split)提高移動速度完成捕食,分裂后的部分也可以合并(Merge)。隨著智能體質量的增大,移動速度也越來越慢,因此捕獵的難度也越來越大,玩家需要合作才能獲得更高的收益。然而,當兩個玩家距離較近時,質量較大的玩家極有可能選擇攻擊對于質量較小的玩家,從而立刻獲得獎勵,導致合作破裂。因此,對于質量較小的玩家,這種合作策略風險很高。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖7 Agar.io 任務示意圖

如果你是玩家,你會選擇什么策略呢?帶著這個問題,看一下 RPG 發(fā)現(xiàn)的 7 種有趣的、人類可以理解的玩家策略。

(1)Cooperative strategy(合作策略,圖 8):兩個玩家合作將食物驅趕至某一區(qū)域,然后分別捕食。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 8 (a)Agar.io 任務中的合作策略(Cooperate)

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 8 (b)合作演示

(2)Aggressive strategy(傾向攻擊策略,圖 9):兩個玩家當兩個玩家距離較近時,質量較大的玩家選擇捕食質量較小玩家。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 9 (a)Agar.io 任務中的攻擊策略(Attack)

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 9 (b)攻擊演示

(3)Non-cooperative strategy(非合作策略,圖 10):兩個玩家各自單獨捕食。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 10 Agar.io 任務中單獨捕食策略(Non-cooperate)

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 11 Agar.io 任務中偶爾攻擊策略(Aggressive cooperative)

(4)Aggressive cooperative strategy(偶爾攻擊策略,圖 11):兩個玩家大部分時間選擇合作,偶爾也會發(fā)生攻擊行為。

(5)Sacrifice strategy(獻祭策略,圖 12):游戲開始后,兩個玩家各自捕食,一段時間后,質量較小的玩家會在地圖邊界等待,將自己獻祭給質量較大的玩家,由質量較大的玩家控制所有質量進行捕食。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 12 (a)Agar.io 任務中獻祭策略(Sacrifice)

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 12 (b)獻祭演示

(6)Perpetual strategy(永動機策略,圖 13):游戲開始后,兩個玩家各自捕食,一段時間后,質量較大的玩家會在地圖邊界等待,質量較小的玩家驅趕食物向質量較大玩家靠攏,然后捕食,之后質量較大的玩家會非常小心地吃掉一部分質量較小的玩家,而質量較小的玩家剩下的部分會繼續(xù)出去驅趕食物。一段時間后,兩個玩家會交換角色,周而復始,因此稱為永動機。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 13 (a)Agar.io 任務中永動機策略(Perpetual)

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 13 (b)永動機演示

(7)Balance strategy(均衡策略,圖 14):由 RPG fine-tune 之后得到的最優(yōu)策略實際上是一種在互相獻祭,單獨捕食和合作之間的平衡策略,從圖 14 可以看出,盡管 RPG 學到的策略合作行為略低,但它的收益最高。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 14 RPG 學出了均衡策略(Balance)

論文的最后給出了 RPG 算法的擴展:利用策略隨機化得到的多樣性策略池訓練一個新的具備自適應能力的策略(Adaptive policy),為了驗證策略的適應性,作者在 Agar.io 種做了一個很有趣的實驗:在游戲玩到一半時切換對手玩家的策略,然后與 Oracle 策略進行對比,如圖 15 所示。例如,當對手玩家策略由合作型切換為競爭型,Adaptive 策略得到的獎勵略低于競爭型策略,但顯著高于合作型策略;當對手玩家策略由競爭型切換為合作型,Adaptive 策略得到的獎勵略低于合作型策略,但顯著高于競爭型策略。證明訓練后的策略確實具有自適應性。

獎勵隨機化發(fā)現(xiàn)多智能體游戲中多樣性策略行為,研究者提全新算法

圖 15 Agar.io 任務中 Adaptive 策略與 Oracle 策略結果對比,注意,只統(tǒng)計切換策略后的獎勵

以上就是論文的主要內容,更多詳細的實驗和分析可以查看論文原文,論文的源碼以及開發(fā)的 Agar.io 環(huán)境已經(jīng)開源,代碼指路:
https://github.com/staghuntrpg/RPG。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2025-03-14 09:59:54

2009-12-22 09:56:36

2020-08-11 23:19:08

人工智能生物多樣性A

2024-06-24 00:20:00

AI人工智能獎勵篡改

2022-05-29 07:31:14

加密密碼數(shù)據(jù)安全

2025-04-14 09:50:00

模型生成AI

2017-03-16 13:28:25

VR人工智能 API

2024-05-06 07:30:00

機器狗AI

2020-03-09 20:52:43

數(shù)據(jù)多模型數(shù)據(jù)庫數(shù)據(jù)庫

2022-05-13 09:52:52

Google膚色研究開源

2021-01-14 10:04:29

人工智能AI機器學習

2013-08-22 13:44:30

Linux桌面GNOME桌面

2021-02-26 01:01:51

影子攻擊漏洞攻擊

2022-03-28 08:41:27

惡意軟件勒索軟件網(wǎng)絡攻擊

2017-12-12 09:06:14

UbuntuMAC地址網(wǎng)絡管理器

2022-09-30 08:17:30

2D游戲算法

2020-11-04 10:29:42

數(shù)據(jù)分析工作多樣性大數(shù)據(jù)

2014-04-16 13:24:42

點贊
收藏

51CTO技術棧公眾號