自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

新聞 人工智能
在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,EA研究人員受到GAN的啟發(fā),提出了這種新方法ARLPCG (Adversarial Reinforcement Learning for Procedural Content Generation)。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

小人不斷跳躍到實(shí)時(shí)生成的平臺(tái)上、最后到達(dá)終點(diǎn)……

你以為這是個(gè)類似于微信“跳一跳”的小游戲?

但它的真實(shí)身份,其實(shí)是游戲大廠EA(美國藝電公司)最新研究出的游戲測試AI。

和普通只會(huì)打游戲的AI不同,這次EA提出的新模型不僅要讓小人成功跳到終點(diǎn),還要自己實(shí)時(shí)生成平臺(tái)來“為難”自己。

為什么要設(shè)計(jì)成這種“相愛相殺”的關(guān)系呢?

因?yàn)椋饲暗脑S多游戲測試AI往往會(huì)對(duì)訓(xùn)練中的地圖過擬合,這導(dǎo)致它們?cè)跍y試新地圖時(shí)的表現(xiàn)很差。

由此,在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,EA研究人員受到GAN的啟發(fā),提出了這種新方法ARLPCG (Adversarial Reinforcement Learning for Procedural Content Generation)。

目前,該方法的相關(guān)論文已被IEEE Conference on Games 2021接收。

用博弈論解決過擬合

其實(shí),把AI用到游戲測試,已經(jīng)不是一件新鮮事了。

此前許多游戲測試AI都用到了強(qiáng)化學(xué)習(xí)。

它的特點(diǎn)是基于環(huán)境而行動(dòng),根據(jù)從環(huán)境中獲得的獎(jiǎng)勵(lì)或懲罰(比如獲得積分、掉血等等)不斷學(xué)習(xí),從而制定出一套最佳的行動(dòng)策略。

不過研究人員發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)對(duì)于固定場景的泛化能力很差,往往會(huì)出現(xiàn)過擬合的現(xiàn)象。

比如在同樣的場景中,只用強(qiáng)化學(xué)習(xí)訓(xùn)練的情況下,小人遇到陌生路徑,就會(huì)發(fā)生“集體自殺”事件:

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

這對(duì)于測試游戲地圖哪里出現(xiàn)錯(cuò)誤而言,真的非常糟糕。

為此,EA的研究人員參考了GAN的原理來設(shè)計(jì)模型,讓AI內(nèi)部自己對(duì)抗、優(yōu)化。

具體來看,他們提出的方法ARLPCG主要由兩個(gè)強(qiáng)化學(xué)習(xí)智能體組成。

第一個(gè)智能體生成器 (Generator)主要負(fù)責(zé)生成游戲地圖,它使用了程序內(nèi)容生成(Procedural Content Generation),這是一種可以自動(dòng)生成游戲地圖或其他元素的技術(shù)。

第二個(gè)智能體是解算器 (Solver),它負(fù)責(zé)完成生成器所創(chuàng)建的關(guān)卡。

其中,解算器完成關(guān)卡后會(huì)獲得一定的獎(jiǎng)勵(lì);生成器生成具有挑戰(zhàn)性且可通過的地圖時(shí),也會(huì)獲得獎(jiǎng)勵(lì)。

訓(xùn)練過程中,兩個(gè)智能體之間會(huì)相互提供反饋,讓雙方都能拿到獎(jiǎng)勵(lì)。

最終生成器將學(xué)會(huì)創(chuàng)建各種可通過的地圖,解算器也能在測試各種地圖時(shí)變得更加通用。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

與此同時(shí),為了能夠調(diào)節(jié)關(guān)卡難度,研究人員還在模型中引入了輔助輸入 (Auxiliary input)。

通過調(diào)節(jié)這個(gè)值的大小,他們就能控制游戲的通過率。

比如,將生成器的輔助輸入設(shè)為1時(shí),它生成的平臺(tái)就會(huì)更大、間距更近,小人跳躍的難度也就更低。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

當(dāng)輔助輸入為-1時(shí),生成的平臺(tái)就會(huì)變小、間距也會(huì)拉開,能夠通關(guān)的小人隨之變少。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

結(jié)果顯示,在生成器的輔助輸入從1降至-1過程中,成功率從97%降低到了69%。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

此外,也能通過調(diào)節(jié)解算器的輔助輸入值控制通過率。

在固定路徑、規(guī)則生成路徑和對(duì)抗化生成路徑幾種情況下,通過率都隨著輔助輸入的降低而降低。

其中,對(duì)抗強(qiáng)化生成路徑的通過率明顯高于其他兩種。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

此外,因?yàn)榫哂袑?duì)未知環(huán)境泛化的能力,這個(gè)AI訓(xùn)練好后還可以被用于實(shí)時(shí)測試。

它可以在未知路段中構(gòu)建出合理的通過路線,并能反饋路徑中的障礙或其他問題的位置。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

此外,這個(gè)AI還能被用于不同的游戲環(huán)境,在這篇論文中,EA還展示了它在賽車游戲環(huán)境中的表現(xiàn)情況。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

在這個(gè)場景下,生成器可以創(chuàng)建不同長度、坡度、轉(zhuǎn)彎的路段,解算器則變成了小車在上面行駛。

如果在生成器中添加光線投射,還能在現(xiàn)有環(huán)境中導(dǎo)航。

在這種情況下,我們看到生成器在不同障礙物之間創(chuàng)建行駛難度低的軌道,從而讓小車到達(dá)終點(diǎn)(圖中紫色的球)。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

為測試大型開放游戲

論文一作Linus Gisslén表示,開放世界游戲和實(shí)時(shí)服務(wù)類游戲是現(xiàn)在發(fā)展的大勢(shì)所趨,當(dāng)游戲中引入很多可變動(dòng)的元素時(shí),會(huì)產(chǎn)生的bug也就隨之增多。

因此游戲測試變得非常重要。

目前常用的測試方法主要有兩種:一種是用腳本自動(dòng)化測試,另一種是人工測試。

腳本測試速度快,但是在復(fù)雜問題上的處理效果不好;人工測試剛好相反,雖然可以發(fā)現(xiàn)很多復(fù)雜的問題,但是效率很低。

而AI剛好可以把這兩種方法的優(yōu)點(diǎn)結(jié)合起來。

用上強(qiáng)化學(xué)習(xí)和博弈論,EA開發(fā)的測試AI成精了

事實(shí)上,EA這次提出的新方法非常輕便,生成器和求解器只用了兩層具有512個(gè)單元的神經(jīng)網(wǎng)絡(luò)。

Linus Gisslén解釋稱,這是因?yàn)榫哂卸鄠€(gè)技能會(huì)導(dǎo)致模型的訓(xùn)練成本非常高,所以他們盡可能讓每個(gè)受過訓(xùn)練的智能體只會(huì)一個(gè)技能。

他們希望之后這個(gè)AI可以不斷學(xué)習(xí)到新的技能,讓人工測試員從無聊枯燥的普通測試中解放出來。

此外EA表示,當(dāng)AI、機(jī)器學(xué)習(xí)逐漸成為整個(gè)游戲行業(yè)使用的主流技術(shù)時(shí),EA也會(huì)有充分的準(zhǔn)備。

論文鏈接:
https://arxiv.org/abs/2103.04847

參考鏈接:
[1]https://venturebeat.com/2021/10/07/reinforcement-learning-improves-game-testing-ai-team-finds/
[2]https://www.youtube.com/watch?v=z7q2PtVsT0I

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-09-10 15:10:00

智能強(qiáng)化學(xué)習(xí)框架

2018-06-21 08:51:29

強(qiáng)化學(xué)習(xí)算法人工智能

2009-07-06 18:12:07

金融危機(jī)創(chuàng)新博科資訊

2025-03-07 09:24:00

2021-08-25 08:23:51

AI數(shù)據(jù)機(jī)器學(xué)習(xí)

2023-12-01 15:37:11

2015-10-15 14:13:56

博弈論數(shù)據(jù)科學(xué)家

2021-09-24 09:35:34

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2019-01-31 10:42:04

框架AI開發(fā)

2020-11-16 08:54:05

Google 開源技術(shù)

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2024-01-26 08:31:49

2022-03-25 10:35:20

機(jī)器學(xué)習(xí)深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2022-10-12 13:35:58

智能體自我意識(shí)

2024-11-29 16:33:24

2025-02-10 13:50:00

算法模型訓(xùn)練

2023-04-06 09:06:07

模型論文

2023-03-23 16:30:53

PyTorchDDPG算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)