【51CTO.com快譯】從Go到星際爭(zhēng)霸再到Dota,很多人工智能研究人員正在致力創(chuàng)建強(qiáng)化學(xué)習(xí)(RL)系統(tǒng),希望人工智能能夠在復(fù)雜的游戲中擊敗人類(lèi)。但人工智能面臨的更大挑戰(zhàn)是創(chuàng)建可以與人類(lèi)合作而不是競(jìng)爭(zhēng)的系統(tǒng)。
DeepMind公司的人工智能研究人員開(kāi)發(fā)了一種新技術(shù),以提高DL代理與不同技能水平的人類(lèi)合作的能力。該技術(shù)在2020年度NeurIPS會(huì)議上推出,其名稱(chēng)為Fictitious Co-Play(FCP),它不需要人工生成的數(shù)據(jù)來(lái)訓(xùn)練強(qiáng)化DL代理。
在使用解謎游戲Overcooked進(jìn)行測(cè)試時(shí),F(xiàn)CP創(chuàng)建了DL代理,在與人類(lèi)玩家合作時(shí)可以提供更好的結(jié)果并減少混亂。這種技術(shù)為人工智能系統(tǒng)的未來(lái)研究提供重要方向。
訓(xùn)練DL代理
強(qiáng)化學(xué)習(xí)(RL)可以不知疲倦地學(xué)習(xí)任何具有明確獎(jiǎng)勵(lì)、動(dòng)作和狀態(tài)的任務(wù)。如果有足夠的計(jì)算能力和時(shí)間,DL代理可以利用其環(huán)境學(xué)習(xí)一系列動(dòng)作或“策略”,從而最大化其獎(jiǎng)勵(lì)。事實(shí)證明,DL在玩游戲時(shí)非常有效。
但通常情況下,DL代理學(xué)習(xí)的策略與人類(lèi)玩法不兼容。當(dāng)與人類(lèi)合作時(shí),它們執(zhí)行的操作會(huì)讓人們感到困惑,這使得它們難以在需要人類(lèi)共同規(guī)劃和分工的應(yīng)用中使用。彌合人工智能與人類(lèi)之間的差距已成為人工智能社區(qū)的重要挑戰(zhàn)。
研究人員正在尋找方法來(lái)創(chuàng)建能夠適應(yīng)各種合作伙伴(包括其他DL代理和人類(lèi))習(xí)慣的多功能DL代理。
訓(xùn)練DL代理的不同方法
為游戲訓(xùn)練DL代理的傳統(tǒng)方法是自我對(duì)弈(SP),其中DL代理不斷地與自己的副本對(duì)戰(zhàn)。自我對(duì)弈(SP) 可以非常有效地快速學(xué)習(xí)策略,使游戲的回報(bào)最大化,但由此產(chǎn)生的DL模型過(guò)度擬合了自己的游戲玩法,而與以不同方式訓(xùn)練的成員合作的結(jié)果是很糟糕的。
另一種訓(xùn)練方法是群體游戲(PP),它訓(xùn)練DL代理以及具有不同參數(shù)和架構(gòu)的各種合作伙伴。群體游戲(PP)代理在競(jìng)技游戲中與人類(lèi)合作的效果比自我對(duì)弈(SP)要好得多。但它們?nèi)匀蝗狈餐貓?bào)設(shè)置所需的多樣性,在這種情況下,玩家必須共同解決問(wèn)題并根據(jù)環(huán)境的變化協(xié)調(diào)他們的策略。
另一種選擇是行為克隆游戲(BCP),它使用人工生成的數(shù)據(jù)來(lái)訓(xùn)練DL代理。BCP模型不是從隨機(jī)探索環(huán)境開(kāi)始,而是根據(jù)從人類(lèi)游戲中收集的數(shù)據(jù)來(lái)調(diào)整參數(shù)。這些代理開(kāi)發(fā)的行為更接近于人類(lèi)發(fā)現(xiàn)的游戲模式。如果數(shù)據(jù)是從具有不同技能水平和游戲風(fēng)格的不同用戶(hù)中收集的,DL代理可以更靈活地適應(yīng)合作伙伴的行為。因此,它們更有可能與人類(lèi)玩家兼容。然而,生成人類(lèi)數(shù)據(jù)具有挑戰(zhàn)性,特別是因?yàn)镈L模型通常需要大量練習(xí)能達(dá)到最佳設(shè)置的情況下。
FCP
DeepMind公司新推出的DL技術(shù)FCP的主要思想是創(chuàng)建代理,可以幫助具有不同風(fēng)格和技能水平的玩家,而無(wú)需依賴(lài)人工生成的數(shù)據(jù)。
FCP培訓(xùn)分兩個(gè)階段進(jìn)行:在第二階段,DeepMind的研究人員創(chuàng)建了一組自我對(duì)弈DL代理。這種代理是獨(dú)立訓(xùn)練的,并且具有不同的初始條件。因此它們會(huì)集中在不同的參數(shù)設(shè)置上,并創(chuàng)建一個(gè)多樣化的DL代理池。為了使代理池的技能水平多樣化,研究人員在訓(xùn)練過(guò)程的不同階段保存了每個(gè)代理的快照。
研究人員在論文中指出,“最后一個(gè)檢查點(diǎn)代表一個(gè)訓(xùn)練有素的‘熟練’伙伴,而較早的檢查點(diǎn)代表不太熟練的伙伴。值得注意的是,通過(guò)為每個(gè)合作伙伴使用多個(gè)檢查點(diǎn),這種額外的技能多樣性不會(huì)導(dǎo)致額外的培訓(xùn)成本。”
在第二階段,以代理池中的所有代理作為其合作伙伴訓(xùn)練新的DL模型。這樣,新代理必須調(diào)整其策略才能與具有不同參數(shù)值和技能水平的合作伙伴合作。DeepMind公司的研究人員寫(xiě)道:“FCP代理將跟隨人類(lèi)伙伴的腳步,并學(xué)習(xí)一系列策略和技能的通用策略。
測(cè)試FCP
DeepMind公司的人工智能研究人員將FCP應(yīng)用于Overcooked,這是一款解謎游戲,玩家必須在網(wǎng)格世界中移動(dòng),與其他玩家互動(dòng),并執(zhí)行一系列步驟來(lái)進(jìn)行烹飪和送餐。Overcooked游戲很有趣,因?yàn)樗哂蟹浅:?jiǎn)單的動(dòng)態(tài),但同時(shí)需要隊(duì)友之間的協(xié)調(diào)和勞動(dòng)力分配。
為了測(cè)試FCP,DeepMind公司簡(jiǎn)化了Overcooked以包含在整個(gè)游戲中執(zhí)行的任務(wù)的子集。人工智能研究人員還包括一系列精心挑選的地圖,這些地圖提出了各種挑戰(zhàn),例如強(qiáng)制協(xié)調(diào)和狹窄的空間。
DeepMind使用簡(jiǎn)化版的Overcooked來(lái)測(cè)試DL與FCP
研究人員訓(xùn)練了一組SP、PP、BCP和FCP代理。為了比較他們的表現(xiàn),他們首先針對(duì)三組玩家測(cè)試了每種DL代理類(lèi)型,其中包括一個(gè)基于人類(lèi)游戲數(shù)據(jù)訓(xùn)練的行為克隆(BC)模型、一組在不同技能水平上訓(xùn)練的SP代理,以及代表低技能的隨機(jī)初始化代理。他們根據(jù)在相同數(shù)量的回合中提供的食數(shù)物量來(lái)衡量表現(xiàn)。
他們的研究結(jié)果表明,F(xiàn)CP的表現(xiàn)明顯優(yōu)于所有其他類(lèi)型的DL代理,這表明它在各種技能水平和游戲風(fēng)格中都能很好地概括。此外,令人驚訝的發(fā)現(xiàn)之一是其他訓(xùn)練方法非常脆弱。研究人員寫(xiě)道:“這表明,他們可能無(wú)法與技術(shù)水平不高的代理合作。”
FCP優(yōu)于其他訓(xùn)練DL代理的方法
然后,他們測(cè)試了每種類(lèi)型的RL代理與人類(lèi)玩家合作時(shí)的表現(xiàn)。研究人員對(duì)114名人類(lèi)玩家進(jìn)行了一項(xiàng)在線(xiàn)研究,每人都玩了20個(gè)回合。在每一回合中,玩家都被放置在一個(gè)隨機(jī)的廚房中,并在不知道是哪種類(lèi)型的情況下與其中一個(gè)RL玩家組隊(duì)。
根據(jù)DeepMind的實(shí)驗(yàn)結(jié)果,人類(lèi)與FCP的組合表現(xiàn)優(yōu)于所有其他類(lèi)型的RL代理。
在每?jī)蓚€(gè)回合之后,參與者以1~5的分?jǐn)?shù)對(duì)他們與RL代理的體驗(yàn)進(jìn)行評(píng)分。參與者對(duì)FCP的偏好明顯高于其他代理,他們的反饋表明FCP的行為更加連貫、可預(yù)測(cè)和適應(yīng)性強(qiáng)。例如,RL代理似乎知道其隊(duì)友的行為,并通過(guò)在每個(gè)烹飪環(huán)境中選擇特定角色來(lái)防止混淆。
另一方面,調(diào)查參與者將其他DL代理的行為描述為“混亂且難以適應(yīng)”。
DeepMind將人類(lèi)玩家與不同的DL代理進(jìn)行組合
還有更多的工作要做
研究人員在論文中指出了他們工作的一些局限性。例如,F(xiàn)CP代理接受了32個(gè)DL合作伙伴的訓(xùn)練,這對(duì)于Overcooked的淡化版本已經(jīng)足夠了,但對(duì)于更復(fù)雜的環(huán)境可能會(huì)受到限制。DeepMind公司的研究人員寫(xiě)道:“對(duì)于更復(fù)雜的游戲,F(xiàn)CP可能需要一個(gè)不切實(shí)際的龐大合作伙伴群體規(guī)模來(lái)代表足夠多樣化的策略。”
獎(jiǎng)勵(lì)的定義是另一個(gè)限制FCP在復(fù)雜領(lǐng)域使用的挑戰(zhàn)。在Overcooked中,其獎(jiǎng)勵(lì)簡(jiǎn)單而明確。在其他環(huán)境中,RL代理必須完成子目標(biāo),直到獲得主要獎(jiǎng)勵(lì)。他們實(shí)現(xiàn)子目標(biāo)的方式需要與人類(lèi)玩家的方式兼容,這在沒(méi)有人類(lèi)玩家數(shù)據(jù)的情況下很難評(píng)估和調(diào)整。研究人員寫(xiě)道:“如果一項(xiàng)任務(wù)的獎(jiǎng)勵(lì)功能與人類(lèi)處理任務(wù)的方式不一致,那么這種方法很可能會(huì)產(chǎn)生低于標(biāo)準(zhǔn)的DL代理,就像任何無(wú)法訪問(wèn)人類(lèi)數(shù)據(jù)的方法一樣。”
DeepMind公司的研究是人類(lèi)與人工智能協(xié)作的更廣泛研究的一部分。麻省理工學(xué)院科學(xué)家最近的一項(xiàng)研究探索了DL代理在與人類(lèi)玩Hanabi紙牌游戲時(shí)的局限性。
DeepMind公司新推出的DL技術(shù)是彌合人類(lèi)和人工智能問(wèn)題解決之間差距的重要一步,而研究人員希望為研究人機(jī)協(xié)作造福未來(lái)社會(huì)奠定堅(jiān)實(shí)的基礎(chǔ)。
原文標(biāo)題:DeepMind RL method promises better co-op between AI and humans,作者:Ben Dickson
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】