OpenAI提出強(qiáng)化學(xué)習(xí)新方法:讓智能體學(xué)習(xí)合作、競爭與交流
讓智能體(agent)學(xué)會合作一直以來都是人工智能領(lǐng)域內(nèi)的一項(xiàng)重要研究課題,一些研究者也認(rèn)為合作能力是實(shí)現(xiàn)通用人工智能(AGI)的必要條件。而除了合作,讓智能體學(xué)會競爭可能也是實(shí)現(xiàn)這一目標(biāo)的一大關(guān)鍵。近日,OpenAI、麥吉爾大學(xué)和加州大學(xué)伯克利分校的幾位研究者提出了一種「用于合作-競爭混合環(huán)境的多智能體 actor-critic」。之后,OpenAI 發(fā)布博客對這項(xiàng)研究進(jìn)行了解讀,機(jī)器之心對該解讀文章進(jìn)行了編譯介紹。
讓智能體能在其中為資源進(jìn)行競爭的多智能體環(huán)境是實(shí)現(xiàn)通用人工智能之路的墊腳石。
多智能體環(huán)境(multi-agent environment)有兩個實(shí)用的屬性:***,存在一個自然的全套考驗(yàn)——環(huán)境的難度取決于你的競爭者的能力(而且如果你正在和你的克隆體進(jìn)行對抗的話,環(huán)境就可以精確地匹配出你的技術(shù)水平)。第二點(diǎn),多智能體環(huán)境沒有穩(wěn)定的平衡態(tài)(equilibrium):無論一個智能體多么聰明,總會有讓它變得更智能的壓力。這些環(huán)境和傳統(tǒng)環(huán)境相比有很大的不同,并且要想掌控它們我們還需要大量的研究。
我們已經(jīng)設(shè)計了一個新算法 MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments),可用于多智能體環(huán)境中的中心化學(xué)習(xí)(centralized learning)和去中心化執(zhí)行(decentralized execution),讓智能體可以學(xué)習(xí)彼此合作和競爭。
用來訓(xùn)練 4 個紅色智能體追逐 2 個綠色智能體的 MADDPG。紅色智能體已經(jīng)學(xué)會和「同伴」進(jìn)行團(tuán)隊(duì)合作來追逐單個綠色智能體,以獲得更高的獎勵。同時,綠色智能體學(xué)會了彼此分散,并且當(dāng)它們中的一個正在被追逐時,另一個就會嘗試接近水源(藍(lán)色圓圈)以躲避紅色智能體。
MADDPG 對 DDPG(https://arxiv.org/abs/1509.02971)這種強(qiáng)化學(xué)習(xí)算法進(jìn)行了延伸,并從 actor-critic 強(qiáng)化學(xué)習(xí)技術(shù)上獲得了靈感;也有其他研究團(tuán)隊(duì)正在探索這些思路的變體和并行實(shí)現(xiàn)的方法,參閱以下論文:
- Learning Multiagent Communication with Backpropagation:https://arxiv.org/abs/1605.07736
- Learning to Communicate with Deep Multi-Agent Reinforcement Learning:https://arxiv.org/abs/1605.06676
- Counterfactual Multi-Agent Policy Gradients:https://arxiv.org/abs/1705.08926
我們把仿真實(shí)驗(yàn)中的每一個智能體都當(dāng)作「演員(actor)」,并且每個演員都從「批評家(critic)」那里獲得建議,從而來幫助 actor 去決策哪些動作在訓(xùn)練過程中應(yīng)該被強(qiáng)化。傳統(tǒng)上,critic 會設(shè)法去預(yù)測在一個特定狀態(tài)中一個動作的價值(value,即將來期望得到的獎勵),這個獎勵會被智能體(actor)用來更新它自己的策略(policy)。和直接使用獎勵(reward)相比,這無疑是更加可靠的,因?yàn)樗梢愿鶕?jù)具體情況來進(jìn)行調(diào)整。為了讓這種方法適用于多智能體全局協(xié)同(globally-coordinated)的情況,我們改進(jìn)了我們的 critic,使它們可以獲得所有智能體的觀察結(jié)果和動作,如下圖所示。
我們的智能體無需在測試的時候有一個中心 critic;它們可以基于它們的觀察以及它們對其它智能體的行為的預(yù)測來采取行動。因?yàn)橐粋€中心化的 critic 是為每個智能體獨(dú)立學(xué)習(xí)到的,所以我們的方法也可以在多智能體之間構(gòu)造任意的獎勵結(jié)構(gòu),包括擁有相反獎勵的對抗案例。
我們在許多不同的任務(wù)上對我們的方法進(jìn)行了測試,其在所有任務(wù)上的表現(xiàn)都優(yōu)于 DDPG。在上面的動畫中你可以看到,從上到下:兩個 AI 智能體試圖到達(dá)特定地點(diǎn),學(xué)會了分開行動以向其對手智能體隱藏其目標(biāo)位置;一個智能體與另一個智能體溝通目標(biāo)的名稱;三個智能體協(xié)調(diào),在不碰撞彼此的情況下到達(dá)目標(biāo)。
使用 MADDPG(上)訓(xùn)練的紅色智能體表現(xiàn)出了比那些使用 DDPG(下)訓(xùn)練的智能體更復(fù)雜的行為。其中,紅色智能體試圖通過綠色的森林來追逐綠色的智能體,同時繞過黑色的障礙。我們的智能體可以捕捉到更多智能體,而且也看得出來,我們的智能體比 DDPG 方法訓(xùn)練的智能體合作能力更強(qiáng)。
傳統(tǒng)強(qiáng)化學(xué)習(xí)不給力的地方
傳統(tǒng)的去中心化強(qiáng)化學(xué)習(xí)方法(DDPG、actor-critic 學(xué)習(xí)和深度 Q 學(xué)習(xí)等等)難以在多智能體環(huán)境中學(xué)習(xí),因?yàn)樵诿恳粋€時間步,每個智能體都會嘗試學(xué)習(xí)預(yù)測其它智能體的動作,同時還要采取自己的行動。有競爭的情形中,尤其如此。MADDPG 使用了一種中心化的 critic 來為智能體提供補(bǔ)充,這些補(bǔ)充信息包括它們同伴的觀察和潛在動作,從而可以將一個不可預(yù)測的環(huán)境轉(zhuǎn)換成可預(yù)測的。
使用策略梯度方法會帶來進(jìn)一步的難題:因?yàn)檫@會帶來很高的方差,當(dāng)獎勵不一致時很難學(xué)習(xí)到正確的策略。我們還發(fā)現(xiàn)添加 critic 雖然可以提高穩(wěn)定性,但是仍然不能應(yīng)對我們的部分環(huán)境,比如合作交流(cooperative communication)。似乎在訓(xùn)練中考慮其它智能體的動作對學(xué)習(xí)合作策略來說非常重要。
初步研究
在我們開發(fā) MADDPG 之前,在使用去中心化技術(shù)時,我們注意到如果說話者在表達(dá)自己的去處時不一致,那么聽話者智能體(listener agent)就常常會學(xué)會忽略說話者。然后該智能體會將所有與該說話者的信息關(guān)聯(lián)的權(quán)重設(shè)置為 0,從而有效地「靜音」。一旦這種情況發(fā)生,就很難通過訓(xùn)練恢復(fù)了;因?yàn)槿狈θ魏畏答?,所以該說話者將永遠(yuǎn)無法知道它說的是否正確。為了解決這個問題,我們研究了最近一個分層強(qiáng)化學(xué)習(xí)項(xiàng)目
(https://arxiv.org/abs/1703.01161)中提出的技術(shù),這可以讓我們迫使聽話者在其決策過程中整合該說話人的表述。但這個解決方案沒有作用,因?yàn)楸M管其強(qiáng)迫聽話者關(guān)注說話者,但對說話者了解應(yīng)該說什么相關(guān)內(nèi)容卻毫無助益。我們的中心化 critic 方法有助于解決這些難題,可以幫助說話者了解哪些表述可能與其它智能體的動作相關(guān)。
下一步
在人工智能研究領(lǐng)域,智能體建模(agent modeling)可謂歷史悠久,很多場景都已經(jīng)得到過了研究。過去的很多研究都只考慮了少量時間步驟和很小的狀態(tài)空間。深度學(xué)習(xí)讓我們可以處理復(fù)雜的視覺輸入,而強(qiáng)化學(xué)習(xí)可以給我們帶來學(xué)習(xí)長時間行為的工具。現(xiàn)在,我們可以使用這些能力來一次性訓(xùn)練多個智能體,而無需它們都了解環(huán)境的動態(tài)(環(huán)境會在每個時間步驟如何變化),我們可以解決大量涉及到交流和語言的問題,同時學(xué)習(xí)環(huán)境的高維信息。以下為原論文的摘要:
論文:用于合作-競爭混合環(huán)境的多智能體 Actor-Critic(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)
論文地址:https://arxiv.org/pdf/1706.02275.pdf
我們探索了用于多智能體域(multi-agent domains)的深度強(qiáng)化學(xué)習(xí)方法。我們開始分析了傳統(tǒng)算法在多智能體案例中的困難:Q 學(xué)習(xí)(Q-learning)因?yàn)榄h(huán)境固有的非平穩(wěn)性(non-stationarity)而受到了挑戰(zhàn),而策略梯度(policy gradient)則飽受隨智能體數(shù)量增長而增大的方差之苦。然后我們提出了對 actor-critic 方法的一種調(diào)整,其考慮了其它智能體的動作策略(action policy),能夠成功學(xué)習(xí)到需要復(fù)雜多智能體協(xié)調(diào)的策略。此外,我們還引入了一種為每個智能體使用策略集成(ensemble of policies)的訓(xùn)練方案,可以得到更加穩(wěn)健的多智能體策略。我們表明了我們的方法相對于已有的方法在合作和競爭場景中的能力,其中智能體群(agent populations)能夠發(fā)現(xiàn)各種物理和信息的協(xié)調(diào)策略。
原文:https://blog.openai.com/learning-to-cooperate-compete-and-communicate/
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】