多智能體系統(tǒng)的合作之道:對MAS不確定性、社會機(jī)制與強(qiáng)化學(xué)習(xí)的探索
多智能體系統(tǒng)(MAS)是由多個(gè)自主智能體組成的系統(tǒng),它們可以相互交互和協(xié)作,以完成一些共同或個(gè)人的目標(biāo)。多智能體系統(tǒng)在許多領(lǐng)域都有廣泛的應(yīng)用,如機(jī)器人、交通、電力、社交網(wǎng)絡(luò)等。但是如何促進(jìn)智能體之間的合作行為一直是這一領(lǐng)域的難題,特別是在激勵(lì)機(jī)制不確定的情況下。激勵(lì)機(jī)制不確定是指智能體對于與其他智能體交互的收益和風(fēng)險(xiǎn)的認(rèn)知存在不確定性,這可能導(dǎo)致智能體的行為偏離最優(yōu)或最合理的選擇,從而影響系統(tǒng)的整體效率和穩(wěn)定性。
為了探索多智能體系統(tǒng)在激勵(lì)機(jī)制不確定下的新興合作,荷蘭格羅寧根大學(xué)、阿姆斯特丹大學(xué)和布魯塞爾自由大學(xué)的四位研究者在2024年的AAMAS會議上發(fā)表了一篇論文,題為《Emergent Cooperation under Uncertain Incentive Alignment》。這篇論文的創(chuàng)新點(diǎn)和價(jià)值在于:
1)提出一種基于擴(kuò)展的公共物品游戲(EPGG)的實(shí)驗(yàn)框架,用來模擬多智能體系統(tǒng)在不同類型的游戲環(huán)境中的交互和學(xué)習(xí),包括完全合作、完全競爭、混合動(dòng)機(jī)和閾值四種情況。這種框架可以通過調(diào)節(jié)一個(gè)連續(xù)的乘法因子??來表示不同的激勵(lì)對齊程度,從而覆蓋了多智能體系統(tǒng)可能面臨的各種場景。
2)引入一種高斯噪聲的模型,用來模擬智能體對于乘法因子??的不確定性,即智能體觀察到的??值是真實(shí)??值加上一個(gè)隨機(jī)誤差。這種模型可以反映智能體在真實(shí)世界中的信息不完全和不準(zhǔn)確的情況,從而增加了實(shí)驗(yàn)的逼真度和復(fù)雜度。
3)探討三種社會機(jī)制對于智能體合作行為的影響,分別是聲譽(yù)機(jī)制、引導(dǎo)代理和內(nèi)在獎(jiǎng)勵(lì)機(jī)制。聲譽(yù)機(jī)制是指智能體根據(jù)自己和對手的行為和聲譽(yù)來更新自己的聲譽(yù),從而影響自己的策略選擇。引導(dǎo)代理是指一些固定的智能體,它們總是選擇合作行為,并且對其他智能體的聲譽(yù)有更大的影響。內(nèi)在獎(jiǎng)勵(lì)機(jī)制是指智能體除了從環(huán)境中獲得的獎(jiǎng)勵(lì)外,還會根據(jù)自己的行為和聲譽(yù)獲得一些額外的獎(jiǎng)勵(lì),從而激勵(lì)自己更加合作。
4)他們使用兩種強(qiáng)化學(xué)習(xí)的算法,分別是Q-learning和DQN,來訓(xùn)練一組10個(gè)智能體在不同的游戲環(huán)境中進(jìn)行多輪的EPGG游戲,并且分析了不同的社會機(jī)制對于智能體的平均合作率的影響。平均合作率是指智能體選擇合作行為的平均相對頻率,可以反映智能體的合作水平和傾向。
本文將對這篇論文的主要內(nèi)容和結(jié)論進(jìn)行解讀和分析,幫助讀者更好地理解多智能體系統(tǒng)在激勵(lì)機(jī)制不確定下的新興合作的問題和方法。
模型規(guī)則與特點(diǎn)
首先,我們來介紹一下擴(kuò)展的公共物品游戲(EPGG)的基本規(guī)則和特點(diǎn)。EPGG是一種經(jīng)典的博弈論模型,用來研究多個(gè)參與者之間的合作與背叛的問題。在EPGG中,每個(gè)參與者都有一個(gè)固定的財(cái)富??,他們可以選擇將一部分或全部的財(cái)富投入到一個(gè)公共池中,或者保留自己的財(cái)富不投入。然后公共池中的財(cái)富會被乘以一個(gè)乘法因子??,再平均分配給所有的參與者。乘法因子??可以反映公共物品的生產(chǎn)效率和價(jià)值,它的大小決定了游戲的性質(zhì)。如果??大于參與者的人數(shù)??,那么游戲是合作的,即所有人都投入全部財(cái)富是最優(yōu)的策略。如果??小于1,那么游戲是競爭的,即所有人都不投入任何財(cái)富是最優(yōu)的策略。如果??在1和??之間,那么游戲是混合動(dòng)機(jī)的,即存在多個(gè)均衡,而且每個(gè)人的最優(yōu)策略取決于其他人的策略。如果??等于1或??,那么游戲是閾值的,即任何策略都是均衡,而且每個(gè)人的收益都相同。
圖1:配置文件的條目??和??(????) 是指標(biāo)函數(shù),如果代理的動(dòng)作,則等于1??是合作的,否則為0,并且????表示???第個(gè)條目共??. 因?yàn)槲覀兗僭O(shè)1<?? < ??, 很容易檢驗(yàn),在PGG中,所有代理叛逃的配置文件是一個(gè)主導(dǎo)策略平衡,而Pareto最優(yōu)配置文件是所有代理合作的配置文件。這反映了PGG的社會困境本質(zhì)。特別是對于?? = 2 PGG定義了一類囚犯困境游戲。
在論文中作者使用了擴(kuò)展的EPGG模型,它有以下幾個(gè)特點(diǎn):
使用一個(gè)連續(xù)的乘法因子??,而不是離散的幾個(gè)值,這樣可以覆蓋更多的游戲環(huán)境,也可以增加游戲的難度和復(fù)雜度。
使用高斯噪聲的模型,來模擬智能體對于乘法因子??的不確定性,即智能體觀察到的??值是真實(shí)??值加上一個(gè)隨機(jī)誤差。這種模型可以反映智能體在真實(shí)世界中的信息不完全和不準(zhǔn)確的情況,也可以考察智能體如何在不確定的環(huán)境中做出決策。
使用一個(gè)聲譽(yù)機(jī)制來模擬智能體之間的信任和評價(jià),即智能體根據(jù)自己和對手的行為和聲譽(yù)來更新自己的聲譽(yù),從而影響自己的策略選擇。聲譽(yù)機(jī)制可以反映智能體之間的社會規(guī)范和影響,也可以激勵(lì)智能體更加合作。
使用了一個(gè)內(nèi)在獎(jiǎng)勵(lì)機(jī)制來模擬智能體的自我激勵(lì)和滿足,即智能體除了從環(huán)境中獲得的獎(jiǎng)勵(lì)外,還會根據(jù)自己的行為和聲譽(yù)獲得一些額外的獎(jiǎng)勵(lì),從而激勵(lì)自己更加合作。內(nèi)在獎(jiǎng)勵(lì)機(jī)制的具體實(shí)現(xiàn)是這樣的,智能體會維護(hù)一個(gè)自己的聲譽(yù)值,初始為0,每次與其他智能體交互后,根據(jù)自己和對方的行為,更新自己的聲譽(yù)值。如果自己選擇合作,聲譽(yù)值增加1;如果自己選擇背叛,聲譽(yù)值減少1;如果對方選擇合作,聲譽(yù)值不變;如果對方選擇背叛,聲譽(yù)值減少2。聲譽(yù)值的范圍是[-10, 10],如果超過這個(gè)范圍,就截?cái)酁檫吔缰?。智能體的內(nèi)在獎(jiǎng)勵(lì)就是自己的聲譽(yù)值乘以一個(gè)系數(shù)??,??是一個(gè)正的超參數(shù),用來控制內(nèi)在獎(jiǎng)勵(lì)的強(qiáng)度。智能體的總獎(jiǎng)勵(lì)就是外在獎(jiǎng)勵(lì)和內(nèi)在獎(jiǎng)勵(lì)的和。
訓(xùn)練過程
接下來我們來看一下作者使用Q-learning和DQN算法訓(xùn)練智能體的具體過程和結(jié)果。Q-learning是一種基于表格的強(qiáng)化學(xué)習(xí)算法,它可以讓智能體通過不斷地嘗試和反饋,學(xué)習(xí)到一個(gè)動(dòng)作值函數(shù),即每個(gè)狀態(tài)和動(dòng)作對應(yīng)的期望收益。DQN是一種基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法,它可以讓智能體通過不斷地觀察和學(xué)習(xí),近似地?cái)M合一個(gè)動(dòng)作值函數(shù),從而適應(yīng)更復(fù)雜和高維的狀態(tài)空間。作者使用了這兩種算法,來比較它們在不同的游戲環(huán)境和社會機(jī)制下的表現(xiàn)和差異。
圖2:在不同倍增因子的環(huán)境中訓(xùn)練的DQN代理的平均合作。最上面一行(a-d)顯示了在沒有合作輔助機(jī)制的情況下的結(jié)果,中間一行(e-h)顯示了存在聲譽(yù)機(jī)制和有助于合作的社會規(guī)范的情況,最下面一行(i-l)顯示了有內(nèi)在獎(jiǎng)勵(lì)的情況。
作者首先在沒有不確定性的情況下,使用Q-learning算法訓(xùn)練智能體,觀察它們在不同的乘法因子??下的平均合作率。作者發(fā)現(xiàn),當(dāng)?? = 0.5時(shí),智能體的平均合作率接近于0,即智能體幾乎都選擇背叛行為,這與理論上的最優(yōu)策略一致。當(dāng)?? = 1.0時(shí),智能體的平均合作率略高于0,即智能體偶爾會選擇合作行為,這可能是由于智能體的探索行為或者學(xué)習(xí)的不完全導(dǎo)致的。當(dāng)?? = 1.5時(shí),智能體的平均合作率達(dá)到了0.78,即智能體大部分時(shí)候會選擇合作行為,這表明智能體能夠在混合動(dòng)機(jī)的游戲中實(shí)現(xiàn)合作的均衡。當(dāng)?? = 3.5時(shí),智能體的平均合作率接近于1,即智能體幾乎都選擇合作行為,這也與理論上的最優(yōu)策略一致。
作者在引入不確定性的情況下,使用DQN算法訓(xùn)練智能體,觀察它們在不同的乘法因子??下的平均合作率。作者發(fā)現(xiàn),當(dāng)?? = 0.5時(shí),智能體的平均合作率略高于0.1,即智能體偶爾會選擇合作行為,這可能是由于不確定性的影響,使得智能體對于背叛的收益不太確定。當(dāng)?? = 1.0時(shí),智能體的平均合作率略高于0.1,即智能體偶爾會選擇合作行為,這與Q-learning的結(jié)果相似。當(dāng)?? = 1.5時(shí),智能體的平均合作率降低到了0.16,即智能體大部分時(shí)候會選擇背叛行為,這表明不確定性對于混合動(dòng)機(jī)的游戲有很大的負(fù)面影響,使得智能體無法達(dá)成合作的均衡。當(dāng)?? = 3.5時(shí),智能體的平均合作率降低到了0.4,即智能體只有一半的概率會選擇合作行為,這表明不確定性也對于合作的游戲有一定的負(fù)面影響,使得智能體無法達(dá)到最優(yōu)的策略。
作者在引入聲譽(yù)機(jī)制的情況下,使用DQN算法訓(xùn)練智能體,觀察它們在不同的乘法因子??下的平均合作率。作者發(fā)現(xiàn),當(dāng)?? = 0.5時(shí),智能體的平均合作率略高于0.2,即智能體偶爾會選擇合作行為,這與沒有聲譽(yù)機(jī)制的情況相似。當(dāng)?? = 1.0時(shí),智能體的平均合作率略高于0.2,即智能體偶爾會選擇合作行為,這與沒有聲譽(yù)機(jī)制的情況相似。當(dāng)?? = 1.5時(shí),智能體的平均合作率提高到了0.33,即智能體有一定的概率會選擇合作行為,這表明聲譽(yù)機(jī)制對于混合動(dòng)機(jī)的游戲有一定的正面影響,使得智能體能夠識別和合作有利的伙伴。當(dāng)?? = 3.5時(shí),智能體的平均合作率提高到了0.65,即智能體大部分時(shí)候會選擇合作行為,這表明聲譽(yù)機(jī)制對于合作的游戲有很大的正面影響,使得智能體能夠達(dá)到接近最優(yōu)的策略。
圖3:在不確定性條件下,在具有不同倍增因子的環(huán)境中訓(xùn)練的DQN代理的平均合作(???? = 2 ??? ∈ ??). 結(jié)果顯示在四行中:第一行沒有聲譽(yù)或內(nèi)在獎(jiǎng)勵(lì),第二行有聲譽(yù)和有助于合作的社會規(guī)范,第三行有內(nèi)在獎(jiǎng)勵(lì)公式,第四行有聲譽(yù)、有助于協(xié)作的社會規(guī)范和內(nèi)在獎(jiǎng)勵(lì)公式。
最后作者在引入內(nèi)在獎(jiǎng)勵(lì)機(jī)制的情況下,使用DQN算法訓(xùn)練智能體,觀察它們在不同的乘法因子??下的平均合作率。作者發(fā)現(xiàn),當(dāng)?? = 0.5時(shí),智能體的平均合作率提高到了0.31,即智能體有一定的概率會選擇合作行為,這表明內(nèi)在獎(jiǎng)勵(lì)機(jī)制對于競爭的游戲有一定的正面影響,使得智能體能夠獲得更多的滿足感。當(dāng)?? = 1.0時(shí),智能體的平均合作率提高到了0.36,即智能體有一定的概率會選擇合作行為,這表明內(nèi)在獎(jiǎng)勵(lì)機(jī)制對于閾值的游戲有一定的正面影響,使得智能體能夠獲得更多的滿足感。當(dāng)?? = 1.5時(shí),智能體的平均合作率降低到了0.45,即智能體只有一半的概率會選擇合作行為,這表明內(nèi)在獎(jiǎng)勵(lì)機(jī)制對于混合動(dòng)機(jī)的游戲有一定的負(fù)面影響,使得智能體更傾向于自我博弈而不是與其他智能體合作。當(dāng)?? = 3.5時(shí),智能體的平均合作率提高到了0.78,即智能體大部分時(shí)候會選擇合作行為,這表明內(nèi)在獎(jiǎng)勵(lì)機(jī)制對于合作的游戲有一定的正面影響,使得智能體能夠獲得更多的滿足感。
實(shí)驗(yàn)結(jié)論
通過上述的實(shí)驗(yàn)結(jié)果,我們可以得出以下的結(jié)論和觀點(diǎn)。
不確定性對于智能體的合作行為有很大的負(fù)面影響,特別是在混合動(dòng)機(jī)和合作的游戲中,使得智能體無法達(dá)成合作的均衡或最優(yōu)的策略。這可能是因?yàn)椴淮_定性增加了智能體的風(fēng)險(xiǎn)和不信任,使得智能體更難以判斷其他智能體的行為和意圖,從而更傾向于選擇保守或自私的行為。
聲譽(yù)機(jī)制對于智能體的合作行為有很大的正面影響,特別是在混合動(dòng)機(jī)和合作的游戲中,使得智能體能夠識別和合作有利的伙伴。這可能是因?yàn)槁曌u(yù)機(jī)制增加了智能體的信任和評價(jià),使得智能體更容易判斷其他智能體的行為和意圖,從而更傾向于選擇合作或互惠的行為。
圖4:每場比賽的合作平均值和標(biāo)準(zhǔn)差,是過去 50 個(gè)訓(xùn)練周期的平均值具有不確定性的實(shí)驗(yàn)。這些措施針對兩種情況分別報(bào)告:一種情況是只有聲譽(yù)啟用機(jī)制(R)以及同時(shí)采用聲譽(yù)機(jī)制和內(nèi)在獎(jiǎng)勵(lì)的機(jī)制(RI)。價(jià)值觀表現(xiàn)出統(tǒng)計(jì)顯著性的內(nèi)容以粗體顯示。
內(nèi)在獎(jiǎng)勵(lì)機(jī)制對于智能體的合作行為有不同的影響,取決于游戲的性質(zhì)和其他社會機(jī)制的存在。在競爭和閾值的游戲中,內(nèi)在獎(jiǎng)勵(lì)機(jī)制可以提高智能體的合作行為,因?yàn)橹悄荏w可以從合作中獲得更多的滿足感,而不用擔(dān)心損失太多的收益。在混合動(dòng)機(jī)的游戲中,內(nèi)在獎(jiǎng)勵(lì)機(jī)制可以降低智能體的合作行為,因?yàn)橹悄荏w可能會過分地追求自我滿足,而忽視了其他智能體的利益和反饋。在合作的游戲中,內(nèi)在獎(jiǎng)勵(lì)機(jī)制可以提高智能體的合作行為,因?yàn)橹悄荏w可以從合作中獲得更多的滿足感,而且與其他智能體的利益和反饋是一致的。當(dāng)聲譽(yù)機(jī)制和引導(dǎo)代理也存在時(shí),內(nèi)在獎(jiǎng)勵(lì)機(jī)制可以與之相互補(bǔ)充,使得智能體在不同的游戲環(huán)境中更容易達(dá)成合作或背叛。
Q-learning和DQN算法在不同的游戲環(huán)境和社會機(jī)制下的表現(xiàn)和差異不是本文的重點(diǎn),但是可以從實(shí)驗(yàn)結(jié)果中觀察到一些有趣的現(xiàn)象。例如,Q-learning算法在沒有不確定性的情況下,可以更好地學(xué)習(xí)到最優(yōu)的策略,而DQN算法在有不確定性的情況下,可以更好地適應(yīng)更復(fù)雜和高維的狀態(tài)空間。另外,Q-learning算法在混合動(dòng)機(jī)的游戲中,可以達(dá)到更高的平均合作率,而DQN算法在合作的游戲中,可以達(dá)到更高的平均合作率。這些現(xiàn)象可能與算法的特性和參數(shù)的選擇有關(guān),也可能與實(shí)驗(yàn)的設(shè)置和隨機(jī)性有關(guān),需要進(jìn)一步的研究和驗(yàn)證。
總結(jié)與展望
論文的主要貢獻(xiàn)是提出了一種基于擴(kuò)展的公共物品游戲(EPGG)的實(shí)驗(yàn)框架,用來模擬多智能體系統(tǒng)在不同類型的游戲環(huán)境中的交互和學(xué)習(xí),以及探討了三種社會機(jī)制(聲譽(yù)機(jī)制、引導(dǎo)代理和內(nèi)在獎(jiǎng)勵(lì)機(jī)制)對于智能體合作行為的影響,特別是在激勵(lì)機(jī)制不確定的情況下。本文的實(shí)驗(yàn)結(jié)果表明,不確定性對于智能體的合作行為有很大的負(fù)面影響,而社會機(jī)制可以在不同的游戲環(huán)境中產(chǎn)生不同的效果,有時(shí)可以相互補(bǔ)充,有時(shí)可以相互抵消。作者的研究為多智能體系統(tǒng)的合作問題提供了一種新的視角和方法,也為未來的研究提供了一些啟示和方向。
未來的研究可以從環(huán)境、算法、機(jī)制等方面進(jìn)行拓展和深入。在更多的游戲環(huán)境中進(jìn)行實(shí)驗(yàn),例如考慮更多的參與者、更復(fù)雜的動(dòng)作空間、更多的信息維度等,以檢驗(yàn)本文的實(shí)驗(yàn)框架和社會機(jī)制的普適性和有效性。在更多的強(qiáng)化學(xué)習(xí)的算法中進(jìn)行實(shí)驗(yàn),例如考慮更先進(jìn)的算法、更多的超參數(shù)、更多的網(wǎng)絡(luò)結(jié)構(gòu)等,以比較不同的算法在不同的游戲環(huán)境和社會機(jī)制下的表現(xiàn)和差異。在更多的社會機(jī)制中進(jìn)行實(shí)驗(yàn),例如考慮更多的聲譽(yù)更新規(guī)則、更多的引導(dǎo)代理的比例和策略、更多的內(nèi)在獎(jiǎng)勵(lì)的形式等,以探索不同的社會機(jī)制對于智能體合作行為的影響和機(jī)理。在更多的通信和協(xié)調(diào)機(jī)制中進(jìn)行實(shí)驗(yàn),例如考慮智能體之間的語言交流、信號傳遞、合作協(xié)議等,以研究通信和協(xié)調(diào)機(jī)制如何與社會機(jī)制相互作用,以及如何促進(jìn)智能體之間的合作和信任。
論文的研究為多智能體系統(tǒng)的合作問題提供了一種新的視角和方法,也為未來的研究提供了一些啟示和方向。我們希望該論文能夠引起讀者的興趣和關(guān)注,也期待更多的研究者和實(shí)踐者能夠參與到這一有趣和有意義的領(lǐng)域中來,共同探索多智能體系統(tǒng)在激勵(lì)機(jī)制不確定下的新興合作的奧秘和可能。(END)
參考資料:https://arxiv.org/abs/2401.12646