多智能體新進(jìn)展 | 斯坦福大學(xué)提出新模型'Hypothetical Minds',讓AI更懂人類思維 精華
本文提出了一種名為“Hypothetical Minds”的模型,該模型結(jié)合了大語(yǔ)言模型和多智能體強(qiáng)化學(xué)習(xí),通過(guò)在自然語(yǔ)言處理的框架下生成、評(píng)估和細(xì)化關(guān)于其他智能體策略的假設(shè),來(lái)提高智能體在多智能體環(huán)境中的表現(xiàn)。該模型在多種競(jìng)爭(zhēng)性、合作性和混合動(dòng)機(jī)的多智能體環(huán)境中均顯示出優(yōu)越的性能,特別是在處理隱藏信息和策略推理方面。
Hypothetical Minds模型簡(jiǎn)介
1. 模型架構(gòu)與組件
Hypothetical Minds模型是一個(gè)基于大型語(yǔ)言模型(LLM)的自主智能體,它通過(guò)整合感知、記憶和兩級(jí)抽象層次的層次化規(guī)劃的模塊化組件,來(lái)應(yīng)對(duì)MARL中的挑戰(zhàn)。該模型的架構(gòu)包括多個(gè)認(rèn)知模塊,如感知模塊、記憶系統(tǒng)以及理論心智(Theory of Mind, ToM)和子目標(biāo)(Subgoal)模塊,后兩者分別負(fù)責(zé)輸出高層次的目標(biāo)和行動(dòng)計(jì)劃。
2. 理論心智(Theory of Mind, ToM)模塊的作用
ToM模塊在Hypothetical Minds模型中扮演著核心角色,它通過(guò)生成關(guān)于其他智能體策略、目標(biāo)和能力的假設(shè)來(lái)促進(jìn)有效的協(xié)調(diào)或?qū)Σ?。這些假設(shè)是以自然語(yǔ)言形式表達(dá)的,并嵌入到高層次的規(guī)劃過(guò)程中,以指導(dǎo)智能體的決策。ToM模塊不僅生成假設(shè),還負(fù)責(zé)評(píng)估和迭代細(xì)化這些假設(shè),通過(guò)強(qiáng)化那些能夠正確預(yù)測(cè)其他智能體行為的假設(shè)來(lái)優(yōu)化決策過(guò)程。此外,ToM模塊還能夠根據(jù)生成的假設(shè)動(dòng)態(tài)調(diào)整智能體的策略,以適應(yīng)推斷出的其他智能體的策略,從而在多智能體環(huán)境中實(shí)現(xiàn)更高的獎(jiǎng)勵(lì)和更好的適應(yīng)性。
模型實(shí)現(xiàn):從假設(shè)生成到高級(jí)規(guī)劃
1. 生成假設(shè)
在多智能體環(huán)境中,理解其他智能體的行為是至關(guān)重要的。Hypothetical Minds模型通過(guò)其理論心智(Theory of Mind, ToM)模塊來(lái)生成關(guān)于其他智能體策略、目標(biāo)和能力的假設(shè)。這些假設(shè)是基于自然語(yǔ)言生成的,使得智能體能夠在不直接觀察到這些變量的情況下,通過(guò)語(yǔ)言的抽象層面進(jìn)行推理。
2. 假設(shè)評(píng)估與細(xì)化
生成的假設(shè)需要通過(guò)實(shí)際的環(huán)境反饋來(lái)評(píng)估其有效性。ToM模塊會(huì)對(duì)每個(gè)假設(shè)進(jìn)行評(píng)分,這一過(guò)程涉及到預(yù)測(cè)其他智能體的行為并將預(yù)測(cè)結(jié)果與實(shí)際行為進(jìn)行對(duì)比。有效的假設(shè)會(huì)在模型的記憶中得到強(qiáng)化,而不準(zhǔn)確的假設(shè)則會(huì)被調(diào)整或舍棄。這一過(guò)程是迭代的,隨著更多的交互數(shù)據(jù)被積累,假設(shè)的準(zhǔn)確性逐漸提高。
3. 高級(jí)規(guī)劃與執(zhí)行
在假設(shè)驗(yàn)證通過(guò)后,ToM模塊會(huì)利用這些驗(yàn)證過(guò)的假設(shè)來(lái)指導(dǎo)高級(jí)規(guī)劃。這些高級(jí)規(guī)劃不僅包括策略的制定,還涉及到具體行動(dòng)的序列化,即如何將策略轉(zhuǎn)化為一系列具體的、可執(zhí)行的行動(dòng)。這一過(guò)程中,智能體需要考慮如何在保持對(duì)當(dāng)前目標(biāo)的追求的同時(shí),適應(yīng)環(huán)境的變化和其他智能體的策略變動(dòng)。
實(shí)驗(yàn)設(shè)計(jì)與基準(zhǔn)測(cè)試
1. Melting Pot基準(zhǔn)的多場(chǎng)景測(cè)試
Hypothetical Minds模型在Melting Pot多智能體強(qiáng)化學(xué)習(xí)基準(zhǔn)中進(jìn)行了廣泛的測(cè)試。這一基準(zhǔn)包括多種不同的社會(huì)動(dòng)態(tài)和挑戰(zhàn),如合作烹飪、剪刀石頭布游戲等。通過(guò)這些多樣化的測(cè)試場(chǎng)景,模型的適應(yīng)性、策略生成能力以及與其他智能體的交互效果得到了全面的評(píng)估。
2. 與基線模型的比較
Hypothetical Minds模型的性能與幾個(gè)基線模型進(jìn)行了比較,包括傳統(tǒng)的強(qiáng)化學(xué)習(xí)模型和其他基于LLM的智能體模型。通過(guò)這些比較,研究人員能夠評(píng)估ToM模塊在假設(shè)生成、評(píng)估和細(xì)化方面的效果,以及這些功能如何幫助Hypothetical Minds模型在復(fù)雜多智能體環(huán)境中取得優(yōu)異的表現(xiàn)。這些比較結(jié)果不僅證明了模型的有效性,也突出了理論心智模塊在處理復(fù)雜社會(huì)交互中的重要性。
實(shí)驗(yàn)結(jié)果與分析
1. 競(jìng)爭(zhēng)環(huán)境中的表現(xiàn)
在“Running With Scissors”(剪刀石頭布)的競(jìng)爭(zhēng)環(huán)境中,Hypothetical Minds(HM)模型展現(xiàn)出了顯著的優(yōu)勢(shì)。該環(huán)境要求兩名玩家在地圖上移動(dòng)并收集代表剪刀、石頭、布的資源。通過(guò)與對(duì)手進(jìn)行“交互”,一方將獲得正向獎(jiǎng)勵(lì),而另一方則獲得相應(yīng)的負(fù)向獎(jiǎng)勵(lì)。HM模型能夠有效地推斷對(duì)手的策略,并根據(jù)這些信息調(diào)整自己的策略,從而在多數(shù)情況下獲得高于基線模型的獎(jiǎng)勵(lì)。特別是在面對(duì)多變策略的對(duì)手時(shí),HM通過(guò)其理論心智模塊生成假設(shè),并不斷調(diào)整策略以適應(yīng)對(duì)手的變化,顯示出較強(qiáng)的適應(yīng)性和策略洞察力。
2. 協(xié)作與混合動(dòng)機(jī)環(huán)境的適應(yīng)性
在“Collaborative Cooking Asymmetric”環(huán)境中,兩名玩家需要在廚房的兩側(cè)合作制作番茄湯。HM模型在所有測(cè)試場(chǎng)景中均表現(xiàn)優(yōu)異,尤其是在與功能性合作伙伴互動(dòng)時(shí)。這表明HM能夠根據(jù)合作伙伴的能力和行為有效地調(diào)整自己的行動(dòng)策略,優(yōu)化協(xié)作效率。此外,在“Prisoner's Dilemma”(囚徒困境)的混合動(dòng)機(jī)環(huán)境中,HM在動(dòng)態(tài)合作伙伴場(chǎng)景中表現(xiàn)尤為突出,能夠通過(guò)更一致的合作行為和適時(shí)的寬恕策略,有效地打破惡性報(bào)復(fù)循環(huán),實(shí)現(xiàn)更高的總體福利。
本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企
