斯坦福大學(xué)團(tuán)隊(duì)使用多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練社交推理語(yǔ)言模型
社交推理游戲是一類需要玩家通過(guò)交流和推理來(lái)達(dá)成目標(biāo)的游戲,典型的例子是我們熟悉的《狼人殺》,這些游戲要求玩家在有限的信息下,通過(guò)與其他玩家的交流和互動(dòng),推斷出某個(gè)隱藏角色的身份。假如讓多智能體玩狼人殺,這些智能體可以合作、競(jìng)爭(zhēng)或者兩者兼而有之。研究多智能體環(huán)境不僅有助于理解智能體之間的互動(dòng),還能為開發(fā)更智能、更協(xié)調(diào)的系統(tǒng)提供理論基礎(chǔ)。
在多智能體環(huán)境中,使用自然語(yǔ)言進(jìn)行交流是一種強(qiáng)大的工具。它不僅能讓獨(dú)立的智能體在部分可觀察的環(huán)境中共享信息,還能實(shí)現(xiàn)與人類的零樣本協(xié)調(diào)。然而大多數(shù)先前的研究存在局限性,要么依賴于大量人類演示的訓(xùn)練,要么缺乏生成自然和有用交流策略的能力。在這項(xiàng)工作中,斯坦福大學(xué)的研究團(tuán)隊(duì)探索了一種無(wú)需人類演示的方法,通過(guò)訓(xùn)練語(yǔ)言模型,使其能夠使用自然語(yǔ)言就環(huán)境進(jìn)行富有成效的討論。2 月 11 日,他們的研究論文《Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning》發(fā)表于 arXiv 平臺(tái)。
研究團(tuán)隊(duì)將溝通問題分解為傾聽和說(shuō)話兩個(gè)方面。他們的主要思想是利用智能體的目標(biāo)來(lái)預(yù)測(cè)有關(guān)世界的有用信息,作為指導(dǎo)溝通的密集獎(jiǎng)勵(lì)信號(hào)。具體來(lái)說(shuō),通過(guò)訓(xùn)練模型根據(jù)討論預(yù)測(cè)有關(guān)環(huán)境的信息來(lái)提高模型的傾聽技能。同時(shí),通過(guò)多智能體強(qiáng)化學(xué)習(xí),根據(jù)模型對(duì)其他智能體的影響?yīng)剟?lì)消息,從而提高模型的說(shuō)話技能。
他們研究的核心問題是如何在沒有人類示范的情況下,訓(xùn)練語(yǔ)言模型使其在多智能體環(huán)境中進(jìn)行有效的交流。研究團(tuán)隊(duì)探討了如何利用智能體的目標(biāo)預(yù)測(cè)世界的有用信息,作為密集獎(jiǎng)勵(lì)信號(hào)指導(dǎo)交流。研究團(tuán)隊(duì)以《我們之間》這款社交推理游戲?yàn)閷?shí)驗(yàn)平臺(tái),通過(guò)多智能體強(qiáng)化學(xué)習(xí),分析智能體在復(fù)雜社交環(huán)境中的表現(xiàn)和行為。研究團(tuán)隊(duì)的主要目標(biāo)是展示智能體在沒有大量任務(wù)特定數(shù)據(jù)的情況下,通過(guò)自我改進(jìn)提升其交流和推理能力,并最終提高游戲勝率。
圖1:《我們之間》的游戲和討論階段示例。在游戲過(guò)程中,所有代理都在2D網(wǎng)格環(huán)境中導(dǎo)航(在這種情況下是1乘2的網(wǎng)格,在(0,0)和(1,0)處有兩個(gè)房間),代理可以在同一個(gè)房間里看到所有內(nèi)容。在這里,紅色、綠色和黃色的試劑在房間(1,0),紫色和藍(lán)色的試劑在空間(0,0)。船員可以執(zhí)行任務(wù)(由星星表示——在這個(gè)例子中有3個(gè)任務(wù)),而冒名頂替者會(huì)殺死船員。在這里,橙色和綠色的特工正在執(zhí)行任務(wù)。特工也可以報(bào)告尸體,就像紫色特工目前正在做的那樣,這將啟動(dòng)討論階段。在討論階段,代理利用大型語(yǔ)言模型生成自由形式的消息,這些消息由我們的框架指導(dǎo),鼓勵(lì)機(jī)組人員有效地進(jìn)行口語(yǔ)和聽力交流,并最終投票選出疑似冒名頂替者。右側(cè)顯示的示例討論基于我們訓(xùn)練的模型生成的討論。
研究團(tuán)隊(duì)由斯坦福大學(xué)的四位研究人員組成,他們?cè)谌斯ぶ悄芎投嘀悄荏w系統(tǒng)研究方面具有豐富的經(jīng)驗(yàn)。Bidipta Sarkar 主要研究多智能體系統(tǒng)和強(qiáng)化學(xué)習(xí),Warren Xia 專注于語(yǔ)言模型在多智能體環(huán)境中的應(yīng)用,C. Karen Liu 的研究領(lǐng)域涵蓋機(jī)器人學(xué)和人工智能,特別是多智能體協(xié)作與協(xié)調(diào),而 Dorsa Sadigh 則專注于機(jī)器人與人類互動(dòng)、多智能體系統(tǒng)中的學(xué)習(xí)與推理。他們的共同努力不僅推動(dòng)了本研究的順利進(jìn)行,也為多智能體系統(tǒng)和自然語(yǔ)言處理的交叉研究提供了寶貴的見解。
相關(guān)工作
突現(xiàn)交流研究
突現(xiàn)交流是多智能體強(qiáng)化學(xué)習(xí)(MARL)中的一個(gè)重要主題,特別是在參考游戲和重復(fù)參考游戲的背景下。在這些游戲中,一方的發(fā)言者知道問題的真實(shí)答案(例如,從一組圖像中選出特定圖像),然后需要向傾聽者傳達(dá)該信息,傾聽者隨后需要選擇所指項(xiàng)目。早期研究表明,人類能夠迅速適應(yīng)這些任務(wù),利用心智理論推理來(lái)理解發(fā)言者的意圖。Hawkins等人展示了語(yǔ)言模型通過(guò)持續(xù)學(xué)習(xí)能夠適應(yīng)人類的慣例。然而這些研究主要集中在明確知道答案的情況下,而在社交推理游戲中,所有代理都需要通過(guò)交流來(lái)集體學(xué)習(xí)答案,這使得挑戰(zhàn)更為復(fù)雜。突現(xiàn)交流研究為理解和改進(jìn)多智能體之間的交流機(jī)制提供了寶貴的見解。
語(yǔ)言模型代理
在任務(wù)規(guī)劃和決策中,大型語(yǔ)言模型(LLM)憑借其對(duì)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訪問能力表現(xiàn)出色。在機(jī)器人學(xué)領(lǐng)域,先前的研究探索了如何使用語(yǔ)言模型根據(jù)自然語(yǔ)言指令規(guī)劃一系列高級(jí)操作。在虛擬游戲環(huán)境中,Park等人使用ChatGPT模擬虛擬小鎮(zhèn)的成員,盡管這些代理沒有特定的任務(wù)或訓(xùn)練機(jī)制,但他們展示了利用長(zhǎng)時(shí)記憶流存儲(chǔ)超出語(yǔ)言模型上下文長(zhǎng)度的記憶,形成社會(huì)網(wǎng)絡(luò)。這種外部記憶的使用后來(lái)被用于單人環(huán)境中的技能學(xué)習(xí)和多智能體環(huán)境中的協(xié)調(diào)。語(yǔ)言模型能夠在各種環(huán)境中控制代理,這對(duì)研究團(tuán)隊(duì)在社交推理游戲中直接使用語(yǔ)言模型作為強(qiáng)大起點(diǎn)具有重要意義。
基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)結(jié)合
一些研究將語(yǔ)言模型與強(qiáng)化學(xué)習(xí)相結(jié)合,展示了其在提升代理表現(xiàn)方面的潛力。例如,Cicero是一個(gè)用于《外交》游戲的AI,通過(guò)對(duì)話條件動(dòng)作模型結(jié)合人類行為訓(xùn)練對(duì)話自由模型,并通過(guò)強(qiáng)化學(xué)習(xí)選擇動(dòng)作。Cicero使用意圖嵌入連接對(duì)話生成和策略推理組件,使其能夠以自然的方式與其他代理交流。然而,這種方法限制了RL模型直接控制生成的消息的能力,可能在消息質(zhì)量方面有所不足。此外,該方法需要大量人類示范,這在許多環(huán)境中不實(shí)用。
在提供獎(jiǎng)勵(lì)和作為策略基礎(chǔ)模型方面,基礎(chǔ)模型也表現(xiàn)出色。例如,Hu和Sadigh利用語(yǔ)言模型作為獎(jiǎng)勵(lì)信號(hào)來(lái)訓(xùn)練單獨(dú)的網(wǎng)絡(luò),以遵循特定的協(xié)調(diào)策略。研究團(tuán)隊(duì)同樣使用LLM在討論階段提供更密集的獎(jiǎng)勵(lì),但研究團(tuán)隊(duì)直接訓(xùn)練LLM本身,而不是單獨(dú)的策略。強(qiáng)化學(xué)習(xí)在人類反饋中的應(yīng)用也顯著提升了LLM的聊天能力。Ouyang等人展示了通過(guò)人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)的有效性,通過(guò)PPO算法的修改微調(diào)LLM,提升其表現(xiàn)。Yuan等人進(jìn)一步允許LLM成為自己的獎(jiǎng)勵(lì)模型,生成自己的數(shù)據(jù)進(jìn)行自我改進(jìn)。盡管如此,研究團(tuán)隊(duì)的獎(jiǎng)勵(lì)模型設(shè)計(jì)仍然依賴于環(huán)境,以確保邏輯錯(cuò)誤的糾正和訓(xùn)練過(guò)程的高效性。
《我們之間》游戲的設(shè)計(jì)
在這項(xiàng)研究中,研究團(tuán)隊(duì)以流行的社交推理游戲《我們之間》(Among Us)作為實(shí)驗(yàn)平臺(tái),通過(guò)設(shè)計(jì)一個(gè)多智能體環(huán)境來(lái)評(píng)估語(yǔ)言模型在復(fù)雜社交環(huán)境中的表現(xiàn)。他們的目標(biāo)是創(chuàng)造一個(gè)能夠使智能體基于環(huán)境中的證據(jù)進(jìn)行討論的環(huán)境,從而訓(xùn)練語(yǔ)言模型在沒有人類示范的情況下進(jìn)行富有成效的交流。
圖2:游戲循環(huán)示意圖。環(huán)境首先同時(shí)向所有代理發(fā)送觀察結(jié)果,并在每個(gè)時(shí)間步從一組有效操作中收集標(biāo)記化的操作。
角色分配
《我們之間》的游戲角色分為冒充者和船員。游戲開始時(shí),每個(gè)玩家被分配為冒充者或船員。船員不知道其他玩家的身份,而冒充者則從一開始就知道所有玩家的身份。在研究團(tuán)隊(duì)的設(shè)置中,通常有一個(gè)玩家被分配為冒充者,而其他玩家則是船員。船員被分配了一組任務(wù),這些任務(wù)分散在整個(gè)游戲環(huán)境中,要求船員在完成任務(wù)的過(guò)程中識(shí)別出冒充者。
游戲階段
游戲階段分為游戲階段和討論階段。在游戲階段,玩家在一個(gè)二維網(wǎng)格環(huán)境中移動(dòng),通過(guò)觀察環(huán)境并采取行動(dòng)來(lái)完成任務(wù)或進(jìn)行交流。所有代理可以在相鄰的房間之間移動(dòng),完成任務(wù),或報(bào)告死亡的船員。冒充者可以在同一房間內(nèi)殺死船員,但需要在冷卻時(shí)間步之間等待。
討論階段是游戲的核心部分。玩家在這個(gè)階段可以自由聊天,交流他們的觀察和推測(cè),以識(shí)別冒充者。每個(gè)玩家輪流說(shuō)一句話,討論結(jié)束后進(jìn)入投票階段。所有玩家投票選擇要驅(qū)逐的嫌疑人,得票最多的玩家被驅(qū)逐。如果冒充者未被驅(qū)逐,游戲繼續(xù)進(jìn)行,船員可以繼續(xù)完成任務(wù),直到所有任務(wù)完成或冒充者被驅(qū)逐。
獎(jiǎng)勵(lì)結(jié)構(gòu)
《我們之間》本質(zhì)上是一個(gè)團(tuán)隊(duì)零和游戲,獎(jiǎng)勵(lì)結(jié)構(gòu)基于船員或冒充者的勝利情況。如果所有任務(wù)被完成或冒充者被驅(qū)逐,船員獲勝,獲得正向獎(jiǎng)勵(lì)。相反,如果冒充者的數(shù)量大于或等于船員數(shù)量,則冒充者獲勝,船員獲得負(fù)向獎(jiǎng)勵(lì)。
這種獎(jiǎng)勵(lì)機(jī)制強(qiáng)調(diào)了團(tuán)隊(duì)協(xié)作的重要性,要求船員在游戲過(guò)程中有效地交流和合作,而冒充者則需要巧妙地隱藏身份并誤導(dǎo)船員。通過(guò)這種設(shè)計(jì),研究團(tuán)隊(duì)能夠在實(shí)驗(yàn)中評(píng)估智能體在復(fù)雜社交推理環(huán)境中的表現(xiàn),探索如何通過(guò)多智能體強(qiáng)化學(xué)習(xí)提高語(yǔ)言模型的交流和推理能力。
增強(qiáng)船員交流能力
在《我們之間》的游戲中,有效的交流對(duì)于船員識(shí)別冒充者至關(guān)重要。為了超越基礎(chǔ)的強(qiáng)化學(xué)習(xí)(RL)模型,研究團(tuán)隊(duì)重點(diǎn)研究了如何提高船員在游戲中的聽力和表達(dá)能力,使他們能夠在復(fù)雜社交環(huán)境中進(jìn)行更有意義的討論。
冒充者預(yù)測(cè)的聽力訓(xùn)練
首先,研究團(tuán)隊(duì)提出了一種利用環(huán)境的真實(shí)答案提高船員推理能力的方法。在多智能體環(huán)境中,船員需要理解環(huán)境觀察和其他船員的信息,以便在討論階段做出準(zhǔn)確的判斷。通過(guò)直接訓(xùn)練船員利用環(huán)境提供的關(guān)于冒充者身份的真實(shí)答案,可以提高他們的推理能力。研究團(tuán)隊(duì)使用了在討論消息之間的時(shí)間步作為訓(xùn)練信號(hào)。這些時(shí)間步不需要人類示范數(shù)據(jù),代理可以通過(guò)任意回滾緩沖區(qū)學(xué)習(xí)觀察和信息。
在每個(gè)時(shí)間步,當(dāng)船員被要求提供對(duì)冒充者身份的信念時(shí),研究團(tuán)隊(duì)將其作為聽力訓(xùn)練的損失項(xiàng)。這樣,船員可以根據(jù)游戲階段的觀察和討論消息,提高對(duì)冒充者身份的判斷力。這一過(guò)程不僅使討論更有意義,還能夠使船員在討論階段通過(guò)監(jiān)督學(xué)習(xí)任務(wù),理解消息的含義,從而準(zhǔn)確投票驅(qū)逐冒充者。
強(qiáng)化討論學(xué)習(xí)的表達(dá)訓(xùn)練
除了提高聽力能力,研究團(tuán)隊(duì)還探討了如何通過(guò)強(qiáng)化學(xué)習(xí)提高船員在討論中的表達(dá)能力。研究團(tuán)隊(duì)的關(guān)鍵思路是基于船員信念變化的獎(jiǎng)勵(lì)機(jī)制來(lái)訓(xùn)練模型。具體來(lái)說(shuō),研究團(tuán)隊(duì)根據(jù)每個(gè)消息后其他船員對(duì)冒充者身份信念的變化,給予發(fā)言船員獎(jiǎng)勵(lì)。這個(gè)獎(jiǎng)勵(lì)機(jī)制模擬了每個(gè)消息在預(yù)測(cè)正確冒充者任務(wù)中的因果效果,最有效的消息應(yīng)該能夠說(shuō)服其他船員投票驅(qū)逐真正的冒充者。
為了綜合應(yīng)用聽力和表達(dá)損失,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)綜合策略。該策略結(jié)合了RL的強(qiáng)化學(xué)習(xí)損失和聽力損失,使模型在優(yōu)化行動(dòng)的同時(shí),提高識(shí)別冒充者的能力。此外,研究團(tuán)隊(duì)還加入了對(duì)表達(dá)的獎(jiǎng)勵(lì)機(jī)制,使代理能夠區(qū)分有用和無(wú)用的消息,從而在討論中發(fā)送更有效的消息。
為了訓(xùn)練語(yǔ)言模型在沒有專家演示的情況下采取更有效的行動(dòng),我們可以轉(zhuǎn)向強(qiáng)化學(xué)習(xí)。由于Among Us已經(jīng)為獲勝提供了獎(jiǎng)勵(lì),我們可以直接對(duì)其進(jìn)行優(yōu)化,以生成一個(gè)模型??RL,最大限度地減少以下?lián)p失:
動(dòng)態(tài)設(shè)置下的訓(xùn)練
在訓(xùn)練智能體時(shí),僅依賴固定的對(duì)手可能會(huì)導(dǎo)致智能體策略的單一化和缺乏魯棒性。為了提升智能體在復(fù)雜多變環(huán)境中的表現(xiàn),研究團(tuán)隊(duì)采用了自我對(duì)弈算法。這種算法允許智能體在訓(xùn)練過(guò)程中不斷與不同版本的自己進(jìn)行對(duì)抗,從而學(xué)習(xí)到更為全面和靈活的策略。
圖3:在“基礎(chǔ)”環(huán)境中,使用不同算法訓(xùn)練的機(jī)組人員的勝率:2×2的房間網(wǎng)格,每個(gè)機(jī)組人員4個(gè)任務(wù),5名玩家。誤差條表示使用不同種子進(jìn)行三次獨(dú)立訓(xùn)練的跑步的最大和最小預(yù)期獲勝率。
通過(guò)迭代自我對(duì)弈,可以逐步提高智能體的魯棒性。每一輪訓(xùn)練后,智能體都會(huì)面臨更強(qiáng)大的對(duì)手,這促使其不斷優(yōu)化自己的策略。最終,經(jīng)過(guò)多輪迭代訓(xùn)練,智能體能夠在各種情境下表現(xiàn)出較高的勝率,適應(yīng)不同的游戲變化和對(duì)手策略。這種方法不僅提高了智能體的整體性能,也增強(qiáng)了其在面對(duì)不確定性和對(duì)手變化時(shí)的適應(yīng)能力。
在訓(xùn)練過(guò)程中,為了確保隊(duì)友的多樣性與合理性,研究團(tuán)隊(duì)采用了N-Agent臨時(shí)團(tuán)隊(duì)設(shè)置。具體來(lái)說(shuō),研究團(tuán)隊(duì)在每一輪訓(xùn)練中凍結(jié)一個(gè)船員的策略,使其不隨其他智能體的策略變化而改變。這種做法避免了所有智能體同時(shí)退化到某種簡(jiǎn)單的、不可行的策略,例如在討論階段不發(fā)言或在起始房間不移動(dòng)。通過(guò)保持一個(gè)固定的船員,其他智能體必須在更多樣化和合理的環(huán)境中學(xué)習(xí)和適應(yīng),從而提高整體團(tuán)隊(duì)的表現(xiàn)。
此外,為了進(jìn)一步提升智能體的適應(yīng)能力,研究團(tuán)隊(duì)在訓(xùn)練中引入了環(huán)境參數(shù)的隨機(jī)化。這意味著在每一輪訓(xùn)練中,環(huán)境配置可能會(huì)有所變化,例如環(huán)境布局、任務(wù)數(shù)量和玩家數(shù)量等。這種隨機(jī)化訓(xùn)練使得智能體能夠在不同的環(huán)境中有效表現(xiàn),避免了過(guò)度擬合某一特定環(huán)境配置。實(shí)驗(yàn)結(jié)果表明,智能體在不同環(huán)境配置下的表現(xiàn)趨勢(shì)大致相同,證明了這種方法的有效性。
在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)觀察到最好的方法是引入世界建模損失。這一損失項(xiàng)確保了模型在訓(xùn)練中保留其語(yǔ)言建模能力,并幫助其在自己的討論中匹配觀察中體驗(yàn)的模式。具體來(lái)說(shuō),世界建模損失通過(guò)記錄和預(yù)測(cè)環(huán)境狀態(tài)的變化,幫助智能體在討論中生成更相關(guān)和合理的消息,從而提高整體表現(xiàn)。
結(jié)果分析
研究團(tuán)隊(duì)通過(guò)多次實(shí)驗(yàn)和詳細(xì)分析,評(píng)估了不同訓(xùn)練方法在《我們之間》游戲中的表現(xiàn)。以下是對(duì)這些實(shí)驗(yàn)結(jié)果的全面解讀。
合作訓(xùn)練的性能評(píng)估
在合作訓(xùn)練中,研究團(tuán)隊(duì)首先評(píng)估了基礎(chǔ)模型的表現(xiàn)。使用1.5B RWKV模型進(jìn)行的實(shí)驗(yàn)表明,基礎(chǔ)模型在游戲中的勝率較低,而參數(shù)較多的7B模型表現(xiàn)略好,但勝率仍然不足20%。通過(guò)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,性能顯著提高,甚至超過(guò)了7B模型。然而,未添加聽力損失的RL模型在識(shí)別冒充者方面表現(xiàn)不佳,即使從聽力策略πL開始也迅速失去了辨別能力。
圖4:在不同環(huán)境配置下,通過(guò)修改環(huán)境形狀、任務(wù)和玩家數(shù)量,使用不同算法訓(xùn)練的機(jī)組人員的勝率。
僅使用聽力訓(xùn)練(損失項(xiàng)為L(zhǎng)L),模型雖然不知道如何采取有效行動(dòng),但在預(yù)測(cè)冒充者身份方面表現(xiàn)出色。結(jié)合RL和聽力損失的策略使成功率顯著提高,而進(jìn)一步加入密集的表達(dá)獎(jiǎng)勵(lì)(RL+L+S)后,模型能在訓(xùn)練中區(qū)分有用和無(wú)用的消息,使勝率翻倍。盡管沒有明確的表達(dá)獎(jiǎng)勵(lì),語(yǔ)言模型仍然能夠生成連貫的消息,在討論中分享懷疑,使得討論間接得到改進(jìn)。
環(huán)境變化對(duì)模型表現(xiàn)的影響
研究團(tuán)隊(duì)測(cè)試了不同環(huán)境配置下的模型表現(xiàn),發(fā)現(xiàn)環(huán)境形狀對(duì)勝率影響較小,較小的環(huán)境由于冒充者難以在不被目擊的情況下殺人而勝率更高。任務(wù)數(shù)量增加使得通過(guò)完成任務(wù)獲勝更難,而船員數(shù)量增加則顯著提高了勝率。這表明,語(yǔ)言模型能夠在面對(duì)不同環(huán)境變化時(shí),保持較好的適應(yīng)性和魯棒性。
消息模式的評(píng)估
基礎(chǔ)RWKV模型的消息通常不集中,經(jīng)常虛構(gòu)更多上下文,而改進(jìn)后的RL+L+S模型則直接指控冒充者,或者在消息中提及冒充者。一般來(lái)說(shuō),提及特定代理使得其他代理更可能投票反對(duì)他們。此外,船員分享類似環(huán)境觀察的信息幫助判斷冒充者身份,例如提到某個(gè)玩家離開發(fā)現(xiàn)尸體的房間。然而,有時(shí)船員也會(huì)撒謊,以最具說(shuō)服力的陳述獲取足夠的票數(shù)驅(qū)逐冒充者。
冒充者的魯棒性
通過(guò)多輪自我對(duì)弈實(shí)驗(yàn),分析船員策略對(duì)抗訓(xùn)練冒充者的表現(xiàn)。結(jié)果顯示,即使面對(duì)對(duì)抗性訓(xùn)練的冒充者,船員策略依然有效。冒充者嘗試將責(zé)任轉(zhuǎn)移給其他玩家,通過(guò)反指控其他船員來(lái)迷惑對(duì)手,模擬船員的討論模式,有時(shí)成功欺騙船員。語(yǔ)言模型的上下文學(xué)習(xí)能力使冒充者能夠模仿之前發(fā)言的船員,進(jìn)行對(duì)抗性討論。
圖5:在基礎(chǔ)環(huán)境中評(píng)估的自玩迭代策略的可利用性曲線。橙色線表示對(duì)抗經(jīng)過(guò)對(duì)抗訓(xùn)練的冒名頂替者的預(yù)期獲勝率。黑線表示針對(duì)本次迭代的冒名頂替者進(jìn)行專門優(yōu)化的船員的預(yù)期獲勝率。請(qǐng)注意,迭代0指的是基礎(chǔ)模型,而迭代1指的是合作訓(xùn)練部分的機(jī)組人員策略。陰影區(qū)域代表了使用不同種子進(jìn)行三次獨(dú)立訓(xùn)練的跑步的最大和最小獲勝率。
訓(xùn)練中的失敗模式與解決方案
在實(shí)驗(yàn)過(guò)程中,研究團(tuán)隊(duì)遇到了一些失敗模式并提出了解決方案。首先,討論容易脫離自然語(yǔ)言,需要仔細(xì)調(diào)整強(qiáng)化學(xué)習(xí)中的軟KL約束以保持語(yǔ)言生成的正常。當(dāng)約束權(quán)重過(guò)低時(shí),RL訓(xùn)練模型在幾輪后就會(huì)偏離自然語(yǔ)言,輸出隨機(jī)標(biāo)記,導(dǎo)致性能停止提高。
其次,同時(shí)訓(xùn)練所有船員會(huì)導(dǎo)致退化解決方案,例如僅輸出換行符或停留在起始房間不移動(dòng)。通過(guò)凍結(jié)一個(gè)船員不學(xué)習(xí),避免了這種策略退化問題。最后,RL訓(xùn)練模型在討論中使用動(dòng)作標(biāo)記而非自然語(yǔ)言,為解決此問題,研究團(tuán)隊(duì)引入了世界建模損失,確保模型保留語(yǔ)言建模能力,并幫助其在討論中匹配觀察中體驗(yàn)的模式。
討論
在這項(xiàng)研究中,研究團(tuán)隊(duì)展示了一種利用多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練語(yǔ)言模型的方法,使其在社交推理游戲中能夠進(jìn)行有效的討論和交流。通過(guò)在《我們之間》游戲中的實(shí)驗(yàn),研究證明了即使在沒有大量任務(wù)特定人類數(shù)據(jù)的情況下,語(yǔ)言模型依然能夠自我改進(jìn),提升在多智能體環(huán)境中的表現(xiàn)。
本研究的重要貢獻(xiàn)在于展示了自我改進(jìn)LLM在社交推理游戲中的巨大潛力。通過(guò)多智能體強(qiáng)化學(xué)習(xí)方法,模型不僅學(xué)會(huì)了在復(fù)雜的社交環(huán)境中進(jìn)行有效的交流,還能夠從討論中提取有用信息,進(jìn)一步提升游戲的勝率。研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明,智能體在面對(duì)對(duì)抗性訓(xùn)練的冒充者時(shí),依然能夠保持協(xié)作和協(xié)調(diào),未被破壞討論過(guò)程。這一發(fā)現(xiàn)為未來(lái)的多智能體系統(tǒng)應(yīng)用打開了新的大門,展示了在新任務(wù)中實(shí)現(xiàn)多智能體交流的可能性。
然而,盡管取得了顯著成果,本研究也存在一些局限性。一個(gè)主要的局限在于研究團(tuán)隊(duì)的場(chǎng)景預(yù)測(cè)技術(shù)依賴于特定任務(wù)。在《我們之間》中,討論與預(yù)測(cè)冒充者身份之間有自然的聯(lián)系,但這種結(jié)構(gòu)未必適用于所有的社交推理游戲和現(xiàn)實(shí)世界環(huán)境。未來(lái)研究的一個(gè)有趣方向是探索讓智能體自主識(shí)別場(chǎng)景中與特定任務(wù)相關(guān)的方面,而不是依賴于手動(dòng)指定。
此外,研究團(tuán)隊(duì)注意到在討論過(guò)程中,船員并不總是誠(chéng)實(shí),他們傾向于選擇最具說(shuō)服力的陳述。這種行為在《我們之間》這樣的沙盒環(huán)境中或許是可接受的,但在其他應(yīng)用場(chǎng)景中可能會(huì)帶來(lái)潛在風(fēng)險(xiǎn)。因此,優(yōu)化討論中的誠(chéng)實(shí)性成為未來(lái)研究的重要方向。確保智能體在交流過(guò)程中不僅有效,還能夠傳達(dá)真實(shí)和準(zhǔn)確的信息,對(duì)于多智能體系統(tǒng)的實(shí)際應(yīng)用至關(guān)重要。
總之,研究不僅提供了一種新的訓(xùn)練方法,還為未來(lái)的多智能體強(qiáng)化學(xué)習(xí)和語(yǔ)言模型研究提供了重要的啟示和參考。盡管存在局限性,我們相信,通過(guò)進(jìn)一步的研究和改進(jìn),這一領(lǐng)域?qū)?huì)取得更多突破性進(jìn)展,推動(dòng)智能體系統(tǒng)在各種復(fù)雜環(huán)境中的應(yīng)用和發(fā)展。(END)
參考資料:https://arxiv.org/pdf/2502.06060
本文轉(zhuǎn)載自 ??獨(dú)角噬元獸??,作者: FlerkenS
