自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多LLM協(xié)同作戰(zhàn)!清華等開源多智能體框架AgentVerse:合作打造Minecraft物品,還能訓(xùn)練寶可夢

人工智能
一個值得注意的觀察是智能體的適應(yīng)性和合作本能,例如,在最初的幾輪比賽中,當(dāng)Alice努力淘汰皮革所需的三頭奶牛時,Bob輔助完成了指定的任務(wù),他注意到了Alice面臨的困難,從而介入并提供幫助。

人類之所以能夠爬到地球的食物鏈頂端,甚至還能繼續(xù)探索外太空,除了個人的頭腦外,更離不開群體的協(xié)作力量。

對應(yīng)到大型語言模型(LLM),雖然單個模型的能力已經(jīng)非常強(qiáng)大,但想要完成更復(fù)雜的任務(wù),或是提升任務(wù)的完成效率,還需要多個智能體之間的協(xié)作。

最近,受人類群體動力學(xué)(human group dynamics)的啟發(fā),來自清華大學(xué)、北郵和騰訊的研究人員提出了一個多智能體框架AgentVerse,可以讓多個模型之間進(jìn)行協(xié)作,并動態(tài)調(diào)整群體的組成,實(shí)現(xiàn)1+1>2的效果。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2308.10848.pdf

開源鏈接:https://github.com/OpenBMB/AgentVerse

AgentVerse的主要特點(diǎn)包括三點(diǎn):

1. 高效的環(huán)境搭建:框架中提供了多個基本構(gòu)建模塊,只需要在配置文件中添加幾行代碼,即可輕松搭建多智能體環(huán)境,如LLM聊天室等,研究人員只需要關(guān)注實(shí)驗(yàn)過程和結(jié)果分析即可。

2. 可定制的組件:多智能體環(huán)境被分為五個功能模塊,并定義各自的接口,用戶可以基于自己的需求重新定義不同模塊的功能。

3. 工具(插件)利用:支持BMTools中提供的工具。

實(shí)驗(yàn)結(jié)果表明,該框架可以有效地部署多智能體群組,其性能優(yōu)于單智能體,并且涌現(xiàn)了協(xié)作等社會行為。

AgentVerse框架

解決問題(Problem Solving)的過程是人類群體中一系列迭代階段,最初,該小組評估當(dāng)前狀態(tài)和預(yù)期目標(biāo)之間的差異,動態(tài)調(diào)整其組成以加強(qiáng)決策中的協(xié)作,隨后執(zhí)行明智的行動。

為了增強(qiáng)自主多智能體群體實(shí)現(xiàn)其目標(biāo)的有效性,我們模擬了一個人類群體的問題解決過程,提出了AGENTVERSE框架,該框架由四個關(guān)鍵階段組成:專家招募、協(xié)作決策、行動執(zhí)行和評估。

圖片圖片

整個過程可以建模為馬爾可夫決策過程(MDP),表征為元組(S,a,T,R,G)。這包括自主代理和環(huán)境狀態(tài)空間S、解決方案和行動空間A、轉(zhuǎn)移函數(shù)T:S × A→S、獎勵函數(shù)R和目標(biāo)空間G。

1. 專家招募(Expert Recruitment)

專家招募階段決定了多智能體群體的構(gòu)成,是決定群體能力上限的重要模塊,已經(jīng)有經(jīng)驗(yàn)證據(jù)表明,人類群體內(nèi)部的多樣性引入了不同的觀點(diǎn),從而提高了群體在不同任務(wù)中的表現(xiàn)。

也有研究結(jié)果表明,為自主智能體脂定一個特定角色,類似于招募專家組建團(tuán)隊(duì),可以提高運(yùn)行效率。

不過,目前為智能體分配角色描述的方法主要依賴于人類直覺和先驗(yàn)知識,需要基于任務(wù)理解進(jìn)行手動分配,所以可擴(kuò)展性仍然不明確,尤其是在面對多樣化且復(fù)雜的問題環(huán)境時。

鑒于此,AgentVerse采用自動化的方式來招募專家,目的是增強(qiáng)配置智能體的可擴(kuò)展性。

對于給定的目標(biāo)g∈G,特定的自主智能體Mr被指定為招聘者(recruiter),類似于人力資源經(jīng)理;Mr 不依賴預(yù)定義的專家描述,而是根據(jù)當(dāng)前目標(biāo)g動態(tài)地生成一組專家描述。

然后根據(jù)不同的專家描述提示以及目標(biāo)g,得到多個不同的智能體形成專家組M = Mr(g)

并且,多智能體群體的組成將根據(jù)評估階段的反饋進(jìn)行動態(tài)調(diào)整,也使得框架能夠根據(jù)當(dāng)前狀態(tài)(收到的獎勵)組建最有效的多智能體群體,以便在后續(xù)回合中做出更好的決策。

2. 協(xié)同決策

此階段主要是聚集專家智能體進(jìn)行協(xié)同決策,研究人員選擇兩種經(jīng)典的溝通結(jié)構(gòu)來提升決策效率:

橫向溝通 ( Horizontal Communication)

圖片圖片

每個智能體(表示為mi∈M)積極共享并細(xì)化其決策,這種民主的溝通結(jié)構(gòu)鼓勵智能體之間的相互理解和協(xié)作。

然后將智能體的集體意見結(jié)合起來,使用一個集成函數(shù)f來形成當(dāng)前回合的群體決策。

在需要創(chuàng)造性想法或需要大量協(xié)調(diào)的場景中,例如頭腦風(fēng)暴、咨詢或合作游戲等,橫向溝通可能是更好的選擇。

縱向溝通 (Vertical Communication)

縱向溝通的特點(diǎn)是職責(zé)分工,由一個智能體提出初始決策,其余的智能體充當(dāng)評審人,對解決方案提供反饋;根據(jù)反饋,不斷完善決策,直到所有的評審智能體就解決方案達(dá)成共識,或者達(dá)到最大迭代次數(shù)。

圖片圖片

在需要針對特定目標(biāo)迭代完善決策的場景中,例如軟件開發(fā),垂直溝通是更好的選擇。

3. 行動執(zhí)行(Action Execution)

在決策制定完畢后,智能體需要執(zhí)行指定的動作,具體取決于實(shí)現(xiàn)方式,某些智能體可能會不執(zhí)行任何操作,然后對環(huán)境狀態(tài)進(jìn)行更新。

4. 評估(Evaluation)

評估對于下一輪專家組的構(gòu)成調(diào)整和提升起到至關(guān)重要的作用,使用獎勵反饋機(jī)制評估當(dāng)前狀態(tài)與期望目標(biāo)之間的差距,并給出口頭反饋,解釋為什么當(dāng)前狀態(tài)仍然不令人滿意并提供建設(shè)性建議,討論下一輪如何改進(jìn)。

其中獎勵反饋機(jī)制可以由人工定義(人機(jī)協(xié)作循環(huán)),也可以由自動反饋模型定義,具體取決于實(shí)現(xiàn)方式。

如果確定尚未達(dá)到預(yù)期目標(biāo),則獎勵反饋循環(huán)回到初始階段,即專家招募;在下一輪專家招募階段會利用該反饋信號結(jié)合初始目標(biāo)來調(diào)整專家組的構(gòu)成,從而演化出更有效的多智能體群組,以供后續(xù)決策和行動執(zhí)行。

實(shí)驗(yàn)部分

為了證明AgentVerse能夠指導(dǎo)智能體群組高效地完成任務(wù),研究人員對基準(zhǔn)任務(wù)進(jìn)行了定量實(shí)驗(yàn),并對更復(fù)雜和實(shí)際的應(yīng)用進(jìn)行了案例研究。

實(shí)驗(yàn)設(shè)置

研究人員選擇了兩個語言模型作為底層支持:GPT-3.5-Turbo-0613和GPT-4-0613

在數(shù)據(jù)集和評估指標(biāo)的選擇上,主要考察多智能體群組在四個方面的能力:

1. 對話(Conversation)能力

第一個數(shù)據(jù)集為對話(Dialogue)回復(fù)數(shù)據(jù)集FED,給定多輪聊天歷史記錄,智能體需要生成回復(fù)內(nèi)容,使用GPT-4作為評估器,對模型生成的回復(fù)和人類編寫的回復(fù)進(jìn)行評分,并報告模型的勝率。

第二個數(shù)據(jù)集為約束生成Commongen-Challenge,給定20個概念,智能體需要生成一個語義連貫且語法正確的段落,并且應(yīng)當(dāng)包含盡可能多的概念。

2、數(shù)學(xué)計算(Mathematical Calculation)能力

利用MGSM 的英語子集,包含小學(xué)級別數(shù)學(xué)問題,指標(biāo)為正確答案的百分比。

3. 邏輯推理(Logical Reasoning)能力

利用BigBench的邏輯網(wǎng)格謎題(logic grid puzzle)任務(wù),其中包含需要多步驟邏輯推理的邏輯問題,使用準(zhǔn)確率指標(biāo)。

4. 編碼(Coding)

利用代碼補(bǔ)全數(shù)據(jù)集Humaneval,使用Pass@1指標(biāo)進(jìn)行評估。

實(shí)驗(yàn)結(jié)果

性能分析

單個智能體(Single)使用給定的提示直接生成答案,而用AgentVerse構(gòu)建的多智能體群組(Multiple)以協(xié)作的方式解決問題。

圖片

從結(jié)果中可以看出,無論使用GPT-3.5-Turbo還是GPT-4,多智能體始終優(yōu)于單智能體。

由于GPT-3.5-Turbo很難在邏輯網(wǎng)格謎題數(shù)據(jù)集上給出正確的推理結(jié)果,所以表中省略了相應(yīng)的實(shí)驗(yàn)結(jié)果。

協(xié)作決策分析

圖片圖片

與縱向溝通相比,水平溝無法促進(jìn)數(shù)學(xué)計算任務(wù) (MGSM) 上的多智能體群組有效決策,進(jìn)一步分析可以發(fā)現(xiàn),溝通架構(gòu)對于塑造決策結(jié)果來說至關(guān)重要。

在橫向溝通中,智能體以順序的方式進(jìn)行溝通,某個智能體可能會提出有缺陷的解決方案或質(zhì)疑其他智能體的正確主張,其他智能體往往不會糾正錯誤,而是遵循錯誤的決策,導(dǎo)致性能低于單智能體。

而在縱向溝通中,其他智能體只需要提供反饋,雖然建議可能會存在缺陷,但大多數(shù)智能體有建設(shè)性的批評通常會緩解錯誤,從而使核心智能體可以保留準(zhǔn)確的解決方案。

不過這也不意味著橫向溝通效率較低,只是說在需要精確答案的任務(wù)上,縱向溝通更合適;而在咨詢等需要不同解決方案的任務(wù)中,橫向溝通更合適。

案例研究:軟件開發(fā)

研究人員在文中設(shè)計了三個案例任務(wù),下面以軟件開發(fā)為例

圖片圖片

任務(wù)描述

視頻游戲中往往會提供復(fù)雜的虛擬環(huán)境,可以有效測試智能體的能力邊界,研究人員以沙盒游戲《我的世界》(Minecraft)為實(shí)驗(yàn)平臺,游戲的機(jī)制和大量可制作的物品集合要求智能體不僅要執(zhí)行任務(wù),還要計劃、協(xié)調(diào)和適應(yīng)動態(tài)場景。

研究人員的目標(biāo)是利用AgentVerse整合多個智能體來合作制作特定的物品,測試智能體在復(fù)雜的環(huán)境中共享知識、資源和協(xié)作的能力。

實(shí)驗(yàn)分析

實(shí)驗(yàn)中,要求三個智能體合作制作一個書架,其過程至少包含九個基本步驟,如收集木材和皮革等材料,制作書籍等中間物品,最后組裝書架。

圖片圖片

由于游戲中只有玩家一種身份,所以AgentVerse框架中的專家招募階段可以省略,直接通過提示指定模型扮演《我的世界》中經(jīng)驗(yàn)豐富的玩家即可。

智能體可以將制作書架的整體目標(biāo)分解成正確的子任務(wù),戰(zhàn)略性地分配并分發(fā)執(zhí)行。

一個值得注意的觀察是智能體的適應(yīng)性和合作本能,例如,在最初的幾輪比賽中,當(dāng)Alice努力淘汰皮革所需的三頭奶牛時,Bob輔助完成了指定的任務(wù),他注意到了Alice面臨的困難,從而介入并提供幫助。

類似的涌現(xiàn)行為非常關(guān)鍵,凸顯了智能體在面臨意想不到的挑戰(zhàn)時的健壯性和靈活性。

參考資料:

https://github.com/OpenBMB/AgentVerse

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2009-09-21 16:06:48

2024-10-15 17:28:05

2024-01-22 07:08:00

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開發(fā)

2021-07-22 15:25:14

開源技術(shù) 框架

2023-05-05 17:49:23

2024-10-12 12:30:18

2025-01-22 15:17:43

2011-01-24 14:07:13

網(wǎng)秦云安全移動安全

2024-03-25 00:30:00

AI框架

2010-06-21 11:41:00

融合通信無線集群通信捷思銳

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2025-03-28 10:16:15

2025-04-14 10:58:53

Agno多模態(tài)智能體LangGraph

2025-01-08 08:21:16

2024-07-22 08:30:00

神經(jīng)網(wǎng)絡(luò)AI

2023-04-14 13:58:17

代碼智能

2024-07-23 14:10:48

2022-06-09 14:08:34

多設(shè)備協(xié)同鴻蒙

2025-01-20 13:10:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號