自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于獎(jiǎng)勵(lì)驅(qū)動和自組織演化機(jī)制,全新框架ReSo重塑復(fù)雜推理任務(wù)中的智能協(xié)作

人工智能 新聞
作者提出了?ReSo—— 一個(gè)基于獎(jiǎng)勵(lì)驅(qū)動、自組織演化機(jī)制的多智能體系統(tǒng)架構(gòu)。該方法通過引入?yún)f(xié)同獎(jiǎng)勵(lì)模型(Collaborative Reward Model, CRM)。

本文由上海人工智能實(shí)驗(yàn)室,悉尼大學(xué),牛津大學(xué)聯(lián)合完成。第一作者周恒為上海 ailab 實(shí)習(xí)生和 Independent Researcher 耿鶴嘉。通訊作者為上海人工智能實(shí)驗(yàn)室青年科學(xué)家白磊和牛津大學(xué)訪問學(xué)者,悉尼大學(xué)博士生尹榛菲,團(tuán)隊(duì)其他成員還有 ailab 實(shí)習(xí)生薛翔元。

ReSo 框架(Reward-driven & Self-organizing)為復(fù)雜推理任務(wù)中的多智能體系統(tǒng)(MAS)提供了全新解法,在處理復(fù)雜任務(wù)時(shí),先分解生成任務(wù)圖,再為每個(gè)子任務(wù)匹配最佳 agent。將任務(wù)圖生成與獎(jiǎng)勵(lì)驅(qū)動的兩階段智能體選擇過程相結(jié)合,該方法不僅提升了多智能體協(xié)作的效率,還為增強(qiáng)多智能體的推理能力開辟了新路徑。

圖片

  • 論文標(biāo)題:ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks
  • 論文鏈接:https://arxiv.org/abs/2503.02390
  • 代碼地址:https://github.com/hengzzzhou/ReSo

研究背景:LLM 推理能力的掣肘與突破口

近年來,增加推理時(shí)間(Inference Time Scaling)被廣泛認(rèn)為是提升大語言模型(Large Language Models, LLMs)推理能力的重要途徑之一。一方面,通過在訓(xùn)練后階段引入強(qiáng)化學(xué)習(xí)與獎(jiǎng)勵(lì)模型,可優(yōu)化單一模型的推理路徑,使其在回答前生成中間步驟,表現(xiàn)出更強(qiáng)的邏輯鏈構(gòu)建能力;另一方面,也有研究嘗試構(gòu)建多智能體系統(tǒng)(Multi-Agent Systems, MAS),借助多個(gè)基座模型或智能體的協(xié)同工作來解決單次推理難以完成的復(fù)雜任務(wù)。

相較于單模型的推理時(shí)間擴(kuò)展,多智能體方法在理論上更具靈活性與可擴(kuò)展性,但在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn):

(1)多數(shù) MAS 依賴人工設(shè)計(jì)與配置,缺乏自動擴(kuò)展與適應(yīng)性的能力;

(2)通常假設(shè)所有智能體能力已知,然而 LLM 作為 “黑箱式” 的通用模型,在實(shí)際任務(wù)中往往難以預(yù)先評估其能力邊界;

(3)現(xiàn)有 MAS 中的獎(jiǎng)勵(lì)信號設(shè)計(jì)較為粗糙,僅依賴結(jié)果反饋或自我評估,難以有效驅(qū)動優(yōu)化過程;

(4)缺乏基于數(shù)據(jù)反饋的動態(tài)演化機(jī)制,限制了 MAS 系統(tǒng)在大規(guī)模任務(wù)中的表現(xiàn)與泛化能力。

上述限制提出了一個(gè)核心問題:能否構(gòu)建一種具備自組織能力的多智能體系統(tǒng),使其能夠通過獎(jiǎng)勵(lì)信號直接從數(shù)據(jù)中學(xué)習(xí)協(xié)作策略,而無需大量人工干預(yù)?

為應(yīng)對這一挑戰(zhàn),作者提出了 ReSo—— 一個(gè)基于獎(jiǎng)勵(lì)驅(qū)動、自組織演化機(jī)制的多智能體系統(tǒng)架構(gòu)。該方法通過引入?yún)f(xié)同獎(jiǎng)勵(lì)模型(Collaborative Reward Model, CRM),在任務(wù)圖生成與智能體圖構(gòu)建之間建立反饋閉環(huán),從而實(shí)現(xiàn)基于細(xì)粒度獎(jiǎng)勵(lì)的智能體動態(tài)優(yōu)化與協(xié)作演化。與現(xiàn)有多智能體方案相比,ReSo 在可擴(kuò)展性與優(yōu)化能力上均具優(yōu)勢,并在多項(xiàng)復(fù)雜推理任務(wù)上達(dá)到了領(lǐng)先性能。

圖片

ReSo 框架流程圖

ReSo 框架:Task Graph + Agent Graph,重塑 MAS 推理能力

具體來說,作者提出了兩項(xiàng)核心創(chuàng)新:(1) ReSo,一個(gè)獎(jiǎng)勵(lì)驅(qū)動的自組織 MAS,能夠自主適應(yīng)復(fù)雜任務(wù)和靈活數(shù)量的智能體候選,無需手動設(shè)計(jì)合作解決方案。(2) 引入?yún)f(xié)作獎(jiǎng)勵(lì)模型 (CRM),專門用于優(yōu)化 MAS 性能。CRM 可以在多智能體協(xié)作中提供細(xì)粒度的獎(jiǎng)勵(lì)信號,從而實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的 MAS 性能優(yōu)化。

1. 問題定義

對于一個(gè)解決任意問題 Q 的多智能體任務(wù),作者將其定義為如下算法:

圖片

其中 圖片負(fù)責(zé)根據(jù)輸入問題構(gòu)建任務(wù)分解圖,確保將問題結(jié)構(gòu)化地分解為子任務(wù)及其依賴關(guān)系。圖片則動態(tài)地選擇并分配合適的代理來解決已識別的子任務(wù)。這種模塊化設(shè)計(jì)使得每個(gè)組件能夠獨(dú)立優(yōu)化,從而實(shí)現(xiàn)更高的靈活性和可擴(kuò)展性。

2. 任務(wù)圖生成:明確子任務(wù)和依賴關(guān)系

ReSo 首先使用一個(gè)大語言模型將復(fù)雜問題分解,轉(zhuǎn)化為分步驟的有向無環(huán)任務(wù)圖 (DAG Task Graph),為后續(xù)智能體分配提供基礎(chǔ)。

圖片

在實(shí)踐中,對于任務(wù)分解,作者既測試了了已有的閉源模型(如 gpt4o),也在開源 LLM (如 Qwen-7b) 上進(jìn)行監(jiān)督微調(diào) (SFT) 來執(zhí)行更專業(yè)的任務(wù)分解。為了微調(diào)開源 LLM,作者構(gòu)建了合成數(shù)據(jù)(見后文數(shù)據(jù)貢獻(xiàn)章節(jié)),明確要求 LLM 將 Q 分解為邏輯子問題,指定它們的執(zhí)行順序和依賴關(guān)系,并以 DAG 格式輸出。

圖片

3. 兩階段智能體選擇:從粗到細(xì),精挑細(xì)選

一旦獲得任務(wù)圖,作者就需要將每個(gè)子任務(wù)分配給最合適的代理。作者將此代理分配過程表示為 圖片。從概念上講,圖片會根據(jù)大型代理池 A 中最合適的代理對任務(wù)圖中的每個(gè)節(jié)點(diǎn)進(jìn)行分類,從而構(gòu)建一個(gè)代理圖,將每個(gè)節(jié)點(diǎn)映射到一個(gè)或多個(gè)選定的代理。

圖片

具體來說,作者提出了動態(tài)智能體數(shù)據(jù)庫(DADB)作為 Agent 選擇的代理池:通過構(gòu)建一個(gè)動態(tài)數(shù)據(jù)庫,存儲智能體的基本信息、歷史性能及計(jì)算成本,以供未來生成初步質(zhì)量評分。

在 DADB 的基礎(chǔ)上,對于使智能體選擇算法具有可擴(kuò)展性、可優(yōu)化性,作者提出了兩階段的搜索算法:

  • 粗粒度搜索(UCB 算法):利用上置信界(UCB)算法篩選候選智能體。

圖片

給定 DADB A 和一個(gè)子任務(wù) vj,作者希望首先從所有智能體中篩選出一批有潛力的候選智能體(數(shù)量為 k)。

為此,作者采用了經(jīng)典的上置信界(UCB)策略,該策略兼顧 “探索” 和 “利用” 的平衡:

圖片

其中:Q (圖片):DADB 給出的預(yù)評分,N:系統(tǒng)到目前為止分配過的智能體總數(shù),n (圖片):智能體圖片被選中的次數(shù),ε?1:防止除以 0 的微小常數(shù),c:超參數(shù),控制探索(少被用過的智能體)與利用(高評分智能體)之間的平衡。

最后,作者按 UCB 分?jǐn)?shù)對所有智能體排序,選擇前 k 個(gè)作為當(dāng)前子任務(wù)的候選集:圖片

  • 細(xì)粒度篩選(協(xié)作獎(jiǎng)勵(lì)模型 CRM):通過協(xié)作獎(jiǎng)勵(lì)模型對候選智能體進(jìn)行細(xì)粒度評估,最終選擇最優(yōu)智能體。

在完成粗粒度篩選、選出了候選智能體集合之后,作者需要進(jìn)一步評估這些智能體在當(dāng)前子任務(wù)圖片上的實(shí)際表現(xiàn)。這一步是通過一個(gè)協(xié)同獎(jiǎng)勵(lì)模型(Collaborative Reward Model, CRM) 來完成的。

這個(gè)評估過程很直接:

每個(gè)候選智能體 ai 對子任務(wù)圖片生成一個(gè)答案,記作 圖片 (圖片);

然后作者通過獎(jiǎng)勵(lì)模型來評估這個(gè)答案的質(zhì)量,得到獎(jiǎng)勵(lì)值 r (圖片圖片):

圖片

其中 RewardModel 會綜合考慮以下因素來打分:

A. 當(dāng)前智能體圖片的角色與設(shè)定(即其 static profile);

B. 子任務(wù)圖片的目標(biāo);

C. 以及該智能體在先前的推理過程中的上下文。

在所有候選智能體被評估后,作者將獎(jiǎng)勵(lì)值最高的智能體 a 分配給子任務(wù)圖片,并將其生成的答案作為該子任務(wù)的最終解。這個(gè)評估與分配過程會對任務(wù)圖中的每一個(gè)子任務(wù)節(jié)點(diǎn)重復(fù)進(jìn)行,直到整張圖完成分配。

1. 從訓(xùn)練到推理:動態(tài)優(yōu)化與高效推理

  • 訓(xùn)練階段:利用 CRM 獎(jiǎng)勵(lì)信號動態(tài)更新 DADB,實(shí)現(xiàn)自適應(yīng)優(yōu)化。

圖片

其中:R (圖片) 表示當(dāng)前該智能體的平均獎(jiǎng)勵(lì);n (圖片) 是它至今參與的任務(wù)次數(shù);r (圖片,圖片 ) 是它在當(dāng)前子任務(wù)中的獎(jiǎng)勵(lì)。

類似地,作者也可以用同樣的方式更新該智能體的執(zhí)行開銷(例如運(yùn)行時(shí)間、資源消耗等),記作 c (圖片圖片)。

通過不斷迭代地學(xué)習(xí)和更新,DADB 能夠動態(tài)地根據(jù)歷史數(shù)據(jù)評估各個(gè)智能體,從而實(shí)現(xiàn)自適應(yīng)的智能體選擇機(jī)制,提升系統(tǒng)的整體性能和效率。

  • 推理階段:在測試階段,作者不再需要獎(jiǎng)勵(lì)模型。此時(shí),作者直接使用已經(jīng)訓(xùn)練好的 DADB,從中選擇最優(yōu)的智能體候選者,并為每個(gè)子任務(wù)挑選最優(yōu)解。

2. 從 MCTS 視角看 ReSo:降低復(fù)雜度,提升擴(kuò)展性

任務(wù)圖經(jīng)過拓?fù)渑判蚝?,形成一棵決策樹,其中每個(gè)節(jié)點(diǎn)代表一個(gè)子任務(wù),邊表示依賴關(guān)系。在每一層,作者使用 UCB 修剪樹并選擇一組有潛力的智能體,然后模擬每個(gè)智能體并使用 CRM 評估其性能。由此產(chǎn)生的獎(jiǎng)勵(lì)會更新智能體的動態(tài)配置文件,從而優(yōu)化選擇策略。MAS 的構(gòu)建本質(zhì)上是尋找從根到葉的最佳路徑,最大化 UCB 獎(jiǎng)勵(lì)以獲得最佳性能。

數(shù)據(jù)集生成:Mas-Dataset

由于缺乏高質(zhì)量的 MAS 數(shù)據(jù)集,作者提出了一種自動化方法來生成多智能體任務(wù)數(shù)據(jù)。這個(gè)過程包括隨機(jī)生成任務(wù)圖、填充子任務(wù)以及構(gòu)建自然語言依賴關(guān)系。提出了一個(gè)單個(gè) sample 就具有多學(xué)科任務(wù)的數(shù)據(jù)集。開源了數(shù)據(jù)合成腳本論文合成了 MATH-MAS 和 Scibench-MAS 數(shù)據(jù)集,復(fù)雜度有3,5,7。復(fù)雜度為 7 的意思為,單個(gè)題目中由7個(gè)子問題組成,他們來自不同的領(lǐng)域(數(shù)學(xué),物理,化學(xué))。子問題之間有依賴關(guān)系,評測模型處理復(fù)雜問題的能力。下圖是個(gè) Scibench-MAS 復(fù)雜度為 3 的例子:

圖片

實(shí)驗(yàn)結(jié)果

主要結(jié)果

表 1 的實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)表明,ReSo 在效果上匹敵或超越現(xiàn)有方法。ReSo 在 Math-MAS-Hard 和 SciBench-MAS-Hard 上的準(zhǔn)確率分別達(dá)到 33.7% 和 32.3% ,而其他方法則完全失效。圖 3 顯示,在復(fù)雜推理任務(wù)中,ReSo 的表現(xiàn)全面優(yōu)于現(xiàn)有 MAS 方法,展現(xiàn)了其卓越的性能和強(qiáng)大的適應(yīng)性。

圖片

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-03-25 16:42:19

自組織網(wǎng)絡(luò)zigbeeWi-Fi

2022-07-25 08:00:00

機(jī)器學(xué)習(xí)SOM算法

2015-08-19 16:22:48

環(huán)信

2010-03-18 12:18:36

無線傳感器網(wǎng)絡(luò)自組織方

2018-11-15 15:45:39

2024-04-19 09:00:01

映射算法大型語言模型LLM

2013-05-06 14:13:54

自組織網(wǎng)絡(luò)SON

2024-07-08 13:02:06

2013-07-08 16:03:39

LTECDMA3GPP

2024-03-11 00:40:00

AI研究

2018-07-04 09:44:09

TalkingData數(shù)據(jù)智能

2024-11-14 10:40:00

智能體模型

2024-11-26 08:50:20

2010-08-16 10:42:18

自組織網(wǎng)絡(luò)

2018-08-06 16:04:14

國雙

2021-10-21 15:20:35

智能自動化Science

2020-09-09 09:51:41

神經(jīng)網(wǎng)絡(luò)DA技術(shù)感知器

2020-09-08 14:53:58

人機(jī)協(xié)作智能

2025-04-07 09:00:00

AI趨勢智能體Agent

2024-08-14 14:15:31

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號