自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="j3pbc"></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

基于獎(jiǎng)勵(lì)驅(qū)動和自組織演化機(jī)制，全新框架ReSo重塑復(fù)雜推理任務(wù)中的智能協(xié)作

作者：機(jī)器之心 2025-04-28 08:50:00

人工智能新聞

作者提出了?ReSo—— 一個(gè)基于獎(jiǎng)勵(lì)驅(qū)動、自組織演化機(jī)制的多智能體系統(tǒng)架構(gòu)。該方法通過引入?yún)f(xié)同獎(jiǎng)勵(lì)模型（Collaborative Reward Model, CRM）。

本文由上海人工智能實(shí)驗(yàn)室，悉尼大學(xué)，牛津大學(xué)聯(lián)合完成。第一作者周恒為上海 ailab 實(shí)習(xí)生和 Independent Researcher 耿鶴嘉。通訊作者為上海人工智能實(shí)驗(yàn)室青年科學(xué)家白磊和牛津大學(xué)訪問學(xué)者，悉尼大學(xué)博士生尹榛菲，團(tuán)隊(duì)其他成員還有 ailab 實(shí)習(xí)生薛翔元。

ReSo 框架（Reward-driven & Self-organizing）為復(fù)雜推理任務(wù)中的多智能體系統(tǒng)（MAS）提供了全新解法，在處理復(fù)雜任務(wù)時(shí)，先分解生成任務(wù)圖，再為每個(gè)子任務(wù)匹配最佳 agent。將任務(wù)圖生成與獎(jiǎng)勵(lì)驅(qū)動的兩階段智能體選擇過程相結(jié)合，該方法不僅提升了多智能體協(xié)作的效率，還為增強(qiáng)多智能體的推理能力開辟了新路徑。

論文標(biāo)題：ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks
論文鏈接：https://arxiv.org/abs/2503.02390
代碼地址：https://github.com/hengzzzhou/ReSo

研究背景：LLM 推理能力的掣肘與突破口

近年來，增加推理時(shí)間（Inference Time Scaling）被廣泛認(rèn)為是提升大語言模型（Large Language Models, LLMs）推理能力的重要途徑之一。一方面，通過在訓(xùn)練后階段引入強(qiáng)化學(xué)習(xí)與獎(jiǎng)勵(lì)模型，可優(yōu)化單一模型的推理路徑，使其在回答前生成中間步驟，表現(xiàn)出更強(qiáng)的邏輯鏈構(gòu)建能力；另一方面，也有研究嘗試構(gòu)建多智能體系統(tǒng)（Multi-Agent Systems, MAS），借助多個(gè)基座模型或智能體的協(xié)同工作來解決單次推理難以完成的復(fù)雜任務(wù)。

相較于單模型的推理時(shí)間擴(kuò)展，多智能體方法在理論上更具靈活性與可擴(kuò)展性，但在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn)：

（1）多數(shù) MAS 依賴人工設(shè)計(jì)與配置，缺乏自動擴(kuò)展與適應(yīng)性的能力；

（2）通常假設(shè)所有智能體能力已知，然而 LLM 作為 “黑箱式” 的通用模型，在實(shí)際任務(wù)中往往難以預(yù)先評估其能力邊界；

（3）現(xiàn)有 MAS 中的獎(jiǎng)勵(lì)信號設(shè)計(jì)較為粗糙，僅依賴結(jié)果反饋或自我評估，難以有效驅(qū)動優(yōu)化過程；

（4）缺乏基于數(shù)據(jù)反饋的動態(tài)演化機(jī)制，限制了 MAS 系統(tǒng)在大規(guī)模任務(wù)中的表現(xiàn)與泛化能力。

上述限制提出了一個(gè)核心問題：能否構(gòu)建一種具備自組織能力的多智能體系統(tǒng)，使其能夠通過獎(jiǎng)勵(lì)信號直接從數(shù)據(jù)中學(xué)習(xí)協(xié)作策略，而無需大量人工干預(yù)？

為應(yīng)對這一挑戰(zhàn)，作者提出了 ReSo—— 一個(gè)基于獎(jiǎng)勵(lì)驅(qū)動、自組織演化機(jī)制的多智能體系統(tǒng)架構(gòu)。該方法通過引入?yún)f(xié)同獎(jiǎng)勵(lì)模型（Collaborative Reward Model, CRM），在任務(wù)圖生成與智能體圖構(gòu)建之間建立反饋閉環(huán)，從而實(shí)現(xiàn)基于細(xì)粒度獎(jiǎng)勵(lì)的智能體動態(tài)優(yōu)化與協(xié)作演化。與現(xiàn)有多智能體方案相比，ReSo 在可擴(kuò)展性與優(yōu)化能力上均具優(yōu)勢，并在多項(xiàng)復(fù)雜推理任務(wù)上達(dá)到了領(lǐng)先性能。

ReSo 框架流程圖

ReSo 框架：Task Graph + Agent Graph，重塑 MAS 推理能力

具體來說，作者提出了兩項(xiàng)核心創(chuàng)新：(1) ReSo，一個(gè)獎(jiǎng)勵(lì)驅(qū)動的自組織 MAS，能夠自主適應(yīng)復(fù)雜任務(wù)和靈活數(shù)量的智能體候選，無需手動設(shè)計(jì)合作解決方案。(2) 引入?yún)f(xié)作獎(jiǎng)勵(lì)模型 (CRM)，專門用于優(yōu)化 MAS 性能。CRM 可以在多智能體協(xié)作中提供細(xì)粒度的獎(jiǎng)勵(lì)信號，從而實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的 MAS 性能優(yōu)化。

1. 問題定義

對于一個(gè)解決任意問題 Q 的多智能體任務(wù)，作者將其定義為如下算法：

其中負(fù)責(zé)根據(jù)輸入問題構(gòu)建任務(wù)分解圖，確保將問題結(jié)構(gòu)化地分解為子任務(wù)及其依賴關(guān)系。則動態(tài)地選擇并分配合適的代理來解決已識別的子任務(wù)。這種模塊化設(shè)計(jì)使得每個(gè)組件能夠獨(dú)立優(yōu)化，從而實(shí)現(xiàn)更高的靈活性和可擴(kuò)展性。

2. 任務(wù)圖生成：明確子任務(wù)和依賴關(guān)系

ReSo 首先使用一個(gè)大語言模型將復(fù)雜問題分解，轉(zhuǎn)化為分步驟的有向無環(huán)任務(wù)圖 (DAG Task Graph)，為后續(xù)智能體分配提供基礎(chǔ)。

在實(shí)踐中，對于任務(wù)分解，作者既測試了了已有的閉源模型（如 gpt4o），也在開源 LLM (如 Qwen-7b) 上進(jìn)行監(jiān)督微調(diào) (SFT) 來執(zhí)行更專業(yè)的任務(wù)分解。為了微調(diào)開源 LLM，作者構(gòu)建了合成數(shù)據(jù)（見后文數(shù)據(jù)貢獻(xiàn)章節(jié)），明確要求 LLM 將 Q 分解為邏輯子問題，指定它們的執(zhí)行順序和依賴關(guān)系，并以 DAG 格式輸出。

3. 兩階段智能體選擇：從粗到細(xì)，精挑細(xì)選

一旦獲得任務(wù)圖，作者就需要將每個(gè)子任務(wù)分配給最合適的代理。作者將此代理分配過程表示為。從概念上講，會根據(jù)大型代理池 A 中最合適的代理對任務(wù)圖中的每個(gè)節(jié)點(diǎn)進(jìn)行分類，從而構(gòu)建一個(gè)代理圖，將每個(gè)節(jié)點(diǎn)映射到一個(gè)或多個(gè)選定的代理。

具體來說，作者提出了動態(tài)智能體數(shù)據(jù)庫（DADB）作為 Agent 選擇的代理池：通過構(gòu)建一個(gè)動態(tài)數(shù)據(jù)庫，存儲智能體的基本信息、歷史性能及計(jì)算成本，以供未來生成初步質(zhì)量評分。

在 DADB 的基礎(chǔ)上，對于使智能體選擇算法具有可擴(kuò)展性、可優(yōu)化性，作者提出了兩階段的搜索算法：

粗粒度搜索（UCB 算法）：利用上置信界（UCB）算法篩選候選智能體。

給定 DADB A 和一個(gè)子任務(wù) vj，作者希望首先從所有智能體中篩選出一批有潛力的候選智能體（數(shù)量為 k）。

為此，作者采用了經(jīng)典的上置信界（UCB）策略，該策略兼顧 “探索” 和 “利用” 的平衡：

其中：Q ()：DADB 給出的預(yù)評分，N：系統(tǒng)到目前為止分配過的智能體總數(shù)，n ()：智能體被選中的次數(shù)，ε?1：防止除以 0 的微小常數(shù)，c：超參數(shù)，控制探索（少被用過的智能體）與利用（高評分智能體）之間的平衡。

最后，作者按 UCB 分?jǐn)?shù)對所有智能體排序，選擇前 k 個(gè)作為當(dāng)前子任務(wù)的候選集：

細(xì)粒度篩選（協(xié)作獎(jiǎng)勵(lì)模型 CRM）：通過協(xié)作獎(jiǎng)勵(lì)模型對候選智能體進(jìn)行細(xì)粒度評估，最終選擇最優(yōu)智能體。

在完成粗粒度篩選、選出了候選智能體集合之后，作者需要進(jìn)一步評估這些智能體在當(dāng)前子任務(wù)上的實(shí)際表現(xiàn)。這一步是通過一個(gè)協(xié)同獎(jiǎng)勵(lì)模型（Collaborative Reward Model, CRM）來完成的。

這個(gè)評估過程很直接：

每個(gè)候選智能體 ai 對子任務(wù)生成一個(gè)答案，記作 ()；

然后作者通過獎(jiǎng)勵(lì)模型來評估這個(gè)答案的質(zhì)量，得到獎(jiǎng)勵(lì)值 r (, )：

其中 RewardModel 會綜合考慮以下因素來打分：

A. 當(dāng)前智能體的角色與設(shè)定（即其 static profile）；

B. 子任務(wù)的目標(biāo)；

C. 以及該智能體在先前的推理過程中的上下文。

在所有候選智能體被評估后，作者將獎(jiǎng)勵(lì)值最高的智能體 a 分配給子任務(wù)，并將其生成的答案作為該子任務(wù)的最終解。這個(gè)評估與分配過程會對任務(wù)圖中的每一個(gè)子任務(wù)節(jié)點(diǎn)重復(fù)進(jìn)行，直到整張圖完成分配。

1. 從訓(xùn)練到推理：動態(tài)優(yōu)化與高效推理

訓(xùn)練階段：利用 CRM 獎(jiǎng)勵(lì)信號動態(tài)更新 DADB，實(shí)現(xiàn)自適應(yīng)優(yōu)化。

其中：R () 表示當(dāng)前該智能體的平均獎(jiǎng)勵(lì)；n () 是它至今參與的任務(wù)次數(shù)；r (, ) 是它在當(dāng)前子任務(wù)中的獎(jiǎng)勵(lì)。

類似地，作者也可以用同樣的方式更新該智能體的執(zhí)行開銷（例如運(yùn)行時(shí)間、資源消耗等），記作 c (, )。

通過不斷迭代地學(xué)習(xí)和更新，DADB 能夠動態(tài)地根據(jù)歷史數(shù)據(jù)評估各個(gè)智能體，從而實(shí)現(xiàn)自適應(yīng)的智能體選擇機(jī)制，提升系統(tǒng)的整體性能和效率。

推理階段：在測試階段，作者不再需要獎(jiǎng)勵(lì)模型。此時(shí)，作者直接使用已經(jīng)訓(xùn)練好的 DADB，從中選擇最優(yōu)的智能體候選者，并為每個(gè)子任務(wù)挑選最優(yōu)解。

2. 從 MCTS 視角看 ReSo：降低復(fù)雜度，提升擴(kuò)展性

任務(wù)圖經(jīng)過拓?fù)渑判蚝?，形成一棵決策樹，其中每個(gè)節(jié)點(diǎn)代表一個(gè)子任務(wù)，邊表示依賴關(guān)系。在每一層，作者使用 UCB 修剪樹并選擇一組有潛力的智能體，然后模擬每個(gè)智能體并使用 CRM 評估其性能。由此產(chǎn)生的獎(jiǎng)勵(lì)會更新智能體的動態(tài)配置文件，從而優(yōu)化選擇策略。MAS 的構(gòu)建本質(zhì)上是尋找從根到葉的最佳路徑，最大化 UCB 獎(jiǎng)勵(lì)以獲得最佳性能。

數(shù)據(jù)集生成：Mas-Dataset

由于缺乏高質(zhì)量的 MAS 數(shù)據(jù)集，作者提出了一種自動化方法來生成多智能體任務(wù)數(shù)據(jù)。這個(gè)過程包括隨機(jī)生成任務(wù)圖、填充子任務(wù)以及構(gòu)建自然語言依賴關(guān)系。提出了一個(gè)單個(gè) sample 就具有多學(xué)科任務(wù)的數(shù)據(jù)集。開源了數(shù)據(jù)合成腳本論文合成了 MATH-MAS 和 Scibench-MAS 數(shù)據(jù)集，復(fù)雜度有3，5，7。復(fù)雜度為 7 的意思為，單個(gè)題目中由7個(gè)子問題組成，他們來自不同的領(lǐng)域（數(shù)學(xué)，物理，化學(xué)）。子問題之間有依賴關(guān)系，評測模型處理復(fù)雜問題的能力。下圖是個(gè) Scibench-MAS 復(fù)雜度為 3 的例子：

實(shí)驗(yàn)結(jié)果

主要結(jié)果

表 1 的實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)表明，ReSo 在效果上匹敵或超越現(xiàn)有方法。ReSo 在 Math-MAS-Hard 和 SciBench-MAS-Hard 上的準(zhǔn)確率分別達(dá)到 33.7% 和 32.3% ，而其他方法則完全失效。圖 3 顯示，在復(fù)雜推理任務(wù)中，ReSo 的表現(xiàn)全面優(yōu)于現(xiàn)有 MAS 方法，展現(xiàn)了其卓越的性能和強(qiáng)大的適應(yīng)性。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型 AI 推理

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<table id="vt4j0"><strong id="vt4j0"><tbody id="vt4j0"></tbody></strong></table>