自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

玩轉(zhuǎn)「智能體魔方」！清華推出AgentSquare模塊化搜索框架，開啟AI智能體高速進(jìn)化時(shí)代

作者：新智元 2024-11-08 09:20:00

人工智能新聞

AI智能體能像有機(jī)生命一樣自適應(yīng)演化嗎？最近清華大學(xué)團(tuán)隊(duì)提出了AgentSquare模塊化智能體設(shè)計(jì)框架，通過標(biāo)準(zhǔn)化的模塊接口抽象，讓AI智能體可以通過模塊演化和重組高速進(jìn)化，實(shí)現(xiàn)針對(duì)不同任務(wù)場景的自適應(yīng)演進(jìn)，賦能超越人類設(shè)計(jì)的智能體系統(tǒng)在多種評(píng)測數(shù)據(jù)集上廣泛自我涌現(xiàn)。

優(yōu)秀基因的演化和重組，是生命體適應(yīng)環(huán)境、永葆活力的自然法則。AI智能體能否像有機(jī)生命一樣，實(shí)現(xiàn)適應(yīng)任務(wù)環(huán)境的高效自我演化？

大模型智能體的快速發(fā)展在數(shù)學(xué)、醫(yī)療、個(gè)人助手等各領(lǐng)域產(chǎn)生了突破性應(yīng)用，但依賴專家知識(shí)的手工設(shè)計(jì)方法制約了它們的任務(wù)自適應(yīng)能力。如何實(shí)現(xiàn)AI智能體針對(duì)不同任務(wù)場景的高速自我演進(jìn)一直是一個(gè)棘手的難題。

圖1 AI智能體的自適應(yīng)演進(jìn)

為了解決這一問題，清華大學(xué)數(shù)據(jù)科學(xué)與智能實(shí)驗(yàn)室提出了「AgentSquare-智能體魔方」，推出了模塊化的智能體系統(tǒng)設(shè)計(jì)與搜索新范式。

標(biāo)準(zhǔn)化的模塊接口抽象，使得任務(wù)規(guī)劃、常識(shí)推理、工具使用等經(jīng)典智能體模塊的重組如同「擰魔方」一般輕松。同時(shí)，演化產(chǎn)生的新穎模塊也可被直接組裝應(yīng)用于其他智能體系統(tǒng)。

在網(wǎng)頁、具身、工具、游戲等不同場景的六個(gè)基準(zhǔn)數(shù)據(jù)集上測試，顯示AgentSquare均能高效發(fā)現(xiàn)顯著優(yōu)于已知人類設(shè)計(jì)的新穎智能體系統(tǒng)。「AgentSquare-智能體魔方」開啟了模塊化智能體設(shè)計(jì)搜索的「變形金剛」時(shí)代。

項(xiàng)目代碼、模塊庫已進(jìn)行全面開源，簡潔指令便可開啟AI智能體的高速進(jìn)化。

論文標(biāo)題：AgentSquare: Automatic LLM Agent Search In Modular Design Space

論文地址：https://arxiv.org/abs/2410.06153

項(xiàng)目地址：https://tsinghua-fib-lab.github.io/AgentSquare_website/

代碼倉庫：https://github.com/tsinghua-fib-lab/AgentSquare

「AgentSquare-智能體魔方」——模塊化智能體設(shè)計(jì)的新范式

AgentSquare的關(guān)鍵創(chuàng)新來自于模塊化設(shè)計(jì)空間的提出。研究團(tuán)隊(duì)系統(tǒng)梳理了AI頂會(huì)的大量智能體研究，提煉出了16種經(jīng)典智能體設(shè)計(jì)，并將其歸納為一個(gè)模塊化智能體設(shè)計(jì)空間。

在這個(gè)設(shè)計(jì)框架中，LLM智能體被簡化為四個(gè)核心模塊有機(jī)協(xié)作：任務(wù)規(guī)劃（Planning）、常識(shí)推理（Reasoning）、工具使用（Tool Use）和記憶學(xué)習(xí)（Memory）。

研究團(tuán)隊(duì)還對(duì)不同代碼框架進(jìn)行了標(biāo)準(zhǔn)化整合，抽象出了標(biāo)準(zhǔn)化的模塊接口，讓每個(gè)模塊可以像擰魔方一樣輕松替換。這樣，AgentSquare既能支持現(xiàn)有經(jīng)典設(shè)計(jì)的組合創(chuàng)新，也能加速新智能體模塊的高效探索。

圖2 模塊化設(shè)計(jì)空間（左）與標(biāo)準(zhǔn)IO接口（右）

這四個(gè)核心模塊各有分工：

任務(wù)規(guī)劃（Planning）：將任務(wù)指令拆解為一系列子任務(wù)，提供清晰的行動(dòng)指南
常識(shí)推理（Reasoning）：引導(dǎo)智能體進(jìn)行有條理的結(jié)構(gòu)化推理，如「思維鏈」，提高推理準(zhǔn)確度
工具使用（Tool Use）：當(dāng)內(nèi)部知識(shí)不夠時(shí)，選擇合適的外部工具輔助任務(wù)完成
記憶學(xué)習(xí)（Memory）：記錄和管理智能體的經(jīng)驗(yàn)，支持后續(xù)決策更高效

基于這四大模塊，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)智能體工作流程模板（Agentic Workflow）。

如圖2所示，智能體會(huì)先用任務(wù)規(guī)劃模塊將復(fù)雜任務(wù)指令分解成小步驟，逐步由常識(shí)推理模塊執(zhí)行子任務(wù)。

當(dāng)遇到知識(shí)盲區(qū)時(shí)，智能體就會(huì)借助工具使用模塊調(diào)用外部工具，同時(shí)記憶學(xué)習(xí)模塊保存相關(guān)經(jīng)驗(yàn)，為后續(xù)任務(wù)提供支持。

最終，子任務(wù)推理結(jié)果會(huì)轉(zhuǎn)化為實(shí)際行動(dòng)，并在環(huán)境反饋的幫助下不斷優(yōu)化計(jì)劃，直到任務(wù)完成或達(dá)到嘗試上限為止。

模塊化設(shè)計(jì)空間中的智能體搜索問題

基于模塊化設(shè)計(jì)空間，AgentSquare帶來了一個(gè)新的研究課題——模塊化智能體搜索（MoLAS）。

MoLAS的主要技術(shù)問題在于（1）如何快速找到適應(yīng)任務(wù)的最優(yōu)模塊組合（2）如何發(fā)現(xiàn)新穎的、更優(yōu)的模塊設(shè)計(jì)。解決這一問題面臨著組合搜索空間龐大、新模塊設(shè)計(jì)缺乏指引以及智能體評(píng)測成本高昂的三大挑戰(zhàn)。

圖3 模塊化智能體搜索問題（MoLAS）

AgentSquare演化搜索——智能體「變形金剛」時(shí)代已來

圖4 智能體設(shè)計(jì)的「變形金剛」時(shí)代

為了應(yīng)對(duì)MoLAS的挑戰(zhàn)，研究團(tuán)隊(duì)推出了AgentSquare演化搜索算法，包含三大核心功能：模塊重組、模塊進(jìn)化和代理評(píng)測模型。

圖5 AgentSquare框架——通過模塊進(jìn)化和重組實(shí)現(xiàn)AI智能體高效自適應(yīng)演化

模塊重組（Module Recombination）：組合經(jīng)典設(shè)計(jì)，優(yōu)化頂層架構(gòu)

考慮到智能體廣闊的設(shè)計(jì)空間，僅靠提示詞（或代碼）改寫的簡單策略只能在原有設(shè)計(jì)之上做微小調(diào)整，難以實(shí)現(xiàn)高效搜索。

為此，AgentSquare引入了LLM作為「重組提議者」（Recombination proposer LLM），基于對(duì)性能評(píng)測經(jīng)驗(yàn)的深入分析，提出重組高性能模塊的智能體設(shè)計(jì)方案，模擬生命體重組優(yōu)秀基因的過程。

模塊重組功能通過對(duì)智能體頂層架構(gòu)的大幅優(yōu)化探索，實(shí)現(xiàn)遠(yuǎn)超底層「提示詞改寫」的優(yōu)化演進(jìn)速度。

模塊進(jìn)化（Module Evolution）：積累底層變異，探索新穎設(shè)計(jì)

僅通過重組現(xiàn)有模塊并不足夠，AgentSquare還引入了模塊進(jìn)化功能，以便在代碼層級(jí)探索全新模塊的可能。

該功能引入一個(gè)作為代碼編程者的LLM（Module-programming LLM）結(jié)合設(shè)計(jì)的模塊進(jìn)化元提示（Evolutionary meta-prompt）來探索新的模塊設(shè)計(jì)，指導(dǎo)智能體生成新模塊的設(shè)計(jì)方案。

通過模塊重組與進(jìn)化，AgentSquare大幅拓展了設(shè)計(jì)空間的搜索范圍，并為智能體引入了更多創(chuàng)新性設(shè)計(jì)。

代理評(píng)測模型（Surrogate Model）：節(jié)省評(píng)測成本，加快優(yōu)化搜索

在自動(dòng)化智能體搜索過程中，一個(gè)重要挑戰(zhàn)是高昂的評(píng)測成本。

例如，在ALFWorld評(píng)測數(shù)據(jù)集上，評(píng)測一個(gè)GPT-4驅(qū)動(dòng)的「思維鏈」智能體需耗費(fèi)近60美元。為了解決這一問題，AgentSquare引入了一個(gè)代理評(píng)測模型（Surrogate Model）來預(yù)測智能體性能。

這個(gè)模型通過召回并對(duì)比相似智能體的歷史評(píng)測數(shù)據(jù)，快速預(yù)測新智能體的表現(xiàn)，從而篩選出性能較差的提案。實(shí)驗(yàn)表明，代理模型的預(yù)測效果與實(shí)際評(píng)測接近，R-Square達(dá)到了0.95，且其token開銷僅為真實(shí)評(píng)測的0.025%

圖6 「代理評(píng)測模型」有效性驗(yàn)證

自適應(yīng)演化搜索，涌現(xiàn)超人智能體設(shè)計(jì)

為驗(yàn)證AgentSquare的效果，研究團(tuán)隊(duì)在四類智能體任務(wù)——網(wǎng)頁（Web）、具身（Embodied）、工具（Tool）和游戲（Game）——的六個(gè)基準(zhǔn)測試上進(jìn)行了大規(guī)模評(píng)測。結(jié)果顯示，AgentSquare發(fā)現(xiàn)的智能體在性能上全面超越了人類設(shè)計(jì)的最優(yōu)方案，平均性能提升達(dá)17.2%

研究還表明，一些簡單的模塊搜索方法（如隨機(jī)組合和貝葉斯優(yōu)化）也能獲得優(yōu)異性能，這進(jìn)一步證明了模塊化設(shè)計(jì)在智能體開發(fā)中的重要性。

表1 與人工設(shè)計(jì)、模塊搜索及提示搜索基線的性能對(duì)比

性能和成本的聯(lián)合分析顯示，AgentSquare不僅提高了智能體的表現(xiàn)，還有效控制了推理成本。通過設(shè)計(jì)reward函數(shù)（如將token開銷納入搜索目標(biāo)），AgentSquare能夠在性能和成本之間靈活權(quán)衡。

圖7 Webshop任務(wù)中各智能體性能與API成本的關(guān)系

此外，研究團(tuán)隊(duì)對(duì)搜索過程進(jìn)行了詳細(xì)分析，發(fā)現(xiàn)其他方法很快遇到性能瓶頸，而AgentSquare表現(xiàn)出更高效的搜索路徑和更低的評(píng)測成本。

圖8 AgentSquare在Alfworld和Webshop任務(wù)中的搜索軌跡

目前，AgentSquare在各項(xiàng)任務(wù)中生成的新模塊均已開源，方便后續(xù)研究者復(fù)用和優(yōu)化。AgentSquare不僅能靈活識(shí)別最適合任務(wù)需求的模塊組合，還能有效整合已有和創(chuàng)新模塊。

如下圖所示，在具身任務(wù)ALFWorld中，AgentSquare設(shè)計(jì)了帶有時(shí)序依賴的planning模塊來優(yōu)化行動(dòng)規(guī)劃，同時(shí)為reasoning模塊加入多鏈路推理和反思機(jī)制，大幅提升了智能體的決策準(zhǔn)確性，有效捕捉到任務(wù)需求的關(guān)鍵點(diǎn)。

圖9 AgentSquare搜索在各任務(wù)中發(fā)現(xiàn)的新模塊及性能最好的模塊組合

匯集社區(qū)智慧，共創(chuàng)AI智能體新時(shí)代！

AgentSquare通過標(biāo)準(zhǔn)化的模塊化設(shè)計(jì)空間和搜索框架，為大模型智能體的研究帶來了系統(tǒng)化和標(biāo)準(zhǔn)化的重要突破。

更為關(guān)鍵的是，AgentSquare作為一個(gè)開源項(xiàng)目，將為智能體研究提供一個(gè)匯集社區(qū)智慧的平臺(tái)，研究者手工設(shè)計(jì)或搜索發(fā)現(xiàn)的新穎智能體設(shè)計(jì)可以作為新模塊被維護(hù)在開源代碼庫中，大幅降低經(jīng)典設(shè)計(jì)在廣泛任務(wù)上的應(yīng)用門檻，助力智能體技術(shù)在更多應(yīng)用場景中的創(chuàng)新與發(fā)展

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="lnt5f"><track id="lnt5f"></track></legend>