自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

打通智能體「自我進(jìn)化」全流程!復(fù)旦推出通用智能體平臺AgentGym

人工智能 新聞
最近,復(fù)旦大學(xué)語言與視覺團(tuán)隊(duì)推出的 AgentGym 平臺,打通了大語言模型智能體「數(shù)據(jù)采樣、訓(xùn)練微調(diào)、自我進(jìn)化、能力評測」全流程?;谠撈脚_提出的 AgentEvol 算法,首次探索了通用智能體的自我進(jìn)化能力,并在多項(xiàng)智能體任務(wù)上表現(xiàn)非凡,與 GPT-4、Claude 等 SOTA 模型比肩。

AI通用智能體的自我進(jìn)化能力,并非遙不可及。

LLM-based Agent,已經(jīng)不再需要人類監(jiān)督者的幫助,開始實(shí)現(xiàn)「自我進(jìn)化」!

這個智能體在學(xué)習(xí)了專家軌跡以后,獲得了基礎(chǔ)的通用能力,能夠在更廣泛、更真實(shí)的未知環(huán)境與任務(wù)上進(jìn)行探索和學(xué)習(xí),在外部的反饋下不斷提升自己。

最近,復(fù)旦大學(xué)語言與視覺團(tuán)隊(duì)推出的 AgentGym 平臺,打通了大語言模型智能體「數(shù)據(jù)采樣、訓(xùn)練微調(diào)、自我進(jìn)化、能力評測」全流程?;谠撈脚_提出的 AgentEvol 算法,首次探索了通用智能體的自我進(jìn)化能力,并在多項(xiàng)智能體任務(wù)上表現(xiàn)非凡,與 GPT-4、Claude 等 SOTA 模型比肩。

圖片

  • 論文鏈接:https://arxiv.org/abs/2406.04151
  • AgentGym代碼倉庫:https://github.com/WooooDyy/AgentGym

研究背景

開發(fā)一個能夠解決和適應(yīng)復(fù)雜工作的多任務(wù)通用智能體,一直是人工智能社區(qū)長久以來的重要目標(biāo)。

類似于人類的學(xué)習(xí)過程,通用智能體首先通過模仿,開始學(xué)習(xí)最基礎(chǔ)的知識和技能。

隨著基礎(chǔ)能力的掌握,我們不僅期望智能體可以通過與不同環(huán)境的交互,持續(xù)學(xué)習(xí)和適應(yīng)許多先前未見的任務(wù),還能從自身經(jīng)驗(yàn)以及外部反饋中汲取豐富的智慧,發(fā)展出一定程度的泛化能力(圖1)。

圖1:基礎(chǔ)通用智能體實(shí)現(xiàn)「自我進(jìn)化」的示意圖。該智能體首先在人類監(jiān)督下進(jìn)行行為克隆,隨后在不同的外部環(huán)境和任務(wù)中進(jìn)行探索和學(xué)習(xí),以實(shí)現(xiàn)自我進(jìn)化。

大語言模型憑借其卓越的通用能力,被視為構(gòu)建此類智能體的重要基礎(chǔ)之一。目前的研究領(lǐng)域正沿著兩個主要方向進(jìn)行探索,以推動智能體技術(shù)的進(jìn)一步發(fā)展。

  • 依賴于人類監(jiān)督的行為克隆(Behavior Cloning)方法,需要智能體逐步模仿專家提供的軌跡數(shù)據(jù)。這種方法雖然有效,但由于標(biāo)注資源的限制,難以擴(kuò)展對環(huán)境的探索也較為有限,容易遇到性能或泛化性的瓶頸。
  • 允許智能體根據(jù)環(huán)境反饋,不斷提高能力的自我改進(jìn)(Self Improving)方法,減少了對人類監(jiān)督的依賴,同時豐富對環(huán)境的探索深度。然而,它們通常在特定任務(wù)的孤立環(huán)境中進(jìn)行訓(xùn)練,得到一批無法有效泛化的專家智能體。

面對上述挑戰(zhàn),作者首次探討了一個具備基礎(chǔ)能力的通用智能體——在多種環(huán)境和任務(wù)中——自我進(jìn)化的潛力。

為了實(shí)現(xiàn)這一研究目標(biāo),作者確定了推動智能體自我進(jìn)化的「三大關(guān)鍵支柱」,這些支柱是研究的核心要素。

  • 多樣化的環(huán)境和任務(wù),允許智能體動態(tài)且全面地進(jìn)行交互、訓(xùn)練,而不是被局限于某個孤立的環(huán)境。
  • 一個適當(dāng)大小的軌跡數(shù)據(jù)集,幫助智能體配備基本的指令遵循能力和基礎(chǔ)任務(wù)知識。
  • 一種有效且可擴(kuò)展的進(jìn)化算法,激發(fā)智能體在不同難度環(huán)境中的泛化能力。

圖2:AgentGym 平臺示意圖。平臺共涵蓋了 14 個跨越不同類別的環(huán)境,每個環(huán)境都作為 HTTP 服務(wù)部署??蛻舳藶橹悄荏w提供封裝好的統(tǒng)一接口,便于與環(huán)境互動。通過 AgentEvol 方法,作者探索了智能體在不同環(huán)境和任務(wù)中的自我進(jìn)化。此外,平臺提供了測試集 AgentEval 對智能體進(jìn)行全面的能力評估。

圍繞這三大支柱,作者的研究工作體現(xiàn)在以下幾個方面:

  • 「AgentGym」,一個包含 14 種具體環(huán)境,89 種具體任務(wù)類型的交互平臺(圖2),為大語言模型智能體訓(xùn)練提供支持。該平臺基于 HTTP 服務(wù),為不同環(huán)境提供了一個統(tǒng)一的 API 接口,支持軌跡采樣、多輪交互、在線評估和實(shí)時反饋。
  • 「AgentEval」,一個具有挑戰(zhàn)性的智能體測試基準(zhǔn)?!窤gentTraj」和「AgentTraj-L」,通過指令增強(qiáng)和眾包 / SOTA 模型標(biāo)注構(gòu)建的專家軌跡數(shù)據(jù)集。經(jīng)過格式統(tǒng)一和數(shù)據(jù)過濾,幫助智能體學(xué)習(xí)基本的復(fù)雜任務(wù)解決能力。
  • 「AgentEvol」,一種激發(fā)智能體跨環(huán)境自我進(jìn)化的全新算法。該算法的動機(jī)在于,期望智能體在面對先前未見的任務(wù)和指令時進(jìn)行自主探索,從新的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)與優(yōu)化。

AgentGym 平臺,是一個全新的,支持大語言模型智能體軌跡采樣、自我進(jìn)化、能力評測的框架,特點(diǎn)是提供多樣、實(shí)時、并發(fā)和統(tǒng)一格式的反饋。旨在幫助人工智能社區(qū)更便利地探索具備通用能力的 LLM-based 智能體。

AgentGym——交互式訓(xùn)練與評測一體化的智能體平臺

AgentGym 集成了多種環(huán)境、豐富的軌跡數(shù)據(jù)和全面的基準(zhǔn)測試。它通過統(tǒng)一的環(huán)境操作接口,簡化了環(huán)境配置過程。具體而言,AgentGym 擁有以下特點(diǎn):

多樣化的環(huán)境:

AgentGym 包含 14 種環(huán)境和 89 項(xiàng)任務(wù),涵蓋了網(wǎng)頁導(dǎo)航、文字游戲、具身控制、工具使用和代碼等類別。無論是致力于構(gòu)建 Task-specific Agent,還是通用型的 Generally-capable Agent,AgentGym 框架均能提供對應(yīng)的支持。

其中,每個環(huán)境獨(dú)立部署,避免了不同環(huán)境間的依賴沖突,確保了平臺的可擴(kuò)展性。例如,WebShop 環(huán)境,一個用于網(wǎng)絡(luò)購物任務(wù)的交互式平臺,僅通過一行命令,即可輕松完成部署。

數(shù)據(jù)驅(qū)動:

AgentGym 的軌跡數(shù)據(jù)采用了統(tǒng)一的 ReAct 格式,該格式通過「Thought-Action」對將推理步驟和行動序列結(jié)合,圖 2左上方提供了一個軌跡數(shù)據(jù)的示例。

平臺通過廣泛收集和增強(qiáng)指令,構(gòu)建了具有 20509 條指令的集合,并從中挑選出 1160 條具有多樣性的指令,構(gòu)建了基準(zhǔn)測試集 AgentEval,用于全面評估基于 LLM 的智能體。

同時,作者使用 GPT-4-Turbo 和眾包標(biāo)注收集軌跡數(shù)據(jù),并基于獎勵或正確性嚴(yán)格篩選,構(gòu)建了 6130 條高質(zhì)量軌跡的集合 AgentTraj。為了展現(xiàn)行為克隆方法的性能潛力,研究者進(jìn)一步擴(kuò)展,得到包含 14485 條軌跡的 AgentTraj-L。

圖3:AgentGym 平臺 14 種環(huán)境的統(tǒng)計數(shù)據(jù)(涵蓋任務(wù)類型數(shù)量、指令集規(guī)模、評估集規(guī)模、軌跡集規(guī)模及平均交互輪數(shù))。

模塊化的架構(gòu)與高效的 Pipeline:

AgentGym 平臺采用模塊化設(shè)計,開發(fā)者可以輕松添加或更改環(huán)境。環(huán)境被部署在不同的服務(wù)器(EnvServers)上,通過 HTTP 服務(wù)實(shí)現(xiàn)靈活、高效的交互??蛻舳耍‥nvClients)封裝了與環(huán)境交互所需的函數(shù),提供了相應(yīng)的操作接口。

而核心組件 AgentController 作為智能體和環(huán)境的中間媒介,提供了優(yōu)化智能體策略的訓(xùn)練器(Trainer),以及支持多環(huán)境的性能評估器(Evaluator)。統(tǒng)一的操作接口簡化了智能體與環(huán)境的交互,使用戶能夠?qū)W⒂谒惴▋?yōu)化和智能體訓(xùn)練。

圖片

圖4:AgentGym 平臺架構(gòu)概覽。

獨(dú)特優(yōu)勢:

與其他框架相比,AgentGym 的優(yōu)勢在于它不僅提供了廣泛的環(huán)境集合,還通過交互平臺為智能體提供實(shí)時的環(huán)境反饋,支持智能體的訓(xùn)練與評估。同時,AgentGym 支持在多個環(huán)境中實(shí)現(xiàn)智能體的「全面進(jìn)化」,這極大地增強(qiáng)了智能體的泛化能力,使其在不同任務(wù)和環(huán)境中都能表現(xiàn)出色。

圖片

圖5:AgentGym 與其他代理框架的比較。

AgentEvol——通用智能體進(jìn)化算法 

基于 AgentGym 套件,研究者們可以容易地對智能體進(jìn)行采樣、訓(xùn)練與評測。而復(fù)旦語言與視覺團(tuán)隊(duì)為了探究具有通用智能體的在「自我進(jìn)化」的潛力,提出了 AgentEvol 算法(圖6),幫助智能體在多環(huán)境、多任務(wù)下實(shí)現(xiàn)了各項(xiàng)能力的提升。這一算法的核心思想是讓智能體通過探索和學(xué)習(xí)來提升自己的性能,特別是在面對之前未見過的任務(wù)和指令時。

圖6:AgentEvol 算法框架

AgentEvol 首先基于收集到的 AgentTraj 軌跡數(shù)據(jù)集,通過「行為克?。╞ehavioral cloning)」的形式訓(xùn)練一個「基礎(chǔ)通用智能體(base generally-capable agent)」,使其具備基本的指令遵循能力和必要的先驗(yàn)知識。在這個過程中,智能體一步一步地模仿專家的軌跡,包括思考過程(thought)和行動(action)。

接著,這一基礎(chǔ)通用智能體與不同的環(huán)境交互,完成自我進(jìn)化。它面對來自不同環(huán)境的、更多樣化的指令與查詢(Instructions and queries),逐漸提升自己完成各項(xiàng)任務(wù)的能力。

這一過程受到機(jī)器學(xué)習(xí)中 RL as Inference 方法的啟發(fā),它將交互強(qiáng)化學(xué)習(xí)視為一個概率推斷問題(具體推導(dǎo)與解釋見原文)。這種方法與傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法不同,它不是直接尋找最大化期望回報的軌跡,而是首先定義一個關(guān)于軌跡的最優(yōu)策略分布,然后通過迭代過程來優(yōu)化這個分布。

具體而言,該過程包括兩個交替進(jìn)行的步驟:

  • 探索步驟(Exploration Step)」:在這一步驟中,智能體在當(dāng)前策略下與環(huán)境進(jìn)行交互,生成新的軌跡并評估其獎勵,形成一個估計的最優(yōu)策略分布。具體而言,智能體與多個環(huán)境進(jìn)行交互,生成一系列的行為軌跡。每條軌跡都是智能體根據(jù)當(dāng)前策略與環(huán)境互動的產(chǎn)物,包括智能體的思考,智能體的行為,以及環(huán)境的觀測。然后,環(huán)境端會根據(jù)軌跡與任務(wù)目標(biāo)的匹配程度,為每條軌跡給出獎勵信號。
  • 學(xué)習(xí)步驟(Learning Step)」:在這一步驟中,智能體根據(jù)估計的最優(yōu)策略分布更新參數(shù),使其更加接近于最優(yōu)策略。具體而言,智能體利用在探索步驟中收集到的軌跡與獎勵數(shù)據(jù),通過一個基于軌跡獎勵加權(quán)的優(yōu)化目標(biāo)函數(shù)來優(yōu)化自己。注意,在學(xué)習(xí)步驟中,為了減少過擬合,作者優(yōu)化的總是「基礎(chǔ)通用智能體」,而不是上一輪優(yōu)化得到的智能體。

通過交替探索和學(xué)習(xí)步驟,AgentEvol 算法逐步優(yōu)化智能體,顯著提升其在多環(huán)境下的能力,實(shí)現(xiàn)「自我進(jìn)化」的目標(biāo)。

實(shí)驗(yàn)介紹

任務(wù)概述:

本研究通過 AgentGym 框架對智能體進(jìn)行了一系列的跨環(huán)境探索和進(jìn)化實(shí)驗(yàn)。實(shí)驗(yàn)旨在評估基礎(chǔ)智能體在多樣化環(huán)境中進(jìn)行自我探索和進(jìn)化的能力。為此,作者采用更廣泛的指令集來擴(kuò)展智能體的探索空間。

主要結(jié)果:

在 11 個不同環(huán)境中,使用 AgentTraj 數(shù)據(jù)集訓(xùn)練的智能體圖片展示了良好的基礎(chǔ)交互能力。

進(jìn)一步,通過在更大的AgentTraj-L 數(shù)據(jù)集上實(shí)施行為克隆,智能體 圖片 實(shí)現(xiàn)了顯著的性能提升。

而本文提出的 AgentEvol 方法,盡管在初始階段僅基于有限的專家數(shù)據(jù),但通過交替的探索和學(xué)習(xí)步驟,智能體能夠在未見過的探索集上做出正確決策,實(shí)現(xiàn)自我進(jìn)化。在多個智能體任務(wù)上,AgentEvol 方法超越了 圖片和其他 SOTA 模型。

這一發(fā)現(xiàn)揭示了智能體具有適應(yīng)和解決更復(fù)雜任務(wù)的潛力,為開發(fā)更高級的通用智能體提供了堅(jiān)實(shí)的基礎(chǔ)。

圖片

圖7:多任務(wù)環(huán)境下各種模型和智能體的性能對比

分析實(shí)驗(yàn):

該團(tuán)隊(duì)還從四個角度展開了一系列的消融實(shí)驗(yàn):(1) 數(shù)據(jù)合并策略;(2) 進(jìn)化迭代次數(shù);(3) 探索范圍;(4) 采樣次數(shù)。

實(shí)驗(yàn)發(fā)現(xiàn),將智能體當(dāng)前生成的軌跡與初始專家軌跡集合并,能帶來更穩(wěn)定的性能提升。相應(yīng)地,利用前一迭代的探索軌跡,可能導(dǎo)致過擬合,出現(xiàn)性能的波動。

隨著進(jìn)化過程中迭代次數(shù) M 增加,性能提升,但最終會趨于穩(wěn)定和收斂。

圖片

圖8:數(shù)據(jù)合并策略和迭代次數(shù)的消融實(shí)驗(yàn)

在 AgentEvol 探索過程中,通過對每個指令執(zhí)行采樣,生成多樣化的軌跡促進(jìn)了智能體的學(xué)習(xí)。

而將智能體的探索范圍限制在已知的指令集內(nèi),也就是進(jìn)行有限空間的探索,可能會限制 AgentEvol 的性能進(jìn)一步提升。

圖片

圖9:采樣數(shù)目與探索范圍的消融實(shí)驗(yàn)

此外,研究者還在不同的基座模型上進(jìn)行實(shí)驗(yàn)。結(jié)果表明, AgentEvol 方法在不同規(guī)模的模型上均表現(xiàn)出色。

圖片

圖10:不同基座模型上的性能比較

文章還探討了在通用智能體的進(jìn)化過程中,成功與失敗的經(jīng)驗(yàn)軌跡是否都能發(fā)揮作用。

實(shí)驗(yàn)采用直接偏好優(yōu)化 DPO (Direct Preference Optimization) 方法,基于探索過程中的「成功-失敗」軌跡進(jìn)行訓(xùn)練。結(jié)果表明,智能體能夠在多任務(wù)的場景下,從錯誤經(jīng)驗(yàn)中學(xué)習(xí),但其整體性能仍然不如 AgentEvol 方法。

圖片

圖11:基于成功和失敗軌跡的 DPO 訓(xùn)練

復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室,是由復(fù)旦大學(xué)首席教授吳立德先生創(chuàng)建,是我國最早開展自然語言處理和信息檢索研究的實(shí)驗(yàn)室之一。在國家自然科學(xué)基金、國家863/973/重點(diǎn)研發(fā)計劃、省部委基金的支持下,發(fā)表了大量高水平國際期刊和會議論文。實(shí)驗(yàn)室在學(xué)術(shù)帶頭人黃萱菁教授的帶領(lǐng)下,圍繞大模型前沿方向,在語言大模型、多模態(tài)大模型、大模型對齊、智能體等方面開展系統(tǒng)深入的研究,產(chǎn)生了MOSS、眸思等一系列有較大學(xué)術(shù)影響的工作,并與國內(nèi)外科技領(lǐng)軍企業(yè)建立密切的合作關(guān)系。

復(fù)旦大學(xué)視覺與學(xué)習(xí)實(shí)驗(yàn)室由姜育剛教授創(chuàng)立,現(xiàn)有教師7人,在讀碩博士研究生80余人,已畢業(yè)研究生30余人。實(shí)驗(yàn)室主要從事計算機(jī)視覺和多模態(tài)人工智能理論與應(yīng)用的研究,旨在研發(fā)準(zhǔn)確、快速、可擴(kuò)展和值得信賴的 AI 算法,讓機(jī)器具備像人一樣的學(xué)習(xí)、感知和推理的能力。實(shí)驗(yàn)室承擔(dān)了科技創(chuàng)新2030—“新一代人工智能”重大項(xiàng)目、國家自然科學(xué)基金重點(diǎn)基金、國家重點(diǎn)研發(fā)計劃課題、上海市科技創(chuàng)新行動計劃等國家和地方的重要科研項(xiàng)目,以及華為、騰訊、百度等企業(yè)的技術(shù)攻關(guān)需求。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-07-23 14:10:48

2024-03-14 11:55:21

2024-04-30 15:06:03

智能體模型工具

2024-11-08 09:20:00

2024-11-14 14:50:00

AI智能體

2025-03-10 09:15:00

2025-04-07 02:00:00

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2017-11-08 11:20:14

谷歌人工智能技術(shù)

2018-06-28 22:04:25

智能體華為云人工智能

2018-06-27 14:43:41

華為云

2025-04-11 10:10:16

AI智能體工作流程

2024-10-18 15:20:00

2022-05-23 11:21:31

博睿數(shù)據(jù)智能可觀測平臺

2025-04-14 00:22:00

2024-11-18 19:06:21

2024-10-10 11:46:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號