Agent太火！看這一篇綜述，知識就不會學雜了丨華東師大&東華大學出品

作者：量子位 2025-03-27 13:30:57

來自華東師大和東華大學的研究團隊發(fā)表了“A Survey on the Optimization of Large Language Model-based Agents。

火，Agent可太火了！關于Agent的進展俯拾皆是，根本看不過來……

看過來——這篇綜述可能能幫你厘清很多問題：

來自華東師大和東華大學的研究團隊發(fā)表了“A Survey on the Optimization of Large Language Model-based Agents（大模型智能體的優(yōu)化方法綜述）”，首次從系統化視角對LLM智能體優(yōu)化策略進行了全面梳理與分析。

論文將將現有方法劃分為兩大類：參數驅動的優(yōu)化與參數無關的優(yōu)化。

前者包括基于監(jiān)督微調、強化學習（如PPO、DPO）以及微調與RL結合的混合策略，重點討論了軌跡數據構建、獎勵函數設計、優(yōu)化算法等關鍵模塊。

后者則涉及通過Prompt工程、外部工具調用、知識檢索等方式在不修改模型參數的前提下優(yōu)化Agent行為。

除此之外，作者們還整理了主流的Agent微調與評估數據集，回顧了LLM Agent在醫(yī)療、科學、金融、編程等多個應用領域的代表性實踐。

最后，研究團隊總結了Agent當前面臨的關鍵挑戰(zhàn)與未來研究方向。

為什么我們需要專門優(yōu)化LLM智能體？

近年來，隨著GPT-4、PaLM和DeepSeek等大型語言模型不僅在語言理解和生成上表現出色，更在推理、規(guī)劃和復雜決策等方面展現出非凡的能力。

因此，越來越多的研究者開始嘗試將LLM作為智能體來使用，探索其在自動決策和通用人工智能方向的潛力。

與傳統的強化學習智能體不同，LLM智能體不依賴顯式的獎勵函數，而是通過自然語言指令、Prompt模板與上下文學習（ICL）完成復雜任務。

這種“文本驅動”的智能體范式展現出極高的靈活性與泛化能力，能夠跨任務理解人類意圖、執(zhí)行多步驟操作，并在動態(tài)環(huán)境中做出決策。

當前，研究者已嘗試通過任務分解、自我反思、記憶增強以及多智能體協作等方式提升其表現，應用場景涵蓋軟件開發(fā)、數學推理、具身智能、網頁導航等多個領域。

值得注意的是，LLM本身的訓練目標是預測下一個token，并非為長期規(guī)劃和交互學習的Agent任務而生。

這也導致了LLM作為Agent的部分挑戰(zhàn)：

長程規(guī)劃與多步推理能力不足，容易在復雜任務中出現累積錯誤；
缺乏持續(xù)性記憶機制，難以基于歷史經驗進行反思與優(yōu)化；
對新環(huán)境的適應能力有限，難以動態(tài)應對變化場景。

尤其是開源LLM在agent任務中的表現普遍落后于GPT-4等閉源模型，而閉源模型的高成本與不透明性，也使得優(yōu)化開源LLM以提升Agent能力成為當前研究的關鍵需求。

當前已有的綜述要么聚焦于大模型優(yōu)化本身，要么只討論agent的局部能力（如規(guī)劃、記憶或角色扮演），并未將“LLM智能體優(yōu)化”作為一個獨立且系統的研究方向進行深入探討。

研究團隊填補了這一空白，首次以“LLM-based Agent的優(yōu)化技術”為核心議題展開系統綜述，構建統一框架，歸納方法路徑，并對比不同技術的優(yōu)劣與適用情境。

參數驅動的LLM智能體優(yōu)化

在參數驅動的LLM優(yōu)化中，作者將其分為3個方向。

基于常規(guī)微調的優(yōu)化

第一個方向，基于常規(guī)微調的優(yōu)化。

又分為2大步驟：構建Agent任務的高質量軌跡數據——用軌跡微調Agent。

首先是數據獲取與生成。

高質量的軌跡數據構建開始于初始數據的獲取和生成，這不僅需要一組多樣化的軌跡，還需要與目標任務充分對齊，以確保有效的學習。

作者將主流方法歸納為以下四類：

專家標注數據：由人類專家手工設計，質量高、對齊強，是微調的黃金標準。但人力成本高、難以擴展，常作為優(yōu)質補充數據使用。
強LLM自動生成數據：利用GPT-4等大模型結合ReAct、CoT策略生成軌跡，效率高、適合大規(guī)模構建。但數據依賴大模型，存在成本高、偏差傳播等問題。
Agent自主探索數據：通過開源模型自主與環(huán)境交互生成軌跡，成本低、可擺脫閉源依賴。缺點是探索能力有限，需配合后續(xù)篩選機制去除低質數據。
多智能體協作生成數據：通過多個Agent協同完成復雜任務流程，提升數據多樣性與交互復雜度。但系統設計更復雜，穩(wěn)定性和資源成本也是挑戰(zhàn)。

其次，數據的評估與過濾。

由于生成的軌跡數據質量參差不齊，對數據進行評估和篩選成為不可或缺的一步。

作者將主流方法歸納為三類：

基于環(huán)境的評估：這類方法依靠任務是否成功、環(huán)境獎勵等外部反饋來判斷軌跡質量，易于實現，自動化程度高。但缺點是反饋信號過于粗粒度，只關注最終結果，無法發(fā)現推理鏈條中的隱性錯誤。
基于人工或規(guī)則的評估：通過預設規(guī)則（如任務完成度、答案一致性、多樣性等）或專家人工審核，對數據進行更精細的質量控制。適配性強、準確性高，但也需要大量人工參與與復雜設計。
基于模型的評估：借助強大的LLM（如GPT-4）對軌跡進行自動打分與分析，能從相關性、準確性、完整性等維度進行多層評估，構建自動化質量評估框架。缺點在于，評估本身依賴模型，可能引入新的偏差。

接著是低質量樣本的利用。

除了高質量的獲取，對不合格的低質量軌跡也需要再次利用。

目前的主流策略包括：

對比式利用：通過對比正確與錯誤樣本，讓模型更清晰地識別哪些行為是有效的。
錯誤修正型方法：識別并修正失敗軌跡，將其轉化為可學習的數據，提升訓練質量。
直接利用錯誤樣本：不做修正，直接用失敗案例訓練模型，提升其面對錯誤情境時的容錯性。

完成高質量軌跡數據構建后，下一步就是關鍵的微調階段。

通過微調，讓開源大模型真正適應Agent任務，學會規(guī)劃、推理與交互，是優(yōu)化LLM智能體不可或缺的一步。

值得注意的是，僅用Agent任務軌跡微調可能會削弱LLM的通用能力。

因此，大多工作選擇混合通用指令數據與Agent軌跡共同訓練，以在保留語言基礎能力的同時，提升Agent執(zhí)行能力。

作者將現有的微調方法劃分為三大類：

標準SFT：最常見的方法，通過高質量指令-輸出對或軌跡數據，對模型進行全參數優(yōu)化，最能對齊目標任務。此外，模仿學習中的行為克隆本質上也屬于這一類，強調從專家軌跡中學習決策策略。
參數高效微調（如LoRA/QLoRA）：只更新少量參數，其余權重保持不動，顯著降低顯存與算力開銷，在大模型Agent微調中尤為常見。相比全量微調，雖然訓練開銷更小，但性能往往可媲美甚至超過
自定義微調策略：為特定任務設計的微調方法，例如將通用指令與軌跡數據混合訓練，或引入額外約束項（如正則化）提升泛化與穩(wěn)定性。這類方法更具靈活性，適合復雜或稀缺任務場景。

基于強化學習的優(yōu)化

相比于傳統的微調方式，強化學習為Agent帶來了更具主動性的學習路徑。

它讓模型不再只是“模仿”，而是能在環(huán)境中探索行為、接受獎勵與懲罰，動態(tài)調整策略，真正實現從試錯中成長。

作者將當前RL優(yōu)化方式分為：基于獎勵函數的優(yōu)化和基于偏好對齊的優(yōu)化。

先說基于獎勵函數的優(yōu)化。

在強化學習優(yōu)化中，獎勵函數就像智能體的指揮棒，引導模型不斷改進策略。通過設定清晰的“做得好 vs 做錯了”標準，Agent可以從交互中學習得更精細、更穩(wěn)健。

作者將當前方法按照三類獎勵來源劃分3類：

基于環(huán)境的獎勵：直接依據任務是否完成來打分，簡單直觀，自動化程度高。但往往只關注最終結果，忽略了中間步驟的質量。
基于模型的獎勵：由LLM或輔助模型對軌跡進行評估，適用于環(huán)境反饋稀疏的場景，能提供更細致的反饋。但效果取決于評估模型的質量。
自定義獎勵函數：研究者根據任務需求自設多維度獎勵，不僅考核完成度，也關注策略穩(wěn)定性、協作效率等。靈活強大，但設計成本高、難以泛化。

再來看基于偏好對齊的優(yōu)化。

相比傳統RL基于獎勵函數的訓練方式，偏好對齊提供了更直接、更輕量的優(yōu)化路徑。

它不再依賴繁瑣的獎勵建模，而是讓Agent學會“哪種行為更受人類歡迎”。

其代表方法是DPO，一種更簡單的離線強化學習方式，直接通過人類或專家的偏好對樣本進行“正負對比”訓練。

根據主要偏好數據來源，作者將其這類優(yōu)化方法分為兩類：

專家/人工偏好數：基于專家示范或人類標注構造正負樣本（優(yōu)質 vs 錯誤軌跡），質量高但難以大規(guī)模擴展，覆蓋面有限。
任務或環(huán)境反饋：從任務表現（成功率、分數等）中自動構建偏好對，適用于動態(tài)任務場景，但依賴反饋機制合理的設計。

綜合來看，偏好對齊方法訓練高效、部署簡單，但強依賴偏好數據質量與覆蓋范圍，適合結構明確、反饋清晰的任務場景。

而獎勵函數類方法更適配復雜多變的環(huán)境，但成本更高。

混合參數微調方法

單一的優(yōu)化方法各有短板——常規(guī)微調穩(wěn)定高效但缺乏動態(tài)應變能力，RL靈活強大卻計算開銷巨大。

于是，越來越多研究開始探索混合微調策略，結合兩者優(yōu)點，構建更強大的LLM智能體。

這類工作主要為：

第一，順序式兩階段訓練。

這也是是當前的主流方法，采取“先SFT、后RL”的思路。

階段一：行為克隆微調（SFT），用專家軌跡或策展數據預訓練模型，奠定基礎能力；
階段二：強化學習優(yōu)化（PPO / DPO），針對環(huán)境或偏好精調模型策略。

第二，交替優(yōu)化。

即引入迭代交替機制，在SFT和RL之間多輪來回切換，以實現細粒度提升。

參數無關的LLM智能體優(yōu)化

相比參數微調，參數無關的優(yōu)化方法不涉及模型權重更新，而是通過調整Prompt、上下文和外部信息結構，在資源受限或輕量部署場景中展現出強大潛力。

作者將其分為五類核心策略：

第一類，基于經驗的優(yōu)化。

通過記憶模塊或歷史軌跡，讓Agent“學會復盤”，從過去成功與失敗中提煉策略，增強長期適應性。

第二類，基于反饋的優(yōu)化。

Agent通過自我反思或外部評估不斷修正行為，形成迭代閉環(huán)；還有方法通過元提示優(yōu)化調整全局指令結構，提升泛化能力。

第三類，基于工具的優(yōu)化。

讓Agent學會使用工具（如搜索、計算器、API）以增強執(zhí)行力。部分方法優(yōu)化工具調用策略，部分則訓練Agent構建更高效的任務-工具路徑。

第四類，基于RAG的優(yōu)化。

結合檢索與生成，通過從數據庫/知識庫中實時獲取信息增強推理過程，尤其適合知識密集型任務和變化快速的場景。

第五類，多Agent協作優(yōu)化。

多個LLM Agent協同完成任務，通過角色分工、信息共享與反饋機制實現1+1>2的協同智能。

參數無關優(yōu)化，讓LLM Agent在不動模型的前提下，變得更“聰明”、更“適應”、也更“輕巧”。

數據集與基準

作者將數據和基準分為用于評估和微調的兩個大類。

評估任務分為兩類。

第一類，通用評估任務。

即按一般任務領域分類，如數學推理，問題推理（QA）任務，多模態(tài)任務，編程等。

第二類，多任務評估基準。

跨各種任務評估基于LLM的智能體，測試它們概括和適應不同領域的能力。

Agent微調數據集，則是針對Agent微調而精心設計的數據，以提高LLM Agent在不同任務和環(huán)境中的能力。

應用

隨著優(yōu)化方法的不斷成熟，基于LLM的智能體已在多個真實場景中嶄露頭角，逐漸從實驗室走向實際應用：

挑戰(zhàn)與未來方向

數據偏差問題。

Agent高度依賴數據質量，然而預訓練數據與微調軌跡分布不匹配，再加上LLM自身生成與評估帶來的潛在偏差，易導致性能不穩(wěn)定。

未來可探索偏差測試、對抗訓練、知識邊界評估等方法，構建更穩(wěn)健的數據基礎。

算法效率與適應性。

當前強化學習與微調方法在面對稀疏獎勵、大動作空間、多步交互時存在成本高、效果差的問題。

如何提升DPO等輕量方法的多輪能力，或探索RL+SFT的混合訓練、元學習、自監(jiān)督方法，將是未來重點。

跨任務跨領域遷移難。

許多方法在單一任務上表現優(yōu)秀，但在新環(huán)境或真實世界中易失效。

需要發(fā)展更強的泛化機制，如任務分布對齊、域適應、多任務聯合訓練等，提升模型遷移與適應能力。

缺乏統一評估標準。

Agent在不同任務（如數學推理、網頁導航、具身AI）中使用不同指標，難以橫向比較。

建立統一的評估基準，引入推理復雜度、適應性與偏好評分等新維度，將推動Agent研究向更系統、可比的方向發(fā)展。

參數驅動的多智能體優(yōu)化缺失。

目前多智能體策略多依賴凍結LLM，缺乏聯合參數訓練機制，限制了協同智能的發(fā)展。

未來應探索多智能體聯合微調、獎勵共享機制、層級控制策略，提升整體系統能力與協作水平。

arXiv鏈接：https://arxiv.org/abs/2503.12434

GitHub鏈接：https://github.com/YoungDubbyDu/LLM-Agent-Optimization

責任編輯：張燕妮來源：量子位

LLM 智能體模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Agent太火！看這一篇綜述，知識就不會學雜了丨華東師大&東華大學出品

為什么我們需要專門優(yōu)化LLM智能體？