自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="r0nxq"></meter>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Agent四大范式 | 綜述：全面理解Agent工作原理

大語(yǔ)言模型論文跟蹤

發(fā)布于 2024-5-23 14:40

瀏覽

0收藏

什么是智能體Agent

Autonomous agents 又被稱為智能體Agent。能夠通過(guò)感知周圍環(huán)境、進(jìn)行規(guī)劃以及執(zhí)行動(dòng)作來(lái)完成既定任務(wù)。在這些能力中，規(guī)劃尤為重要，它涉及到復(fù)雜的理解、推理和決策制定。

大語(yǔ)言模型出現(xiàn)以前，我們一般通過(guò)規(guī)則的方法，或者強(qiáng)化學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)。但是這兩種方法各有弊端：

規(guī)則的方法是指把復(fù)雜的自然語(yǔ)言問(wèn)題轉(zhuǎn)化為規(guī)則符號(hào)，往往需要行業(yè)專家的介入，缺乏容錯(cuò)能力，小錯(cuò)誤可能導(dǎo)致整個(gè)系統(tǒng)的失敗。
而強(qiáng)化學(xué)習(xí)一般是構(gòu)建策略網(wǎng)絡(luò)或獎(jiǎng)勵(lì)模型，但是一般需要大量樣本進(jìn)行訓(xùn)練，但是收集數(shù)據(jù)往往成本很高，所以這種方法可行性不大，很難推廣開(kāi)來(lái)。

近幾年，大語(yǔ)言模型的興起因此了智能體應(yīng)用這個(gè)領(lǐng)域的巨大變化。大語(yǔ)言模型在邏輯推理、工具應(yīng)用、策略規(guī)劃、指令遵循等方面都有非常不錯(cuò)的表現(xiàn)，這使得大家開(kāi)始意識(shí)到，將大語(yǔ)言模型作為Agent應(yīng)用的核心認(rèn)知系統(tǒng)，可以極大的提高智能體的規(guī)劃能力。

而且最近，吳恩達(dá)一直在吹A(chǔ)gent的風(fēng) 劃重點(diǎn) | 吳恩達(dá)：Agent模式將在不久的將來(lái)超過(guò)下一代模型，也確實(shí)，越來(lái)越多的人發(fā)現(xiàn)，模型訓(xùn)練成本高昂，還不如用Agent的方法來(lái)實(shí)現(xiàn)更加智能的應(yīng)用體。

Agent四大范式 | 綜述：全面理解Agent工作原理-AI.x社區(qū) 圖片

這篇文章中，作者將Agent應(yīng)用的能力分為五個(gè)主要類別：任務(wù)分解、多方案選擇、外部模塊輔助規(guī)劃、反思與優(yōu)化、記憶增強(qiáng)規(guī)劃。

Agent四大范式 | 綜述：全面理解Agent工作原理-AI.x社區(qū) 圖片

? 任務(wù)分解是指借助LLM將任務(wù)拆解為若干個(gè)子任務(wù)，并依次對(duì)每個(gè)子任務(wù)進(jìn)行規(guī)劃。

? 多方案選擇是指大型語(yǔ)言模型深入“思考”，針對(duì)特定任務(wù)提出多種可能的方案。接著，利用針對(duì)性的任務(wù)搜索機(jī)制，從中挑選一個(gè)最合適的方案來(lái)實(shí)施。

? 外部模塊輔助規(guī)劃。該策略專門(mén)設(shè)計(jì)用于引入外部規(guī)劃器，以增強(qiáng)規(guī)劃過(guò)程的效率和計(jì)劃的可行性，同時(shí)大型語(yǔ)言模型主要負(fù)責(zé)將任務(wù)規(guī)范化。

? 反思與優(yōu)化。這種策略著重于通過(guò)自我反思和細(xì)節(jié)完善來(lái)增強(qiáng)規(guī)劃能力。它激勵(lì)大型語(yǔ)言模型Agent應(yīng)用在遭遇失敗后進(jìn)行深入反思，并據(jù)此優(yōu)化規(guī)劃方案。

? 記憶增強(qiáng)規(guī)劃。該策略通過(guò)引入一個(gè)附加的記憶組件來(lái)提升規(guī)劃能力，該組件中存儲(chǔ)了各種寶貴信息，包括基本常識(shí)、歷史經(jīng)驗(yàn)、領(lǐng)域?qū)I(yè)知識(shí)等。在進(jìn)行規(guī)劃時(shí)，這些信息會(huì)被調(diào)取出來(lái)，充當(dāng)輔助提示，以增強(qiáng)規(guī)劃的效果。

這五大研究方向并非相互獨(dú)立，而是相互關(guān)聯(lián)，往往需要同時(shí)運(yùn)用多種技術(shù)手段。

任務(wù)分解

在現(xiàn)實(shí)世界中，環(huán)境往往充滿了復(fù)雜性和變化，因此通過(guò)一次規(guī)劃來(lái)解決復(fù)雜任務(wù)往往比較困難。所以將復(fù)雜任務(wù)簡(jiǎn)化是一個(gè)非常有效的辦法，有點(diǎn)類似于“分而治之”的策略（如下圖）。任務(wù)分解一般包括兩個(gè)環(huán)節(jié)：

? 將復(fù)雜任務(wù)拆解為多個(gè)子任務(wù)，稱為分解階段

? 為子任務(wù)指定規(guī)劃，這個(gè)階段被稱為子規(guī)劃階段

Agent四大范式 | 綜述：全面理解Agent工作原理-AI.x社區(qū) 圖片

目前，一般有兩種組合方式：

? 1.先分解后規(guī)劃（Decomposition-First Methods）

? 2.邊分解邊規(guī)劃（Interleaved Decomposition Methods）

先分解后規(guī)劃（Decomposition-First Methods）

先分解后規(guī)劃策略是先把任務(wù)拆解為子任務(wù)，然后再為每個(gè)子任務(wù)指定子規(guī)劃。包括 HuggingGPT、Plan-and-Solve、ProgPrompt等典型方法都是用的這種方法進(jìn)行規(guī)劃。

? HuggingGPT整合Huggingface Hub的多種多模態(tài)模型，打造出一個(gè)能夠應(yīng)對(duì)多模態(tài)任務(wù)的智能代理。該代理擅長(zhǎng)處理如圖像生成、分類、物體識(shí)別、視頻注釋、語(yǔ)音轉(zhuǎn)文本等任務(wù)。LLM在此過(guò)程中充當(dāng)指揮官，負(fù)責(zé)解析人類輸入的任務(wù)、挑選合適的模型并產(chǎn)出最終答復(fù)。最為關(guān)鍵的初階段任務(wù)拆解中，HuggingGPT明確指導(dǎo)LLM將接到的任務(wù)細(xì)化為一系列子任務(wù)，并明確任務(wù)間的依賴性。

? Plan-and-Solve 改進(jìn)了Few Shot COT方法，將其原始的“讓我們一步步來(lái)思考”轉(zhuǎn)變?yōu)椤笆紫戎贫ㄓ?jì)劃”和“執(zhí)行計(jì)劃”的兩步提示指令。這種COT方法在數(shù)學(xué)、常識(shí)及符號(hào)推理方面均有所提升。

? ProgPrompt 則將自然語(yǔ)言描述的任務(wù)轉(zhuǎn)譯為編程問(wèn)題，通過(guò)代碼定義代理的動(dòng)作空間和環(huán)境中的對(duì)象，每個(gè)動(dòng)作都明確為一個(gè)函數(shù)，每個(gè)對(duì)象則作為一個(gè)變量。這樣，任務(wù)規(guī)劃便自然轉(zhuǎn)化為生成函數(shù)的過(guò)程。執(zhí)行任務(wù)時(shí)，代理會(huì)先創(chuàng)建一個(gè)以函數(shù)調(diào)用來(lái)體現(xiàn)的計(jì)劃，隨后逐步實(shí)施。

邊分解邊規(guī)劃（Interleaved Decomposition Methods）

邊分解邊規(guī)劃方法是指任務(wù)分解和子任務(wù)規(guī)劃交錯(cuò)進(jìn)行。包括思維鏈、ReAct、PAL、PoT等方法都是用的這種策略。

? CoT展示了LLM在少樣本學(xué)習(xí)上的能力。它通過(guò)幾個(gè)構(gòu)建的路徑引導(dǎo)LLM對(duì)復(fù)雜問(wèn)題進(jìn)行推理，利用LLM的推理能力進(jìn)行任務(wù)拆解。Few Shot CoT 通過(guò)“讓我們一步步思考”這一神奇指令，激活了LLM的Few Shot COT功能。

? ReAct與CoT不同，它將推理與規(guī)劃分開(kāi)處理，在推理（思考步驟）與規(guī)劃（行動(dòng)步驟）之間進(jìn)行切換，顯著提升了規(guī)劃能力。視覺(jué)ChatGPT采用ReAct機(jī)制，將LLM作為代理的大腦，結(jié)合一系列視覺(jué)模型，賦予代理圖像處理的能力。

? PAL 通過(guò)發(fā)揮LLM的編碼專長(zhǎng)，優(yōu)化了CoT，在推理過(guò)程中引導(dǎo)LLM生成代碼，并最終通過(guò)代碼解釋器（如Python）執(zhí)行代碼以得到答案，有效助力代理解決數(shù)學(xué)和符號(hào)推理難題。

? PoT將推理過(guò)程徹底編程化，作者還運(yùn)用了針對(duì)代碼數(shù)據(jù)訓(xùn)練的CodeX模型，增強(qiáng)了解決數(shù)學(xué)和財(cái)務(wù)問(wèn)題的效能。

利弊

先分解后規(guī)劃的優(yōu)勢(shì)在于，能夠在子任務(wù)與原任務(wù)之間聯(lián)系更加緊密，所以可以降低任務(wù)遺漏和幻覺(jué)的風(fēng)險(xiǎn)。但是，由于子任務(wù)在最初就被固定下來(lái)，缺乏靈活調(diào)整的機(jī)制，任何一步的失誤都可能會(huì)導(dǎo)致整體的失敗。

邊分解邊規(guī)劃的策略，可以根據(jù)環(huán)境反饋來(lái)調(diào)整分解策略，增強(qiáng)應(yīng)對(duì)錯(cuò)誤得能力。但是在處理復(fù)雜任務(wù)時(shí)，如果過(guò)程太長(zhǎng)，可能會(huì)導(dǎo)致LLM產(chǎn)生幻覺(jué)，讓后續(xù)的子任務(wù)和子規(guī)劃偏離既定目標(biāo)。

此外，任務(wù)分解帶來(lái)了額外的時(shí)間和計(jì)算成本。

而且，對(duì)于一些被拆分的子任務(wù)太多的高復(fù)雜度任務(wù)而言，規(guī)劃過(guò)程會(huì)受到LLM上下文長(zhǎng)度的限制，從而導(dǎo)致規(guī)劃路徑偏離原有路徑。

多方案選擇

鑒于任務(wù)本身的復(fù)雜性及大型語(yǔ)言模型（LLM）內(nèi)在的不確定性，LLM-Agent為特定任務(wù)制定的計(jì)劃可能千差萬(wàn)別。盡管LLM具備強(qiáng)大的推理能力，但單獨(dú)生成的計(jì)劃可能并非最優(yōu)，甚至不可執(zhí)行。更自然的方法是采用多計(jì)劃選擇，該過(guò)程包括兩個(gè)主要步驟：多計(jì)劃生成和最優(yōu)計(jì)劃挑選。

多方案生成

多計(jì)劃生成的目的在于產(chǎn)生一系列計(jì)劃路徑，形成候選計(jì)劃集。常見(jiàn)的方法有：

? 通過(guò)在解碼過(guò)程中調(diào)整采樣策略，比如溫度參數(shù)、top-k參數(shù)，來(lái)獲取不同的多個(gè)推理路徑。

? 思維樹(shù)(ToT)包括兩種生成計(jì)劃策略，一種是與前述的采樣策略參數(shù)調(diào)整一致，另一種是指導(dǎo)LLm通過(guò)提示詞中的少量示例來(lái)生成不同的規(guī)劃。

? 思維圖(GoT)引入思維轉(zhuǎn)換的概念，對(duì)ToT進(jìn)行了擴(kuò)展，支持任意思維的聚合。

? LLM-MCTS 和RAP 則將LLM作為蒙特卡洛樹(shù)搜索（MCTS）中的啟發(fā)式策略函數(shù)，通過(guò)多次調(diào)用獲取多種可能的行動(dòng)方案。

如何在多個(gè)方案中選擇最佳策略也有多種方法：

? 自洽性策略通過(guò)簡(jiǎn)單的多數(shù)投票法來(lái)確定最受歡迎的計(jì)劃作為最佳選擇。

? 思維樹(shù)（ToT）利用其樹(shù)狀結(jié)構(gòu)，支持包括廣度優(yōu)先搜索（BFS）和深度優(yōu)先搜索（DFS）在內(nèi)的樹(shù)狀搜索算法。在決定擴(kuò)展哪個(gè)節(jié)點(diǎn)時(shí)，ToT借助大型語(yǔ)言模型Agent應(yīng)用（LLM）來(lái)評(píng)估多種可能的行動(dòng)，并從中挑選出最佳選項(xiàng)。

? LLMMCTS 和RAP 也使用樹(shù)狀結(jié)構(gòu)輔助進(jìn)行多計(jì)劃搜索，但它們采用的是蒙特卡洛樹(shù)搜索（MCTS）算法。

外部模塊輔助規(guī)劃

盡管大型語(yǔ)言模型（LLMs）在推理和任務(wù)分解方面表現(xiàn)出色，但在面對(duì)如數(shù)學(xué)問(wèn)題求解或生成合法行動(dòng)等具有復(fù)雜約束的環(huán)境時(shí)，仍面臨挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn)，研究人員采取了將LLMs與外部規(guī)劃器相結(jié)合的多種方法，這些方法大致可分為符號(hào)規(guī)劃器和神經(jīng)規(guī)劃器兩大類。

符號(hào)規(guī)劃器

? LLM+P 通過(guò)整合基于PDDL的符號(hào)規(guī)劃器，提升了LLMs的規(guī)劃效率。研究者利用LLM的語(yǔ)義解析和編碼能力，將問(wèn)題轉(zhuǎn)化為文本語(yǔ)言提示，輸入至LLM。這樣，LLM便能將環(huán)境內(nèi)的行為和特定任務(wù)轉(zhuǎn)化為PDDL語(yǔ)言格式。在獲得正式化描述后，研究者使用Fast-Downward 求解器來(lái)執(zhí)行規(guī)劃。

? 在LLM+P的基礎(chǔ)上，LLM-DP專為動(dòng)態(tài)交互環(huán)境設(shè)計(jì)，它在接收環(huán)境反饋后，將信息形式化為PDDL語(yǔ)言，并利用BFS 求解器來(lái)生成計(jì)劃。

? LLM+PDDL 同樣采用PDDL語(yǔ)言來(lái)形式化任務(wù)，并增加了手動(dòng)驗(yàn)證步驟，以檢查L(zhǎng)LM生成的PDDL模型中可能的問(wèn)題。在規(guī)劃過(guò)程中，研究者建議使用LLM生成的計(jì)劃作為初始啟發(fā)式解，以加快局部搜索規(guī)劃器（如LPG）的搜索速度。

? LLM+ASP [Yang et al., 2023b]將LLM描述的自然語(yǔ)言問(wèn)題轉(zhuǎn)化為原子事實(shí)，將任務(wù)轉(zhuǎn)化為答案集編程（ASP）問(wèn)題，然后使用ASP求解器CLINGO來(lái)生成計(jì)劃。

神經(jīng)規(guī)劃器

神經(jīng)規(guī)劃器，這類深度學(xué)習(xí)模型通過(guò)強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí)在收集的規(guī)劃數(shù)據(jù)上進(jìn)行訓(xùn)練，能夠在特定領(lǐng)域內(nèi)實(shí)現(xiàn)高效的規(guī)劃。以DRRN 為例，它通過(guò)強(qiáng)化學(xué)習(xí)方法將規(guī)劃過(guò)程視作馬爾可夫決策過(guò)程，培養(yǎng)出一個(gè)策略網(wǎng)絡(luò)來(lái)構(gòu)建深度決策模型。決策變換器（DT）則讓變換器模型能夠模仿規(guī)劃數(shù)據(jù)中的人類決策行為。

神經(jīng)規(guī)劃器雖然在部分領(lǐng)域使用了更小的參數(shù)獲得較高的規(guī)劃效率，但是經(jīng)常會(huì)遇到數(shù)據(jù)不足、泛化能力有限的情況。所以為了提高規(guī)劃能力，研究者一般吧Agent應(yīng)用和輕量級(jí)神經(jīng)規(guī)劃器結(jié)合的方式。

? CALM 就是這種結(jié)合的早期嘗試，它將語(yǔ)言模型與基于強(qiáng)化學(xué)習(xí)的神經(jīng)規(guī)劃器結(jié)合起來(lái)。語(yǔ)言模型負(fù)責(zé)處理文本形式的環(huán)境信息，并基于這些信息生成一系列候選行動(dòng)。隨后，DRRN策略網(wǎng)絡(luò)對(duì)這些候選行動(dòng)進(jìn)行重新排序，以選出最優(yōu)的行動(dòng)方案。

? SwiftSage 鑒了認(rèn)知心理學(xué)中的雙系統(tǒng)理論，將規(guī)劃過(guò)程劃分為慢速思考和快速思考兩個(gè)部分。慢速思考負(fù)責(zé)復(fù)雜的推理和理性決策，而快速思考則依賴于長(zhǎng)期訓(xùn)練形成的直覺(jué)反應(yīng)。研究者們利用通過(guò)模仿學(xué)習(xí)訓(xùn)練的DT模型作為快速思考模型，以快速生成計(jì)劃。當(dāng)計(jì)劃執(zhí)行中出現(xiàn)錯(cuò)誤，暗示問(wèn)題較為復(fù)雜時(shí)，系統(tǒng)會(huì)切換到慢速思考模式，此時(shí)LLM會(huì)基于當(dāng)前狀態(tài)進(jìn)行深入的推理和規(guī)劃。這種快速與慢速思考相結(jié)合的方法，在提高效率方面顯示出了顯著的效果。

反思與優(yōu)化（Reflection and Refinement）

反思和優(yōu)化是規(guī)劃過(guò)程中不可或缺的兩大支柱，在提升模型Agent應(yīng)用的容錯(cuò)和糾錯(cuò)能力上有很大作用。由于大語(yǔ)言模型的幻覺(jué)特點(diǎn)，已經(jīng)在處理復(fù)雜問(wèn)題時(shí)的局限性，Agent應(yīng)用在做任務(wù)規(guī)劃時(shí)，往往會(huì)陷入思維旋渦。通過(guò)回顧和總結(jié)經(jīng)驗(yàn)，可以使得Agent在后續(xù)的嘗試中糾正錯(cuò)誤，打破循環(huán)。

? Self-refine：是通過(guò)迭代生成、反饋、精煉，使得大語(yǔ)言模型每次生成計(jì)劃后，都能提供反饋，根據(jù)反饋進(jìn)行調(diào)整。

? Reflexion：則是在ReAct的基礎(chǔ)上增加評(píng)估器，用來(lái)評(píng)估行動(dòng)軌跡，在發(fā)現(xiàn)錯(cuò)誤后進(jìn)行自我反思，從而糾正錯(cuò)誤。

? CRITIC：則是利用外部工具，比如知識(shí)庫(kù)、搜索引擎來(lái)驗(yàn)證LLM生成的行動(dòng)，然后借助外部知識(shí)進(jìn)行自我糾錯(cuò)，減少事實(shí)性錯(cuò)誤。??Agent四大范式 | CRITIC：吳恩達(dá)力推Agent設(shè)計(jì)范式??

? InteRecAgent 采用了ReChain機(jī)制來(lái)進(jìn)行自我糾錯(cuò)，LLM在此過(guò)程中評(píng)估交互推薦代理生成的響應(yīng)和工具使用計(jì)劃，總結(jié)錯(cuò)誤反饋，并決定是否需要重新開(kāi)始規(guī)劃。

? LEMA 則先收集錯(cuò)誤的規(guī)劃樣本，隨后利用更高級(jí)的GPT-4進(jìn)行修正，這些經(jīng)過(guò)修正的樣本用于微調(diào)LLM-Agent，顯著提高了LLaMA模型在不同規(guī)模上的性能。

記憶增強(qiáng)規(guī)劃

大語(yǔ)言模型Agent應(yīng)用在記憶方面主要有兩種方法來(lái)增強(qiáng)規(guī)劃能力：基于檢索增強(qiáng)生成（RAG）的方法和基于嵌入式記憶（Embodied Memory，這里我翻譯成嵌入式記憶可能更合理，有更好的翻譯也歡迎大家指正。）。

RAG記憶

RAG現(xiàn)在也是很火的一種LLM應(yīng)用技術(shù)框架，是指通過(guò)信息檢索的方式輔助文本生成，可以為L(zhǎng)LM提供最新的知識(shí)更新。存儲(chǔ)的內(nèi)容形式多種多樣，包括文本、表格、知識(shí)圖譜等。

這里針對(duì)RAG不多講，下次爭(zhēng)取找?guī)灼猂AG的綜述跟大家一起讀一讀。

嵌入式記憶

所謂嵌入式記憶，是相對(duì)RAG將知識(shí)存儲(chǔ)在外部系統(tǒng)而言，嵌入式記憶是將知識(shí)通過(guò)Finetune的方式把知識(shí)存儲(chǔ)在大模型里面，嵌入到模型參數(shù)里面。從頭開(kāi)始訓(xùn)練一個(gè)模型成本巨大，所以一般采用PEFT的技術(shù)來(lái)進(jìn)行微調(diào)，比如：LoRA、QLoRA、P-tuning等。

CALM通過(guò)訓(xùn)練一個(gè)GPT2模型，可以完成一些規(guī)劃任務(wù)，并且還有比較好的泛化能力。AgentTuning 將不同任務(wù)的規(guī)劃軌跡整合成對(duì)話形式，對(duì)LLaMA模型進(jìn)行微調(diào)，顯著提升了在未見(jiàn)規(guī)劃任務(wù)上的性能表現(xiàn)。

Agent應(yīng)用的局限性

雖然在吳恩達(dá)最近的觀點(diǎn)中，Agent應(yīng)用有潛力成為未來(lái)AGI的通用技術(shù)路線，但是現(xiàn)有的Agent應(yīng)用還有很多問(wèn)題和局限性。

? 幻覺(jué)現(xiàn)象。在規(guī)劃過(guò)程中，LLM常常出現(xiàn)幻覺(jué)，導(dǎo)致規(guī)劃不合理，對(duì)任務(wù)提示不忠實(shí)，或無(wú)法遵循復(fù)雜指令。比如，計(jì)劃中可能包含了與環(huán)境中不存在的物品進(jìn)行交互的行動(dòng)。雖然通過(guò)精心設(shè)計(jì)的提示可以緩解這些問(wèn)題，但是理論上并不能完全消除幻覺(jué)帶來(lái)的問(wèn)題。

? 生成計(jì)劃的可行性?；诮y(tǒng)計(jì)學(xué)習(xí)的LLM通過(guò)海量數(shù)據(jù)優(yōu)化下一個(gè)詞的出現(xiàn)概率，與符號(hào)化人工智能相比，這種方法在遵循復(fù)雜約束時(shí)存在挑戰(zhàn)，特別是在處理LLM訓(xùn)練期間不常遇到的約束。因此，LLM生成的計(jì)劃可能在沒(méi)有充分考慮先決條件的情況下缺乏可行性。將LLM與符號(hào)化規(guī)劃模型結(jié)合，而不改變LLM本身，是一個(gè)充滿希望的研究方向。

? 生成計(jì)劃的效率。高效地生成計(jì)劃是規(guī)劃中的關(guān)鍵議題。然而，現(xiàn)有的LLM代理在規(guī)劃時(shí)，往往只基于LLM輸出的生成計(jì)劃進(jìn)行貪婪選擇，忽略了計(jì)劃的效率。未來(lái)的研究可能需要引入額外的效率評(píng)估模塊，與LLM協(xié)同工作，以制定更高效的計(jì)劃。

? 多模態(tài)環(huán)境反饋的處理。LLM最初旨在處理文本輸入，但現(xiàn)實(shí)世界的環(huán)境反饋往往是多模態(tài)的，包括圖像、音頻等，這些內(nèi)容在自然語(yǔ)言中難以表達(dá)。因此，LLM代理在處理這類情境時(shí)存在局限。未來(lái)的研究可能需要考慮整合多模態(tài)大型模型的發(fā)展，并重新考慮相關(guān)的規(guī)劃策略。

? 細(xì)致的評(píng)估方法。當(dāng)前的基準(zhǔn)測(cè)試主要依賴于任務(wù)的最終完成狀態(tài)，缺少對(duì)每一步的細(xì)致評(píng)估。此外，環(huán)境反饋通常是規(guī)則驅(qū)動(dòng)的、過(guò)于簡(jiǎn)化的，與現(xiàn)實(shí)世界情境有較大差異。一個(gè)可能的研究方向是利用像LLM這樣的高智能模型來(lái)設(shè)計(jì)更加真實(shí)的評(píng)估環(huán)境。

例如，生成代理將人類代理的日常經(jīng)驗(yàn)以文本形式存儲(chǔ)，并基于當(dāng)前情境的相關(guān)性和時(shí)效性來(lái)檢索記憶。MemoryBank、TiM和RecMind等系統(tǒng)則利用文本編碼模型將記憶編碼成向量，并建立索引結(jié)構(gòu)，以便檢索。在檢索時(shí)，當(dāng)前狀態(tài)的描述作為查詢條件，用于從記憶庫(kù)中檢索記憶。不同系統(tǒng)在記憶更新方式上有所區(qū)別：MemGPT借鑒了計(jì)算機(jī)架構(gòu)中的多級(jí)存儲(chǔ)概念，將LLM的上下文視為RAM，而將額外的存儲(chǔ)結(jié)構(gòu)視作磁盤(pán)，LLM可以自主決定是否檢索歷史記憶或?qū)?dāng)前上下文存儲(chǔ)起來(lái)。REMEMBER系統(tǒng)則采用Q值表來(lái)存儲(chǔ)歷史記憶，每條記錄包含環(huán)境、任務(wù)、動(dòng)作和Q值，以便在檢索時(shí)根據(jù)環(huán)境和任務(wù)的相似性來(lái)生成計(jì)劃Arxiv。

通往 AGI 的神秘代碼

if like_this_article():
    do_action('點(diǎn)贊')
    do_action('再看')
    add_wx_friend('iamxxn886')

if like_all_arxiv_articles():
    go_to_link('https://github.com/HuggingAGI/HuggingArxiv')    star_github_repo(

Agent四大范式 | 綜述：全面理解Agent工作原理-AI.x社區(qū)

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??，作者：HuggingAGI

標(biāo)簽

已于2024-5-23 15:28:32修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

吳恩達(dá)親授智能體四大設(shè)計(jì)模式

duhorse ? 3856瀏覽 ? 0回復(fù)
LLM CoT的工作原理

ceesoft ? 2706瀏覽 ? 0回復(fù)
AI Agent：人類工作范式的顛覆者還是人機(jī)協(xié)作新范式？

Baihai_IDP ? 4354瀏覽 ? 0回復(fù)
AI四大方向分布生成可信永續(xù)

數(shù)字化助推器 ? 2766瀏覽 ? 0回復(fù)
AI大模型技術(shù)的四大核心架構(gòu)演進(jìn)之路

AIGC觀察者 ? 3268瀏覽 ? 0回復(fù)
RAG 開(kāi)發(fā)四大痛點(diǎn)及解決方案

玄姐聊AGI ? 2593瀏覽 ? 0回復(fù)
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 3819瀏覽 ? 0回復(fù)
Transformer 動(dòng)畫(huà)揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù)

玄姐聊AGI ? 2088瀏覽 ? 0回復(fù)
一篇大模型Agent最新綜述

探索AGI ? 2933瀏覽 ? 0回復(fù)
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 3768瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評(píng)測(cè)基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢(shì)

十一月雨_55 ? 8183瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)四大范式：監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

智駐未來(lái) ? 1.2w瀏覽 ? 0回復(fù)
一文看懂：四種多Agent范式哪種最好

大語(yǔ)言模型論文跟蹤 ? 3320瀏覽 ? 0回復(fù)
大語(yǔ)言模型邁向通用人工智能（AGI）征程全面綜述：四大核心要素必不可少！

十一月雨_55 ? 3208瀏覽 ? 0回復(fù)
2025 AI Infra展望：重塑基礎(chǔ)設(shè)施的四大關(guān)鍵趨勢(shì)

唐克 ? 2650瀏覽 ? 0回復(fù)
Agent只是手段，工作流才是內(nèi)容！

51CTO技術(shù)棧 ? 1681瀏覽 ? 0回復(fù)
2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 2846瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā)

玄姐聊AGI ? 7076瀏覽 ? 0回復(fù)
從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解

PyTorch研習(xí)社 ? 791瀏覽 ? 0回復(fù)

大語(yǔ)言模型論文跟蹤

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

微軟亞洲研究院打造最強(qiáng)視覺(jué)元素定位模型 8天前發(fā)布
Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案 8天前發(fā)布

熱門(mén)推薦

Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

下一篇： AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開(kāi)源！

社區(qū)精華內(nèi)容

目錄

^{<sub id="b6ndt"></sub>}

<legend id="b6ndt"></legend>

<sub id="b6ndt"><i id="b6ndt"></i></sub>