Agent四大范式 | 綜述:全面理解Agent工作原理
什么是智能體Agent
Autonomous agents 又被稱為智能體Agent。能夠通過(guò)感知周圍環(huán)境、進(jìn)行規(guī)劃以及執(zhí)行動(dòng)作來(lái)完成既定任務(wù)。在這些能力中,規(guī)劃尤為重要,它涉及到復(fù)雜的理解、推理和決策制定。
大語(yǔ)言模型出現(xiàn)以前,我們一般通過(guò)規(guī)則的方法,或者強(qiáng)化學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)。但是這兩種方法各有弊端:
- 規(guī)則的方法是指把復(fù)雜的自然語(yǔ)言問(wèn)題轉(zhuǎn)化為規(guī)則符號(hào),往往需要行業(yè)專家的介入,缺乏容錯(cuò)能力,小錯(cuò)誤可能導(dǎo)致整個(gè)系統(tǒng)的失敗。
- 而強(qiáng)化學(xué)習(xí)一般是構(gòu)建策略網(wǎng)絡(luò)或獎(jiǎng)勵(lì)模型,但是一般需要大量樣本進(jìn)行訓(xùn)練,但是收集數(shù)據(jù)往往成本很高,所以這種方法可行性不大,很難推廣開(kāi)來(lái)。
近幾年,大語(yǔ)言模型的興起因此了智能體應(yīng)用這個(gè)領(lǐng)域的巨大變化。大語(yǔ)言模型在邏輯推理、工具應(yīng)用、策略規(guī)劃、指令遵循等方面都有非常不錯(cuò)的表現(xiàn),這使得大家開(kāi)始意識(shí)到,將大語(yǔ)言模型作為Agent應(yīng)用的核心認(rèn)知系統(tǒng),可以極大的提高智能體的規(guī)劃能力。
而且最近,吳恩達(dá)一直在吹A(chǔ)gent的風(fēng) 劃重點(diǎn) | 吳恩達(dá):Agent模式將在不久的將來(lái)超過(guò)下一代模型 ,也確實(shí),越來(lái)越多的人發(fā)現(xiàn),模型訓(xùn)練成本高昂,還不如用Agent的方法來(lái)實(shí)現(xiàn)更加智能的應(yīng)用體。
圖片
這篇文章中,作者將Agent應(yīng)用的能力分為五個(gè)主要類別:任務(wù)分解、多方案選擇、外部模塊輔助規(guī)劃、反思與優(yōu)化、記憶增強(qiáng)規(guī)劃。
圖片
? 任務(wù)分解是指借助LLM將任務(wù)拆解為若干個(gè)子任務(wù),并依次對(duì)每個(gè)子任務(wù)進(jìn)行規(guī)劃。
? 多方案選擇是指大型語(yǔ)言模型深入“思考”,針對(duì)特定任務(wù)提出多種可能的方案。接著,利用針對(duì)性的任務(wù)搜索機(jī)制,從中挑選一個(gè)最合適的方案來(lái)實(shí)施。
? 外部模塊輔助規(guī)劃。該策略專門(mén)設(shè)計(jì)用于引入外部規(guī)劃器,以增強(qiáng)規(guī)劃過(guò)程的效率和計(jì)劃的可行性,同時(shí)大型語(yǔ)言模型主要負(fù)責(zé)將任務(wù)規(guī)范化。
? 反思與優(yōu)化。這種策略著重于通過(guò)自我反思和細(xì)節(jié)完善來(lái)增強(qiáng)規(guī)劃能力。它激勵(lì)大型語(yǔ)言模型Agent應(yīng)用在遭遇失敗后進(jìn)行深入反思,并據(jù)此優(yōu)化規(guī)劃方案。
? 記憶增強(qiáng)規(guī)劃。該策略通過(guò)引入一個(gè)附加的記憶組件來(lái)提升規(guī)劃能力,該組件中存儲(chǔ)了各種寶貴信息,包括基本常識(shí)、歷史經(jīng)驗(yàn)、領(lǐng)域?qū)I(yè)知識(shí)等。在進(jìn)行規(guī)劃時(shí),這些信息會(huì)被調(diào)取出來(lái),充當(dāng)輔助提示,以增強(qiáng)規(guī)劃的效果。
這五大研究方向并非相互獨(dú)立,而是相互關(guān)聯(lián),往往需要同時(shí)運(yùn)用多種技術(shù)手段。
任務(wù)分解
在現(xiàn)實(shí)世界中,環(huán)境往往充滿了復(fù)雜性和變化,因此通過(guò)一次規(guī)劃來(lái)解決復(fù)雜任務(wù)往往比較困難。所以將復(fù)雜任務(wù)簡(jiǎn)化是一個(gè)非常有效的辦法,有點(diǎn)類似于“分而治之”的策略(如下圖)。任務(wù)分解一般包括兩個(gè)環(huán)節(jié):
? 將復(fù)雜任務(wù)拆解為多個(gè)子任務(wù),稱為分解階段
? 為子任務(wù)指定規(guī)劃,這個(gè)階段被稱為子規(guī)劃階段
圖片
目前,一般有兩種組合方式:
? 1.先分解后規(guī)劃(Decomposition-First Methods)
? 2.邊分解邊規(guī)劃(Interleaved Decomposition Methods)
先分解后規(guī)劃(Decomposition-First Methods)
先分解后規(guī)劃策略是先把任務(wù)拆解為子任務(wù),然后再為每個(gè)子任務(wù)指定子規(guī)劃。包括 HuggingGPT、Plan-and-Solve、ProgPrompt等典型方法都是用的這種方法進(jìn)行規(guī)劃。
? HuggingGPT整合Huggingface Hub的多種多模態(tài)模型,打造出一個(gè)能夠應(yīng)對(duì)多模態(tài)任務(wù)的智能代理。該代理擅長(zhǎng)處理如圖像生成、分類、物體識(shí)別、視頻注釋、語(yǔ)音轉(zhuǎn)文本等任務(wù)。LLM在此過(guò)程中充當(dāng)指揮官,負(fù)責(zé)解析人類輸入的任務(wù)、挑選合適的模型并產(chǎn)出最終答復(fù)。最為關(guān)鍵的初階段任務(wù)拆解中,HuggingGPT明確指導(dǎo)LLM將接到的任務(wù)細(xì)化為一系列子任務(wù),并明確任務(wù)間的依賴性。
? Plan-and-Solve 改進(jìn)了Few Shot COT方法,將其原始的“讓我們一步步來(lái)思考”轉(zhuǎn)變?yōu)椤笆紫戎贫ㄓ?jì)劃”和“執(zhí)行計(jì)劃”的兩步提示指令。這種COT方法在數(shù)學(xué)、常識(shí)及符號(hào)推理方面均有所提升。
? ProgPrompt 則將自然語(yǔ)言描述的任務(wù)轉(zhuǎn)譯為編程問(wèn)題,通過(guò)代碼定義代理的動(dòng)作空間和環(huán)境中的對(duì)象,每個(gè)動(dòng)作都明確為一個(gè)函數(shù),每個(gè)對(duì)象則作為一個(gè)變量。這樣,任務(wù)規(guī)劃便自然轉(zhuǎn)化為生成函數(shù)的過(guò)程。執(zhí)行任務(wù)時(shí),代理會(huì)先創(chuàng)建一個(gè)以函數(shù)調(diào)用來(lái)體現(xiàn)的計(jì)劃,隨后逐步實(shí)施。
邊分解邊規(guī)劃(Interleaved Decomposition Methods)
邊分解邊規(guī)劃方法是指任務(wù)分解和子任務(wù)規(guī)劃交錯(cuò)進(jìn)行。包括思維鏈、ReAct、PAL、PoT等方法都是用的這種策略。
? CoT展示了LLM在少樣本學(xué)習(xí)上的能力。它通過(guò)幾個(gè)構(gòu)建的路徑引導(dǎo)LLM對(duì)復(fù)雜問(wèn)題進(jìn)行推理,利用LLM的推理能力進(jìn)行任務(wù)拆解。Few Shot CoT 通過(guò)“讓我們一步步思考”這一神奇指令,激活了LLM的Few Shot COT功能。
? ReAct與CoT不同,它將推理與規(guī)劃分開(kāi)處理,在推理(思考步驟)與規(guī)劃(行動(dòng)步驟)之間進(jìn)行切換,顯著提升了規(guī)劃能力。視覺(jué)ChatGPT采用ReAct機(jī)制,將LLM作為代理的大腦,結(jié)合一系列視覺(jué)模型,賦予代理圖像處理的能力。
? PAL 通過(guò)發(fā)揮LLM的編碼專長(zhǎng),優(yōu)化了CoT,在推理過(guò)程中引導(dǎo)LLM生成代碼,并最終通過(guò)代碼解釋器(如Python)執(zhí)行代碼以得到答案,有效助力代理解決數(shù)學(xué)和符號(hào)推理難題。
? PoT將推理過(guò)程徹底編程化,作者還運(yùn)用了針對(duì)代碼數(shù)據(jù)訓(xùn)練的CodeX模型,增強(qiáng)了解決數(shù)學(xué)和財(cái)務(wù)問(wèn)題的效能。
利弊
先分解后規(guī)劃的優(yōu)勢(shì)在于,能夠在子任務(wù)與原任務(wù)之間聯(lián)系更加緊密,所以可以降低任務(wù)遺漏和幻覺(jué)的風(fēng)險(xiǎn)。但是,由于子任務(wù)在最初就被固定下來(lái),缺乏靈活調(diào)整的機(jī)制,任何一步的失誤都可能會(huì)導(dǎo)致整體的失敗。
邊分解邊規(guī)劃的策略,可以根據(jù)環(huán)境反饋來(lái)調(diào)整分解策略,增強(qiáng)應(yīng)對(duì)錯(cuò)誤得能力。但是在處理復(fù)雜任務(wù)時(shí),如果過(guò)程太長(zhǎng),可能會(huì)導(dǎo)致LLM產(chǎn)生幻覺(jué),讓后續(xù)的子任務(wù)和子規(guī)劃偏離既定目標(biāo)。
此外,任務(wù)分解帶來(lái)了額外的時(shí)間和計(jì)算成本。
而且,對(duì)于一些被拆分的子任務(wù)太多的高復(fù)雜度任務(wù)而言,規(guī)劃過(guò)程會(huì)受到LLM上下文長(zhǎng)度的限制,從而導(dǎo)致規(guī)劃路徑偏離原有路徑。
多方案選擇
鑒于任務(wù)本身的復(fù)雜性及大型語(yǔ)言模型(LLM)內(nèi)在的不確定性,LLM-Agent為特定任務(wù)制定的計(jì)劃可能千差萬(wàn)別。盡管LLM具備強(qiáng)大的推理能力,但單獨(dú)生成的計(jì)劃可能并非最優(yōu),甚至不可執(zhí)行。更自然的方法是采用多計(jì)劃選擇,該過(guò)程包括兩個(gè)主要步驟:多計(jì)劃生成和最優(yōu)計(jì)劃挑選。
多方案生成
多計(jì)劃生成的目的在于產(chǎn)生一系列計(jì)劃路徑,形成候選計(jì)劃集。常見(jiàn)的方法有:
? 通過(guò)在解碼過(guò)程中調(diào)整采樣策略,比如溫度參數(shù)、top-k參數(shù),來(lái)獲取不同的多個(gè)推理路徑。
? 思維樹(shù)(ToT)包括兩種生成計(jì)劃策略,一種是與前述的采樣策略參數(shù)調(diào)整一致,另一種是指導(dǎo)LLm通過(guò)提示詞中的少量示例來(lái)生成不同的規(guī)劃。
? 思維圖(GoT)引入思維轉(zhuǎn)換的概念,對(duì)ToT進(jìn)行了擴(kuò)展,支持任意思維的聚合。
? LLM-MCTS 和RAP 則將LLM作為蒙特卡洛樹(shù)搜索(MCTS)中的啟發(fā)式策略函數(shù),通過(guò)多次調(diào)用獲取多種可能的行動(dòng)方案。
如何在多個(gè)方案中選擇最佳策略也有多種方法:
? 自洽性策略通過(guò)簡(jiǎn)單的多數(shù)投票法來(lái)確定最受歡迎的計(jì)劃作為最佳選擇。
? 思維樹(shù)(ToT)利用其樹(shù)狀結(jié)構(gòu),支持包括廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)在內(nèi)的樹(shù)狀搜索算法。在決定擴(kuò)展哪個(gè)節(jié)點(diǎn)時(shí),ToT借助大型語(yǔ)言模型Agent應(yīng)用(LLM)來(lái)評(píng)估多種可能的行動(dòng),并從中挑選出最佳選項(xiàng)。
? LLMMCTS 和RAP 也使用樹(shù)狀結(jié)構(gòu)輔助進(jìn)行多計(jì)劃搜索,但它們采用的是蒙特卡洛樹(shù)搜索(MCTS)算法。
外部模塊輔助規(guī)劃
盡管大型語(yǔ)言模型(LLMs)在推理和任務(wù)分解方面表現(xiàn)出色,但在面對(duì)如數(shù)學(xué)問(wèn)題求解或生成合法行動(dòng)等具有復(fù)雜約束的環(huán)境時(shí),仍面臨挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn),研究人員采取了將LLMs與外部規(guī)劃器相結(jié)合的多種方法,這些方法大致可分為符號(hào)規(guī)劃器和神經(jīng)規(guī)劃器兩大類。
符號(hào)規(guī)劃器
? LLM+P 通過(guò)整合基于PDDL的符號(hào)規(guī)劃器,提升了LLMs的規(guī)劃效率。研究者利用LLM的語(yǔ)義解析和編碼能力,將問(wèn)題轉(zhuǎn)化為文本語(yǔ)言提示,輸入至LLM。這樣,LLM便能將環(huán)境內(nèi)的行為和特定任務(wù)轉(zhuǎn)化為PDDL語(yǔ)言格式。在獲得正式化描述后,研究者使用Fast-Downward 求解器來(lái)執(zhí)行規(guī)劃。
? 在LLM+P的基礎(chǔ)上,LLM-DP專為動(dòng)態(tài)交互環(huán)境設(shè)計(jì),它在接收環(huán)境反饋后,將信息形式化為PDDL語(yǔ)言,并利用BFS 求解器來(lái)生成計(jì)劃。
? LLM+PDDL 同樣采用PDDL語(yǔ)言來(lái)形式化任務(wù),并增加了手動(dòng)驗(yàn)證步驟,以檢查L(zhǎng)LM生成的PDDL模型中可能的問(wèn)題。在規(guī)劃過(guò)程中,研究者建議使用LLM生成的計(jì)劃作為初始啟發(fā)式解,以加快局部搜索規(guī)劃器(如LPG)的搜索速度。
? LLM+ASP [Yang et al., 2023b]將LLM描述的自然語(yǔ)言問(wèn)題轉(zhuǎn)化為原子事實(shí),將任務(wù)轉(zhuǎn)化為答案集編程(ASP)問(wèn)題,然后使用ASP求解器CLINGO來(lái)生成計(jì)劃。
神經(jīng)規(guī)劃器
神經(jīng)規(guī)劃器,這類深度學(xué)習(xí)模型通過(guò)強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí)在收集的規(guī)劃數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠在特定領(lǐng)域內(nèi)實(shí)現(xiàn)高效的規(guī)劃。以DRRN 為例,它通過(guò)強(qiáng)化學(xué)習(xí)方法將規(guī)劃過(guò)程視作馬爾可夫決策過(guò)程,培養(yǎng)出一個(gè)策略網(wǎng)絡(luò)來(lái)構(gòu)建深度決策模型。決策變換器(DT)則讓變換器模型能夠模仿規(guī)劃數(shù)據(jù)中的人類決策行為。
神經(jīng)規(guī)劃器雖然在部分領(lǐng)域使用了更小的參數(shù)獲得較高的規(guī)劃效率,但是經(jīng)常會(huì)遇到數(shù)據(jù)不足、泛化能力有限的情況。所以為了提高規(guī)劃能力,研究者一般吧Agent應(yīng)用和輕量級(jí)神經(jīng)規(guī)劃器結(jié)合的方式。
? CALM 就是這種結(jié)合的早期嘗試,它將語(yǔ)言模型與基于強(qiáng)化學(xué)習(xí)的神經(jīng)規(guī)劃器結(jié)合起來(lái)。語(yǔ)言模型負(fù)責(zé)處理文本形式的環(huán)境信息,并基于這些信息生成一系列候選行動(dòng)。隨后,DRRN策略網(wǎng)絡(luò)對(duì)這些候選行動(dòng)進(jìn)行重新排序,以選出最優(yōu)的行動(dòng)方案。
? SwiftSage 鑒了認(rèn)知心理學(xué)中的雙系統(tǒng)理論,將規(guī)劃過(guò)程劃分為慢速思考和快速思考兩個(gè)部分。慢速思考負(fù)責(zé)復(fù)雜的推理和理性決策,而快速思考則依賴于長(zhǎng)期訓(xùn)練形成的直覺(jué)反應(yīng)。研究者們利用通過(guò)模仿學(xué)習(xí)訓(xùn)練的DT模型作為快速思考模型,以快速生成計(jì)劃。當(dāng)計(jì)劃執(zhí)行中出現(xiàn)錯(cuò)誤,暗示問(wèn)題較為復(fù)雜時(shí),系統(tǒng)會(huì)切換到慢速思考模式,此時(shí)LLM會(huì)基于當(dāng)前狀態(tài)進(jìn)行深入的推理和規(guī)劃。這種快速與慢速思考相結(jié)合的方法,在提高效率方面顯示出了顯著的效果。
反思與優(yōu)化(Reflection and Refinement)
反思和優(yōu)化是規(guī)劃過(guò)程中不可或缺的兩大支柱,在提升模型Agent應(yīng)用的容錯(cuò)和糾錯(cuò)能力上有很大作用。由于大語(yǔ)言模型的幻覺(jué)特點(diǎn),已經(jīng)在處理復(fù)雜問(wèn)題時(shí)的局限性,Agent應(yīng)用在做任務(wù)規(guī)劃時(shí),往往會(huì)陷入思維旋渦。通過(guò)回顧和總結(jié)經(jīng)驗(yàn),可以使得Agent在后續(xù)的嘗試中糾正錯(cuò)誤,打破循環(huán)。
? Self-refine:是通過(guò)迭代生成、反饋、精煉,使得大語(yǔ)言模型每次生成計(jì)劃后,都能提供反饋,根據(jù)反饋進(jìn)行調(diào)整。
? Reflexion:則是在ReAct的基礎(chǔ)上增加評(píng)估器,用來(lái)評(píng)估行動(dòng)軌跡,在發(fā)現(xiàn)錯(cuò)誤后進(jìn)行自我反思,從而糾正錯(cuò)誤。
? CRITIC:則是利用外部工具,比如知識(shí)庫(kù)、搜索引擎來(lái)驗(yàn)證LLM生成的行動(dòng),然后借助外部知識(shí)進(jìn)行自我糾錯(cuò),減少事實(shí)性錯(cuò)誤。??Agent四大范式 | CRITIC:吳恩達(dá)力推Agent設(shè)計(jì)范式??
? InteRecAgent 采用了ReChain機(jī)制來(lái)進(jìn)行自我糾錯(cuò),LLM在此過(guò)程中評(píng)估交互推薦代理生成的響應(yīng)和工具使用計(jì)劃,總結(jié)錯(cuò)誤反饋,并決定是否需要重新開(kāi)始規(guī)劃。
? LEMA 則先收集錯(cuò)誤的規(guī)劃樣本,隨后利用更高級(jí)的GPT-4進(jìn)行修正,這些經(jīng)過(guò)修正的樣本用于微調(diào)LLM-Agent,顯著提高了LLaMA模型在不同規(guī)模上的性能。
記憶增強(qiáng)規(guī)劃
大語(yǔ)言模型Agent應(yīng)用在記憶方面主要有兩種方法來(lái)增強(qiáng)規(guī)劃能力:基于檢索增強(qiáng)生成(RAG)的方法和基于 嵌入式記憶(Embodied Memory,這里我翻譯成嵌入式記憶可能更合理,有更好的翻譯也歡迎大家指正。)。
RAG記憶
RAG現(xiàn)在也是很火的一種LLM應(yīng)用技術(shù)框架,是指通過(guò)信息檢索的方式輔助文本生成,可以為L(zhǎng)LM提供最新的知識(shí)更新。存儲(chǔ)的內(nèi)容形式多種多樣,包括文本、表格、知識(shí)圖譜等。
這里針對(duì)RAG不多講,下次爭(zhēng)取找?guī)灼猂AG的綜述跟大家一起讀一讀。
嵌入式記憶
所謂嵌入式記憶,是相對(duì)RAG將知識(shí)存儲(chǔ)在外部系統(tǒng)而言,嵌入式記憶是將知識(shí)通過(guò)Finetune的方式把知識(shí)存儲(chǔ)在大模型里面,嵌入到模型參數(shù)里面。從頭開(kāi)始訓(xùn)練一個(gè)模型成本巨大,所以一般采用PEFT的技術(shù)來(lái)進(jìn)行微調(diào),比如:LoRA、QLoRA、P-tuning等。
CALM通過(guò)訓(xùn)練一個(gè)GPT2模型,可以完成一些規(guī)劃任務(wù),并且還有比較好的泛化能力。AgentTuning 將不同任務(wù)的規(guī)劃軌跡整合成對(duì)話形式,對(duì)LLaMA模型進(jìn)行微調(diào),顯著提升了在未見(jiàn)規(guī)劃任務(wù)上的性能表現(xiàn)。
Agent應(yīng)用的局限性
雖然在吳恩達(dá)最近的觀點(diǎn)中,Agent應(yīng)用有潛力成為未來(lái)AGI的通用技術(shù)路線,但是現(xiàn)有的Agent應(yīng)用還有很多問(wèn)題和局限性。
? 幻覺(jué)現(xiàn)象。在規(guī)劃過(guò)程中,LLM常常出現(xiàn)幻覺(jué),導(dǎo)致規(guī)劃不合理,對(duì)任務(wù)提示不忠實(shí),或無(wú)法遵循復(fù)雜指令。比如,計(jì)劃中可能包含了與環(huán)境中不存在的物品進(jìn)行交互的行動(dòng)。雖然通過(guò)精心設(shè)計(jì)的提示可以緩解這些問(wèn)題,但是理論上并不能完全消除幻覺(jué)帶來(lái)的問(wèn)題。
? 生成計(jì)劃的可行性?;诮y(tǒng)計(jì)學(xué)習(xí)的LLM通過(guò)海量數(shù)據(jù)優(yōu)化下一個(gè)詞的出現(xiàn)概率,與符號(hào)化人工智能相比,這種方法在遵循復(fù)雜約束時(shí)存在挑戰(zhàn),特別是在處理LLM訓(xùn)練期間不常遇到的約束。因此,LLM生成的計(jì)劃可能在沒(méi)有充分考慮先決條件的情況下缺乏可行性。將LLM與符號(hào)化規(guī)劃模型結(jié)合,而不改變LLM本身,是一個(gè)充滿希望的研究方向。
? 生成計(jì)劃的效率。高效地生成計(jì)劃是規(guī)劃中的關(guān)鍵議題。然而,現(xiàn)有的LLM代理在規(guī)劃時(shí),往往只基于LLM輸出的生成計(jì)劃進(jìn)行貪婪選擇,忽略了計(jì)劃的效率。未來(lái)的研究可能需要引入額外的效率評(píng)估模塊,與LLM協(xié)同工作,以制定更高效的計(jì)劃。
? 多模態(tài)環(huán)境反饋的處理。LLM最初旨在處理文本輸入,但現(xiàn)實(shí)世界的環(huán)境反饋往往是多模態(tài)的,包括圖像、音頻等,這些內(nèi)容在自然語(yǔ)言中難以表達(dá)。因此,LLM代理在處理這類情境時(shí)存在局限。未來(lái)的研究可能需要考慮整合多模態(tài)大型模型的發(fā)展,并重新考慮相關(guān)的規(guī)劃策略。
? 細(xì)致的評(píng)估方法。當(dāng)前的基準(zhǔn)測(cè)試主要依賴于任務(wù)的最終完成狀態(tài),缺少對(duì)每一步的細(xì)致評(píng)估。此外,環(huán)境反饋通常是規(guī)則驅(qū)動(dòng)的、過(guò)于簡(jiǎn)化的,與現(xiàn)實(shí)世界情境有較大差異。一個(gè)可能的研究方向是利用像LLM這樣的高智能模型來(lái)設(shè)計(jì)更加真實(shí)的評(píng)估環(huán)境。
例如,生成代理將人類代理的日常經(jīng)驗(yàn)以文本形式存儲(chǔ),并基于當(dāng)前情境的相關(guān)性和時(shí)效性來(lái)檢索記憶。MemoryBank、TiM和RecMind等系統(tǒng)則利用文本編碼模型將記憶編碼成向量,并建立索引結(jié)構(gòu),以便檢索。在檢索時(shí),當(dāng)前狀態(tài)的描述作為查詢條件,用于從記憶庫(kù)中檢索記憶。不同系統(tǒng)在記憶更新方式上有所區(qū)別:MemGPT借鑒了計(jì)算機(jī)架構(gòu)中的多級(jí)存儲(chǔ)概念,將LLM的上下文視為RAM,而將額外的存儲(chǔ)結(jié)構(gòu)視作磁盤(pán),LLM可以自主決定是否檢索歷史記憶或?qū)?dāng)前上下文存儲(chǔ)起來(lái)。REMEMBER系統(tǒng)則采用Q值表來(lái)存儲(chǔ)歷史記憶,每條記錄包含環(huán)境、任務(wù)、動(dòng)作和Q值,以便在檢索時(shí)根據(jù)環(huán)境和任務(wù)的相似性來(lái)生成計(jì)劃Arxiv。
通往 AGI 的神秘代碼
if like_this_article():
do_action('點(diǎn)贊')
do_action('再看')
add_wx_friend('iamxxn886')
if like_all_arxiv_articles():
go_to_link('https://github.com/HuggingAGI/HuggingArxiv') star_github_repo(
本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者:HuggingAGI
