自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

理解什么是AI Agent,看懂這篇就夠了

發(fā)布于 2025-3-21 07:17
瀏覽
0收藏

AI Agent越來越為人們熟知,我們熟悉的那種對話式大模型,正在慢慢淡出視野。但這些Agent所包含的復(fù)雜功能,往往需要許多組件模塊協(xié)同工作。


理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

問題來了,什么是Agent?

傳統(tǒng)意義上,LLM是一個(gè)概率預(yù)測模型,用于預(yù)測下一個(gè)token產(chǎn)生的概率。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

通過連續(xù)對tokens 進(jìn)行采樣,我們就可以模擬與LLM進(jìn)行對話,使用 LLM 輔助查詢更多信息,為我們提供更廣泛的答案。 

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

然而,任何LLM都會(huì)在我們對話的過程中,暴露出它的缺點(diǎn):沒有記憶能力,記不住上一輪對話。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這就是為什么,LLM會(huì)在一些基本的數(shù)學(xué)運(yùn)算的任務(wù)上出現(xiàn)失敗,本身LLM是一個(gè)概率模型,針對這種精確的計(jì)算任務(wù)也望塵莫及。

不是它不行,這是它的本身限制所在。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這種情況并不意味著LLM是非常糟透了的!

LLMs不需要擁有全部的超能力,我們可以借助外部工具、記憶和檢索系統(tǒng)來彌補(bǔ)不足。

通過外部系統(tǒng)(工具、記憶、檢索),LLM 的能力可以得到進(jìn)一步的增強(qiáng),不再出現(xiàn)那種突然的”短路“和記憶缺失。

Anthropic 將這稱為“增強(qiáng)的 LLM”。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

再次面對同樣的數(shù)學(xué)問題,增強(qiáng)式的LLM 會(huì)直接使用(這種是通過設(shè)置提示詞去調(diào)度的,遇到數(shù)學(xué)問題,就用計(jì)算器)合適的工具(一個(gè)計(jì)算器 )。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)


那么,這種增強(qiáng)式的LLM是Agent嗎?

它有Tool,Memory,LLM,或許算是...

回顧一下Agent基本定義:

Agent是指任何可以被視為通過傳感器感知其環(huán)境,并通過對環(huán)境的執(zhí)行器采取行動(dòng)的東西 。

—— Russell & Norvig, 人工智能:現(xiàn)代方法(2016)

從定義來看,Agent是與環(huán)境進(jìn)行交互,有很重要的幾個(gè)組件:

  • 環(huán)境 — 代理互動(dòng)的世界
  • 傳感器 — 用于觀察環(huán)境
  • 執(zhí)行器 — 用于與環(huán)境互動(dòng)的工具
  • 效應(yīng)器 — 決定如何從觀察到行動(dòng)的“大腦”或規(guī)則

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

適用于與各種環(huán)境交互的代理,包括機(jī)器人與物理環(huán)境交互、 AI Agent與軟件系統(tǒng)交互。泛化到更加廣闊的邊界,適用于“Augmented LLM”。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

上述我們所說的增強(qiáng)式LLM,就是通過對話框內(nèi)容輸入,進(jìn)而觀察環(huán)境,并通過使用工具執(zhí)行某些操作(比如AI搜索 )。

那么除了執(zhí)行工具和LLM大腦,如何有效地執(zhí)行任務(wù)同樣重要。

AI Agent有一個(gè)非常重要的部分:規(guī)劃能力。這就要求LLM 需要通過鏈?zhǔn)剿季S等方法進(jìn)行“推理”和“思考”。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

關(guān)于什么是推理能力,可以看下一篇文章。

通過這種鏈?zhǔn)降耐评硭伎?,AI Agent會(huì)規(guī)劃出執(zhí)行任務(wù)的步驟,說明具體每一步怎么執(zhí)行等等。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

回顧Agent的定義,一個(gè)完備的Agent需要具有LLM大腦+規(guī)劃能力+工具調(diào)用+記憶能力。

LLM讓智能體能夠理解任務(wù),然后規(guī)劃任務(wù)執(zhí)行的步驟,使用各種工具去執(zhí)行,并且實(shí)時(shí)的記錄已經(jīng)采取的行動(dòng)(長期記憶和短期記憶)。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

LLM 智能體也分為不同自主程度的,其實(shí)就是系統(tǒng)執(zhí)行任務(wù)的行為有多少是LLM主動(dòng)去做的。一個(gè)系統(tǒng)越“有自主性”,系統(tǒng)的行為就越由LLM決定。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

接下來,我將通過LLM Agent的組件來探討自主行為方法: 記憶 、工具和規(guī)劃 。

記憶Memory

LLMs 非常健忘,與之交互時(shí)根本不進(jìn)行任何記憶操作。當(dāng)你向LLM 提出一個(gè)問題,然后又提出另一個(gè)問題時(shí),它不會(huì)記住前一個(gè)問題。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這種也稱為短期記憶(或工作記憶),一種近似即時(shí)上下文的緩沖區(qū)。


如何開啟短期記憶?

使用模型的上下文窗口就可以(比如大模型一般會(huì)標(biāo)注 xxk),其實(shí)是LLM可以處理的token數(shù)量。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

一般上下文窗口至少包含8192個(gè)token,最多可以到數(shù)十萬token!

在實(shí)際使用中,可以使用較大的上下文窗口,將完整的對話歷史作為輸入提示的一部分。并不是去記住對話內(nèi)容,而是告訴LLM 上一輪對話的內(nèi)容。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

對于上下文窗口較小的模型,或?qū)υ挌v史較長時(shí),使用另一個(gè)LLM來總結(jié)迄今為止發(fā)生的對話。通過不斷總結(jié)對話,保持這次對話的規(guī)模較小。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)


但是,在常見的Agent中,需要跟蹤規(guī)劃任務(wù)中的少至十個(gè)、多至幾十個(gè)步驟,上述的短期記憶(臨期操作)還不夠。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

有了短期記憶,自然也有長期記憶,理論上Agent可以記住幾百步的步驟,其中某些步驟可以并行。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)



長期記憶包括需要在較長時(shí)間內(nèi)保留的代理過去的行為空間。

一種常見的方法是將所有之前的交互、行動(dòng)和對話存儲(chǔ)在外部向量數(shù)據(jù)庫(將對話嵌入到能夠捕捉其含義的數(shù)值表示)中,以啟用長期記憶。

長期記憶可以涉及保留不同會(huì)話中的信息。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

建立向量數(shù)據(jù)庫后,可以嵌入任何給定的提示,將提示嵌入與數(shù)據(jù)庫嵌入進(jìn)行比較,在向量數(shù)據(jù)庫中找到最相關(guān)的信息。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這個(gè)過程想必好的人都耳熟能詳,沒錯(cuò),就是檢索增強(qiáng)生成(RAG)。

不同類型的信息與不同的記憶類型相關(guān)聯(lián)以進(jìn)行存儲(chǔ)。

在心理學(xué)中,有多種類型的記憶需要區(qū)分,在《語言代理的認(rèn)知架構(gòu)》論文將其中四種類型記憶與Agent關(guān)聯(lián)起來。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)



工具Tool

工具允許LLM與外部環(huán)境進(jìn)行交互,或使用外部應(yīng)用程序(如運(yùn)行自定義代碼)。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

工具通常有兩類用途: 獲取數(shù)據(jù)以檢索最新信息和采取行動(dòng)如安排會(huì)議或訂購食物。

要實(shí)際使用一個(gè)工具,LLM 必須生成符合給定工具 API 的文本。我們通常期望生成可以格式化為 JSON 的字符串,以便可以輕松地將其傳遞給 代碼解釋器 。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

可以生成自定義函數(shù),LLM 可以使用這些函數(shù),比如一個(gè)基本的乘法函數(shù)。這通常被稱為函數(shù)調(diào)用 。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

有些LLMs如果被正確且詳細(xì)地提示,可以使用任何工具。大多數(shù)當(dāng)前的LLMs都能使用工具。一種更穩(wěn)定的方法是通過微調(diào) LLM 訪問工具.

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

工具可以在給定的順序中使用,如果代理框架是固定的……

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

……或者LLM可以自主選擇使用哪個(gè)工具以及何時(shí)使用。LLM像上述圖片中的代理本質(zhì)上是一系列LLM調(diào)用(但具有自主選擇動(dòng)作/工具等的能力)。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

換句話說,中間步驟的輸出會(huì)被反饋回LLM 繼續(xù)處理。


理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

Toolformer

工具使用可以增強(qiáng)LLMs的能力并彌補(bǔ)其缺點(diǎn)。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

一種早期的技術(shù)被稱為 Toolformer,這是一種訓(xùn)練模型來決定調(diào)用哪些 API 及其方式的技術(shù)。

它通過使用[和]標(biāo)記來指示調(diào)用工具的開始和結(jié)束。當(dāng)給定提示,例如“5 乘以 3 是什么?”,它會(huì)生成標(biāo)記直到遇到標(biāo)記。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

Toolformer 通過精心生成一個(gè)包含許多模型可以訓(xùn)練的工具使用數(shù)據(jù)集來創(chuàng)建這種行為。對于每種工具,都會(huì)手動(dòng)創(chuàng)建幾個(gè)示例提示,并使用這些提示來采樣使用這些工具的輸出。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

輸出會(huì)根據(jù)工具使用、輸出的正確性以及損失減少進(jìn)行篩選。生成的數(shù)據(jù)集用于訓(xùn)練一個(gè) LLM,使其遵循這種工具使用的格式。

模型上下文協(xié)議(MCP)

工具是Agent框架的重要組成部分,允許LLMs與外部世界互動(dòng)并擴(kuò)展其能力。

當(dāng)你有多種不同的 API 時(shí),啟用工具使用變得麻煩,因?yàn)槿魏喂ぞ叨夹枰?/p>

  • 手動(dòng) 跟蹤并提供給LLM
  • 手動(dòng) 描述(包括其預(yù)期的 JSON 模式)
  • 手動(dòng) 更新每當(dāng)其 API 發(fā)生變化時(shí)

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

為了讓給定的Agent框架容易實(shí)現(xiàn)工具,Anthropic 發(fā)布了模型上下文協(xié)議(MCP)。MCP 協(xié)議標(biāo)準(zhǔn)化了各種服務(wù)的 API 訪問。

由三個(gè)組件組成:

  • MCP Host — LLM 應(yīng)用程序(例如 Cursor)管理連接
  • MCP Client — 與 MCP 服務(wù)器保持一對一的連接
  • MCP Server — 為 LLMs 提供上下文、工具和功能

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

一個(gè)例子:希望某個(gè) LLM 應(yīng)用程序總結(jié)您倉庫中的最新 5 次提交。

MCP 主機(jī)(與客戶端一起)會(huì)首先調(diào)用 MCP 服務(wù)器以詢問哪些工具可用。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

LLM 接收信息并可以選擇使用一個(gè)工具。它通過主機(jī)向 MCP 服務(wù)器發(fā)送請求,然后接收結(jié)果,包括使用的工具。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

LLM 接收結(jié)果并可以解析一個(gè)答案給用戶。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這個(gè)框架通過連接任何LLM應(yīng)用程序都可以使用的 MCP 服務(wù)器,使創(chuàng)建工具變得更加容易。當(dāng)你創(chuàng)建一個(gè)與 Github 交互的 MCP 服務(wù)器時(shí),任何支持 MCP 的LLM應(yīng)用程序都可以使用它。

規(guī)劃

Agent中的規(guī)劃就是將給定任務(wù)分解為可執(zhí)行的步驟。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

插一嘴,這不就是Manus的todo.md。


理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)圖片

執(zhí)行計(jì)劃允許大模型迭代反思過去的行為,并在必要時(shí)更新當(dāng)前計(jì)劃。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

推理

LLM在執(zhí)行復(fù)雜任務(wù)之前,需要進(jìn)行制定可執(zhí)行步驟,就需要強(qiáng)大的推理能力,和人的大腦一樣,在接受到上級(jí)的任務(wù)之后,會(huì)思考具體怎么執(zhí)行。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這種推理行為要么對LLM 微調(diào)或特定的提示工程來實(shí)現(xiàn)。

通過提示工程創(chuàng)建LLM應(yīng)遵循的推理過程示例。提供示例(也稱為少量提示)是一種很好的方法,可以引導(dǎo)LLM的行為。【鏈?zhǔn)剿伎肌?/p>

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

鏈?zhǔn)剿伎家部梢栽诹銟颖厩闆r下通過說“讓我們一步一步地思考”來啟用。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

DeepSeek-R1的訓(xùn)練過程中,獎(jiǎng)勵(lì)被用來引導(dǎo)思考過程而使用。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

推理與行動(dòng)

LLM啟用推理能力,不一定能夠規(guī)劃出可行的執(zhí)行步驟。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

fig1:展示推理行為   fig2:通過工具與環(huán)境互動(dòng)

最早結(jié)合這兩種過程的技術(shù)之一被稱為 ReAct(推理和行動(dòng))。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

ReAct 通過提示工程來實(shí),描述了三個(gè)步驟:

  • 思考 - 當(dāng)前情況的推理步驟
  • 行動(dòng) - 執(zhí)行的一組操作(例如,工具)
  • 觀察 - 對行動(dòng)結(jié)果的推理步驟

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

LLM 使用此提示(可作為系統(tǒng)提示)來引導(dǎo)其行為,在思維、行動(dòng)和觀察的循環(huán)中工作。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這種行為不斷循環(huán),直到某個(gè)動(dòng)作指明返回結(jié)果。

通過迭代思考和觀察,LLM 可以規(guī)劃出行動(dòng),觀察其輸出,并相應(yīng)地進(jìn)行調(diào)整。

反思

即使有 ReAct 的 LLMs,也不能完美地執(zhí)行每一項(xiàng)任務(wù)。

Reflexion 是一種通過口頭強(qiáng)化來幫助代理從先前的失敗中學(xué)習(xí)的技術(shù)。

該方法假設(shè)有三個(gè)角色:

  • 執(zhí)行者 — 根據(jù)狀態(tài)觀察選擇并執(zhí)行行動(dòng)。我們可以使用鏈?zhǔn)剿伎蓟?ReAct 等方法。
  • 評(píng)估者 — 評(píng)估執(zhí)行者產(chǎn)生的輸出。
  • 自我反思 — 反思行動(dòng)執(zhí)行者采取的行動(dòng)以及評(píng)估器生成的評(píng)分。

如下,添加了記憶模塊來跟蹤行動(dòng)(短期)和自我反思(長期),幫助代理從錯(cuò)誤中學(xué)習(xí)并識(shí)別改進(jìn)的行動(dòng)。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

另一種技術(shù)被稱為 SELF-REFINE,其中對輸出進(jìn)行精煉和生成反饋的動(dòng)作會(huì)重復(fù)進(jìn)行。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

由同一個(gè)LLM負(fù)責(zé)生成初始輸出、精煉輸出和反饋。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這種自我反思行為,無論是 Reflexion 還是 SELF-REFINE,都與強(qiáng)化學(xué)習(xí)非常相似,在這種學(xué)習(xí)中,根據(jù)輸出的質(zhì)量給予獎(jiǎng)勵(lì)。

多智能體協(xié)作

當(dāng)前的單 Agent存在一些問題:過多的工具、過長的上下文、任務(wù)過于松散等。

在多 Agent 框架,多個(gè) Agent(都有工具 、 記憶和規(guī)劃能力)相互作用并與其環(huán)境互動(dòng):

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

多 Agent 系統(tǒng)由專業(yè) Agent 組成,每個(gè) Agent 都配備了自己的一套工具,并由監(jiān)督者管理。

監(jiān)督者負(fù)責(zé)管理 Agent 之間的通信,并可以為專門化的 Agent 分配特定任務(wù)。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

市面上很多的Agent架構(gòu),核心是兩個(gè)組件:

  • Agent 初始化:個(gè)別(專業(yè)化)的agent如何創(chuàng)建?
  • Agent 編排 :所有Agent如何協(xié)調(diào)?

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

這兩種組件的實(shí)現(xiàn)方式,在其他多代理框架里面可以找到答案。

人類行為的交互式模擬

在論文《Generative Agents: Interactive Simulacra of Human Behavior》里面,作者創(chuàng)建了模擬人類行為的生成式Agent。

論文:??https://arxiv.org/pdf/2304.03442??

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

每個(gè)生成型Agent具有不同的個(gè)人資料,表現(xiàn)出不同的行為方式,增加了互動(dòng)性和趣味性。

每個(gè)Agent初始化時(shí)包含三個(gè)模塊(記憶 、規(guī)劃、反思),與ReAct 和 Reflexion 的核心組件非常相似。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

記憶模塊存儲(chǔ)了所有規(guī)劃和反思行為,以及迄今為止的所有事件。對于任何下一步或問題,會(huì)檢索記憶并根據(jù)其新鮮度、重要性和相關(guān)性進(jìn)行評(píng)分。得分最高的記憶會(huì)被分享給Agent。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

他們共同使得Agent能夠自由地進(jìn)行行為并相互交互。因此,Agent之間幾乎沒有需要進(jìn)行協(xié)調(diào)的地方,因?yàn)樗鼈儧]有特定的目標(biāo)需要完成。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

評(píng)估指標(biāo)主要以Agent 行為的可信度為指標(biāo),由人類評(píng)估者打分。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

由此可見,Agent在執(zhí)行任務(wù)做規(guī)劃時(shí),沒有反思行為是不完整的。

模塊化框架

有各種開源框架(AutoGen、MetaGPT、CAMEL)可以用于創(chuàng)建多智能體系統(tǒng),通常包括:配置文件、環(huán)境感知、記憶、計(jì)劃和動(dòng)作。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

使用 CAMEL 時(shí),用戶首先創(chuàng)建其問題,并定義 AI 用戶和 AI 助手角色。AI 用戶角色代表人類用戶,并將引導(dǎo)整個(gè)過程。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

AI 用戶和 AI 助手將通過彼此互動(dòng)來合作,角色扮演方法使Agent之間能夠進(jìn)行協(xié)作溝通。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

在過去一年,尤其是最近幾周,這些框架的增長是爆炸性的。

理解什么是AI Agent,看懂這篇就夠了-AI.x社區(qū)

隨著這些框架不斷成熟和發(fā)展,2025年將是真正令人興奮的一年!

本文轉(zhuǎn)載自??AIGC新知??,作者: 絳燁


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦