一文講清什么是 AI Agent(智能體)?
智能體(Agent)目前愈發(fā)火爆,但仍然有很多人不理解到底什么是智能體?
其實(shí)早在 4 月份的時(shí)候,吳恩達(dá)教授在一次演講中就提到:AI Agent 正在引領(lǐng)工作流程的革新,與傳統(tǒng)的工作流程不同,AI Agent 通過迭代和對話式的模式工作,不再是簡單的指令執(zhí)行者,而是能夠進(jìn)行自我反思、規(guī)劃和修正的參與者。
它具備以下幾個(gè)關(guān)鍵特征:
- 自主性(Autonomy):自主性是AI Agent的核心特征之一。它允許Agent在沒有人類干預(yù)的情況下,獨(dú)立地執(zhí)行任務(wù)和做出決策。這種自主性基于預(yù)設(shè)的規(guī)則、目標(biāo)和策略,以及實(shí)時(shí)的環(huán)境感知和數(shù)據(jù)收集。例如,一個(gè)智能家居系統(tǒng)能夠根據(jù)室內(nèi)外的溫度變化自動調(diào)節(jié)空調(diào),以保持舒適的居住環(huán)境。
- 學(xué)習(xí)能力(Learning Capability):AI Agent通過機(jī)器學(xué)習(xí)算法不斷從數(shù)據(jù)和經(jīng)驗(yàn)中學(xué)習(xí),優(yōu)化其性能和決策能力。這種學(xué)習(xí)能力使得Agent能夠適應(yīng)新情況,提高解決問題的效率,并在復(fù)雜環(huán)境中做出更加精準(zhǔn)的判斷。例如,一個(gè)AI客服代理可以通過與用戶的互動學(xué)習(xí)用戶偏好,從而提供更加個(gè)性化的服務(wù)。
- 交互性(Interactivity):AI Agent能夠與人類或其他系統(tǒng)進(jìn)行有效溝通和交互。它們理解自然語言、手勢或其他形式的輸入,并能夠以適當(dāng)?shù)姆绞交貞?yīng)。這種交互性不僅提高了用戶體驗(yàn),還使得Agent能夠更好地理解用戶需求和意圖。例如,個(gè)人助理AI可以根據(jù)用戶的語音指令安排日程或搜索信息。
- 適應(yīng)性(Adaptability):適應(yīng)性使AI Agent能夠根據(jù)環(huán)境變化或用戶行為的變化調(diào)整自己的行為和策略。這種能力讓Agent在面對不確定性和動態(tài)變化時(shí),仍能保持高效和有效。例如,一個(gè)智能交通系統(tǒng)能夠根據(jù)實(shí)時(shí)交通數(shù)據(jù)調(diào)整信號燈的時(shí)序,以優(yōu)化交通流量。
上面的概念是不是聽上去還是有點(diǎn)模糊?接下來詳細(xì)講解下,相信接觸智能體的小伙伴應(yīng)該大部分都看過下面這張圖。
主要包含了四個(gè)核心模塊 Planning、Memory、Tools 和 Action,智能體實(shí)際就是一種通用問題的解決器,具備規(guī)劃思考能力、記憶能力、使用工具函數(shù)的能力,能自主完成給定任務(wù)的計(jì)算機(jī)程序。
- 規(guī)劃(Planning) : 智能體會把大型任務(wù)分解為子任務(wù),并規(guī)劃執(zhí)行任務(wù)的流程;智能體會對任務(wù)執(zhí)行的過程進(jìn)行思考和反思,從而決定是繼續(xù)執(zhí)行任務(wù),或判斷任務(wù)完結(jié)并終止運(yùn)行。
- 記憶(Memory): 短期記憶,是指在執(zhí)行任務(wù)的過程中的上下文,會在子任務(wù)的執(zhí)行過程產(chǎn)生和暫存,在任務(wù)完結(jié)后被清空。長期記憶是長時(shí)間保留的信息,一般是指外部知識庫,通常用向量數(shù)據(jù)庫來存儲和檢索。
- 工具使用(Tool use) 為智能體配備工具 API,比如:計(jì)算器、搜索工具、代碼執(zhí)行器、數(shù)據(jù)庫查詢工具等。有了這些工具 API,智能體就可以是物理世界交互,解決實(shí)際的問題。
當(dāng)我們給 LLM 大模型配備上了這三種能力,它就可以像人類一樣,能夠自主思考并規(guī)劃完成任務(wù)的過程,能檢索記憶,能使用各種工具提高效率,最終完成某個(gè)任務(wù)。
人類:LLM(接受輸入、思考、輸出)+ 記憶 + 工具 + 規(guī)劃
通過 Coze 官方的一個(gè)具體案例進(jìn)行講解,方便大家進(jìn)一步理解。
目前在沒有使用 AI 智能體的前提下,一般生成一篇文章借助 AI 的全流程是:
- 確定一個(gè)選題;
- 讓 AI 輔助生成一個(gè)大綱;
- 通過 AI 搜索進(jìn)行調(diào)研分析;
- 借助 AI 輸出第一版草稿;
- 優(yōu)化內(nèi)容,循環(huán)往復(fù)迭代版本;
上面人工介入的操作還是比較多的,各個(gè)步驟對應(yīng)到 AI 智能體上為:
- LLM 大模型就如同人類的大腦,自主性、適應(yīng)性和交互性。
- 人類常用的各類輔助工具(上網(wǎng)搜索-數(shù)值計(jì)算-資料閱讀),在智能體中就對應(yīng) Tools 和 Action。
- 有 Planning 規(guī)劃能力進(jìn)行定義完成目標(biāo)整個(gè)執(zhí)行過程(寫大綱--再搜索--再閱讀草稿優(yōu)化)。
- 智能體還可以通過 Memory 讀取記錄(已經(jīng)寫過的草稿/做過的修改),具備記憶的能力;
是的,通過 AI 智能體可以輕松實(shí)現(xiàn)這樣一個(gè)工作流,從而在無任何人工介入的情況下,完成一篇文章內(nèi)容的寫作。
簡單一句話描述 AI Agent 就是:Al Agent 正是人們基于大模型試圖對人類解決問題行為模仿的一種嘗試。
具體到 AI 智能體的開發(fā)上:
- 選擇大模型和填寫 Prompt 就是對應(yīng) Planning 規(guī)劃能力;
- 工作流、插件、觸發(fā)器及知識庫等外部工具就是 Tools 和 Action;
- 記憶模塊就是 Memory,從而讓 AI 擁有“記憶”;
當(dāng)然也并不是說,你一定要把這幾塊能力都用上才算是一個(gè)智能體。只要它能像人類一樣解決某類通用問題,就可以認(rèn)為是一個(gè)智能體。
如果把“To B 軟件的 AI 化”類比于汽車自動駕駛技術(shù)的發(fā)展。23 年 LLM 的推出,相當(dāng)于 To B 軟件應(yīng)用的自動化程度由 L1 階段升級到 L2 階段;AI Agent 的到來,讓自動化程度得到了進(jìn)一步的提升,由L2階段升級到L4階段。
圖片
在 LLM 大模型沒有進(jìn)一步重大突破之前,AI Agent 將是一個(gè)重要發(fā)展方向。通過組合工具及規(guī)劃能力,自動執(zhí)行任務(wù)、提高效率,從而減少人類的勞動負(fù)擔(dān),實(shí)現(xiàn)降本增效。
目前我們?nèi)蕴幱谥悄荏w系統(tǒng)的早期階段,未來的 Agent 發(fā)展方向?qū)⒏觽?cè)重于提高智能體的自主性和決策能力,使它們能夠在更復(fù)雜的環(huán)境中進(jìn)行操作。
本文轉(zhuǎn)載自??AI探索者知白??,作者: 知白A
