深入探討AI Agent在2025年的發(fā)展
AI系統(tǒng)正逐步獲得在現(xiàn)實(shí)世界中獨(dú)立行動(dòng)的能力。過(guò)去一年,我們?cè)谕评怼⒂?jì)算機(jī)控制和記憶系統(tǒng)方面取得了重大進(jìn)展,這些技術(shù)推動(dòng)了這一轉(zhuǎn)變。本文分析了這些發(fā)展的技術(shù)基礎(chǔ)、不同領(lǐng)域中AI Agent的現(xiàn)狀,以及確保其可靠性所需的基礎(chǔ)設(shè)施。我們將探討推動(dòng)這一變革的技術(shù)進(jìn)步,以及尚待解決的挑戰(zhàn)。
第一部分:巨大的轉(zhuǎn)變——從模型到 Agent
2024年,我們見(jiàn)證了AI Agent關(guān)鍵能力的崛起。OpenAI的o1和o3模型表明,機(jī)器可以分解復(fù)雜任務(wù)。Claude 3.5展示了其像人類一樣使用計(jì)算機(jī)的能力——控制界面并運(yùn)行軟件。這些進(jìn)展,再加上記憶和學(xué)習(xí)系統(tǒng)的改進(jìn),使AI正從簡(jiǎn)單的聊天界面邁向自主系統(tǒng)。
AI Agent已經(jīng)在例如法律分析、科學(xué)研究和技術(shù)支持這些特定領(lǐng)域中發(fā)揮作用。在具有明確規(guī)則的結(jié)構(gòu)化環(huán)境中,它們表現(xiàn)出色,但在不可預(yù)測(cè)的情境和開(kāi)放性問(wèn)題上仍然面臨挑戰(zhàn)。當(dāng)任務(wù)涉及異常處理或適應(yīng)變化條件時(shí),其成功率會(huì)顯著下降。
該領(lǐng)域正從對(duì)話式AI向能夠獨(dú)立推理和行動(dòng)的系統(tǒng)演進(jìn)。每一步都需要更強(qiáng)的計(jì)算能力,并帶來(lái)新的技術(shù)挑戰(zhàn)。本文將探討AI Agent的工作原理、當(dāng)前能力以及保障其可靠運(yùn)行所需的基礎(chǔ)設(shè)施。
什么是AI Agent?
AI Agent是一個(gè)能夠推理問(wèn)題、制定計(jì)劃并使用工具執(zhí)行任務(wù)的系統(tǒng)。與傳統(tǒng)僅響應(yīng)提示的AI模型不同,AI Agent具備以下特性:
- 自主性:能夠獨(dú)立追求目標(biāo)并做出決策
- 工具使用:可直接與軟件、API和外部系統(tǒng)交互
- 記憶:保持上下文并從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)
- 規(guī)劃:將復(fù)雜任務(wù)分解為可執(zhí)行的步驟
- 適應(yīng)性:通過(guò)經(jīng)驗(yàn)學(xué)習(xí),提高決策能力和執(zhí)行效率
理解AI從被動(dòng)響應(yīng)者到自主Agent的演進(jìn),對(duì)于把握未來(lái)的機(jī)遇與挑戰(zhàn)至關(guān)重要。接下來(lái),我們將探討促成這一變革的關(guān)鍵技術(shù)進(jìn)展。
基礎(chǔ):2024年的突破
2024年,三項(xiàng)關(guān)鍵技術(shù)進(jìn)步為自主AI Agent的崛起奠定了基礎(chǔ):
- 首先,OpenAI的o系列模型在推理能力上取得突破。o3在ARC-AGI基準(zhǔn)測(cè)試中達(dá)到了87%的準(zhǔn)確率,該測(cè)試評(píng)估AI解決類人問(wèn)題的能力。這些模型通過(guò)生成多個(gè)并行解決方案,并利用共識(shí)機(jī)制選擇最可靠的答案,從而實(shí)現(xiàn)這一成就。這種通過(guò)多種推理路徑系統(tǒng)性地解決新問(wèn)題的能力,為AI Agent的自主行動(dòng)奠定了基礎(chǔ)。
- 其次,AI模型獲得了視覺(jué)能力和基礎(chǔ)的計(jì)算機(jī)控制能力。主流模型開(kāi)始普遍具備視覺(jué)能力,使其能夠處理屏幕截圖并理解軟件界面。Claude 3.5展示了控制計(jì)算機(jī)的能力——它可以移動(dòng)光標(biāo)、點(diǎn)擊界面元素并執(zhí)行簡(jiǎn)單指令。盡管仍低于人類水平且僅限于基礎(chǔ)操作,但這些進(jìn)展表明AI系統(tǒng)可以與標(biāo)準(zhǔn)軟件界面交互,從而擴(kuò)展其應(yīng)用范圍。
- 第三,模型架構(gòu)的進(jìn)步徹底改變了AI系統(tǒng)處理記憶和上下文的方式。新的方法突破了傳統(tǒng)的注意力機(jī)制,引入了更復(fù)雜的記憶管理——結(jié)合擴(kuò)展的上下文窗口、顯式工作記憶以及高效的知識(shí)緩存。這一演進(jìn)使得AI Agent能夠在更長(zhǎng)時(shí)間、更復(fù)雜的交互中保持連貫的理解能力。
現(xiàn)狀:AI Agent正在崛起
如今,這些能力正在帶來(lái)實(shí)際成果。我們正見(jiàn)證AI Agent在特定領(lǐng)域擴(kuò)展人類能力的崛起。早期應(yīng)用已初見(jiàn)成效:
- Harvey正在構(gòu)建法律AI Agent,可與律師協(xié)作完成復(fù)雜任務(wù),如S-1文件編制。它利用o1的高級(jí)推理能力來(lái)拆解并規(guī)劃多階段的法律工作。
- OpenHands等開(kāi)發(fā)平臺(tái)允許AI Agent編寫(xiě)代碼、與命令行交互,并像人類開(kāi)發(fā)者一樣瀏覽網(wǎng)頁(yè)。
- 研究團(tuán)隊(duì)正在使用多Agent系統(tǒng)進(jìn)行科學(xué)實(shí)驗(yàn)的設(shè)計(jì)與驗(yàn)證,特定的Agent負(fù)責(zé)假設(shè)生成、實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析。
- 醫(yī)療團(tuán)隊(duì)部署AI Agent作為醫(yī)療記錄助手,從醫(yī)生與患者的對(duì)話中自動(dòng)生成臨床筆記。
- 航空公司使用AI Agent處理復(fù)雜的機(jī)票變更,協(xié)調(diào)航班可用性、票價(jià)規(guī)則和退款政策。
- 采購(gòu)團(tuán)隊(duì)采用AI Agent進(jìn)行供應(yīng)商協(xié)議談判。
近期研究表明,這些系統(tǒng)正在迅速成熟。AI Agent已經(jīng)能夠在自然對(duì)話中同時(shí)處理復(fù)雜的業(yè)務(wù)規(guī)則和多個(gè)后臺(tái)系統(tǒng)——這標(biāo)志著AI從實(shí)驗(yàn)性原型向?qū)嶋H部署的轉(zhuǎn)變。
關(guān)鍵問(wèn)題
在這場(chǎng)變革中,三個(gè)核心問(wèn)題浮現(xiàn):
- 自主AI Agent何時(shí)能夠超越傳統(tǒng)的AI工具?
- 實(shí)現(xiàn)AI Agent成功部署所需的技術(shù)和組織基礎(chǔ)設(shè)施是什么?
- 如何確保AI Agent的運(yùn)行可靠、安全且具備成本效益?
接下來(lái)的內(nèi)容將深入探討:
- 現(xiàn)有AI Agent的能力范圍
- 不同行業(yè)中AI Agent帶來(lái)的實(shí)際變革
- 成功部署AI Agent所需的技術(shù)基礎(chǔ)設(shè)施
- 現(xiàn)存的局限性與挑戰(zhàn)
- 未來(lái)發(fā)展方向
理解這些方面至關(guān)重要,因?yàn)锳I Agent技術(shù)正在改變我們解決復(fù)雜任務(wù)和做出決策的方式。接下來(lái),我們將探討支撐這些能力的核心構(gòu)建模塊。
第二部分:理解Agent頻譜
當(dāng)前的AI Agent在能力和自主程度上存在差異。一些任務(wù)僅需要基礎(chǔ)的工具使用和響應(yīng)生成,而另一些則需要復(fù)雜的推理和自主決策。理解這些能力層級(jí)有助于判斷何時(shí)應(yīng)使用更簡(jiǎn)單、可預(yù)測(cè)的系統(tǒng),何時(shí)需要完全自主的Agent。
構(gòu)建模塊
三大核心能力使AI Agent區(qū)別于更簡(jiǎn)單的AI工具:
推理與規(guī)劃
- 將復(fù)雜任務(wù)拆解為多個(gè)步驟
- 系統(tǒng)性地探索多種解決方案
- 根據(jù)結(jié)果調(diào)整策略
- 從成功和失敗中學(xué)習(xí)
工具使用
- 直接與軟件界面交互
- 調(diào)用API和函數(shù)
- 生成并執(zhí)行代碼
- 進(jìn)行網(wǎng)頁(yè)瀏覽和數(shù)據(jù)訪問(wèn)
記憶與學(xué)習(xí)
- 在多輪交互中保持上下文
- 構(gòu)建可復(fù)用的技能
- 從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)
- 隨時(shí)間推移提升性能
Agent能力頻譜
從簡(jiǎn)單的AI工具到完全自主的Agent,其發(fā)展遵循一個(gè)逐步增加復(fù)雜性和能力的頻譜:
1)單工具系統(tǒng)
- 依賴單個(gè)語(yǔ)言模型進(jìn)行基礎(chǔ)工具使用
- 交互簡(jiǎn)單且明確
- 受限于特定的API或函數(shù)
- 示例:基于搜索的聊天應(yīng)用
2)多工具編排
- 在單個(gè)模型內(nèi)集成多個(gè)工具
- 結(jié)構(gòu)化API交互
- 預(yù)定義工作流和模式
- 示例:帶插件的ChatGPT
3)組合系統(tǒng)
- 多個(gè)模型協(xié)同工作
- 迭代式處理,支持循環(huán)執(zhí)行
- 更復(fù)雜的編排邏輯
- 示例:多Agent協(xié)作開(kāi)發(fā)系統(tǒng)
4)通用訪問(wèn)Agent
- 直接訪問(wèn)系統(tǒng)(屏幕、鍵盤(pán)、CLI)
- 超越結(jié)構(gòu)化API的限制
- 可處理開(kāi)放式任務(wù)
- 示例:計(jì)算機(jī)控制Agent
并非所有問(wèn)題都需要最高級(jí)別的Agent。像工具使用模型或編排系統(tǒng)這樣的簡(jiǎn)單方案通常更合適且成本更低。
上下文與控制的作用
在增強(qiáng)Agent自主性的同時(shí),保持能力與控制的平衡至關(guān)重要,需考慮以下因素:
安全與治理
- 訪問(wèn)控制與權(quán)限管理
- 活動(dòng)監(jiān)控與日志記錄
- 資源使用限制
- 安全約束
可靠性與可信度
- 行為驗(yàn)證機(jī)制
- 決策透明度
- 錯(cuò)誤處理與恢復(fù)
- 性能監(jiān)控
成本與資源管理
- 計(jì)算資源優(yōu)化
- API調(diào)用效率
- 存儲(chǔ)與內(nèi)存管理
在這一能力頻譜中,理解自身需求至關(guān)重要。并非所有任務(wù)都需要完全自主的Agent,有時(shí)一個(gè)簡(jiǎn)單的工具使用系統(tǒng)更合適且成本更優(yōu)。
第三部分:現(xiàn)實(shí)世界的變革
AI Agent的真正潛力在于其實(shí)際應(yīng)用。讓我們看看不同行業(yè)如何利用Agent能力來(lái)解決現(xiàn)實(shí)問(wèn)題。
軟件開(kāi)發(fā)
從簡(jiǎn)單的代碼補(bǔ)全到自主開(kāi)發(fā)的演進(jìn),展示了AI Agent不斷擴(kuò)展的能力。GitHub Copilot在2021年推出實(shí)時(shí)代碼建議,而如今的Agent(如Devin)已經(jīng)能夠處理從環(huán)境搭建到部署的端到端開(kāi)發(fā)任務(wù)。
MetaGPT(一種多Agent協(xié)作框架)展示了專業(yè)化Agent如何高效協(xié)作:
- 產(chǎn)品經(jīng)理:負(fù)責(zé)定義需求
- 架構(gòu)師:設(shè)計(jì)系統(tǒng)結(jié)構(gòu)
- 開(kāi)發(fā)者:實(shí)現(xiàn)解決方案
- QA Agent:進(jìn)行結(jié)果驗(yàn)證
AI Agent雖然沒(méi)有人類的局限性,但這也引發(fā)了一個(gè)根本性問(wèn)題:過(guò)去50-60年來(lái),軟件開(kāi)發(fā)活動(dòng)一直圍繞人類能力設(shè)計(jì),而如今AI正在改變這一模式。盡管它們?cè)谠烷_(kāi)發(fā)和自動(dòng)化測(cè)試等任務(wù)上表現(xiàn)出色,但真正的機(jī)遇在于重新定義軟件開(kāi)發(fā)本身,而不僅僅是加速現(xiàn)有流程。
這種變革已經(jīng)影響到招聘趨勢(shì)。Salesforce宣布2025年將不再招聘軟件工程師,因?yàn)锳I Agent技術(shù)已提升了30%的生產(chǎn)力。Meta CEO馬克·扎克伯格預(yù)計(jì),到2025年,AI將具備中級(jí)軟件工程師的能力,能夠生成生產(chǎn)級(jí)代碼用于應(yīng)用和AI系統(tǒng)。
然而,近期對(duì)Devin的現(xiàn)實(shí)測(cè)試揭示了開(kāi)發(fā)Agent的局限性:
- 優(yōu)勢(shì):在API集成等孤立任務(wù)上表現(xiàn)優(yōu)異
- 劣勢(shì):在復(fù)雜開(kāi)發(fā)工作中仍然存在困難,20個(gè)端到端任務(wù)中僅成功完成3個(gè)
- 替代方案:更簡(jiǎn)單的、由開(kāi)發(fā)者驅(qū)動(dòng)的工具(如Cursor)可以避免許多自主Agent遇到的問(wèn)題
客戶服務(wù)
從簡(jiǎn)單的聊天機(jī)器人到復(fù)雜的服務(wù)Agent的演進(jìn),標(biāo)志著AI Agent在部署上的顯著成功。研究表明,現(xiàn)代Agent可以處理過(guò)去需要多個(gè)人工客服才能完成的復(fù)雜任務(wù)——從航班改簽到多步驟退款——同時(shí)還能保持自然的對(duì)話交互。
這些系統(tǒng)的核心能力包括:
- 協(xié)調(diào)多個(gè)后臺(tái)系統(tǒng)(如預(yù)訂、支付、庫(kù)存管理)
- 在復(fù)雜的多輪對(duì)話中保持上下文
- 遵循業(yè)務(wù)規(guī)則,并在記錄過(guò)程中確保合規(guī)
- 處理常規(guī)案例,平均加快40%至60%的解決速度
然而,政策例外和需要同理心的情況仍然是重大挑戰(zhàn)。一些實(shí)施方案通過(guò)限制Agent訪問(wèn)已批準(zhǔn)的知識(shí)庫(kù)并設(shè)定明確的人工升級(jí)路徑來(lái)解決這些問(wèn)題。實(shí)踐表明,這種混合模式(Agent處理常規(guī)事務(wù),復(fù)雜情況交由人工客服)在實(shí)際生產(chǎn)環(huán)境中最為高效。
銷售與市場(chǎng)營(yíng)銷
銷售和市場(chǎng)營(yíng)銷Agent現(xiàn)在處理結(jié)構(gòu)化的工作流程,如潛在客戶資格審核、會(huì)議安排和營(yíng)銷活動(dòng)分析。這些系統(tǒng)在CRM平臺(tái)和通信渠道之間協(xié)調(diào),同時(shí)遵循可配置的業(yè)務(wù)規(guī)則。例如,Salesforce的Agentforce可以處理客戶互動(dòng),保持對(duì)話上下文,并在需要時(shí)將復(fù)雜案例轉(zhuǎn)交給人工客服。
最近的基準(zhǔn)測(cè)試顯示,Agent在以下兩個(gè)領(lǐng)域取得了可衡量的成果:
銷售發(fā)展
- 自主的潛在客戶資格審核和外展——例如,11x的Alice Agent可以識(shí)別潛在客戶并安排會(huì)議,同時(shí)根據(jù)互動(dòng)進(jìn)行調(diào)整。
- 多模態(tài)通信處理——例如,11x的Mike Agent可以處理28種語(yǔ)言的語(yǔ)音和文本互動(dòng)。
- 與CRM平臺(tái)和業(yè)務(wù)工具的系統(tǒng)編排,按照可配置的參數(shù)操作,確保合規(guī)性。
營(yíng)銷操作
- 內(nèi)容生成和優(yōu)化。
- 性能跟蹤。
- 數(shù)據(jù)分析和報(bào)告。
這些系統(tǒng)的關(guān)鍵能力包括:
- 理解并回應(yīng)跨渠道的復(fù)雜客戶查詢
- 協(xié)調(diào)多個(gè)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)源
- 在長(zhǎng)期互動(dòng)中保持對(duì)話上下文
- 在需要時(shí)將問(wèn)題升級(jí)給人工Agent
- 在可配置的參數(shù)范圍內(nèi)操作,以與業(yè)務(wù)目標(biāo)和合規(guī)標(biāo)準(zhǔn)對(duì)齊
這些解決方案的集成和采用面臨一些挑戰(zhàn):
- 在自動(dòng)化與人際關(guān)系建設(shè)之間找到平衡
- 隨著規(guī)模擴(kuò)大,確保質(zhì)量的一致性
- 在自動(dòng)化互動(dòng)中保持個(gè)性化
銷售和營(yíng)銷的成功需要一種平衡的方法,其中Agent處理常規(guī)互動(dòng)和數(shù)據(jù)驅(qū)動(dòng)任務(wù),而人工團(tuán)隊(duì)則專注于關(guān)系建設(shè)和復(fù)雜決策。
法律服務(wù)
法律Agent現(xiàn)在在嚴(yán)格的監(jiān)管框架內(nèi)處理復(fù)雜的文檔。Harvey的系統(tǒng)能夠?qū)⑾馭-1申報(bào)表這樣的多月項(xiàng)目分解為結(jié)構(gòu)化步驟,協(xié)調(diào)多個(gè)利益相關(guān)方,并在不同司法管轄區(qū)內(nèi)保持合規(guī)性。然而,這些系統(tǒng)仍然需要謹(jǐn)慎的人類監(jiān)督,特別是對(duì)于需要主觀判斷或依賴上下文的推理任務(wù)。
關(guān)鍵特點(diǎn):
- 處理和分析成千上萬(wàn)的法律文檔,同時(shí)保持文檔的一致性。
- 將像S-1申報(bào)表這樣復(fù)雜的任務(wù)分解為結(jié)構(gòu)化的工作流程,并設(shè)定清晰的檢查點(diǎn)。
- 跟蹤不同司法管轄區(qū)的監(jiān)管要求。
- 保留所有修改和推理的詳細(xì)審計(jì)追蹤。
驗(yàn)證和責(zé)任問(wèn)題仍然是部署中的重大障礙。所有Agent輸出都需要人工審查,且AI輔助的法律工作中的責(zé)任問(wèn)題尚未解決。雖然Agent在文檔處理和研究方面表現(xiàn)出色,但戰(zhàn)略性的法律決策仍然掌握在人工手中。
法律AI Agent的未來(lái)可能在于人類律師和AI系統(tǒng)之間的增強(qiáng)協(xié)作,Agent負(fù)責(zé)常規(guī)的文檔處理和分析,而律師則專注于戰(zhàn)略、談判和最終的驗(yàn)證。
金融
金融服務(wù)已成為Agent技術(shù)的早期試驗(yàn)場(chǎng),應(yīng)用范圍從市場(chǎng)分析到自動(dòng)化交易不等。
主要應(yīng)用場(chǎng)景:
- 市場(chǎng)分析與研究
- 分析公司報(bào)告、新聞和市場(chǎng)數(shù)據(jù)——例如,Decagon通過(guò)詳細(xì)的市場(chǎng)趨勢(shì)分析幫助分析師評(píng)估投資機(jī)會(huì)。
- 基于多模態(tài)數(shù)據(jù)分析生成投資洞察和建議。
- 處理多種數(shù)據(jù)源,包括市場(chǎng)數(shù)據(jù)、證券交易委員會(huì)(SEC)文件和新聞。
- 交易與投資
- 基于定義的策略執(zhí)行交易。
- 管理投資組合。
- 最近的基準(zhǔn)測(cè)試顯示,專有模型已達(dá)到95%的買(mǎi)入持有收益,而開(kāi)源替代方案則達(dá)到了80%。
- 風(fēng)險(xiǎn)管理
- 監(jiān)控投資組合風(fēng)險(xiǎn)指標(biāo)。
- 生成合規(guī)報(bào)告。
- 在人工監(jiān)督下保持性能一致性。
當(dāng)前的局限性包括:
- 單一資產(chǎn)聚焦(大多數(shù)系統(tǒng)在復(fù)雜的投資組合管理中表現(xiàn)不佳)。
- 市場(chǎng)條件下的可靠性變化。
- 長(zhǎng)期策略維持的挑戰(zhàn)。
- 實(shí)時(shí)處理和全球市場(chǎng)適應(yīng)性的問(wèn)題。
早期的結(jié)果是有希望的,但金融應(yīng)用需要仔細(xì)的風(fēng)險(xiǎn)管理和合規(guī)性。大多數(shù)組織從在人工監(jiān)督下聚焦于單一資產(chǎn)交易的狹窄應(yīng)用場(chǎng)景開(kāi)始,然后逐步過(guò)渡到復(fù)雜的投資組合管理。
科學(xué)研究
科學(xué)研究中的AI Agent能夠加速發(fā)現(xiàn),同時(shí)保持嚴(yán)格的方法論。最近的論文展示了專業(yè)Agent如何在整個(gè)研究生命周期中協(xié)作:
- 文獻(xiàn)Agent分析成千上萬(wàn)篇論文,識(shí)別模式和空白。
- 假設(shè)Agent根據(jù)現(xiàn)有知識(shí)提出可測(cè)試的理論。
- 實(shí)驗(yàn)Agent設(shè)計(jì)實(shí)驗(yàn)方案并預(yù)測(cè)結(jié)果。
- 分析Agent解釋結(jié)果并提出改進(jìn)建議。
這種多Agent方法在化學(xué)領(lǐng)域取得了有希望的成果,Agent幫助識(shí)別了新的催化劑和反應(yīng)路徑。隨著谷歌最近宣布的Gemini Deep Research,它匯總并分析基于網(wǎng)絡(luò)的研究,我們可以看到這些能力不僅限于專業(yè)領(lǐng)域,還能支持更廣泛的研究任務(wù)。
主要的挑戰(zhàn)包括驗(yàn)證、可重復(fù)性和自動(dòng)化質(zhì)量評(píng)估——Agent的輸出在專家評(píng)審中評(píng)分低于人工工作。雖然Agent能夠通過(guò)處理常規(guī)任務(wù)加速發(fā)現(xiàn),但人類科學(xué)家在創(chuàng)意指導(dǎo)和結(jié)果驗(yàn)證方面依然是不可或缺的。成功的關(guān)鍵在于將Agent能力與現(xiàn)有的研究方法論進(jìn)行有效集成,同時(shí)保持科學(xué)的嚴(yán)謹(jǐn)性。
新興模式
盡管Agent的應(yīng)用因行業(yè)而異,但有三個(gè)共同的主題出現(xiàn):
- 改進(jìn)的記憶
- 在更長(zhǎng)時(shí)間的互動(dòng)中保持更豐富的上下文。
- 保留相關(guān)信息以改善決策。
- 復(fù)雜的規(guī)劃
- 將任務(wù)分解為可執(zhí)行的邏輯步驟。
- 協(xié)調(diào)多步驟的工作流程或業(yè)務(wù)流程。
- 直接工具集成
- 與外部API和軟件環(huán)境進(jìn)行互動(dòng)。
- 處理專業(yè)任務(wù)(如代碼生成、數(shù)據(jù)分析等)。
雖然AI Agent的潛力巨大,但大多數(shù)行業(yè)仍處于實(shí)驗(yàn)性采用階段。組織通常從建立的方式開(kāi)始,如檢索增強(qiáng)生成(RAG),然后過(guò)渡到更高級(jí)的Agent實(shí)現(xiàn)。
一個(gè)關(guān)鍵挑戰(zhàn)是識(shí)別出Agent在傳統(tǒng)的AI方法上能提供可衡量?jī)?yōu)勢(shì)的場(chǎng)景。雖然Agent提供了擴(kuò)展的能力,但它們也通過(guò)所需的安全控制、集成和基礎(chǔ)設(shè)施開(kāi)銷引入了復(fù)雜性。
一些任務(wù)需要更簡(jiǎn)單的工具,而其他任務(wù)則從多步驟規(guī)劃、先進(jìn)的記憶或?qū)I(yè)協(xié)作中受益。有效的實(shí)施要求評(píng)估何時(shí)Agent能力值得其在開(kāi)發(fā)努力和運(yùn)營(yíng)開(kāi)銷方面的復(fù)雜性。
第四部分:引擎艙
之前討論的基礎(chǔ)構(gòu)建模塊——規(guī)劃、工具使用和記憶——在生產(chǎn)環(huán)境中高效運(yùn)行需要復(fù)雜的基礎(chǔ)設(shè)施。盡管技術(shù)在不斷發(fā)展,但一些關(guān)鍵組件已經(jīng)成為成功部署Agent的必要條件。
開(kāi)發(fā)框架與架構(gòu)
Agent開(kāi)發(fā)框架生態(tài)系統(tǒng)已經(jīng)成熟,出現(xiàn)了幾家關(guān)鍵玩家:
- 微軟的AutoGen擅長(zhǎng)靈活的工具集成和多Agent編排。
- CrewAI專注于基于角色的協(xié)作和團(tuán)隊(duì)模擬。
- LangGraph提供強(qiáng)大的工作流定義和狀態(tài)管理。
- Llamaindex提供先進(jìn)的知識(shí)集成和檢索模式。
雖然這些框架各有不同,但成功的Agent通常需要三個(gè)核心架構(gòu)組件:
- 記憶系統(tǒng):能夠保持上下文并從過(guò)去的互動(dòng)中學(xué)習(xí)。
- 規(guī)劃系統(tǒng):將復(fù)雜任務(wù)分解為邏輯步驟,同時(shí)驗(yàn)證每個(gè)階段。
- 工具集成:通過(guò)函數(shù)調(diào)用和API接口訪問(wèn)專業(yè)功能。
盡管這些框架提供了堅(jiān)實(shí)的基礎(chǔ),但生產(chǎn)環(huán)境中的部署通常需要進(jìn)行大量定制,以處理高規(guī)模工作負(fù)載、安全需求和與現(xiàn)有系統(tǒng)的集成。
規(guī)劃 & 執(zhí)行
處理復(fù)雜任務(wù)需要先進(jìn)的規(guī)劃能力,通常包括:
- 計(jì)劃生成:將任務(wù)分解為可管理的步驟。
- 計(jì)劃驗(yàn)證:在執(zhí)行前評(píng)估計(jì)劃,以避免浪費(fèi)計(jì)算資源。
- 執(zhí)行監(jiān)控:跟蹤進(jìn)度并處理失敗情況。
- 反思:評(píng)估結(jié)果并調(diào)整策略。
Agent的成功通常依賴于其以下能力:
- 通過(guò)結(jié)合工具與實(shí)際知識(shí)(例如,知道在客戶退款請(qǐng)求中按順序調(diào)用哪些API)生成有效的計(jì)劃。
- 分解并驗(yàn)證復(fù)雜任務(wù),在每個(gè)步驟進(jìn)行錯(cuò)誤處理,以防止錯(cuò)誤積累。
- 在長(zhǎng)時(shí)間運(yùn)行的操作中管理計(jì)算成本。
- 通過(guò)動(dòng)態(tài)重新規(guī)劃和適應(yīng),優(yōu)雅地從錯(cuò)誤和意外情況中恢復(fù)。
- 應(yīng)用不同的驗(yàn)證策略,從結(jié)構(gòu)驗(yàn)證到運(yùn)行時(shí)測(cè)試。
- 當(dāng)其他視角能夠提高準(zhǔn)確性時(shí),通過(guò)工具調(diào)用或共識(shí)機(jī)制與其他Agent協(xié)作。
使用多個(gè)Agent進(jìn)行共識(shí)可以提高準(zhǔn)確性,但計(jì)算成本相當(dāng)高。即使是OpenAI,在為共識(shí)答案運(yùn)行并行模型實(shí)例時(shí),也仍然無(wú)法盈利,即使在高價(jià)位(例如ChatGPT Pro每月$200)的情況下,復(fù)雜任務(wù)的多數(shù)投票系統(tǒng)將成本增加3到5倍,因此,專注于強(qiáng)大的單一Agent規(guī)劃和驗(yàn)證的簡(jiǎn)化架構(gòu)可能在經(jīng)濟(jì)上更具可行性。
記憶 & 檢索
AI Agent需要復(fù)雜的記憶管理來(lái)保持上下文并從經(jīng)驗(yàn)中學(xué)習(xí)。這涉及多個(gè)互補(bǔ)的系統(tǒng):
上下文窗口
底層語(yǔ)言模型的即時(shí)處理能力——這是“物理記憶”,限制了Agent一次能處理的信息量。最近的進(jìn)展將這些限制擴(kuò)展到了超過(guò)100萬(wàn)個(gè)token,從而使單次交互能夠支持更豐富的上下文。
工作記憶
在任務(wù)過(guò)程中,多個(gè)LLM調(diào)用之間保持的狀態(tài):
- 活動(dòng)目標(biāo):跟蹤當(dāng)前目標(biāo)和子任務(wù)
- 中間結(jié)果:計(jì)算和部分輸出
- 任務(wù)狀態(tài):進(jìn)度跟蹤和狀態(tài)管理
- 狀態(tài)驗(yàn)證:在任務(wù)執(zhí)行過(guò)程中跟蹤已驗(yàn)證的事實(shí)和修正
上下文管理能力:
- 上下文優(yōu)化:通過(guò)優(yōu)先級(jí)和組織有效使用有限的上下文空間
- 記憶管理:自動(dòng)將信息在工作記憶和長(zhǎng)期存儲(chǔ)之間移動(dòng)——從預(yù)加載整個(gè)知識(shí)庫(kù)到維護(hù)動(dòng)態(tài)記憶單元以存儲(chǔ)相關(guān)信息
長(zhǎng)期記憶與知識(shí)管理
存儲(chǔ)系統(tǒng):
- 知識(shí)圖譜:像Zep和Neo4j這樣的工具能有效表示實(shí)體和關(guān)系
- 虛擬記憶:像Letta(由MemGPT提供支持)這樣的系統(tǒng)提供工作記憶和外部存儲(chǔ)之間的分頁(yè)
管理能力:
- 記憶維護(hù):隨著時(shí)間推移,自動(dòng)總結(jié)、修剪并整合新信息
- 記憶操作:高效地搜索和檢索相關(guān)信息
現(xiàn)代記憶系統(tǒng)不僅僅是簡(jiǎn)單的存儲(chǔ),還能實(shí)現(xiàn):
- 復(fù)合任務(wù)處理:管理多步操作,確保在每個(gè)步驟中保持準(zhǔn)確性
- 持續(xù)學(xué)習(xí):通過(guò)持續(xù)交互自動(dòng)構(gòu)建知識(shí)圖譜(例如Zep)
- 記憶管理:通過(guò)自動(dòng)化記憶管理提供虛擬“無(wú)限上下文”(例如Letta/MemGPT)
- 減少錯(cuò)誤:提高信息檢索能力,減少幻覺(jué)并保持一致性
- 成本優(yōu)化:有效利用上下文窗口,減少API調(diào)用和延遲
記憶系統(tǒng)對(duì)Agent至關(guān)重要,因?yàn)椋?/p>
- 任務(wù)通常需要多個(gè)步驟,依賴于先前的結(jié)果
- 信息需求通常超過(guò)模型的上下文窗口
- 長(zhǎng)時(shí)間運(yùn)行的操作需要持久的狀態(tài)管理
- 在復(fù)雜工作流中必須保持準(zhǔn)確性
像Anthropic的Model Context Protocol (MCP)這樣的集成標(biāo)準(zhǔn)正在提供將Agent與持久記憶系統(tǒng)連接的標(biāo)準(zhǔn)化方法。然而,如何高效地協(xié)調(diào)這些記憶類型,管理計(jì)算成本并保持一致性仍然是挑戰(zhàn)。
安全與執(zhí)行
隨著Agent逐漸獲得自主性,安全性和可審計(jì)性變得至關(guān)重要?,F(xiàn)代部署需要多個(gè)保護(hù)層:
- 工具訪問(wèn)控制:謹(jǐn)慎管理Agent能執(zhí)行哪些操作。
- 執(zhí)行驗(yàn)證:在執(zhí)行前驗(yàn)證生成的計(jì)劃。
- 沙箱執(zhí)行:像e2b.dev和CodeSandbox這樣的平臺(tái)提供了安全的隔離環(huán)境,用于運(yùn)行不受信任的AI生成代碼。
- 訪問(wèn)控制:細(xì)粒度的權(quán)限和API治理,限制影響。
- 監(jiān)控與可觀察性:通過(guò)專用平臺(tái)(如LangSmith和AgentOps)進(jìn)行全面的日志記錄和性能跟蹤,包括錯(cuò)誤檢測(cè)和資源使用。
- 審計(jì)日志:詳細(xì)記錄決策過(guò)程和系統(tǒng)交互。
這些安全措施必須在保護(hù)與允許Agent在生產(chǎn)環(huán)境中有效操作之間取得平衡。
實(shí)際限制
盡管有了快速進(jìn)展,但仍然存在幾個(gè)重要的挑戰(zhàn):
1. 工具調(diào)用
- 基本工具調(diào)用:盡管模型在規(guī)劃和推理方面表現(xiàn)出色,但它們?cè)诨竟ぞ呓换シ矫娲嬖诶щy。即使是簡(jiǎn)單的API調(diào)用也常因格式錯(cuò)誤和參數(shù)不匹配而失敗。
- 工具選擇:模型經(jīng)常選擇錯(cuò)誤的工具,或者在面對(duì)大量工具時(shí)未能有效地組合多個(gè)工具。
- 工具接口穩(wěn)定性:自然語(yǔ)言接口對(duì)工具仍然不可靠,模型會(huì)出現(xiàn)格式錯(cuò)誤或行為不一致。
2. 多步驟執(zhí)行
- 工具調(diào)用不穩(wěn)定性:盡管模型在規(guī)劃和推理方面表現(xiàn)出色,但它們?cè)谕ㄟ^(guò)工具調(diào)用可靠地執(zhí)行計(jì)劃方面存在困難。即使是簡(jiǎn)單的API交互也因格式錯(cuò)誤、參數(shù)不匹配和上下文誤解而出現(xiàn)較高的失敗率。
- 復(fù)合錯(cuò)誤積累:多步驟任務(wù)會(huì)加劇這種不可靠性——如果每個(gè)工具調(diào)用的成功率為90%,一個(gè)10步的工作流成功率降至35%。這使得復(fù)雜工作流在沒(méi)有大量人工監(jiān)督的情況下變得不可行。
- 上下文管理:模型難以在多個(gè)工具交互中保持一致的理解,導(dǎo)致在較長(zhǎng)序列中的性能下降。
- 規(guī)劃可靠性:復(fù)雜的工作流需要仔細(xì)驗(yàn)證生成的計(jì)劃,因?yàn)锳gent往往忽略關(guān)鍵依賴關(guān)系或?qū)ぞ吣芰ψ龀鲥e(cuò)誤假設(shè)。
3. 技術(shù)基礎(chǔ)設(shè)施
- 系統(tǒng)集成:缺乏標(biāo)準(zhǔn)化的接口迫使團(tuán)隊(duì)為每個(gè)部署構(gòu)建定制的集成層,導(dǎo)致顯著的開(kāi)發(fā)開(kāi)銷。
- 記憶架構(gòu):盡管有向量存儲(chǔ)和檢索系統(tǒng),但有限的上下文窗口限制了歷史信息訪問(wèn)和自我反思能力。
- 計(jì)算需求:大規(guī)模部署需要大量處理能力和內(nèi)存,導(dǎo)致顯著的基礎(chǔ)設(shè)施成本。
4. 交互挑戰(zhàn)
- 計(jì)算機(jī)接口復(fù)雜性:即使是最好的Agent,在簡(jiǎn)單的項(xiàng)目管理工具中也只能達(dá)到約40%的成功率,使用像辦公軟件套件和文檔編輯器等復(fù)雜軟件時(shí),性能顯著下降。
- 協(xié)作溝通:Agent在通過(guò)協(xié)作平臺(tái)與同事互動(dòng)時(shí)僅能取得21.5%的成功率,在細(xì)致的對(duì)話和政策討論中存在困難。
5. 訪問(wèn)控制
- 身份驗(yàn)證與授權(quán):Agent在代表用戶執(zhí)行長(zhǎng)時(shí)間運(yùn)行或異步任務(wù)時(shí)面臨重大的身份驗(yàn)證挑戰(zhàn)。傳統(tǒng)的身份驗(yàn)證流程并不適合需要跨越數(shù)小時(shí)或數(shù)天訪問(wèn)的自主Agent。
解決方案正在出現(xiàn)——例如Okta為GenAI提供的認(rèn)證解決方案,包括:
- 背景任務(wù)的異步認(rèn)證
- 代表用戶的安全API訪問(wèn)
- 細(xì)粒度的數(shù)據(jù)訪問(wèn)授權(quán)
- 基于推送通知的人類審批工作流
6. 可靠性與性能
- 錯(cuò)誤恢復(fù):Agent在面對(duì)意外錯(cuò)誤時(shí)難以動(dòng)態(tài)調(diào)整計(jì)劃,使其在從錯(cuò)誤中學(xué)習(xí)方面不如人類強(qiáng)大。
- 跨領(lǐng)域性能變異:Agent在不同任務(wù)中的可靠性表現(xiàn)不穩(wěn)定,即使在明確定義的領(lǐng)域內(nèi)也是如此。例如,零售中功能調(diào)用Agent可以在個(gè)別任務(wù)上成功完成多達(dá)50%的任務(wù),但對(duì)于類似任務(wù)的變化,其成功率會(huì)降至25%以下。這種不一致在不同領(lǐng)域之間表現(xiàn)出來(lái),尤其是在需要技術(shù)領(lǐng)域?qū)I(yè)知識(shí)的任務(wù)中,如編碼。
當(dāng)前Agent的能力在不同領(lǐng)域有所差異。在軟件開(kāi)發(fā)領(lǐng)域,目標(biāo)和驗(yàn)證明確,Agent能夠自主完成30.4%的復(fù)雜任務(wù)。這與Graham Neubig在NeurIPS 2024中的評(píng)論一致:“我希望Agent解決的30%到40%的問(wèn)題,它能在我的代碼庫(kù)中自動(dòng)解決,無(wú)需人工干預(yù)”。然而,在需要更廣泛上下文的領(lǐng)域,表現(xiàn)卻不盡如人意,Agent在行政工作中幾乎無(wú)法完成(0%),在財(cái)務(wù)分析中也存在困難(8.3%)。這種模式表明,
Agent在有明確驗(yàn)證標(biāo)準(zhǔn)的任務(wù)上表現(xiàn)更好,而在需要廣泛業(yè)務(wù)背景或政策解讀的工作中會(huì)遇到困難。
最近的進(jìn)展表明,Agent能力正在趨于融合:更豐富的上下文保留的記憶架構(gòu)、通過(guò)較長(zhǎng)推理鏈進(jìn)行深度理解的推理改進(jìn)(例如o系列模型)以及分解復(fù)雜任務(wù)并在步驟之間保持狀態(tài)的規(guī)劃系統(tǒng)。這些發(fā)展表明,增強(qiáng)的上下文理解可能來(lái)自這些技術(shù)能力的互動(dòng),而不是需要在模型架構(gòu)上取得突破。挑戰(zhàn)在于如何協(xié)調(diào)這些組件,同時(shí)管理增加的計(jì)算需求。
第五部分:路在前方
憑借足夠的計(jì)算能力,下一token預(yù)測(cè)可能足以實(shí)現(xiàn)AGI(通用人工智能)。
近期演變(2025年)
OpenAI CEO Sam Altman表示:“我們現(xiàn)在有信心知道如何構(gòu)建我們傳統(tǒng)理解中的AGI(通用人工智能)”。然而,前進(jìn)的道路在很大程度上依賴于計(jì)算密集型的推理——正如Brown所指出的,解決最困難的問(wèn)題可能需要“每個(gè)解決方案價(jià)值百萬(wàn)美元”的計(jì)算資源。這表明,盡管我們可能知道如何通過(guò)測(cè)試時(shí)計(jì)算擴(kuò)展智能,但部署的經(jīng)濟(jì)學(xué)將決定我們能夠解決哪些問(wèn)題。
快速進(jìn)展沒(méi)有放緩的跡象。雖然先進(jìn)的推理能力仍然需要大量的計(jì)算,但當(dāng)前的部署已經(jīng)具有變革性——Salesforce報(bào)告稱,AI Agent帶來(lái)了30%的生產(chǎn)力提升,從而導(dǎo)致2025年暫停工程師招聘。這與行業(yè)預(yù)測(cè)一致——Meta的Zuckerberg預(yù)計(jì)到2025年,“Meta和其他公司……將擁有一種可以有效地充當(dāng)中級(jí)工程師的AI”。這些影響表明,AGI類似的能力可能首先出現(xiàn)在具有明確成功標(biāo)準(zhǔn)和豐富合成數(shù)據(jù)的領(lǐng)域,如編程和數(shù)學(xué)推理。
核心智能
- 推理模型的開(kāi)發(fā)周期壓縮(2-4個(gè)月)
- 數(shù)學(xué)和編碼基準(zhǔn)的跨越式進(jìn)展
- 通過(guò)系統(tǒng)化的任務(wù)分解、行動(dòng)路徑探索和結(jié)果驗(yàn)證提高推理能力
接口與控制
- 人機(jī)協(xié)作的新模式
- 通過(guò)模型上下文協(xié)議(Model Context Protocol)實(shí)現(xiàn)標(biāo)準(zhǔn)化的數(shù)據(jù)訪問(wèn)
- 從格式化命令(文本/JSON)轉(zhuǎn)向程序化工具使用
- 改進(jìn)的視覺(jué)感知能力
記憶與上下文
- 新模型具有超大上下文窗口
- 通過(guò)較小的模型和重復(fù)采樣實(shí)現(xiàn)成本效益推理
- 使用模型蒸餾和數(shù)據(jù)策劃降低推理成本
基礎(chǔ)設(shè)施與擴(kuò)展
- 缺乏足夠的計(jì)算資源來(lái)大規(guī)模部署Agent
- 電網(wǎng)中的芯片和電力不足以建立更多的計(jì)算資源
中期發(fā)展(2026年)
核心智能
- 多步規(guī)劃與驗(yàn)證
- 更好地處理不確定情況和邊緣案例
- 推理模型的瓶頸
接口與控制
- 通過(guò)系統(tǒng)化的UI探索實(shí)現(xiàn)更可靠的計(jì)算機(jī)控制
- Agent原生的安全性和權(quán)限框架
- 通過(guò)代碼生成實(shí)現(xiàn)動(dòng)態(tài)工具創(chuàng)建
- 多Agent系統(tǒng)在大規(guī)模上實(shí)現(xiàn)高效協(xié)作
記憶與上下文
- 在交互環(huán)境中更可靠的狀態(tài)追蹤[記憶調(diào)查論文]
雖然當(dāng)前的Agent在基本的UI交互中表現(xiàn)不佳——在簡(jiǎn)單的項(xiàng)目管理工具上僅能實(shí)現(xiàn)約40%的成功率——但新的學(xué)習(xí)方法顯示出前景。通過(guò)允許Agent探索界面并通過(guò)“逆任務(wù)合成”推導(dǎo)任務(wù),復(fù)雜的GUI交互成功率幾乎翻倍。這表明,到2026年,我們可能會(huì)看到能夠通過(guò)直接理解界面而非跟隨人類指令可靠控制計(jì)算機(jī)的Agent。
長(zhǎng)期可能性(2026年以后)
核心智能
- 新類型的模型出現(xiàn),能夠?qū)崿F(xiàn)更復(fù)雜的世界建模
- 跨領(lǐng)域推理能力
- 科學(xué)發(fā)現(xiàn)自動(dòng)化
- 在新領(lǐng)域中的復(fù)雜問(wèn)題解決
接口與控制
- 轉(zhuǎn)向代碼優(yōu)先的Agent范式
基礎(chǔ)設(shè)施與擴(kuò)展
- 計(jì)算集群和電力基礎(chǔ)設(shè)施的擴(kuò)展
AI能力的進(jìn)展及其經(jīng)濟(jì)影響正變得愈加清晰。ChatGPT Plus以每月20美元的價(jià)格推出了基礎(chǔ)聊天功能,而ChatGPT Pro則以每月200美元的價(jià)格提供了更高級(jí)的推理能力。OpenAI近期在多Agent研究方面的推動(dòng)以及Altman對(duì)“如何構(gòu)建AGI”充滿信心的表態(tài),暗示著自主Agent可能是下一個(gè)發(fā)展方向——這一過(guò)程可能會(huì)帶來(lái)更高的成本。正如Brown所指出的,我們才剛開(kāi)始擴(kuò)展推理能力,一些重要問(wèn)題可能需要“價(jià)值百萬(wàn)美元”的計(jì)算資源才能解決。這預(yù)示著未來(lái),越來(lái)越強(qiáng)大的系統(tǒng)——從自主Agent到創(chuàng)造性問(wèn)題解決者——可能會(huì)以更高的計(jì)算成本涌現(xiàn)。
我們現(xiàn)在已經(jīng)具備了構(gòu)建AI Agent的核心要素,這些要素模仿了人類如何處理復(fù)雜工作的方式:將問(wèn)題分解為更小的任務(wù)、理解上下文、從經(jīng)驗(yàn)中學(xué)習(xí)、使用工具并適應(yīng)反饋。盡管這些能力在受控環(huán)境中表現(xiàn)良好,但在面對(duì)現(xiàn)實(shí)任務(wù)的復(fù)雜性和不確定性時(shí),它們?nèi)匀淮嬖谔魬?zhàn)。
接下來(lái)的幾年將是實(shí)驗(yàn)的階段——發(fā)現(xiàn)如何有效地結(jié)合這些組件、尋找可靠的模式并確立構(gòu)建強(qiáng)大Agent的最佳實(shí)踐。盡管我們已經(jīng)擁有了核心能力,但要將它們協(xié)調(diào)成能夠應(yīng)對(duì)現(xiàn)實(shí)世界復(fù)雜性的可靠系統(tǒng),還需要技術(shù)創(chuàng)新和實(shí)踐經(jīng)驗(yàn)。AI Agent的時(shí)代已經(jīng)開(kāi)始,但我們?nèi)蕴幱诶斫馊绾斡行?gòu)建它們的初期階段。
https://medium.com/@carlrannaberg/state-of-ai-agents-in-2025-5f11444a5c78
本文轉(zhuǎn)載自??PyTorch研習(xí)社???,作者:南七無(wú)名式
