自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

實(shí)踐出真知：Agents 領(lǐng)域“一年打怪升級(jí)”的經(jīng)驗(yàn)分享原創(chuàng) 精華

發(fā)布于 2024-8-5 10:09

瀏覽

0收藏

編者按：在你構(gòu)建 AI Agents 時(shí)，是否曾遇到這些困擾：總是在簡單任務(wù)上出錯(cuò)，從而讓你有時(shí)會(huì)懷疑自己的技術(shù)水平？面對(duì)客戶的需求，AI Agent 表現(xiàn)得像個(gè)“笨蛋”，無法準(zhǔn)確理解和執(zhí)行指令？隨著底層模型的更新，AI Agents 的性能不升反降，讓人手足無措？
這些問題不僅影響了 AI Agents 的性能，甚至可能導(dǎo)致項(xiàng)目延期、成本超支，甚至失去客戶的信任。在 AI 技術(shù)飛速??發(fā)展的今天，任何一個(gè)表現(xiàn)不佳的 Agents 都可能很快被市場(chǎng)淘汰。
今天我們分享的這篇文章將為各位提供來自一線 Agents 開發(fā)者的寶貴經(jīng)驗(yàn)。作者基于過去一年的實(shí)踐，總結(jié)了 7 條經(jīng)驗(yàn)教訓(xùn)，包括重新認(rèn)識(shí) AI Agent 的推理能力、優(yōu)化 Agent-Computer Interface (ACI)、選擇和適配底層模型、以及構(gòu)建差異化的基礎(chǔ)設(shè)施等。對(duì)于正在或計(jì)劃構(gòu)建 AI Agents 的開發(fā)者和企業(yè)而言，這篇文章提供了許多切實(shí)可行的操作建議和深入的見解，是一份不可多得的參考指南??。

作者 | Patrick Dougherty

編譯 | 岳揚(yáng)

01 何為“Agent”？（Definitions）

在討論本文的主要內(nèi)容之前，需要明確定義一下本文所指的“Agent”到底是啥。借用一下這位 Twitter 用戶的話[1]：

What the hell is “agent”?

我盡力給出了一個(gè)簡明扼要的定義：

實(shí)踐出真知：Agents 領(lǐng)域“一年打怪升級(jí)”的經(jīng)驗(yàn)分享-AI.x社區(qū)

該定義大致與 OpenAI 在 ChatGPT 中提及的 “生成式預(yù)訓(xùn)練模型（GPTs）” 和其 API 中的 “助手（Assistants[2]）” 概念相符。不過，Agent 并不會(huì)局限于這些能力，任何能進(jìn)行邏輯推理（reasoning）并調(diào)用工具（making tool calls）的模型都能勝任這項(xiàng)任務(wù)，比如 Anthropic 公司的 Claude**[3]、Cohere 的 Command R+[4] 等眾多模型皆可。

Note

tool calls 是一種讓模型表達(dá)它想要執(zhí)行的某種特定操作并獲取操作結(jié)果的方式，例如調(diào)用 get_weather_forecast_info(seattle) 或 wikipedia_lookup(dealey plaza) 這樣的函數(shù)。

構(gòu)建一個(gè) Agent 僅需幾行代碼就可以了，這些代碼能夠處理一個(gè)有明確目標(biāo)且由系統(tǒng)提示詞（system prompt）引導(dǎo)的對(duì)話過程，能夠處理模型想要執(zhí)行的任何 tool calls ，循環(huán)執(zhí)行這些操作，并在達(dá)到目標(biāo)后停止。

下面這幅圖示（visual）可以幫助解釋這一流程：

實(shí)踐出真知：Agents 領(lǐng)域“一年打怪升級(jí)”的經(jīng)驗(yàn)分享-AI.x社區(qū)

構(gòu)建 “Agent” 的基本步驟簡要概覽

02 Agent System Prompt Example

實(shí)踐出真知：Agents 領(lǐng)域“一年打怪升級(jí)”的經(jīng)驗(yàn)分享-AI.x社區(qū)

需要在此澄清對(duì) AI Agent 的幾個(gè)常見錯(cuò)誤觀點(diǎn)：

Scripted（腳本化）：根據(jù)個(gè)人理解，Agent 不會(huì)機(jī)械地執(zhí)行預(yù)編寫的指令序列或工具調(diào)用步驟，AI Agent 能夠自主決定下一步應(yīng)該使用哪個(gè)工具，這是其核心能力；
通用人工智能（Artificial General Intelligence, AGI）：AI Agent 并不等同于 AGI，后者無需依賴 Agents 來完成特定類型的工作，因?yàn)?AGI 本身就是一個(gè)集所有可能的輸入（inputs）、輸出（outputs）和工具（tools）于一身的單一實(shí)體（個(gè)人淺見，現(xiàn)有技術(shù)距離真正的 AGI 尚有很長一段路要走）；
Black Box：如果告知 AI Agents 具體任務(wù)流程，Agents 應(yīng)當(dāng)會(huì)如同人類接受委托執(zhí)行任務(wù)一樣。

03 上下文 Context

在開發(fā) AI Agents 項(xiàng)目的第一年里，我從與工程師（engineers）和用戶體驗(yàn)設(shè)計(jì)師（UX designer）的合作中獲得了第一手經(jīng)驗(yàn)，對(duì)產(chǎn)品的整體用戶體驗(yàn)效果進(jìn)行了多次優(yōu)化，收獲頗豐。我們的目標(biāo)是為客戶打造一個(gè)平臺(tái)，幫助客戶使用我們標(biāo)準(zhǔn)化的數(shù)據(jù)分析 Agents，并針對(duì)其業(yè)務(wù)中特有的任務(wù)和數(shù)據(jù)結(jié)構(gòu)，自行開發(fā)符合個(gè)體需求（custom）的 AI Agents。我們確保該平臺(tái)與諸如 Snowflake、BigQuery 等數(shù)據(jù)庫安全對(duì)接，同時(shí)內(nèi)置安全機(jī)制，在描述數(shù)據(jù)庫內(nèi)容的元數(shù)據(jù)層上調(diào)用 RAG（檢索增強(qiáng)生成）工具，并通過 SQL、Python 和支持?jǐn)?shù)據(jù)可視化的數(shù)據(jù)分析工具分析數(shù)據(jù)。

對(duì)于哪些做法可行，哪些觀點(diǎn)則不盡如人意，此平臺(tái)不僅依據(jù)自身評(píng)估（our own evaluations），也參考了客戶的真實(shí)反饋。我們的用戶大多就職于 500 強(qiáng)企業(yè)，他們每天都使用我們的 AI Agent 對(duì)內(nèi)部數(shù)據(jù)進(jìn)行深度分析。

04 經(jīng)驗(yàn)教訓(xùn)（What I’ve Learned about Agents）

4.1 推理能力比知識(shí)量更重要

這句話在過去的一年里一直在我腦海中回響：

我認(rèn)為，[生成式預(yù)訓(xùn)練Transformer（gpt）]有過多的處理能力（processing power）被用于充當(dāng)數(shù)據(jù)庫（database），而非將模型用作推理引擎（reasoning engine）。
— 山姆·奧特曼（Sam Altman**）在萊克斯·弗里德曼（Lex Fridman）播客[5]上發(fā)表的見解

AI Agents 正是對(duì)此觀點(diǎn)的合理回應(yīng)！在構(gòu)建 AI Agents 時(shí)，我會(huì)采用這一邏輯：

別太在意 AI Agents “了解、知道（knows）” 什么，而應(yīng)更看重它的 “思考（think）” 能力。

以編寫 SQL 查詢語句（SQL Queries）為例。SQL 查詢語句（SQL Queries）往往頻繁執(zhí)行出錯(cuò)……，且屢見不鮮。在我擔(dān)任數(shù)據(jù)科學(xué)家（data scientist）期間，我的查詢語句（SQL Queries）執(zhí)行失敗次數(shù)遠(yuǎn)遠(yuǎn)超過成功的次數(shù)。

如果一個(gè)復(fù)雜的 SQL 查詢語句首次就能在我們不熟悉的真實(shí)數(shù)據(jù)上執(zhí)行成功，我們應(yīng)該感到驚訝并產(chǎn)生懷疑，“糟糕，可能有問題！”，而不會(huì)自信滿滿地認(rèn)為“哇！完美！我搞定了”。即便是在評(píng)估模型能否將一個(gè)簡單問題轉(zhuǎn)換為查詢語句的 text-to-SQL 基準(zhǔn)測(cè)試[6]中，其最高準(zhǔn)確率也只有 80 %。

因此，即便意識(shí)到該模型在編寫 SQL 語句的能力頂多只能得到 B- 的成績，那么我們?cè)撊绾翁嵘渫评砟芰δ?？關(guān)鍵在于為 Agents 提供足夠的上下文，讓它能進(jìn)行 “思考” ，而非希望它一次性答對(duì)。當(dāng) AI Agents 編寫的查詢語句執(zhí)行錯(cuò)誤時(shí)，需要反饋所有 SQL errors 信息以及能夠獲得的盡可能多的上下文信息，這樣 AI Agents 便能在大多數(shù)情況下自行修正問題，使 SQL 語句正常執(zhí)行。我們同樣也為 Agents 提供了大量 tool calls ，使其能像人類那樣，在編寫新的查詢語句前，先對(duì)數(shù)據(jù)庫的信息架構(gòu)（information schema）和數(shù)據(jù)特性（data for distributions and missing values）進(jìn)行調(diào)研分析。

4.2 提升性能的最佳方式就是不斷優(yōu)化“人”機(jī)交互界面（agent-computer interface, ACI）

“ACI” 這個(gè)新詞（源自普林斯頓大學(xué)（Princeton）的一項(xiàng)研究[7]）雖然出現(xiàn)不久，但我們對(duì)它的打磨卻是過去一年中的日常工作重心。ACI 指的是 AI Agents 所使用的 tool calls 的具體語法和架構(gòu)，包括了 AI Agents 生成的 inputs 內(nèi)容與 API 在響應(yīng)內(nèi)容中發(fā)回的 outputs 。這些是 Agents 獲取必要數(shù)據(jù)、推動(dòng)工作進(jìn)展與工作目標(biāo)一致的唯一方式。

由于底層模型（比如 gpt-4o、Claude Opus 等）各有特點(diǎn)，所以對(duì)某一個(gè)模型來說最完美的 ACI 未必適合另一個(gè)模型。 這就意味著，構(gòu)建一個(gè)優(yōu)秀的 ACI 需要“科學(xué)（science）與藝術(shù)（art）齊飛”……更像是創(chuàng)造一種極致的用戶體驗(yàn)，而非純粹地編寫代碼（writing source code），因?yàn)?ACI 會(huì)持續(xù)演變，小小的改動(dòng)就能像多米諾骨牌一樣引發(fā)一連串的反應(yīng)。ACI 有多么重要，我再怎么強(qiáng)調(diào)都不為過…… 我們對(duì)我們構(gòu)建的 AI Agent 進(jìn)行了數(shù)百次迭代，僅僅是對(duì)命名（names）、數(shù)量（quantity）、抽象程度（level of abstraction）、輸入格式（input formats）及輸出的響應(yīng)（output responses）做出微調(diào)，就能導(dǎo)致 AI Agents 的性能產(chǎn)生巨大波動(dòng)。

此處有一個(gè)具體的小案例，能夠生動(dòng)地說明 ACI 有多么關(guān)鍵和棘手：我們?cè)?gpt-4-turbo 剛推出不久后，對(duì)我們的 AI Agents 進(jìn)行了多次測(cè)試，卻發(fā)現(xiàn)了一個(gè)棘手的問題 —— AI Agents 在處理響應(yīng)信息時(shí)，會(huì)完全忽略掉某些數(shù)據(jù)（正是我們?cè)噲D通過 tool call 的響應(yīng)內(nèi)容來告知或傳遞給 Agents 的數(shù)據(jù)部分）。我們所使用的是直接從 OpenAI 官方文檔中提取的 markdown 格式信息，并且在同樣的數(shù)據(jù)集上與 gpt-4-32k 配合得很好。為了使 AI Agents 能夠識(shí)別出那些被它“視而不見”的數(shù)據(jù)列（columns），我們嘗試對(duì) markdown 結(jié)構(gòu)進(jìn)行一些調(diào)整，但無論怎樣修改，Agents 都無動(dòng)于衷...... 于是，我們決定徹底改變策略，將信息格式從 markdown 轉(zhuǎn)換為 JSON（僅針對(duì) OpenAI 模型）格式后，奇跡發(fā)生了，一切都恢復(fù)如初。頗具諷刺意味的是，響應(yīng)內(nèi)容采用 JSON 格式雖然因?yàn)榘舜罅空Z法字符而消耗了更多 tokens ，但我們發(fā)現(xiàn)這一步驟不僅十分必要，更是確保 Agents 能夠正確解讀模型響應(yīng)的關(guān)鍵。

雖然可能對(duì) ACI 的優(yōu)化過程感覺微不足道，但這確實(shí)是改善 Agents 用戶體驗(yàn)的有效途徑之一。

4.3 AI Agents 的功能受限于其所使用的模型

底層模型就好比是 Agents 的大腦。如果模型的決策不盡人意，那么無論看起來多么吸引人，都無法令用戶滿意。這一點(diǎn)在我們使用 gpt-3.5-turbo 和 gpt-4–32k 作為底座模型進(jìn)行測(cè)試時(shí)親身感受。在使用 GPT 的 3.5 版本時(shí)，某些測(cè)試案例的情況大致為：

用戶提出了具體任務(wù)目標(biāo)，比如：“按郵政編碼分析星巴克店鋪位置（starbucks locations）與房價(jià)（home prices）的相關(guān)性，探究兩者之間是否存在聯(lián)系?！?/li>
Agent卻臆造了一個(gè)數(shù)據(jù)庫表名，比如“HOME_PRICES”，并假設(shè)了諸如“ZIP_CODE”和“PRICE”等數(shù)據(jù)列，而沒有先去數(shù)據(jù)庫系統(tǒng)中搜索查找真正存在的數(shù)據(jù)表；
Agent 會(huì)嘗試編寫 SQL 查詢語句，打算按郵政編碼計(jì)算平均房價(jià)，然而查詢語句執(zhí)行失敗，系統(tǒng)報(bào)錯(cuò)反饋說該表并不存在；
這時(shí)，Agent 才會(huì)恍然大悟，“啊，對(duì)了！我應(yīng)該可以搜索真實(shí)存在的數(shù)據(jù)表...”，于是開始搜索“home prices by zip code”來定位可用的真實(shí)數(shù)據(jù)表；
Agent 隨后根據(jù)找到的真實(shí)數(shù)據(jù)表，修正了其查詢語句，使用正確的數(shù)據(jù)列，最終成功獲取了數(shù)據(jù)；
然而，當(dāng) Agent 處理星巴克店鋪位置數(shù)據(jù)時(shí)，卻又一次重蹈覆轍...

在 gpt-4 上，以相同的指導(dǎo)原則運(yùn)行 Agents ，情況則截然不同。它不會(huì)再立即執(zhí)行錯(cuò)誤的操作而浪費(fèi)時(shí)間，而是會(huì)精心籌劃，制定一個(gè)有序的 tool calls 執(zhí)行計(jì)劃，并嚴(yán)格按照計(jì)劃執(zhí)行。不難想象，在執(zhí)行更為復(fù)雜的任務(wù)時(shí)，兩個(gè)模型之間的性能差距會(huì)更為顯著。盡管 GPT 3.5 版本的速度很快，但產(chǎn)品用戶顯然更喜歡?? gpt-4 那更勝一籌的決策和分析能力。

Note

通過進(jìn)行這些測(cè)試，我們獲得了一個(gè)重要啟示：當(dāng) Agents 出現(xiàn)幻覺或執(zhí)行失敗時(shí)，應(yīng)當(dāng)極其細(xì)致地觀察這些情況是為何出現(xiàn)的。AI Agents 往往會(huì)展現(xiàn)出一種惰性（可能源于人類的懶惰特質(zhì)在底層模型的訓(xùn)練數(shù)據(jù)中被充分學(xué)習(xí)），因此它們不會(huì)輕易調(diào)用那些它們認(rèn)為沒有必要調(diào)用的工具。同樣，即便在它們調(diào)用工具時(shí)，如果對(duì)參數(shù)說明（argument instructions）理解不清，它們往往會(huì)走捷徑（take shortcuts）或是直接忽略必要的參數(shù)。這些失敗的案例（failure modes）中蘊(yùn)含著非常豐富的信息！AI Agents 實(shí)際上是在告訴你它期望 ACI（Agent Call Interface）應(yīng)該怎樣設(shè)計(jì)，如果情況允許，最直接的解決方案就是順從它的意愿，調(diào)整 ACI 使其滿足 Agents 的需求。當(dāng)然，也有很多時(shí)候，需要我們通過修改系統(tǒng)提示詞（system prompt）或 tool call 的 instructions 來對(duì)抗 Agents 的天性，但對(duì)于那些可以通過簡單調(diào)整 ACI 就能解決的問題，直接修改就能大大簡化我們的工作。

4.4 試圖通過微調(diào)模型提升 Agents 的性能實(shí)屬徒勞

對(duì)模型進(jìn)行微調(diào)[8]是通過提供示例來優(yōu)化模型在特定應(yīng)用領(lǐng)域表現(xiàn)的一種方法。盡管當(dāng)前的微調(diào)方法擅長教會(huì)模型以特定方式（specific way）完成特定任務(wù)（specific task），但并不能有效提升模型的推理能力。根據(jù)我的經(jīng)驗(yàn)，使用微調(diào)過的模型來驅(qū)動(dòng) AI Agents 反而可能降低其推理能力，因?yàn)?AI Agents 容易傾向于“走捷徑（cheat）”，即它會(huì)錯(cuò)誤地認(rèn)為微調(diào)過程中所接觸的示例總能代表最優(yōu)的處理策略和工具調(diào)用序列，而不會(huì)獨(dú)立地對(duì)問題進(jìn)行推理。

Note

微調(diào)（Fine-tuning）依然是多功能瑞士軍刀（Swiss Army pocket knife）里的一項(xiàng)利器。例如，有一種行之有效的方法是使用微調(diào)過的模型專門處理 AI Agents 提出的特定 tool calls 。設(shè)想一下，假如你擁有一個(gè)針對(duì)特定數(shù)據(jù)集專門微調(diào)過的用于編寫 SQL 查詢語句的模型…… 該 AI Agents（在未經(jīng)微調(diào)的強(qiáng)大推理模型（reasoning model）上運(yùn)行）可以通過 tool call 來表達(dá)它想要執(zhí)行的 SQL 查詢語句，而我們可以將這一請(qǐng)求轉(zhuǎn)交由專門針對(duì) SQL 查詢語句微調(diào)過的模型進(jìn)行獨(dú)立處理。

4.5 在產(chǎn)品構(gòu)建過程中，應(yīng)慎重考慮使用 LangChain 或 LlamaIndex 等抽象化工具

我們應(yīng)當(dāng)完全掌控對(duì)模型的每次調(diào)用，包括其中涉及的所有輸入與輸出細(xì)節(jié)內(nèi)容。一旦我們將這些核心控制權(quán)拱手讓給第三方庫，未來當(dāng)我們需要與 AI Agents 合作完成新用戶操作引導(dǎo)流程（onboard users）、問題調(diào)試（debug an issue）、用戶拉新（scale to more users）、記錄 AI Agents 的操作日志（log what the agent is doing）、軟件迭代更新（upgrade to a new version），或是深入理解 AI Agents 的行為動(dòng)機(jī)（understand why the agent did something）時(shí)，我們將會(huì)深切感受到遺憾與不便。

Note

如果你正處于純粹的產(chǎn)品原型階段（prototype mode），唯一的目的在于驗(yàn)證 AI Agents 是否有可能完成任務(wù)，那么，不妨隨心所欲地選擇你最心儀的抽象化工具，馬上動(dòng)手實(shí)踐吧[9]！

4.6 AI Agents 并非護(hù)城河

利用 AI Agents 來自動(dòng)化（automating）或增強(qiáng)（augmenting）人類的知識(shí)型工作，蘊(yùn)藏著巨大的潛力，但僅僅建立一個(gè)優(yōu)秀的 AI Agents 還遠(yuǎn)遠(yuǎn)不夠。將 AI Agents 推向市場(chǎng)，服務(wù)于用戶，就需要在一系列非 AI 的基礎(chǔ)設(shè)施上投入大量心血，確保 AI Agents 能夠真正高效運(yùn)作 —— 而這正是我們能夠塑造差異化競(jìng)爭優(yōu)勢(shì)的地方：

安全性（security）：AI Agents 應(yīng)嚴(yán)格在用戶授予的權(quán)限范圍內(nèi)運(yùn)行，由用戶全面掌控。在實(shí)際中，這意味著要跨越 OAuth Integrations（譯者注：OAuth 通常用于社交登錄，如使用微信或 Google 賬戶登錄其他網(wǎng)站或應(yīng)用程序。）、Single Sign-On Providers（譯者注：單點(diǎn)登錄（SSO）是一種身份驗(yàn)證機(jī)制，允許用戶在多個(gè)應(yīng)用程序和服務(wù)中使用單一的登錄憑證。）、Cached Refresh Tokens（譯者注：指在 OAuth 認(rèn)證過程中，為了保持用戶會(huì)話的有效性和減少重復(fù)認(rèn)證次數(shù)，而存儲(chǔ)在客戶端或服務(wù)器上的 refresh token。）等一系列的安全門檻。妥善管理這些安全環(huán)節(jié)，無疑將為我們的產(chǎn)品加分。
data connectors：AI Agents 通常需要實(shí)時(shí)從源系統(tǒng)（source systems）獲取數(shù)據(jù)才能好好工作。這就意味著需要與各種 API 接口及其他連接協(xié)議集成，通常是內(nèi)部系統(tǒng)和外部第三方平臺(tái)。這些 integrations 不僅需要初始的構(gòu)建、部署，更需要長期的維護(hù)與優(yōu)化。
用戶界面（user interface）：除非用戶能夠全程跟進(jìn)并審核 AI Agents 的工作流程，否則很難建立起對(duì) AI Agents 的信任。通常，在用戶首次接觸 AI Agents 的最初幾次，這種需求尤為突出，但會(huì)隨時(shí)間逐漸減弱。最好的辦法是，AI Agents 的每一次 tool call 都應(yīng)配有一套專門的交互界面，讓用戶可以觀察 AI Agents 的決策、操作過程，甚至直接與之互動(dòng)，以此增進(jìn)對(duì) AI Agents 推理邏輯的信心（例如，細(xì)覽語義搜索（semantic search）結(jié)果中每個(gè)元素的具體內(nèi)容）。
長期記憶（long-term memory）：AI Agents 在默認(rèn)狀態(tài)下，僅限于記住當(dāng)前的工作流程，受限于最大 tokens 數(shù)量這一參數(shù)。要想實(shí)現(xiàn)跨工作流程的長期記憶，甚至跨用戶范圍的長期記憶，就需要將信息存入記憶庫，并通過 tool calls 或?qū)⑵淙谌胩崾驹~中來提取。我發(fā)現(xiàn) AI Agents 在判斷哪些信息值得保存至記憶庫中時(shí)并不擅長，往往需要人類來決定這些信息是否應(yīng)當(dāng)保存。根據(jù)具體應(yīng)用場(chǎng)景，你也許可以接受讓 AI Agents 自主決定何時(shí)保存信息至記憶庫中，就像 ChatGPT 一樣。
AI Agents 的評(píng)估（evaluation）：構(gòu)建一套評(píng)估 AI Agents 的框架是一項(xiàng)既耗神又似乎永無止境的任務(wù)。AI Agents 被刻意設(shè)計(jì)為保持不確定性（nondeterministic），這意味著它們會(huì)依據(jù)我們提供的指導(dǎo)方向，尋找最合適的 tool calls 任務(wù)序列來完成任務(wù)，這一過程就像初學(xué)走路的小寶寶，每走一步后都會(huì)進(jìn)行一番思考。對(duì)這些任務(wù)序列的評(píng)估主要體現(xiàn)在兩個(gè)方面：一是 AI Agents 在完成任務(wù)時(shí)的整體成功率，二是每次 tool call 的準(zhǔn)確性（例如，搜索過程中的信息檢索（information retrieval）；代碼執(zhí)行的準(zhǔn)確度（accuracy）；等等）。我發(fā)現(xiàn)量化整體工作流程性能的最有效且唯一的方法是建立一系列 objective / completion pairs（譯者注：訓(xùn)練或測(cè)試數(shù)據(jù)集，"objective" 指的是用戶或系統(tǒng)設(shè)定的目標(biāo)或任務(wù)，而 "completion" 則是 Agents 完成該目標(biāo)的具體行動(dòng)或輸出內(nèi)容。例如， "objective" 可能是 "查找最近的餐廳"，而 "completion" 則可以是 AI Agents 返回的最近餐廳的名稱和地址。），其中 objective 是指派給 Agents 的初始指令，而 completion 則代表 objective 達(dá)成的最終 tool call 序列。捕捉 AI Agents 的 tool calls 中間過程和思維過程，有助于理解 tool calls 失敗的原因或是 tool calls 序列的變化。

Note

將這份清單視為一份正式的 request-for-startups[10] 。圍繞清單上的產(chǎn)品需求開發(fā)的產(chǎn)品，如果做得好，有望成為行業(yè)的新標(biāo)準(zhǔn)或關(guān)鍵組成部分，助力 AI Agents “更上一層樓”。

4.7 別假設(shè)大模型的進(jìn)步會(huì)停歇

在構(gòu)建 Agents 時(shí)，我們會(huì)不斷受到誘惑：過分地為所依附的底層核心大模型（primary model）開發(fā)一些綁定性功能，從而無意間降低了對(duì) Agents 推理能力的預(yù)期。務(wù)必警惕并克服這一誘惑！（Resist this temptation!）大模型的發(fā)展勢(shì)頭銳不可擋，也許不可能永遠(yuǎn)在時(shí)下的“快車道”之上，但其發(fā)展速度仍將遠(yuǎn)超歷史上的任何技術(shù)變革?？蛻糇匀粌A向于選擇能夠運(yùn)行在自己喜歡、認(rèn)可的大模型上的 AI Agents。而用戶最期盼的，則是在 AI Agents 中無縫體驗(yàn)到最前沿的、最強(qiáng)大的模型。 比如當(dāng) GPT-4o 發(fā)布之后，我僅用 15 分鐘就令其在使用 OpenAI API 的產(chǎn)品[11]中適配該模型。能夠靈活適配不同模型提供商，無疑是巨大的競(jìng)爭優(yōu)勢(shì)！

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

Patrick Dougherty

Co-Founder and CTO @ Rasgo. Writing about AI agents, the modern data stack, and possibly some dad jokes.

END

文中鏈接

[1]??https://x.com/savvyRL/status/1795882798454288715??

[2]??https://platform.openai.com/docs/assistants/overview??

[3]??https://docs.anthropic.com/en/docs/tool-use-examples??

[4]??https://docs.cohere.com/docs/command-r-plus??

[5]??https://lexfridman.com/podcast/??

[6]??https://yale-lily.github.io/spider??

[7]??https://arxiv.org/abs/2405.15793??

[8]??https://platform.openai.com/docs/guides/fine-tuning/when-to-use-fine-tuning??

[9]??https://www.youtube.com/watch?v=O_HyZ5aW76c??

[10]??https://www.ycombinator.com/rfs??

[11]??https://www.loom.com/share/f781e299110e40238d575fa1a5815f12?sid=73bb6158-216d-4de6-b570-881e6a99ebd2??

原文鏈接：

??https://medium.com/@cpdough/building-ai-agents-lessons-learned-over-the-past-year-41dc4725d8e5??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

行業(yè)大模型快速落地的一年，如何做？

liutao988 ? 2200瀏覽 ? 0回復(fù)
解構(gòu)復(fù)合人工智能系統(tǒng)（Compound AI Systems）：關(guān)鍵術(shù)語、理論、思路、實(shí)踐經(jīng)驗(yàn)

Baihai_IDP ? 3563瀏覽 ? 0回復(fù)
【乘風(fēng)進(jìn)階學(xué)習(xí)季】夏日初長，乘風(fēng)而上，碼出未來！

AI.x社區(qū)官方賬號(hào) ? 52.9w瀏覽 ? 36回復(fù)
過去一年有關(guān)大模型應(yīng)用構(gòu)建的干貨經(jīng)驗(yàn)之戰(zhàn)術(shù)篇

Syrupup ? 3161瀏覽 ? 0回復(fù)
?過去一年有關(guān)大模型應(yīng)用構(gòu)建的干貨經(jīng)驗(yàn)之運(yùn)營篇

Syrupup ? 3182瀏覽 ? 0回復(fù)
Netflix 機(jī)器學(xué)習(xí)科學(xué)家的提示詞優(yōu)化經(jīng)驗(yàn)分享

Baihai_IDP ? 2351瀏覽 ? 0回復(fù)
黑客入侵OpenAI，細(xì)節(jié)一年后才公開，三類數(shù)據(jù)資源讓AI公司成為活靶子

51CTO技術(shù)棧 ? 2240瀏覽 ? 0回復(fù)
Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實(shí)踐

Syrupup ? 4242瀏覽 ? 0回復(fù)
微軟10大商用智能體一鍋出！Agent要重塑辦公了！實(shí)績可查：500強(qiáng)企業(yè)六成都在用，有公司一年省出5000 萬！

51CTO技術(shù)棧 ? 2135瀏覽 ? 0回復(fù)
大模型面經(jīng)—RAG工程實(shí)踐經(jīng)驗(yàn)總結(jié)

shizhi02 ? 2234瀏覽 ? 0回復(fù)
HuggingFace模型轉(zhuǎn)一鍵llamafile包完整教程，通義千問成功案例分享

凝固的雨_1 ? 3352瀏覽 ? 0回復(fù)
分享3點(diǎn)關(guān)于AI 產(chǎn)品管理的最佳實(shí)踐

zhishan15 ? 1774瀏覽 ? 0回復(fù)
人工智能智能體(AI Agent)發(fā)展趨勢(shì)2024年總結(jié)與2025年展望

十一月雨_55 ? 8315瀏覽 ? 0回復(fù)
李開復(fù)最新回應(yīng)25年調(diào)整：大廠才燒得起超大模型；第一年的打法已不再適用

51CTO技術(shù)棧 ? 1835瀏覽 ? 0回復(fù)
寫給大模型新人的經(jīng)驗(yàn)，刷到少走三年彎路！

丁師兄大模型 ? 2381瀏覽 ? 0回復(fù)
耗時(shí)一年半！谷歌新定義具身通用最強(qiáng)SOTA，轟動(dòng)硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！

51CTO技術(shù)棧 ? 1562瀏覽 ? 0回復(fù)
Anthropic CEO 訪談“暴論”：半年內(nèi)，AI能寫90%的代碼，一年內(nèi)，AI接管編程工作！

51CTO技術(shù)棧 ? 1228瀏覽 ? 0回復(fù)
金融大佬 Mike Conover 親授：構(gòu)建高保真知識(shí)智能體的實(shí)戰(zhàn)秘笈

凝固的雨_1 ? 1894瀏覽 ? 0回復(fù)
探索數(shù)據(jù)礦藏：AI大模型與數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗(yàn)分享

風(fēng)云2002_1 ? 745瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應(yīng)該如何選擇？ 7h前發(fā)布
面對(duì)開源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：汽車長翅膀：GPU 是如何加速深度學(xué)習(xí)模型的訓(xùn)練和推理過程的？

下一篇：相同的 LLM 在「不同 GPU 上」會(huì)產(chǎn)生不同輸出？為什么？

社區(qū)精華內(nèi)容

目錄

<cite id="jt1rb"></cite>