自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

實(shí)踐出真知:Agents 領(lǐng)域“一年打怪升級(jí)”的經(jīng)驗(yàn)分享 原創(chuàng) 精華

發(fā)布于 2024-8-5 10:09
瀏覽
0收藏

編者按:在你構(gòu)建 AI Agents 時(shí),是否曾遇到這些困擾:總是在簡單任務(wù)上出錯(cuò),從而讓你有時(shí)會(huì)懷疑自己的技術(shù)水平?面對(duì)客戶的需求,AI Agent 表現(xiàn)得像個(gè)“笨蛋”,無法準(zhǔn)確理解和執(zhí)行指令?隨著底層模型的更新,AI Agents 的性能不升反降,讓人手足無措?

這些問題不僅影響了 AI Agents 的性能,甚至可能導(dǎo)致項(xiàng)目延期、成本超支,甚至失去客戶的信任。在 AI 技術(shù)飛速??發(fā)展的今天,任何一個(gè)表現(xiàn)不佳的 Agents 都可能很快被市場(chǎng)淘汰。

今天我們分享的這篇文章將為各位提供來自一線 Agents 開發(fā)者的寶貴經(jīng)驗(yàn)。作者基于過去一年的實(shí)踐,總結(jié)了 7 條經(jīng)驗(yàn)教訓(xùn),包括重新認(rèn)識(shí) AI Agent 的推理能力、優(yōu)化 Agent-Computer Interface (ACI)、選擇和適配底層模型、以及構(gòu)建差異化的基礎(chǔ)設(shè)施等。對(duì)于正在或計(jì)劃構(gòu)建 AI Agents 的開發(fā)者和企業(yè)而言,這篇文章提供了許多切實(shí)可行的操作建議和深入的見解,是一份不可多得的參考指南??。

作者 | Patrick Dougherty

編譯 | 岳揚(yáng)

01 何為“Agent”?(Definitions)

在討論本文的主要內(nèi)容之前,需要明確定義一下本文所指的“Agent”到底是啥。借用一下這位 Twitter 用戶的話[1]:

What the hell is “agent”?

我盡力給出了一個(gè)簡明扼要的定義:

實(shí)踐出真知:Agents 領(lǐng)域“一年打怪升級(jí)”的經(jīng)驗(yàn)分享-AI.x社區(qū)

該定義大致與 OpenAI 在 ChatGPT 中提及的 “生成式預(yù)訓(xùn)練模型(GPTs)” 和其 API 中的 “助手(Assistants[2])” 概念相符。不過,Agent 并不會(huì)局限于這些能力,任何能進(jìn)行邏輯推理(reasoning)并調(diào)用工具(making tool calls)的模型都能勝任這項(xiàng)任務(wù),比如 Anthropic 公司的 Claude**[3]、Cohere 的 Command R+[4] 等眾多模型皆可。

Note

tool calls 是一種讓模型表達(dá)它想要執(zhí)行的某種特定操作并獲取操作結(jié)果的方式,例如調(diào)用 get_weather_forecast_info(seattle) 或 wikipedia_lookup(dealey plaza) 這樣的函數(shù)。

構(gòu)建一個(gè) Agent 僅需幾行代碼就可以了,這些代碼能夠處理一個(gè)有明確目標(biāo)且由系統(tǒng)提示詞(system prompt)引導(dǎo)的對(duì)話過程,能夠處理模型想要執(zhí)行的任何 tool calls ,循環(huán)執(zhí)行這些操作,并在達(dá)到目標(biāo)后停止。

下面這幅圖示(visual)可以幫助解釋這一流程:

實(shí)踐出真知:Agents 領(lǐng)域“一年打怪升級(jí)”的經(jīng)驗(yàn)分享-AI.x社區(qū)

構(gòu)建 “Agent” 的基本步驟簡要概覽

02 Agent System Prompt Example

實(shí)踐出真知:Agents 領(lǐng)域“一年打怪升級(jí)”的經(jīng)驗(yàn)分享-AI.x社區(qū)

需要在此澄清對(duì) AI Agent 的幾個(gè)常見錯(cuò)誤觀點(diǎn):

  • Scripted(腳本化):根據(jù)個(gè)人理解,Agent 不會(huì)機(jī)械地執(zhí)行預(yù)編寫的指令序列或工具調(diào)用步驟,AI Agent 能夠自主決定下一步應(yīng)該使用哪個(gè)工具,這是其核心能力;
  • 通用人工智能(Artificial General Intelligence, AGI):AI Agent 并不等同于 AGI,后者無需依賴 Agents 來完成特定類型的工作,因?yàn)?AGI 本身就是一個(gè)集所有可能的輸入(inputs)、輸出(outputs)和工具(tools)于一身的單一實(shí)體(個(gè)人淺見,現(xiàn)有技術(shù)距離真正的 AGI 尚有很長一段路要走);
  • Black Box:如果告知 AI Agents 具體任務(wù)流程,Agents 應(yīng)當(dāng)會(huì)如同人類接受委托執(zhí)行任務(wù)一樣。

03 上下文 Context

在開發(fā) AI Agents 項(xiàng)目的第一年里,我從與工程師(engineers)和用戶體驗(yàn)設(shè)計(jì)師(UX designer)的合作中獲得了第一手經(jīng)驗(yàn),對(duì)產(chǎn)品的整體用戶體驗(yàn)效果進(jìn)行了多次優(yōu)化,收獲頗豐。我們的目標(biāo)是為客戶打造一個(gè)平臺(tái),幫助客戶使用我們標(biāo)準(zhǔn)化的數(shù)據(jù)分析 Agents,并針對(duì)其業(yè)務(wù)中特有的任務(wù)和數(shù)據(jù)結(jié)構(gòu),自行開發(fā)符合個(gè)體需求(custom)的 AI Agents。我們確保該平臺(tái)與諸如 Snowflake、BigQuery 等數(shù)據(jù)庫安全對(duì)接,同時(shí)內(nèi)置安全機(jī)制,在描述數(shù)據(jù)庫內(nèi)容的元數(shù)據(jù)層上調(diào)用 RAG(檢索增強(qiáng)生成)工具,并通過 SQL、Python 和支持?jǐn)?shù)據(jù)可視化的數(shù)據(jù)分析工具分析數(shù)據(jù)。

對(duì)于哪些做法可行,哪些觀點(diǎn)則不盡如人意,此平臺(tái)不僅依據(jù)自身評(píng)估(our own evaluations),也參考了客戶的真實(shí)反饋。 我們的用戶大多就職于 500 強(qiáng)企業(yè),他們每天都使用我們的 AI Agent 對(duì)內(nèi)部數(shù)據(jù)進(jìn)行深度分析。

04 經(jīng)驗(yàn)教訓(xùn)(What I’ve Learned about Agents)

4.1 推理能力比知識(shí)量更重要

這句話在過去的一年里一直在我腦海中回響:

我認(rèn)為,[生成式預(yù)訓(xùn)練Transformer(gpt)]有過多的處理能力(processing power)被用于充當(dāng)數(shù)據(jù)庫(database),而非將模型用作推理引擎(reasoning engine)。

— 山姆·奧特曼(Sam Altman**)在萊克斯·弗里德曼(Lex Fridman)播客[5]上發(fā)表的見解

AI Agents 正是對(duì)此觀點(diǎn)的合理回應(yīng)!在構(gòu)建 AI Agents 時(shí),我會(huì)采用這一邏輯:

別太在意 AI Agents “了解、知道(knows)” 什么,而應(yīng)更看重它的 “思考(think)” 能力。

以編寫 SQL 查詢語句(SQL Queries)為例。SQL 查詢語句(SQL Queries)往往頻繁執(zhí)行出錯(cuò)……,且屢見不鮮。在我擔(dān)任數(shù)據(jù)科學(xué)家(data scientist)期間,我的查詢語句(SQL Queries)執(zhí)行失敗次數(shù)遠(yuǎn)遠(yuǎn)超過成功的次數(shù)。

如果一個(gè)復(fù)雜的 SQL 查詢語句首次就能在我們不熟悉的真實(shí)數(shù)據(jù)上執(zhí)行成功,我們應(yīng)該感到驚訝并產(chǎn)生懷疑,“糟糕,可能有問題!”,而不會(huì)自信滿滿地認(rèn)為“哇!完美!我搞定了”。即便是在評(píng)估模型能否將一個(gè)簡單問題轉(zhuǎn)換為查詢語句的 text-to-SQL 基準(zhǔn)測(cè)試[6]中,其最高準(zhǔn)確率也只有 80 %。

因此,即便意識(shí)到該模型在編寫 SQL 語句的能力頂多只能得到 B- 的成績,那么我們?cè)撊绾翁嵘渫评砟芰δ??關(guān)鍵在于為 Agents 提供足夠的上下文,讓它能進(jìn)行 “思考” ,而非希望它一次性答對(duì)。當(dāng) AI Agents 編寫的查詢語句執(zhí)行錯(cuò)誤時(shí),需要反饋所有 SQL errors 信息以及能夠獲得的盡可能多的上下文信息,這樣 AI Agents 便能在大多數(shù)情況下自行修正問題,使 SQL 語句正常執(zhí)行。我們同樣也為 Agents 提供了大量 tool calls ,使其能像人類那樣,在編寫新的查詢語句前,先對(duì)數(shù)據(jù)庫的信息架構(gòu)(information schema)和數(shù)據(jù)特性(data for distributions and missing values)進(jìn)行調(diào)研分析。

4.2 提升性能的最佳方式就是不斷優(yōu)化“人”機(jī)交互界面(agent-computer interface, ACI)

“ACI” 這個(gè)新詞(源自普林斯頓大學(xué)(Princeton)的一項(xiàng)研究[7])雖然出現(xiàn)不久,但我們對(duì)它的打磨卻是過去一年中的日常工作重心。ACI 指的是 AI Agents 所使用的 tool calls 的具體語法和架構(gòu),包括了 AI Agents 生成的 inputs 內(nèi)容與 API 在響應(yīng)內(nèi)容中發(fā)回的 outputs 。這些是 Agents 獲取必要數(shù)據(jù)、推動(dòng)工作進(jìn)展與工作目標(biāo)一致的唯一方式。

由于底層模型(比如 gpt-4o、Claude Opus 等)各有特點(diǎn),所以對(duì)某一個(gè)模型來說最完美的 ACI 未必適合另一個(gè)模型。 這就意味著,構(gòu)建一個(gè)優(yōu)秀的 ACI 需要“科學(xué)(science)與藝術(shù)(art)齊飛”……更像是創(chuàng)造一種極致的用戶體驗(yàn),而非純粹地編寫代碼(writing source code),因?yàn)?ACI 會(huì)持續(xù)演變,小小的改動(dòng)就能像多米諾骨牌一樣引發(fā)一連串的反應(yīng)。ACI 有多么重要,我再怎么強(qiáng)調(diào)都不為過…… 我們對(duì)我們構(gòu)建的 AI Agent 進(jìn)行了數(shù)百次迭代,僅僅是對(duì)命名(names)、數(shù)量(quantity)、抽象程度(level of abstraction)、輸入格式(input formats)及輸出的響應(yīng)(output responses)做出微調(diào),就能導(dǎo)致 AI Agents 的性能產(chǎn)生巨大波動(dòng)。

此處有一個(gè)具體的小案例,能夠生動(dòng)地說明 ACI 有多么關(guān)鍵和棘手:我們?cè)?gpt-4-turbo 剛推出不久后,對(duì)我們的 AI Agents 進(jìn)行了多次測(cè)試,卻發(fā)現(xiàn)了一個(gè)棘手的問題 —— AI Agents 在處理響應(yīng)信息時(shí),會(huì)完全忽略掉某些數(shù)據(jù)(正是我們?cè)噲D通過 tool call 的響應(yīng)內(nèi)容來告知或傳遞給 Agents 的數(shù)據(jù)部分)。我們所使用的是直接從 OpenAI 官方文檔中提取的 markdown 格式信息,并且在同樣的數(shù)據(jù)集上與 gpt-4-32k 配合得很好。為了使 AI Agents 能夠識(shí)別出那些被它“視而不見”的數(shù)據(jù)列(columns),我們嘗試對(duì) markdown 結(jié)構(gòu)進(jìn)行一些調(diào)整,但無論怎樣修改,Agents 都無動(dòng)于衷...... 于是,我們決定徹底改變策略,將信息格式從 markdown 轉(zhuǎn)換為 JSON(僅針對(duì) OpenAI 模型)格式后,奇跡發(fā)生了,一切都恢復(fù)如初。頗具諷刺意味的是,響應(yīng)內(nèi)容采用 JSON 格式雖然因?yàn)榘舜罅空Z法字符而消耗了更多 tokens ,但我們發(fā)現(xiàn)這一步驟不僅十分必要,更是確保 Agents 能夠正確解讀模型響應(yīng)的關(guān)鍵。

雖然可能對(duì) ACI 的優(yōu)化過程感覺微不足道,但這確實(shí)是改善 Agents 用戶體驗(yàn)的有效途徑之一。

4.3 AI Agents 的功能受限于其所使用的模型

底層模型就好比是 Agents 的大腦。如果模型的決策不盡人意,那么無論看起來多么吸引人,都無法令用戶滿意。這一點(diǎn)在我們使用 gpt-3.5-turbo 和 gpt-4–32k 作為底座模型進(jìn)行測(cè)試時(shí)親身感受。在使用 GPT 的 3.5 版本時(shí),某些測(cè)試案例的情況大致為:

  1. 用戶提出了具體任務(wù)目標(biāo),比如:“按郵政編碼分析星巴克店鋪位置(starbucks locations)與房價(jià)(home prices)的相關(guān)性,探究兩者之間是否存在聯(lián)系?!?/li>
  2. Agent卻臆造了一個(gè)數(shù)據(jù)庫表名,比如“HOME_PRICES”,并假設(shè)了諸如“ZIP_CODE”和“PRICE”等數(shù)據(jù)列,而沒有先去數(shù)據(jù)庫系統(tǒng)中搜索查找真正存在的數(shù)據(jù)表;
  3. Agent 會(huì)嘗試編寫 SQL 查詢語句,打算按郵政編碼計(jì)算平均房價(jià),然而查詢語句執(zhí)行失敗,系統(tǒng)報(bào)錯(cuò)反饋說該表并不存在;
  4. 這時(shí),Agent 才會(huì)恍然大悟,“啊,對(duì)了!我應(yīng)該可以搜索真實(shí)存在的數(shù)據(jù)表...”,于是開始搜索“home prices by zip code”來定位可用的真實(shí)數(shù)據(jù)表;
  5. Agent 隨后根據(jù)找到的真實(shí)數(shù)據(jù)表,修正了其查詢語句,使用正確的數(shù)據(jù)列,最終成功獲取了數(shù)據(jù);
  6. 然而,當(dāng) Agent 處理星巴克店鋪位置數(shù)據(jù)時(shí),卻又一次重蹈覆轍...

在 gpt-4 上,以相同的指導(dǎo)原則運(yùn)行 Agents ,情況則截然不同。它不會(huì)再立即執(zhí)行錯(cuò)誤的操作而浪費(fèi)時(shí)間,而是會(huì)精心籌劃,制定一個(gè)有序的 tool calls 執(zhí)行計(jì)劃,并嚴(yán)格按照計(jì)劃執(zhí)行。不難想象,在執(zhí)行更為復(fù)雜的任務(wù)時(shí),兩個(gè)模型之間的性能差距會(huì)更為顯著。盡管 GPT 3.5 版本的速度很快,但產(chǎn)品用戶顯然更喜歡?? gpt-4 那更勝一籌的決策和分析能力。

Note

通過進(jìn)行這些測(cè)試,我們獲得了一個(gè)重要啟示:當(dāng) Agents 出現(xiàn)幻覺或執(zhí)行失敗時(shí),應(yīng)當(dāng)極其細(xì)致地觀察這些情況是為何出現(xiàn)的。AI Agents 往往會(huì)展現(xiàn)出一種惰性(可能源于人類的懶惰特質(zhì)在底層模型的訓(xùn)練數(shù)據(jù)中被充分學(xué)習(xí)),因此它們不會(huì)輕易調(diào)用那些它們認(rèn)為沒有必要調(diào)用的工具。 同樣,即便在它們調(diào)用工具時(shí),如果對(duì)參數(shù)說明(argument instructions)理解不清,它們往往會(huì)走捷徑(take shortcuts)或是直接忽略必要的參數(shù)。這些失敗的案例(failure modes)中蘊(yùn)含著非常豐富的信息!AI Agents 實(shí)際上是在告訴你它期望 ACI(Agent Call Interface)應(yīng)該怎樣設(shè)計(jì),如果情況允許,最直接的解決方案就是順從它的意愿,調(diào)整 ACI 使其滿足 Agents 的需求。當(dāng)然,也有很多時(shí)候,需要我們通過修改系統(tǒng)提示詞(system prompt)或 tool call 的 instructions 來對(duì)抗 Agents 的天性,但對(duì)于那些可以通過簡單調(diào)整 ACI 就能解決的問題,直接修改就能大大簡化我們的工作。

4.4 試圖通過微調(diào)模型提升 Agents 的性能實(shí)屬徒勞

對(duì)模型進(jìn)行微調(diào)[8]是通過提供示例來優(yōu)化模型在特定應(yīng)用領(lǐng)域表現(xiàn)的一種方法。盡管當(dāng)前的微調(diào)方法擅長教會(huì)模型以特定方式(specific way)完成特定任務(wù)(specific task),但并不能有效提升模型的推理能力。根據(jù)我的經(jīng)驗(yàn),使用微調(diào)過的模型來驅(qū)動(dòng) AI Agents 反而可能降低其推理能力,因?yàn)?AI Agents 容易傾向于“走捷徑(cheat)”,即它會(huì)錯(cuò)誤地認(rèn)為微調(diào)過程中所接觸的示例總能代表最優(yōu)的處理策略和工具調(diào)用序列,而不會(huì)獨(dú)立地對(duì)問題進(jìn)行推理。

Note

微調(diào)(Fine-tuning)依然是多功能瑞士軍刀(Swiss Army pocket knife)里的一項(xiàng)利器。例如,有一種行之有效的方法是使用微調(diào)過的模型專門處理 AI Agents 提出的特定 tool calls 。設(shè)想一下,假如你擁有一個(gè)針對(duì)特定數(shù)據(jù)集專門微調(diào)過的用于編寫 SQL 查詢語句的模型…… 該 AI Agents(在未經(jīng)微調(diào)的強(qiáng)大推理模型(reasoning model)上運(yùn)行)可以通過 tool call 來表達(dá)它想要執(zhí)行的 SQL 查詢語句,而我們可以將這一請(qǐng)求轉(zhuǎn)交由專門針對(duì) SQL 查詢語句微調(diào)過的模型進(jìn)行獨(dú)立處理。

4.5 在產(chǎn)品構(gòu)建過程中,應(yīng)慎重考慮使用 LangChain 或 LlamaIndex 等抽象化工具

我們應(yīng)當(dāng)完全掌控對(duì)模型的每次調(diào)用,包括其中涉及的所有輸入與輸出細(xì)節(jié)內(nèi)容。一旦我們將這些核心控制權(quán)拱手讓給第三方庫,未來當(dāng)我們需要與 AI Agents 合作完成新用戶操作引導(dǎo)流程(onboard users)、問題調(diào)試(debug an issue)、用戶拉新(scale to more users)、記錄 AI Agents 的操作日志(log what the agent is doing)、軟件迭代更新(upgrade to a new version),或是深入理解 AI Agents 的行為動(dòng)機(jī)(understand why the agent did something)時(shí),我們將會(huì)深切感受到遺憾與不便。

Note

如果你正處于純粹的產(chǎn)品原型階段(prototype mode),唯一的目的在于驗(yàn)證 AI Agents 是否有可能完成任務(wù),那么,不妨隨心所欲地選擇你最心儀的抽象化工具,馬上動(dòng)手實(shí)踐吧[9]!

4.6 AI Agents 并非護(hù)城河

利用 AI Agents 來自動(dòng)化(automating)或增強(qiáng)(augmenting)人類的知識(shí)型工作,蘊(yùn)藏著巨大的潛力,但僅僅建立一個(gè)優(yōu)秀的 AI Agents 還遠(yuǎn)遠(yuǎn)不夠。將 AI Agents 推向市場(chǎng),服務(wù)于用戶,就需要在一系列非 AI 的基礎(chǔ)設(shè)施上投入大量心血,確保 AI Agents 能夠真正高效運(yùn)作 —— 而這正是我們能夠塑造差異化競(jìng)爭優(yōu)勢(shì)的地方

  • 安全性(security):AI Agents 應(yīng)嚴(yán)格在用戶授予的權(quán)限范圍內(nèi)運(yùn)行,由用戶全面掌控。在實(shí)際中,這意味著要跨越 OAuth Integrations(譯者注:OAuth 通常用于社交登錄,如使用微信或 Google 賬戶登錄其他網(wǎng)站或應(yīng)用程序。)、Single Sign-On Providers(譯者注:單點(diǎn)登錄(SSO)是一種身份驗(yàn)證機(jī)制,允許用戶在多個(gè)應(yīng)用程序和服務(wù)中使用單一的登錄憑證。)、Cached Refresh Tokens(譯者注:指在 OAuth 認(rèn)證過程中,為了保持用戶會(huì)話的有效性和減少重復(fù)認(rèn)證次數(shù),而存儲(chǔ)在客戶端或服務(wù)器上的 refresh token。)等一系列的安全門檻。妥善管理這些安全環(huán)節(jié),無疑將為我們的產(chǎn)品加分。
  • data connectors:AI Agents 通常需要實(shí)時(shí)從源系統(tǒng)(source systems)獲取數(shù)據(jù)才能好好工作。這就意味著需要與各種 API 接口及其他連接協(xié)議集成,通常是內(nèi)部系統(tǒng)和外部第三方平臺(tái)。這些 integrations 不僅需要初始的構(gòu)建、部署,更需要長期的維護(hù)與優(yōu)化。
  • 用戶界面(user interface)除非用戶能夠全程跟進(jìn)并審核 AI Agents 的工作流程,否則很難建立起對(duì) AI Agents 的信任。通常,在用戶首次接觸 AI Agents 的最初幾次,這種需求尤為突出,但會(huì)隨時(shí)間逐漸減弱。最好的辦法是,AI Agents 的每一次 tool call 都應(yīng)配有一套專門的交互界面,讓用戶可以觀察 AI Agents 的決策、操作過程,甚至直接與之互動(dòng),以此增進(jìn)對(duì) AI Agents 推理邏輯的信心(例如,細(xì)覽語義搜索(semantic search)結(jié)果中每個(gè)元素的具體內(nèi)容)。
  • 長期記憶(long-term memory):AI Agents 在默認(rèn)狀態(tài)下,僅限于記住當(dāng)前的工作流程,受限于最大 tokens 數(shù)量這一參數(shù)。要想實(shí)現(xiàn)跨工作流程的長期記憶,甚至跨用戶范圍的長期記憶,就需要將信息存入記憶庫,并通過 tool calls 或?qū)⑵淙谌胩崾驹~中來提取。我發(fā)現(xiàn) AI Agents 在判斷哪些信息值得保存至記憶庫中時(shí)并不擅長,往往需要人類來決定這些信息是否應(yīng)當(dāng)保存。根據(jù)具體應(yīng)用場(chǎng)景,你也許可以接受讓 AI Agents 自主決定何時(shí)保存信息至記憶庫中,就像 ChatGPT 一樣。
  • AI Agents 的評(píng)估(evaluation):構(gòu)建一套評(píng)估 AI Agents 的框架是一項(xiàng)既耗神又似乎永無止境的任務(wù)。AI Agents 被刻意設(shè)計(jì)為保持不確定性(nondeterministic),這意味著它們會(huì)依據(jù)我們提供的指導(dǎo)方向,尋找最合適的 tool calls 任務(wù)序列來完成任務(wù),這一過程就像初學(xué)走路的小寶寶,每走一步后都會(huì)進(jìn)行一番思考。對(duì)這些任務(wù)序列的評(píng)估主要體現(xiàn)在兩個(gè)方面:一是 AI Agents 在完成任務(wù)時(shí)的整體成功率,二是每次 tool call 的準(zhǔn)確性(例如,搜索過程中的信息檢索(information retrieval);代碼執(zhí)行的準(zhǔn)確度(accuracy);等等)。我發(fā)現(xiàn)量化整體工作流程性能的最有效且唯一的方法是建立一系列 objective / completion pairs(譯者注:訓(xùn)練或測(cè)試數(shù)據(jù)集,"objective" 指的是用戶或系統(tǒng)設(shè)定的目標(biāo)或任務(wù),而 "completion" 則是 Agents 完成該目標(biāo)的具體行動(dòng)或輸出內(nèi)容。例如, "objective" 可能是 "查找最近的餐廳",而 "completion" 則可以是 AI Agents 返回的最近餐廳的名稱和地址。),其中 objective 是指派給 Agents 的初始指令,而 completion 則代表 objective 達(dá)成的最終 tool call 序列。捕捉 AI Agents 的 tool calls 中間過程和思維過程,有助于理解 tool calls 失敗的原因或是 tool calls 序列的變化。

Note

將這份清單視為一份正式的 request-for-startups[10] 。圍繞清單上的產(chǎn)品需求開發(fā)的產(chǎn)品,如果做得好,有望成為行業(yè)的新標(biāo)準(zhǔn)或關(guān)鍵組成部分,助力 AI Agents “更上一層樓”。

4.7 別假設(shè)大模型的進(jìn)步會(huì)停歇

在構(gòu)建 Agents 時(shí),我們會(huì)不斷受到誘惑:過分地為所依附的底層核心大模型(primary model)開發(fā)一些綁定性功能,從而無意間降低了對(duì) Agents 推理能力的預(yù)期。務(wù)必警惕并克服這一誘惑! (Resist this temptation!)大模型的發(fā)展勢(shì)頭銳不可擋,也許不可能永遠(yuǎn)在時(shí)下的“快車道”之上,但其發(fā)展速度仍將遠(yuǎn)超歷史上的任何技術(shù)變革??蛻糇匀粌A向于選擇能夠運(yùn)行在自己喜歡、認(rèn)可的大模型上的 AI Agents。而用戶最期盼的,則是在 AI Agents 中無縫體驗(yàn)到最前沿的、最強(qiáng)大的模型。 比如當(dāng) GPT-4o 發(fā)布之后,我僅用 15 分鐘就令其在使用 OpenAI API 的產(chǎn)品[11]中適配該模型。能夠靈活適配不同模型提供商,無疑是巨大的競(jìng)爭優(yōu)勢(shì)!

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!


Patrick Dougherty

Co-Founder and CTO @ Rasgo. Writing about AI agents, the modern data stack, and possibly some dad jokes.

END

文中鏈接

[1]??https://x.com/savvyRL/status/1795882798454288715??

[2]??https://platform.openai.com/docs/assistants/overview??

[3]??https://docs.anthropic.com/en/docs/tool-use-examples??

[4]??https://docs.cohere.com/docs/command-r-plus??

[5]??https://lexfridman.com/podcast/??

[6]??https://yale-lily.github.io/spider??

[7]??https://arxiv.org/abs/2405.15793??

[8]??https://platform.openai.com/docs/guides/fine-tuning/when-to-use-fine-tuning??

[9]??https://www.youtube.com/watch?v=O_HyZ5aW76c??

[10]??https://www.ycombinator.com/rfs??

[11]??https://www.loom.com/share/f781e299110e40238d575fa1a5815f12?sid=73bb6158-216d-4de6-b570-881e6a99ebd2??

原文鏈接:

??https://medium.com/@cpdough/building-ai-agents-lessons-learned-over-the-past-year-41dc4725d8e5??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦