自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2025智能體元年!斯坦??茖W(xué)家8000字講清所有要點

人工智能 新聞
AI智能體正悄然成為我們工作和生活中的得力助手。從自動化任務(wù)到復(fù)雜規(guī)劃,它們不僅能幫我們做市場調(diào)研、準(zhǔn)備面試,還能完成復(fù)雜的決策任務(wù)。本文深度探討智能體的概念、工作原理、工具使用及挑戰(zhàn)。

許多人認為「智能體」是AI發(fā)展的終極目標(biāo)。

智能體在處理復(fù)雜任務(wù)時,展現(xiàn)出了巨大潛力。從協(xié)助搭建網(wǎng)站、管理客戶賬戶,到開展市場調(diào)研、自動錄入數(shù)據(jù),智能體的應(yīng)用場景日益廣泛。

斯坦福計算機科學(xué)家Chip Huyen,對這一熱門領(lǐng)域進行了深入研究,系統(tǒng)闡釋了智能體的概念,分析了智能體在工具使用、任務(wù)規(guī)劃、反思糾錯等方面的技術(shù)要點,探討了智能體可能出現(xiàn)的失敗模式與相應(yīng)的評估方法。

智能體概述

智能體在眾多工程領(lǐng)域應(yīng)用廣泛,常見類型包括軟件智能體、對話智能體和強化學(xué)習(xí)智能體等。

那么,智能體究竟是什么?簡單來講,智能體指的是能夠感知環(huán)境,并據(jù)此做出行動的事物。

《人工智能:一種現(xiàn)代方法》將其定義為:借助傳感器感知周遭環(huán)境,通過執(zhí)行器對環(huán)境采取行動的事物。

這說明,智能體的特性取決于它所處的環(huán)境,以及自身所能執(zhí)行的行動。

智能體的工作環(huán)境由其應(yīng)用場景決定。例如,為游戲而開發(fā)的智能體,游戲便是它的環(huán)境;用于從網(wǎng)上抓取文檔的智能體,互聯(lián)網(wǎng)就是它的環(huán)境;自動駕駛汽車智能體的環(huán)境,則是道路系統(tǒng)及其周邊區(qū)域。

圖中呈現(xiàn)的是SWE-agent,這是一個基于GPT-4構(gòu)建的智能體。它的工作環(huán)境是一臺配備了終端和文件系統(tǒng)的計算機。它能執(zhí)行的操作包括在代碼倉庫中導(dǎo)航、搜索文件、查看與編輯文件。

圖片

智能體的核心目標(biāo)是完成用戶指定任務(wù)。在智能體架構(gòu)里,AI充當(dāng)「大腦」負責(zé)解析任務(wù)、規(guī)劃執(zhí)行步驟,并判斷任務(wù)是否達成。

以用于處理表格數(shù)據(jù)的RAG系統(tǒng)為例,這個智能體具備三項基本操作:生成回應(yīng)、生成SQL查詢、執(zhí)行SQL查詢。

當(dāng)收到「預(yù)測未來三個月銷售收入」的查詢時,智能體可能會按以下步驟運作:

  1. 規(guī)劃任務(wù)執(zhí)行路徑,確定預(yù)測未來銷售額需獲取過去五年銷售數(shù)據(jù)。
  2. 調(diào)用「生成SQL查詢」功能,生成用于獲取過去五年銷售數(shù)據(jù)的查詢語句。
  3. 調(diào)用「執(zhí)行SQL查詢」功能,執(zhí)行上述查詢。
  4. 分析查詢結(jié)果對銷售預(yù)測的可用性。若因數(shù)據(jù)缺失等情況,認為無法據(jù)此做出可靠預(yù)測,確定還需獲取過去營銷活動的數(shù)據(jù)。
  5. 再次調(diào)用「生成SQL查詢」功能,生成獲取過去營銷活動數(shù)據(jù)的查詢語句。
  6. 調(diào)用「執(zhí)行SQL查詢」功能,獲取相關(guān)數(shù)據(jù)。
  7. 確認新獲取的數(shù)據(jù)足以支撐預(yù)測后,生成銷售預(yù)測。
  8. 判斷任務(wù)成功完成。

智能體通常需要更強大的模型,主要基于兩方面原因:

  • 復(fù)合錯誤:智能體完成任務(wù)往往涉及多個步驟。隨著步驟增加,整體準(zhǔn)確率會大幅降低。例如,若模型每步的準(zhǔn)確率為95%,執(zhí)行10步后,準(zhǔn)確率降至60%;執(zhí)行100步,準(zhǔn)確率僅剩0.6%。
  • 風(fēng)險更高:智能體具備使用工具的能力,這使其能夠執(zhí)行更具影響力的任務(wù)。但一旦任務(wù)失敗,造成的后果往往更為嚴(yán)重。

執(zhí)行多步驟任務(wù)既耗時又費錢,不少人抱怨智能體很快就會耗盡API額度。不過,要是智能體能自主運行,節(jié)省人力時間成本,那么這樣的投入還是值得的。

在特定環(huán)境里,智能體能否成功,取決于其可用的工具,以及AI規(guī)劃器的能力。下面,我們先了解模型可使用的各類工具,再分析AI的規(guī)劃能力。

工具的分類與作用

通常情況下,模型功能較為單一,例如LLM僅能生成文本,圖像生成模型僅能生成圖像。但借助外部工具,智能體的能力將得到大幅提升。

工具能幫助智能體更好地感知環(huán)境并做出行動。智能體所處環(huán)境各異,其可用工具也多種多樣,包括知識增強(構(gòu)建上下文)工具、能力擴展工具,以及能夠改變環(huán)境的工具。

知識增強

有一類重要工具能幫助智能體擴充知識,為模型提供相關(guān)上下文,如文本檢索器、圖像檢索器、SQL執(zhí)行器,還有內(nèi)部搜索工具、庫存API、Slack檢索工具和郵件閱讀器等。

這類工具能讓模型獲取公司內(nèi)部信息與流程,也能獲取互聯(lián)網(wǎng)公共信息。

網(wǎng)絡(luò)瀏覽功能,是人們最早期望集成到ChatGPT的功能之一。若模型沒有網(wǎng)絡(luò)瀏覽功能,就無法提供天氣、新聞、股價、航班狀態(tài)等信息。借助瀏覽器、搜索API、新聞API、GitHub API、社交媒體API等聯(lián)網(wǎng)工具,智能體能夠參考最新信息,給出更可靠的回答,避免胡編亂造。

能力擴展

為提升模型性能,還可引入彌補其固有缺陷的工具。

例如,AI模型在數(shù)學(xué)運算方面一直表現(xiàn)欠佳。若詢問「199,999除以292等于多少」,模型大概率無法給出準(zhǔn)確答案。但要是能讓模型調(diào)用計算器,計算就易如反掌。

顯然,相比花費大量精力訓(xùn)練模型做算術(shù),為其提供工具更為高效,也更節(jié)省資源。除計算器外,還有許多簡單工具能顯著增強模型能力,像日歷、時區(qū)轉(zhuǎn)換器,以及單位轉(zhuǎn)換器(如將磅換算為千克)等。

代碼解釋器是一種較為復(fù)雜但功能強大的工具。無需耗費精力訓(xùn)練模型理解代碼,為其配備一個代碼解釋器即可。利用該工具,模型可執(zhí)行代碼、返回結(jié)果,并分析代碼錯誤。憑借此功能,智能體可作為編碼助手、數(shù)據(jù)分析師,甚至研究助手,編寫代碼開展實驗和撰寫報告。

不過,需要注意的是,自動執(zhí)行代碼會面臨代碼注入攻擊的風(fēng)險,務(wù)必采取恰當(dāng)?shù)陌踩胧?/span>

工具可以把僅支持文本或僅支持圖像的模型轉(zhuǎn)化為多模態(tài)模型。例如,ChatGPT能生成文本和圖像,是因為它使用了DALL-E。

智能體可以利用代碼解釋器生成圖表,使用LaTex編譯器渲染數(shù)學(xué)公式,或通過瀏覽器依據(jù)HTML代碼顯示網(wǎng)頁。僅能處理文本的模型,可以借助圖像工具處理圖像,使用轉(zhuǎn)錄工具處理音頻,以及利用OCR工具讀取PDF文件。

與單純使用提示詞或微調(diào)相比,使用工具能夠極大地提升模型性能。

研究表明,一個由GPT-4驅(qū)動且配備13種工具的智能體,在多個基準(zhǔn)測試中的表現(xiàn)超越了僅使用GPT-4的情況。這些工具涵蓋知識檢索工具、查詢生成器、圖像描述器、文本檢測器和必應(yīng)搜索。

寫入操作

目前我們提及了只讀操作,而工具還可執(zhí)行寫操作,對數(shù)據(jù)源進行修改。例如,SQL執(zhí)行器既能檢索數(shù)據(jù)表,也能修改或刪除表;郵件API既可以閱讀郵件,也能夠回復(fù)郵件;銀行API既可以查詢余額,也能發(fā)起轉(zhuǎn)賬。

寫操作可為系統(tǒng)帶來更多功能。以客戶溝通流程為例,其可實現(xiàn)全自動化操作:研究潛在客戶、查找聯(lián)系方式、起草郵件、發(fā)送首封郵件、查看回復(fù)、跟進、提取訂單,并用新訂單更新數(shù)據(jù)庫。

不過,賦予 AI 自動改變我們生活的能力會引發(fā)人們的擔(dān)憂。正如不能讓實習(xí)生隨意刪除生產(chǎn)數(shù)據(jù)庫,也絕不能讓不可靠的 AI 發(fā)起銀行轉(zhuǎn)賬,必須確保系統(tǒng)得到保護,避免受到不良行為的操控。

合適的工具能極大地提升人類的生產(chǎn)力。試想一下,如果沒有Excel該如何做生意,或者沒有起重機如何建造摩天大樓呢?

許多模型供應(yīng)商已為模型提供工具支持,這通常被稱為函數(shù)調(diào)用。未來,預(yù)計大多數(shù)模型都會支持包含多種工具的函數(shù)調(diào)用。

規(guī)劃任務(wù)

基礎(chǔ)模型代理的核心在于處理用戶提供的任務(wù),任務(wù)由目標(biāo)和約束條件來定義。例如,安排一次從舊金山前往印度、時長為兩周且預(yù)算5000美元的旅行,此為一個任務(wù),其中兩周的旅行是目標(biāo),預(yù)算則為限制條件。

對于復(fù)雜任務(wù),需要進行規(guī)劃。規(guī)劃結(jié)果如同路線圖,它清晰地呈現(xiàn)完成任務(wù)的具體步驟。為實現(xiàn)有效規(guī)劃,模型通常要理解任務(wù),考慮完成任務(wù)的不同方法,進而選出最可行的方案。

對于一項任務(wù),存在多種解決方法,但并非所有方法都能成功。即便方法正確,其效率也有差異。例如對于問題:沒有收入且融資至少10億美元的公司有多少家?有以下兩種解決方法:

  1. 先找出所有沒有收入的公司,然后從中篩選出融資至少10億美元的公司。
  2. 先找出所有融資至少10億美元的公司,再從中篩選出沒有收入的公司。

顯然,第二種方法的效率更高,因為沒有收入的公司數(shù)量比融資至少10億美元的公司數(shù)量多得多。

可以在同一個提示中讓模型同時進行規(guī)劃和執(zhí)行操作。例如,給模型一個提示,使其像使用思維鏈提示那樣逐步思考,并直接在該提示內(nèi)執(zhí)行這些步驟。

倘若模型生成了一個長達1,000步的計劃,卻無法達成目標(biāo)呢?若缺乏監(jiān)督,智能體可能會花費數(shù)小時來運行這些步驟,進而浪費時間和API調(diào)用費用。

為避免做無用功,應(yīng)將規(guī)劃和執(zhí)行分開

首先讓智能體制訂一個計劃,待計劃通過驗證后再執(zhí)行。可以使用 AI 判斷器來評估該計劃是否合理,以及如何改進。若生成的計劃欠佳,就要求規(guī)劃器重新制訂;若計劃不錯,則開始執(zhí)行。

圖片

現(xiàn)在,系統(tǒng)包含三個組件,分別是生成計劃、驗證和執(zhí)行計劃。若將每個組件都視為一個智能體,就形成了一個多智能體系統(tǒng)。

為提高效率,可并行生成多個計劃,而非依次逐個生成,之后讓評估器從中挑選最可靠的計劃。不過這樣做需要權(quán)衡延遲和成本,因為同時生成多個計劃會帶來額外開銷。

為明確任務(wù)的意圖,一般會使用意圖分類器輔助智能體規(guī)劃。明確意圖后,智能體可準(zhǔn)確選用工具。比如在客戶支持場景中,用戶詢問賬單問題時,智能體應(yīng)使用工具獲取用戶近期付款記錄;用戶詢問密碼重置問題時,智能體需使用文檔檢索工具。

截至目前,我們假設(shè)智能體自動完成生成、驗證和執(zhí)行計劃這三個階段。實際上,人類可參與其中任何一個階段,以協(xié)助推進流程并降低風(fēng)險。

人類專家可以為計劃中的部分步驟提供支持、進行驗證或執(zhí)行操作。

若計劃涉及更新數(shù)據(jù)庫、合并代碼等高風(fēng)險操作,系統(tǒng)在執(zhí)行前,可先征求人類的批準(zhǔn),或直接由人類執(zhí)行操作。為此,需要明確定義智能體各項操作的自動化程度。

總之,解決任務(wù)通常有以下流程:

  1. 計劃生成:提出能完成任務(wù)的計劃,計劃是一系列可操作的步驟,此過程也叫任務(wù)分解。
  2. 反思與糾錯:評估已生成的計劃,若不合理,重新制定。
  3. 執(zhí)行:按計劃行動,一般需要調(diào)用特定函數(shù)。
  4. 再反思糾錯:收到行動結(jié)果后,評估結(jié)果,確認目標(biāo)是否達成,若未完成,重新規(guī)劃。

基礎(chǔ)模型的規(guī)劃能力

基礎(chǔ)模型的規(guī)劃能力究竟如何,還是個未解之謎。很多研究人員認為基礎(chǔ)模型(至少是建立在自回歸語言模型之上的模型)無法實現(xiàn)規(guī)劃。

2023年,Meta的首席AI科學(xué)家Yann LeCun明確指出,自回歸LLM無法做規(guī)劃。

圖片

雖說很多傳聞都認為LLM的規(guī)劃能力欠佳,但這究竟是由于未掌握LLM的正確使用方法,還是LLM本身無法規(guī)劃,目前并不清楚。

另一種可能是,LLM規(guī)劃能力差,是因為沒有被賦予規(guī)劃所需的工具。要進行規(guī)劃,不僅需要知曉可行的行動,還得了解每個行動可能產(chǎn)生的結(jié)果。

簡單舉例,若你要去爬山,可能的行動有向右轉(zhuǎn)、向左轉(zhuǎn)、轉(zhuǎn)身或直走。若向右轉(zhuǎn)會使你掉下懸崖,你很可能就不會考慮此動作。從技術(shù)層面講,一個行動會使你從一種狀態(tài)轉(zhuǎn)變?yōu)榱硪环N狀態(tài),決定是否采取某個行動的關(guān)鍵在于知曉行動后的最終狀態(tài)。

這意味著,僅靠像思維鏈提示法那樣讓模型生成一系列行動,是無法完成規(guī)劃任務(wù)的。研究指出,由于LLM包含大量世界信息,它有能力預(yù)測每個行動的結(jié)果,可利用這些預(yù)測結(jié)果生成連貫計劃。

即便模型無法獨立完成規(guī)劃,它也能在規(guī)劃過程中發(fā)揮作用?;蛟S給LLM配備搜索工具和狀態(tài)追蹤系統(tǒng),就能幫助它做好規(guī)劃。

生成規(guī)劃

提示詞

通過提示詞工程,可輕松將模型變成計劃生成器。例如,若要創(chuàng)建一個幫助客戶了解Kitty Vogue產(chǎn)品的智能體,會給該智能體開放三個外部工具權(quán)限:按價格檢索產(chǎn)品、檢索熱門產(chǎn)品、檢索產(chǎn)品信息。

以下是一個生成計劃的提示詞示例。

圖片

關(guān)于這個例子,需注意以下兩點:

  1. 這里使用的計劃格式(一個由智能體推斷參數(shù)的函數(shù)列表)只是構(gòu)建智能體控制流程的一種方式。
  2. 「generate_query」函數(shù)接收任務(wù)的當(dāng)前歷史記錄和最新的工具輸出,生成一個查詢,然后輸入到響應(yīng)生成器中。每一步中的工具輸出都會添加到任務(wù)的歷史記錄里。

通常,用于改善模型性能的技術(shù)可用來增強模型的規(guī)劃能力。

函數(shù)調(diào)用

許多模型供應(yīng)商為其模型提供工具使用功能,實際上是將模型轉(zhuǎn)變?yōu)橹悄荏w。

工具本質(zhì)上是函數(shù),因此調(diào)用工具通常也被稱為函數(shù)調(diào)用。一般而言,函數(shù)調(diào)用的流程如下:

  1. 建立工具列表。列出所有可能讓模型使用的工具,每個工具都需說明執(zhí)行入口(如函數(shù)名)、參數(shù),并提供文檔介紹。
  2. 確定智能體在查詢時可使用哪些工具。

函數(shù)調(diào)用如圖所示。以下是用偽代碼編寫的,以便涵蓋多種API。

圖片

規(guī)劃粒度

計劃是完成任務(wù)步驟的路線圖,具有不同粒度。例如,對于年度計劃,季度計劃比月度計劃更宏觀,而月度計劃又比周計劃更宏觀。

計劃和執(zhí)行需要權(quán)衡。詳細計劃不易制定,但執(zhí)行較易;宏觀計劃易生成,執(zhí)行卻較難。對此,可采用分層規(guī)劃:先讓規(guī)劃器生成宏觀計劃(如季度計劃),再針對各季度用規(guī)劃器生成月度計劃。

復(fù)雜計劃

目前所有示例的執(zhí)行方式都屬于順序式,即計劃中的下一個行動要在前一個行動完成后才會執(zhí)行。然而,順序執(zhí)行只是多種控制流中的一種,此外還有并行、條件語句以及for循環(huán)等。

圖片

傳統(tǒng)軟件工程的控制流條件較為精確。但對于由AI驅(qū)動的智能體,其控制流由AI模型決定,不僅生成的難度更大,將其轉(zhuǎn)化為可執(zhí)行指令的難度也更高。

在評估智能體框架時,需要關(guān)注它所支持的類型。例如,若系統(tǒng)需要同時瀏覽十個網(wǎng)站,此操作能否達成呢?并行操作可以顯著減少用戶所感受到的延遲。

反思與糾錯

再好的計劃,也需要不斷評估和調(diào)整,以最大程度提升成功的概率。對于智能體的運行,反思雖不是必需的,但卻是其成功的關(guān)鍵因素。

在任務(wù)執(zhí)行過程中,以下環(huán)節(jié)進行反思會很有幫助:

  • 收到用戶查詢時,評估請求是否可行。
  • 初步生成計劃后,考量該計劃是否合理。
  • 每完成一個執(zhí)行步驟,檢查執(zhí)行方向是否正確。
  • 整個計劃執(zhí)行完畢后,確認任務(wù)是否完成。

反思和糾錯是兩種不同的機制,二者相輔相成。反思可提供見解,有助于找出需糾正的錯誤。反思有兩種實現(xiàn)方式:可由使用自我批評提示的同一智能體完成,也可通過獨立組件(如專門的評分器模型)來實現(xiàn)。

這種方法最初由ReAct提出,如今已成為智能體中的常見模式。在每個步驟中,智能體都要解釋其思維過程(即做計劃),隨后采取行動,再分析行動產(chǎn)生的結(jié)果(即反思),如此循環(huán),直至任務(wù)完成。

在多智能體環(huán)境下,可實現(xiàn)反思機制:一個智能體負責(zé)規(guī)劃并執(zhí)行動作,另一個智能體在每一步或幾步后評估結(jié)果。若該智能體的響應(yīng)未能完成任務(wù),可引導(dǎo)其反思失敗的原因及改進方法?;谶@些反思,智能體能生成新的計劃。

這是Reflexion(Shinn 等人,2023年)所采用的方法。在該框架中,反思過程被拆分為兩個模塊:評估結(jié)果的評估模塊和分析問題所在的自我反思模塊。圖中展示了Reflexion智能體的實際應(yīng)用示例。

圖片

相比生成計劃,反思的實現(xiàn)相對容易,且能帶來意外的性能提升。

然而,此方法存在延遲和成本問題。思考、觀察,有時甚至是具體行動的生成,都可能需要大量的tokens,這既會增加成本,又會讓用戶明顯感受到延遲,尤其對于有許多中間步驟的任務(wù)。

工具選擇策略

工具對于任務(wù)的成功通常至關(guān)重要,所以在選擇工具時必須謹慎。為智能體挑選工具,需要考慮任務(wù)、所處環(huán)境以及驅(qū)動它的AI模型。目前,尚無一種絕對可靠的方法能夠確保選出最佳的工具組合。

工具數(shù)量的增加會使智能體的能力增強,但要高效使用這些工具也會變得更加困難,這與人類掌握大量工具時所面臨的困難情況類似。

和構(gòu)建 AI 應(yīng)用程序時的諸多決策一樣,選擇工具需要進行實驗和分析。以下方法有助于你做出決策:

  • 比較智能體使用不同工具組合時的性能表現(xiàn)。
  • 開展消融研究,觀察從工具清單中移除某一工具后,智能體的性能會下降多少。若移除該工具不影響性能,可將其舍棄。
  • 找出智能體經(jīng)常出錯的工具。若某個工具難以被智能體學(xué)會使用,即便給出大量提示或進行微調(diào)也不起作用,就應(yīng)更換工具。
  • 繪制工具調(diào)用分布圖,以掌握各工具的使用頻率高低。

圖片

如圖所示,在Chameleon(Lu et al.,2023 年)的研究中,GPT-4 和 ChatGPT 的工具使用模式存在差異。該研究驗證了以下兩點:

  1. 不同任務(wù)對工具的需求存在差異。例如,科學(xué)問答任務(wù)ScienceQA對知識檢索工具的依賴程度高于表格數(shù)學(xué)問題求解任務(wù)TabMWP。
  2. 不同模型偏好使用不同的工具。ChatGPT更常使用圖像描述工具,而GPT-4更傾向于使用知識檢索工具。

人類提升生產(chǎn)力不僅依靠現(xiàn)有的工具,還會使用簡單工具制造出更強大的工具。那么,AI能否創(chuàng)造新工具呢?

Chameleon(Lu et al.,2023 年)開展了一項關(guān)于工具轉(zhuǎn)換的研究。下圖展示了一個工具轉(zhuǎn)換的實例。若兩種工具經(jīng)常被協(xié)同使用,就可以將它們整合為一個功能更強大的工具。倘若智能體知曉這些信息,便能對初始工具進行組合,進而持續(xù)構(gòu)建出更為復(fù)雜的工具。

圖片

智能體在特定環(huán)境中的成功與否取決于工具庫和規(guī)劃能力,這兩方面任一方面出現(xiàn)問題都可能致使任務(wù)失敗。

接下來將探討智能體的失敗情況及其評估方法。

失敗模式與評估

評估的目的在于找出失敗之處。智能體執(zhí)行的任務(wù)越復(fù)雜,可能出現(xiàn)失敗的環(huán)節(jié)就越多。除常見的失敗模式外,智能體還會因規(guī)劃、工具執(zhí)行和效率等方面的問題而出現(xiàn)一些特有的失敗情形。

要評估一個智能體,首先需確定其存在哪些失敗模式,然后統(tǒng)計每種模式出現(xiàn)的頻率。

規(guī)劃失敗

規(guī)劃并非易事,會以多種方式失敗。其中最常見的規(guī)劃失敗情況是工具使用出現(xiàn)問題。

智能體生成的計劃可能出現(xiàn)以下錯誤:

  • 使用無效工具:例如,生成的計劃包含「bing_search」,但工具清單中無此工具。
  • 工具有效但參數(shù)無效:例如,調(diào)用函數(shù)時傳入兩個參數(shù),而實際上該函數(shù)僅需一個名為「lbs」的參數(shù)。
  • 工具有效但參數(shù)值錯誤:例如,調(diào)用函數(shù)時傳入?yún)?shù)「lbs」,但使用了錯誤的數(shù)值100,正確數(shù)值應(yīng)為120。

另一種規(guī)劃失敗的情形,是規(guī)劃方案未能完成任務(wù),或者雖完成任務(wù)卻未遵守限定條件。

例如,假設(shè)讓模型規(guī)劃一次從舊金山到印度、為期兩周且預(yù)算為5000美元的旅行。智能體可能會規(guī)劃出從舊金山到越南的旅行,或者規(guī)劃出從舊金山到印度的兩周旅行,但費用遠超預(yù)算。

時間是一個常被忽視的限定條件。在很多時候,智能體完成任務(wù)所需時長并不重要,將任務(wù)交給它后,只需等待結(jié)果即可。然而在不少情況下,隨著時間流逝,智能體的作用會大打折扣。比如讓智能體準(zhǔn)備一份資助提案,若過了截止日期才完成,該提案便失去了價值。

有一種有趣的規(guī)劃失敗情形,是由反思失誤導(dǎo)致的。智能體在未完成任務(wù)的情況下,卻堅信自己已經(jīng)完成。例如,當(dāng)你讓智能體將50個人分配到30間酒店房間時,它可能只分配了40人,卻仍然認為任務(wù)已經(jīng)完成。

若要評估智能體在規(guī)劃方面是否存在失敗情況,一種可行的方法是創(chuàng)建一個規(guī)劃數(shù)據(jù)集。該數(shù)據(jù)集中的每個示例都為一個元組,包含「任務(wù)」和「工具清單」兩部分。

針對每項任務(wù),讓智能體生成K個計劃,并計算以下指標(biāo):

  1. 所生成的全部計劃中,有效計劃的數(shù)量是多少?
  2. 針對特定任務(wù),智能體需生成多少個計劃才能得到一個有效計劃?
  3. 全部工具調(diào)用中,有效調(diào)用的數(shù)量是多少?
  4. 無效工具的調(diào)用頻率是多少?
  5. 調(diào)用有效工具時,使用無效參數(shù)的頻率是多少?
  6. 調(diào)用有效工具時,使用錯誤參數(shù)值的頻率是多少?

分析智能體的輸出,明確智能體在哪些類型的任務(wù)上更易失敗,以及模型在使用哪些工具時會頻繁出錯。

有些工具對于智能體來說可能較難使用。在這種情況下,可以嘗試通過優(yōu)化提示內(nèi)容、多提供一些示例或進行微調(diào)等方式,提升智能體使用這些具有挑戰(zhàn)性工具的能力。

若這些方法均不奏效,則可以考慮用更易于使用的工具將其替換。

工具選取失敗

工具失敗是指使用了正確工具,但工具輸出結(jié)果錯誤。若智能體僅生成高層次計劃,并通過翻譯模塊將每個計劃中的動作轉(zhuǎn)化為可執(zhí)行命令,那么失敗可能源于翻譯錯誤。

工具失敗的情況因工具而異,每個工具都需單獨測試。

要檢測是否因缺少工具而導(dǎo)致失敗,需清楚應(yīng)使用哪些工具。若智能體在特定領(lǐng)域頻繁失敗,很可能是由于缺少該領(lǐng)域所需的工具,這種情況下,可與人類領(lǐng)域?qū)<液献鳎^察他們在該領(lǐng)域使用的工具。

效率評估

智能體可能會生成有效的任務(wù)完成計劃,并使用正確的工具,但效率或許不高。

若要評估智能體的效率,可關(guān)注以下指標(biāo):

  • 智能體完成任務(wù)平均所需的步驟數(shù)?
  • 智能體完成任務(wù)的平均成本是多少?
  • 每個動作通常耗費的時長是多少?是否存在特別耗時或成本高的動作?

你可以將這些指標(biāo)與基準(zhǔn)進行比較,此基準(zhǔn)可以是另一個智能體,也可以是人工操作員。在對比AI智能體和人類操作員時,要記住人類和AI的工作方式差異很大,對人類高效的方法,對AI可能并不高效,反之亦然。

在AI驅(qū)動的智能體中,模型如同大腦,會借助工具和環(huán)境反饋,規(guī)劃出完成任務(wù)的最佳方式,工具的使用極大地提升了模型的能力。

盡管智能體在工具使用、規(guī)劃、反思糾錯等方面面臨諸多挑戰(zhàn),如規(guī)劃失敗、工具選取失敗和效率不高,但這也為我們提供了廣闊的研究和探索空間。

相信隨著技術(shù)的進一步突破和創(chuàng)新,智能體將不斷優(yōu)化完善,充滿無限可能。讓我們懷著期待與好奇,共同見證智能體開啟更加智能、高效的未來之旅!

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-12 14:18:06

2021-03-31 10:28:11

GitHub 技術(shù)開源

2024-09-11 15:00:00

2012-12-06 15:36:55

CIO

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2018-06-28 09:07:58

2025-01-14 14:20:47

2022-11-03 14:13:24

騰訊科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-05-04 11:30:22

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2012-06-12 09:33:59

2025-04-27 08:40:00

OpenAI谷歌AI

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2023-05-23 09:34:16

科學(xué)家AI

2017-12-18 10:50:14

數(shù)據(jù)科學(xué)家人工智能自動化

2025-01-27 12:28:07

2023-07-18 13:56:23

福坦斯

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號