自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來! 原創(chuàng) 精華

發(fā)布于 2025-1-8 15:48
瀏覽
0收藏

人類在處理復(fù)雜的模式識別任務(wù)上表現(xiàn)出色。

在形成結(jié)論之前,他們常常借助諸如書籍、谷歌搜索或計算器等工具來增強其現(xiàn)有知識。

同樣地,AI 大模型能夠通過訓(xùn)練,學(xué)會使用工具來獲取實時信息或提出現(xiàn)實世界的行動建議。例如,這些大模型能夠運用數(shù)據(jù)庫檢索工具來查詢特定信息,如顧客的購買歷史,進而提供個性化的購物建議。再比如,基于用戶的查詢,大模型能夠執(zhí)行多種 API 調(diào)用,用于發(fā)送郵件回復(fù)給同事或代表用戶完成財務(wù)交易。

為了實現(xiàn)這些功能,大模型不僅需要能夠接入各種外部工具,還必須能夠自主規(guī)劃并執(zhí)行任務(wù)。這種結(jié)合了推理、邏輯以及對額外信息的利用的能力,是 AI大模型的核心,它體現(xiàn)了 AI Agent 智能體的概念,即超出單純 AI 大模型獨立功能的程序。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)


1、模型

在 AI Agent 智能體領(lǐng)域,所提到的模型是指那些在 AI Agent 智能體工作流程中充當(dāng)決策中樞的語言模型(LM)

AI Agent 智能體所采用的模型可以是單個或多個不同規(guī)模(小型或大型)的語言模型,這些模型能夠遵循基于指令的推理邏輯,例如:反應(yīng)(ReAct)、思維鏈(Chain-of-Thought)或思維樹(Tree-of-Thoughts)等架構(gòu)。這些模型可能是通用的、多模態(tài)的,或者根據(jù)特定智能體框架的需求進行定制化調(diào)整。

為了實現(xiàn)最佳的應(yīng)用效果,應(yīng)選擇與目標(biāo)應(yīng)用最匹配的模型,并且最好該模型已經(jīng)針對將在認(rèn)知架構(gòu)中使用的工具相關(guān)的數(shù)據(jù)特性進行了訓(xùn)練。

應(yīng)當(dāng)注意的是,模型通常不會專門針對 AI Agent 智能體的特定配置(即工具的選擇、編排和推理設(shè)置)進行訓(xùn)練。然而,通過向模型提供展示 AI Agent 智能體能力的示例,包括 AI Agent 智能體在不同情境中使用特定工具或推理步驟的案例,可以進一步針對 AI Agent 智能體的任務(wù)對模型進行優(yōu)化。

2、工具

工具的形式多樣,復(fù)雜度不一,通常與標(biāo)準(zhǔn)的網(wǎng)絡(luò)應(yīng)用程序編程接口(API)方法(如 GET、POST、PATCH 和 DELETE)保持一致。比如,某個工具能夠修改數(shù)據(jù)庫中的客戶資料,或者獲取天氣信息以優(yōu)化 AI Agent 智能體為用戶提供的旅行建議。

通過使用這些工具,AI Agent 智能體得以接入和處理現(xiàn)實世界的數(shù)據(jù)。這使得它能夠支撐更專業(yè)的系統(tǒng),如檢索增強生成(RAG)系統(tǒng),該系統(tǒng)顯著提升了AI Agent 智能體的功能,使其能力超越了基礎(chǔ)模型本身的限制。

3、編排層

編排層描述了一個循環(huán)過程,它管理著 AI Agent 智能體如何接收信息、進行內(nèi)部推理,并使用這些推理來指導(dǎo)其下一個動作或決策。通常,這個循環(huán)會一直持續(xù),直到 AI Agent 智能體達(dá)到其目標(biāo)或一個停止點。編排層的復(fù)雜性可以根據(jù) AI Agent 智能體及其執(zhí)行的任務(wù)而有很大差異。有些循環(huán)可能是簡單的計算和決策規(guī)則,而其他循環(huán)可能包含連鎖邏輯,涉及額外的機器學(xué)習(xí)算法,或者實現(xiàn)其他概率推理技術(shù)。

AI Agent 智能體可以利用 ReAct、CoT、ToT 等推理技術(shù),或者許多其他技術(shù),來為給定的用戶請求選擇下一個最佳動作。例如,讓我們考慮一個被編程使用 ReAct 框架來為用戶查詢選擇正確動作和工具的 AI Agent 智能體。事件序列可能如下所示:

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

1.用戶向 AI Agent 智能體發(fā)送查詢;

2.AI Agent 智能體開始 ReAct 序列;

3.AI Agent 智能體向模型提供一個提示詞(Prompt),要求它生成下一個ReAct 步驟及其對應(yīng)的輸出:

    a. 問題:用戶查詢中的輸入問題,隨提示詞一起提供

    b. 思考:模型關(guān)于接下來應(yīng)該做什么的想法

    c. 動作:模型關(guān)于接下來采取什么動作的決定

        i. 這里的工具選擇可以發(fā)生

        ii. 例如,一個動作可以是[航班、搜索、編碼、無]之一,前三個代表模型可以選擇的已知工具,最后一個代表“不選擇工具”

    d. 動作輸入:模型關(guān)于向工具提供什么輸入的決定(如果有的話)

    e. 觀察:動作/動作輸入序列的結(jié)果

        i. 這個思考/動作/動作輸入/觀察可以根據(jù)需要重復(fù)N次

    f. 最終答案:模型對原始用戶查詢提供的最終答案

4.ReAct 循環(huán)結(jié)束,并向用戶返回最終答案。

4、擴展:自定義插件

將擴展(Extensions)視為一種在 AI Agent 智能體與應(yīng)用程序編程接口(API)之間建立標(biāo)準(zhǔn)化連接的方式,是最直接的理解方法。這種方式使得 AI Agent 智能體能夠順暢地執(zhí)行多種 API 操作,而無需關(guān)心其背后的具體實現(xiàn)細(xì)節(jié)。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

設(shè)想你開發(fā)了一個旨在幫助用戶預(yù)訂航班的 AI Agent 智能體。你打算利用谷歌航班 API 來獲取所需的航班信息,但你不確定如何讓你的 AI Agent 智能體來調(diào)用這個 API。

采用一種更為靈活的方法是使用擴展。擴展通過以下步驟在 AI Agent 智能體和 API 之間搭建橋梁:

  • 通過示例指導(dǎo) AI Agent 智能體如何使用 API 接口。
  • 指導(dǎo) AI Agent 智能體了解成功調(diào)用 API 接口所需的參數(shù)。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

擴展可以獨立于 AI Agent 智能體進行開發(fā),但它們應(yīng)該作為 AI Agent 智能體配置的一部分來提供。在運行時,AI Agent 智能體依靠模型和示例來決定哪個擴展(如果有)最適合處理用戶的查詢。這體現(xiàn)了擴展的一個重要優(yōu)勢,即它們的“示例內(nèi)嵌”特性,它允許 AI Agent 智能體根據(jù)任務(wù)需求動態(tài)地選擇最合適的擴展。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

5、功能函數(shù)

在 AI Agent 智能體領(lǐng)域,函數(shù)的運作方式與軟件開發(fā)中的情況類似,但在這里,模型取代了軟件開發(fā)人員的角色。模型能夠訪問一系列已知的函數(shù),并依據(jù)函數(shù)的定義來決定何時調(diào)用哪個函數(shù)以及需要傳遞哪些參數(shù)。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

函數(shù)與擴展在幾個關(guān)鍵點上有所不同,最明顯的區(qū)別包括:

  • 模型會輸出一個函數(shù)及其所需的參數(shù),但不會直接執(zhí)行實時應(yīng)用程序編程接口(API)調(diào)用。
  • 函數(shù)在客戶端環(huán)境中運行,而擴展則在 AI Agent 智能體端執(zhí)行。

大多數(shù)開發(fā)人員傾向于使用功能函數(shù),原因包括:

  • 需要進行應(yīng)用程序編程接口(API)調(diào)用的應(yīng)用程序棧的另一層,這超出了 AI Agent 智能體直接架構(gòu)的范圍(例如中間件系統(tǒng)、前端框架等)。
  • 存在安全或認(rèn)證的限制,導(dǎo)致 AI Agent 智能體無法直接訪問 API(例如 API 未在互聯(lián)網(wǎng)上公開,或者 AI Agent 智能體基礎(chǔ)設(shè)施無法連接到該 API)。
  • 有時間安排或操作順序的限制,使得 AI Agent 智能體無法實時執(zhí)行 API 調(diào)用(例如批量操作、人工審核等場景)。
  • 需要對 AI Agent 智能體無法直接執(zhí)行的應(yīng)用程序編程接口(API)響應(yīng)進行額外的數(shù)據(jù)轉(zhuǎn)換邏輯。例如,如果一個 API 端點沒有提供限制返回結(jié)果數(shù)量的篩選機制,客戶端使用函數(shù)可以為開發(fā)人員提供執(zhí)行這些轉(zhuǎn)換的額外機會。
  • 開發(fā)人員希望在 AI Agent 智能體開發(fā)過程中進行迭代,而不需要為 API 端點部署額外的基礎(chǔ)設(shè)施(即函數(shù)調(diào)用可以作為 API 的“存根”)。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

6、數(shù)據(jù)存儲

數(shù)據(jù)存儲機制使得開發(fā)人員能夠以原始格式向 AI Agent 智能體提供額外數(shù)據(jù),這樣他們就無需進行繁瑣的數(shù)據(jù)轉(zhuǎn)換、模型的重新訓(xùn)練或微調(diào)。

數(shù)據(jù)存儲將接收到的文檔轉(zhuǎn)換成一系列向量數(shù)據(jù)庫嵌入,AI Agent 智能體可以利用這些嵌入來提取必要信息,以支持其后續(xù)操作或?qū)τ脩舻捻憫?yīng)。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

為了使模型能夠獲取特定類型的知識,可以采用以下幾種策略:

? 上下文學(xué)習(xí):在推理過程中,向通用模型提供提示詞、工具和一些示例,使其能夠即時學(xué)習(xí)如何以及在何時使用這些工具來執(zhí)行特定任務(wù)。自然語言處理中的反應(yīng)(ReAct)框架就是這種方法的一個例子。

? 基于檢索的上下文學(xué)習(xí):動態(tài)地通過從外部存儲器檢索最相關(guān)的信息、工具和示例來構(gòu)建模型提示詞。例如,Vertex AI 擴展中的“示例存儲”或之前提到的基于數(shù)據(jù)存儲的檢索增強生成(RAG)架構(gòu)。

? 基于微調(diào)的學(xué)習(xí):這涉及到在推理之前使用包含大量特定示例的數(shù)據(jù)集對模型進行訓(xùn)練。這種方法有助于模型在處理用戶查詢之前就已經(jīng)學(xué)會了何時以及如何應(yīng)用某些工具。

7、實施與應(yīng)用

在 AI Agent 智能體的背景下,數(shù)據(jù)存儲通常被實現(xiàn)為向量數(shù)據(jù)庫,開發(fā)人員希望 AI Agent 智能體在運行時能夠訪問這些數(shù)據(jù)庫。雖然這里不會深入討論向量數(shù)據(jù)庫,但關(guān)鍵是要理解它們以向量嵌入的形式存儲數(shù)據(jù),這是一種高維向量或數(shù)據(jù)的數(shù)學(xué)表示。最近,數(shù)據(jù)存儲與語言模型結(jié)合使用的一個最典型的例子是基于檢索增強生成(RAG)的應(yīng)用程序?qū)崿F(xiàn)。這些應(yīng)用程序試圖通過讓模型訪問各種格式的數(shù)據(jù),來擴展模型知識的基礎(chǔ)訓(xùn)練數(shù)據(jù)之外的范圍和深度,例如:

? 網(wǎng)站內(nèi)容

? 結(jié)構(gòu)化數(shù)據(jù),如 PDF、Word 文檔、CSV、電子表格等格式

? 非結(jié)構(gòu)化數(shù)據(jù),如 HTML、PDF、TXT 等格式

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

上圖展示了 AI Agent 智能體與數(shù)據(jù)存儲之間的一對多關(guān)系,這些數(shù)據(jù)存儲可以代表各種類型的預(yù)索引數(shù)據(jù)。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

每個用戶請求和 AI Agent 智能體響應(yīng)循環(huán)的底層過程通常如下圖所示。

  • 用戶查詢被發(fā)送到嵌入模型以生成查詢的嵌入;
  • 然后使用像 SCaNN 這樣的匹配算法將查詢嵌入與向量數(shù)據(jù)庫的內(nèi)容進行匹配;
  • 從向量數(shù)據(jù)庫中以文本格式檢索匹配的內(nèi)容并返回給 AI Agent 智能體;
  • AI Agent 智能體接收用戶查詢和檢索到的內(nèi)容,然后制定響應(yīng)或行動;?
  • 最終響應(yīng)被發(fā)送給用戶。

最終結(jié)果是,應(yīng)用程序允許 AI Agent 智能體通過向量搜索將用戶查詢與已知數(shù)據(jù)存儲匹配,檢索原始內(nèi)容,并將其提供給編排層和模型進行進一步處理。下一個行動可能是向用戶提供最終答案,或者執(zhí)行額外的向量搜索以進一步精煉結(jié)果。

谷歌剛剛發(fā)布AI Agent智能體白皮書,2025年AI Agent時代已到來!-AI.x社區(qū)

上圖展示了一個實現(xiàn) RAG 與 ReAct 推理/規(guī)劃的代理與用戶的示例交互。

8、總結(jié)

在本白皮書中,我們討論了生成式人工智能 AI Agent 智能體的基礎(chǔ)構(gòu)建塊、它們的組成以及有效實施它們的方法,即認(rèn)知架構(gòu)。本白皮書的一些關(guān)鍵收獲包括:

  1. AI Agent 智能體通過利用工具來訪問實時信息、建立現(xiàn)實世界的行動以及自主規(guī)劃執(zhí)行復(fù)雜任務(wù),從而擴展了語言模型的能力。AI Agent 智能體可以利用一個或多個語言模型來決定何時以及如何過渡狀態(tài),并使用外部工具來完成模型自身難以或無法單獨完成的任何數(shù)量的復(fù)雜任務(wù)。
  2. AI Agent 智能體操作的核心是編排層,這是一種認(rèn)知架構(gòu),它結(jié)構(gòu)化了推理、規(guī)劃、決策制定并指導(dǎo)其行動。各種推理技術(shù),如 ReAct、思維鏈(Chain-of-Thought)和思維樹(Tree-of-Thoughts),為編排層提供了一個框架,以接收信息、進行內(nèi)部推理并生成明智的決策或響應(yīng)。
  3. 工具,如擴展(Extensions)、函數(shù)(Functions)和數(shù)據(jù)存儲(Data Stores),是 AI Agent 智能體與外部世界互動的鑰匙,使它們能夠與外部系統(tǒng)互動并訪問超出其訓(xùn)練數(shù)據(jù)的知識。擴展在 AI Agent 智能體和外部API 之間架起橋梁,使得執(zhí)行 API 調(diào)用和檢索實時信息成為可能。函數(shù)為開發(fā)者提供了更細(xì)致的控制,通過分工允許代理生成可以在客戶端執(zhí)行的函數(shù)參數(shù)。數(shù)據(jù)存儲為代理提供了結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的訪問,使得數(shù)據(jù)驅(qū)動的應(yīng)用程序成為可能。

AI Agent 智能體的未來充滿了激動人心的進步,我們只是開始觸及可能性的表面。隨著工具變得更加復(fù)雜和推理能力的增強,AI Agent 智能體將能夠解決越來越復(fù)雜的問題。此外,"AI Agent 智能體鏈"的戰(zhàn)略方法將繼續(xù)獲得勢頭。通過結(jié)合在特定領(lǐng)域或任務(wù)上表現(xiàn)出色的專業(yè)代理,我們可以創(chuàng)建一個“AI Agent 智能體專家混合”方法,能夠在各個行業(yè)和問題領(lǐng)域提供卓越的結(jié)果。


本文轉(zhuǎn)載自公眾號玄姐聊AGI  作者:玄姐

原文鏈接:??https://mp.weixin.qq.com/s/Ow7gAHSaLFyYO5luB0XPhg??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-1-8 15:50:23修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦