大模型自主智能體爆火，OpenAI也在暗中觀察、發(fā)力，這是內(nèi)部人的分析博客

作者：機(jī)器之心 2023-07-05 13:56:50

立志實(shí)現(xiàn) AGI 的 OpenAI，是不是已經(jīng)在暗中做起了大模型智能體？

最近幾個(gè)月，隨著大語(yǔ)言模型的持續(xù)火爆，利用其構(gòu)建 AI 智能體的研究陸續(xù)進(jìn)入人們的視線。AI 智能體這個(gè)概念也流行開來(lái)，不斷突破人們的想象力。

先是斯坦福大學(xué)、谷歌的研究者，他們成功構(gòu)建了一個(gè)「虛擬小鎮(zhèn)」，小鎮(zhèn)上的居民不再是人，而是 25 個(gè) AI 智能體。它們的行為比人類角色的扮演更加真實(shí)，甚至舉辦了一場(chǎng)情人節(jié)派對(duì)。

隨后商湯、清華等機(jī)構(gòu)提出了能夠自主學(xué)習(xí)解決任務(wù)的通才 AI 智能體 Ghost in the Minecraft (GITM)，在《我的世界》中比以往所有智能體都有更優(yōu)秀的表現(xiàn)。

圖片

同一時(shí)間，英偉達(dá)開源的 VOYAGER，也給 AI 圈帶來(lái)了「小小的」的震撼。作為一個(gè)大模型驅(qū)動(dòng)、可以終身學(xué)習(xí)的游戲智能體，VOYAGER 在《我的世界》中玩出了高水平。這些 AI 智能體的先后涌現(xiàn)，甚至讓人認(rèn)為是未來(lái)通用人工智能（AGI）的雛形。

很多 AI 領(lǐng)域的大佬和科技巨頭對(duì) AI 智能體的發(fā)展產(chǎn)生了極大興趣并寄予了厚望。特斯拉前 AI 總監(jiān)、今年年初回歸 OpenAI 的 Andrej Karpathy 在一次開發(fā)者活動(dòng)上透漏，每當(dāng)有新的 AI 智能體論文出現(xiàn)時(shí)，OpenAI 內(nèi)部就會(huì)非常感興趣，并認(rèn)真地進(jìn)行討論。

圖片

圖源：https://twitter.com/GPTDAOCN/status/1673781206121578498

那么不禁要問(wèn)，AI 智能體到底有哪些組成部分呢？它的神奇之處又具體表現(xiàn)在哪些方面呢？

近日，OpenAI 安全系統(tǒng)（Safety Systems）負(fù)責(zé)人 Lilian Weng 寫了一篇關(guān)于 AI 智能體的博客。她認(rèn)為 AI 智能體的核心驅(qū)動(dòng)力是大語(yǔ)言模型，規(guī)劃（Planning）、記憶（Memory）和工具使用（Tool Use）是實(shí)現(xiàn)它的三個(gè)關(guān)鍵組件。

先前機(jī)器之心文章《GPT-4 背后的開發(fā)者：七大團(tuán)隊(duì)，三十余位華人》也曾介紹過(guò) Lilian Weng，她 2018 年加入 OpenAI，在 GPT-4 項(xiàng)目中主要參與預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí) & 對(duì)齊、模型安全等方面的工作。

Lilian Weng 對(duì)每個(gè)組件展開詳細(xì)剖析，并提供了一些案例研究，比如科學(xué)發(fā)現(xiàn)智能體、生成式智能體模擬和概念驗(yàn)證示例。對(duì)于 AI 智能體未來(lái)將面臨哪些挑戰(zhàn)，她也給出了自己的觀點(diǎn)。

圖片

機(jī)器之心對(duì)博客的核心內(nèi)容進(jìn)行了編譯整理。

博客鏈接：https://lilianweng.github.io/posts/2023-06-23-agent/

智能體系統(tǒng)的概念

在大語(yǔ)言模型（LLM）賦能的自主智能體系統(tǒng)中，LLM 充當(dāng)了智能體的大腦，其三個(gè)關(guān)鍵組件分別如下：

首先是規(guī)劃，它又分為以下內(nèi)容：

子目標(biāo)和分解。智能體將大型任務(wù)分解為更小、可管理的子目標(biāo)，從而高效處理復(fù)雜的任務(wù)；
反思和完善：智能體可以對(duì)過(guò)去的行為展開自我批評(píng)和自我反思，從錯(cuò)誤中吸取教訓(xùn)，并針對(duì)未來(lái)的步驟進(jìn)行完善，提高最終結(jié)果的質(zhì)量。

其次是記憶，分為了短期記憶和長(zhǎng)期記憶：

短期記憶：作者認(rèn)為所有的上下文學(xué)習(xí)（參見提示工程）都是利用模型的短期記憶來(lái)學(xué)習(xí)。
長(zhǎng)期記憶：為智能體提供了長(zhǎng)時(shí)間保留和回憶（無(wú)限）信息的能力，通常利用外部向量存儲(chǔ)和快速檢索實(shí)現(xiàn)。

最后是工具使用：

智能體學(xué)習(xí)調(diào)用外部 API 來(lái)獲取模型權(quán)重中缺失的額外信息（通常在預(yù)訓(xùn)練后很難更改），包括當(dāng)前信息、代碼執(zhí)行能力、對(duì)專有信息源的訪問(wèn)等。

下圖 1 為 LLM 賦能的自主智能體系統(tǒng)概覽。

圖片

組件 1：規(guī)劃

我們知道，一項(xiàng)復(fù)雜的任務(wù)通常涉及許多步驟。智能體必須了解任務(wù)是什么并提前進(jìn)行規(guī)劃。

任務(wù)分解

首先是思維鏈（CoT）。它已經(jīng)成為增強(qiáng)復(fù)雜任務(wù)上模型性能的標(biāo)準(zhǔn)提示技術(shù)。在實(shí)現(xiàn)過(guò)程中，模型被指示「一步一步思考」，從而利用更多的測(cè)試時(shí)間計(jì)算將困難任務(wù)分解為更小、更簡(jiǎn)單的步驟。CoT 將大型任務(wù)轉(zhuǎn)化為多個(gè)可管理的小任務(wù)，并解釋清楚模型的思維過(guò)程。

其次是思維樹（Tree of Thoughts）。它通過(guò)在每一步探索多種推理可能性來(lái)擴(kuò)展 CoT。首先將問(wèn)題分解為多個(gè)思考步驟，并在每個(gè)步驟中生成多個(gè)思考，創(chuàng)建一種樹結(jié)構(gòu)。搜索過(guò)程可以是廣度優(yōu)先搜索（BFS）或深度優(yōu)先搜索（DFS），其中每個(gè)狀態(tài)由分類器（通過(guò)提示）或多數(shù) vote 進(jìn)行評(píng)估。

具體地，任務(wù)分解過(guò)程可以通過(guò)以下三種方式完成：

基于 LLM 的簡(jiǎn)單提示，比如「XYZ 的步驟是什么？」、「實(shí)現(xiàn) XYZ 的子目標(biāo)是什么？」；
使用特定于任務(wù)的指示，比如「寫一個(gè)故事大綱」；
人工輸入。

最后一種截然不同的方法是 LLM+P，它依賴外部經(jīng)典規(guī)劃器來(lái)進(jìn)行長(zhǎng)期規(guī)劃。該方法利用規(guī)劃領(lǐng)域定義語(yǔ)言（PDDL）作為描述規(guī)劃問(wèn)題的中間接口。在這一過(guò)程中，LLM (1) 將問(wèn)題轉(zhuǎn)化為「Problem PDDL」，然后 (2) 請(qǐng)求經(jīng)典規(guī)劃器基于現(xiàn)有的「Domain PDDL」生成 PDDL 規(guī)劃，最后 (3) 將 PDDL 規(guī)劃轉(zhuǎn)換回自然語(yǔ)言。

本質(zhì)上，規(guī)劃步驟被外包給了外部工具，并假設(shè)特定領(lǐng)域的 PDDL 和合適的規(guī)劃器可用。這在某些機(jī)器人設(shè)置中很常見，而在許多其他領(lǐng)域并不常見。

自我反思

自我反思（Self-reflection）允許自主智能體通過(guò)完善以往行動(dòng)決策和糾正以往錯(cuò)誤來(lái)迭代改進(jìn)，因而會(huì)在出現(xiàn)試錯(cuò)的現(xiàn)實(shí)世界任務(wù)中發(fā)揮至關(guān)重要的作用。

ReAct 通過(guò)將動(dòng)作空間擴(kuò)展為一個(gè)任務(wù)特定的「離散動(dòng)作和語(yǔ)言空間的組合」，將推理和動(dòng)作集成在 LLM 中。離散動(dòng)作使 LLM 能夠與環(huán)境交互（例如使用維基百科搜索 API），而語(yǔ)言空間促使 LLM 以自然語(yǔ)言生成推理軌跡。

ReAct 提示模板包含了 LLM 思考的明確步驟，大致格式如下所示：

Thought: ...
Action: ...
Observation: ...
... (Repeated many times)

下圖 2 為知識(shí)密集型任務(wù)（如 HotpotQA、FEVER）和決策型任務(wù)（如 AlfWorld Env、WebShop）的推理軌跡示例。

圖片

圖源：https://arxiv.org/abs/2210.03629

實(shí)驗(yàn)結(jié)果顯示，對(duì)于知識(shí)密集型任務(wù)和決策型任務(wù)，ReAct 的效果優(yōu)于僅 Act 的基線方法，這類方法刪除了「Thought: ...」步驟。

Reflexion 框架則為智能體配備了動(dòng)態(tài)記憶和自我反思能力，提高了推理技能。它有一個(gè)標(biāo)準(zhǔn)的 RL 設(shè)置，其中獎(jiǎng)勵(lì)模型提供簡(jiǎn)單的二元獎(jiǎng)勵(lì)，而動(dòng)作空間遵循 ReAct 中的設(shè)置。并且特定于任務(wù)的動(dòng)作空間通過(guò)語(yǔ)言進(jìn)行增強(qiáng)，實(shí)現(xiàn)復(fù)雜推理步驟。在每個(gè)動(dòng)作 a_t 之后，智能體計(jì)算啟發(fā)式 h_t，并選擇性地根據(jù)自我反思結(jié)果來(lái)決定重置環(huán)境，從而開始新的試驗(yàn)。

下圖 3 為 Reflexion 框架概覽。

圖片

圖源：https://arxiv.org/abs/2303.11366

啟發(fā)式功能決定軌跡何時(shí)開始效率低下或包含幻覺(jué)，以及何時(shí)應(yīng)該停止。低效的規(guī)劃是指花費(fèi)太長(zhǎng)時(shí)間而沒(méi)有成功的軌跡?；糜X(jué)（Hallucination）被定義為遇到了一系列連續(xù)的相同動(dòng)作，而這些動(dòng)作導(dǎo)致環(huán)境中出現(xiàn)相同的觀察。

自我反思通過(guò)向 LLM 展示 two-shot 示例來(lái)創(chuàng)建，每個(gè)例子都是一對(duì)失敗的軌跡，它們是指導(dǎo)未來(lái)規(guī)劃中變化的理想反思。然后反思被添加到智能體的工作記憶中，最多三個(gè)，用作查詢 LLM 的上下文。

下圖 4 為在 AlfWorld Env 和 HotpotQA 上的實(shí)驗(yàn)。其中在 AlfWorld 中，幻覺(jué)是比低效規(guī)劃更常見的失敗。

圖源：https://arxiv.org/abs/2303.11366

Chain of Hindsight（CoH）鼓勵(lì)模型通過(guò)顯式地呈現(xiàn)一系列過(guò)去的輸出（每個(gè)輸出都帶有反饋?zhàn)⑨專﹣?lái)改進(jìn)其自身的輸出。人類反饋數(shù)據(jù)是的集合，其中 x 是提示，每個(gè) y_i 是模型補(bǔ)全，r_i 是 y_i 的人類評(píng)分，z_i 是相應(yīng)的人類提供的事后反饋。假設(shè)反饋元組按獎(jiǎng)勵(lì)排序，該過(guò)程是有監(jiān)督的微調(diào)。數(shù)據(jù)的序列形式為，其中≤i≤j≤n。該模型經(jīng)過(guò)微調(diào)，僅預(yù)測(cè)以序列前綴為條件的 y_n，使得模型可以根據(jù)反饋序列自我反思，從而產(chǎn)生更好的輸出。該模型可以選擇性地在測(cè)試時(shí)接受到人類注釋者的多輪指令。

為了避免過(guò)擬合，CoH 添加正則化項(xiàng)來(lái)最大化預(yù)訓(xùn)練數(shù)據(jù)集的對(duì)數(shù)似然。同時(shí)為了避免捷徑和復(fù)制（由于反饋序列中有很多常見單詞），研究者在訓(xùn)練過(guò)程中隨機(jī)屏蔽了 0%- 5% 的過(guò)去 token。

實(shí)驗(yàn)中采用的訓(xùn)練數(shù)據(jù)集是 WebGPT 比較、人類反饋總結(jié)以及人類偏好數(shù)據(jù)集的組合。下圖 5 展示了使用 CoH 進(jìn)行微調(diào)后，模型可以按照指令生成具有序列增量改進(jìn)的輸出。

圖片

圖源：https://arxiv.org/abs/2302.02676

CoH 的思路是呈現(xiàn)上下文中連續(xù)改進(jìn)輸出的歷史，并訓(xùn)練模型產(chǎn)生更好輸出。算法蒸餾（AD）將相同的思路應(yīng)用于強(qiáng)化學(xué)習(xí)任務(wù)中的跨情節(jié)軌跡，其中算法被封裝在長(zhǎng)期歷史條件策略中。

下圖 6 為算法蒸餾的工作原理。

圖片

圖源：https://arxiv.org/abs/2210.14215

在算法蒸餾論文中，研究者假設(shè)任何生成一組學(xué)習(xí)歷史的算法都可以通過(guò)對(duì)動(dòng)作執(zhí)行行為克隆來(lái)蒸餾成神經(jīng)網(wǎng)絡(luò)。歷史數(shù)據(jù)由一組源策略生成，而每個(gè)源策略針對(duì)特定任務(wù)進(jìn)行訓(xùn)練。

在訓(xùn)練階段，每次 RL 運(yùn)行期間，研究者都會(huì)對(duì)隨機(jī)任務(wù)進(jìn)行采樣，并使用 multi-episode 歷史的子序列進(jìn)行訓(xùn)練，使得學(xué)習(xí)到的策略與任務(wù)無(wú)關(guān)。

實(shí)際上該模型的上下文窗口長(zhǎng)度有限，因此 episode 應(yīng)足夠短以構(gòu)建 multi-episode 歷史。要學(xué)習(xí)近最優(yōu)的上下文 RL 算法，需要 2 到 4 個(gè) episode 的 multi-episodic 上下文。上下文 RL 的出現(xiàn)需要足夠長(zhǎng)的上下文。

與三個(gè)基線相比，包括 ED（專家蒸餾，用專家軌跡而不是學(xué)習(xí)歷史進(jìn)行行為克?。?、源策略（用于生成 UCB 蒸餾的軌跡）、RL^2（ 2017 年提出的一種在線強(qiáng)化學(xué)習(xí)算法，作為上限進(jìn)行比較）。盡管 AD 算法僅使用離線強(qiáng)化學(xué)習(xí)，但其性能接近 RL^2，并且學(xué)習(xí)速度比其他基線快得多。當(dāng)以源策略的部分訓(xùn)練歷史為條件時(shí)，AD 的改進(jìn)速度也比 ED 基線快得多。

下圖 7 為 AD、ED、源策略和 RL^2 的比較。

圖片

組件 2：記憶

作者表示，這一章節(jié)借助了 ChatGPT 來(lái)幫忙起草。下面我們看看這部分具體內(nèi)容。

記憶類型

記憶類型分為三類：感知記憶、短期記憶（STM）或工作記憶以及長(zhǎng)期記憶（LTM）。

感知記憶：這是記憶的早期階段，它能夠在原始刺激結(jié)束后保持對(duì)感官信息（視覺(jué)、聽覺(jué)等）的印象。感知記憶通常只能持續(xù)幾秒鐘。其子類包括圖像記憶（視覺(jué)）、回聲記憶（聽覺(jué)）和觸摸記憶（觸感）。

短期記憶（STM）或工作記憶：短期記憶存儲(chǔ)著我們目前所知道的信息，以及執(zhí)行復(fù)雜認(rèn)知任務(wù)（如學(xué)習(xí)和推理）所需要的信息。一般來(lái)講，短期記憶持續(xù) 20-30 秒。

長(zhǎng)期記憶：長(zhǎng)時(shí)記憶可以將信息存儲(chǔ)很長(zhǎng)時(shí)間，從幾天到幾十年不等，其存儲(chǔ)容量基本上是無(wú)限的。LTM 有兩種子類型：

顯式、陳述性記憶：這是對(duì)事實(shí)和事件的記憶，指的是那些可以有意識(shí)地回憶起來(lái)的記憶，包括情景記憶（事件和經(jīng)過(guò)）和語(yǔ)義記憶（事實(shí)和概念）；
隱式、程序性記憶：這種類型的記憶是無(wú)意識(shí)的，涉及自主執(zhí)行的技能和慣例，比如騎自行車或在鍵盤上打字。

圖片

人類記憶分類

參考人類記憶的分類，我們可以得到以下映射：

感知記憶作為原始輸入（包括文本、圖像或其他模態(tài)）的學(xué)習(xí)嵌入表示。
短期記憶作為上下文學(xué)習(xí)，由于受到 Transformer 有限上下文窗口長(zhǎng)度的限制，短期記憶是短暫且有限的。
長(zhǎng)期記憶作為外部向量存儲(chǔ)，智能體可以查詢、快速檢索，從而進(jìn)行訪問(wèn)。

最大內(nèi)積搜索（MIPS）

外部記憶可以緩解注意力的一些限制。為了更好的處理外部記憶，一個(gè)常見的做法是將信息的嵌入表示保存到一個(gè)向量存儲(chǔ)數(shù)據(jù)庫(kù)中，該數(shù)據(jù)庫(kù)可以支持快速的最大內(nèi)積搜索（MIPS）。為了優(yōu)化檢索速度，研究者經(jīng)常使用的方法是近似最近鄰（ANN，approximate nearest neighbors）算法。

在加速 MIPS 中，經(jīng)常用到的 ANN 算法包括：

局部敏感哈希（LSH）：它引入了一個(gè)哈希函數(shù)，使得相似的輸入項(xiàng)以高概率映射到相同的 buckets 中，其中 buckets 的數(shù)量遠(yuǎn)遠(yuǎn)小于輸入的數(shù)量。

近似最近鄰（ANNOY）：該方法的核心數(shù)據(jù)結(jié)構(gòu)是隨機(jī)投影樹（Random Projection Trees），它是一組二叉樹，其中每個(gè)非葉節(jié)點(diǎn)表示一個(gè)超平面，將輸入空間分割為兩部分，而每個(gè)葉節(jié)點(diǎn)則存儲(chǔ)一個(gè)數(shù)據(jù)點(diǎn)。樹是獨(dú)立且隨機(jī)構(gòu)建的，因此在某種程度上類似于哈希函數(shù)。這個(gè)想法與 KD 樹（一種將空間中點(diǎn)分開存儲(chǔ)的樹狀數(shù)據(jù)結(jié)構(gòu)）密切相關(guān)，但擴(kuò)展性更強(qiáng)。

分層可導(dǎo)小世界（HNSW，Hierarchical Navigable Small World）：這個(gè)方法受到小世界網(wǎng)絡(luò)（small world networks，是一種圖結(jié)構(gòu)）的啟發(fā)，其中大多數(shù)節(jié)點(diǎn)可以在很少的步驟內(nèi)與其他節(jié)點(diǎn)相連。HNSW 構(gòu)建了這些小世界圖的層次結(jié)構(gòu)，其中底層包含實(shí)際的數(shù)據(jù)點(diǎn)，中間層創(chuàng)建了快捷方式以加速搜索。在執(zhí)行搜索時(shí)，HNSW 從頂層的一個(gè)隨機(jī)節(jié)點(diǎn)開始，并向目標(biāo)節(jié)點(diǎn)導(dǎo)航，當(dāng)無(wú)法再靠近目標(biāo)時(shí)，它向下移動(dòng)到下一層，直到達(dá)到底層。在上層進(jìn)行的每一次移動(dòng)都有可能在數(shù)據(jù)空間中覆蓋較大的距離，而在下層進(jìn)行的每一次移動(dòng)都會(huì)提高搜索的精度。

Facebook AI （現(xiàn) Meta AI）團(tuán)隊(duì)開源的庫(kù) FAISS：FAISS 運(yùn)作的基本假設(shè)是，在高維空間中，節(jié)點(diǎn)之間的距離遵循高斯分布，因此應(yīng)該存在數(shù)據(jù)點(diǎn)的聚類。FAISS 通過(guò)將向量空間分割成聚類并在聚類內(nèi)進(jìn)行量化來(lái)應(yīng)用向量量化。

可擴(kuò)展最近鄰（ScaNN）：ScaNN 的主要?jiǎng)?chuàng)新是各向異性矢量量化（Anisotropic Vector Quantization，AVQ），它將數(shù)據(jù)點(diǎn) x_i 量化為，使得內(nèi)積盡可能接近原始距離，從而減少了數(shù)據(jù)點(diǎn)之間的距離誤差。

圖片

MIPS 算法比較。

組件 3：使用工具

使用工具是人類的一個(gè)顯著特點(diǎn)。我們創(chuàng)造、修改和利用外部物體來(lái)探索和認(rèn)知現(xiàn)實(shí)世界。類似地，給 LLM 配備外部工具可以大幅擴(kuò)展模型的能力。

一張海獺在水中漂浮時(shí)用石頭敲開貝殼的照片。雖然其他一些動(dòng)物也能使用工具，但其復(fù)雜性無(wú)法與人類相比。圖源：Animals using tools

MRKL（Karpas et al. 2022）是一種用于自主智能體的神經(jīng) - 符號(hào)（neuro-symbolic）架構(gòu)，命名來(lái)源于模塊化推理（Modular Reasoning）、知識(shí)（Knowledge）和語(yǔ)言（Language）的簡(jiǎn)稱。每個(gè) MRKL 系統(tǒng)包含一些「專家」模塊，通用 LLM 作為一個(gè)路由器，負(fù)責(zé)將查詢路由到最合適的專家模塊。這些模塊可以是神經(jīng)的（如深度學(xué)習(xí)模型），也可以是符號(hào)的（如數(shù)學(xué)計(jì)算器、貨幣轉(zhuǎn)換器、天氣 API）。

MRKL 的研究團(tuán)隊(duì)使用數(shù)學(xué)計(jì)算作為測(cè)試案例，進(jìn)行了一個(gè)微調(diào) LLM 調(diào)用計(jì)算器的實(shí)驗(yàn)。由于 LLM（7B Jurassic1-large 模型）未能可靠地提取基本計(jì)算的正確 argument，因此該實(shí)驗(yàn)表明解決口語(yǔ)簡(jiǎn)單闡述的數(shù)學(xué)問(wèn)題比明確說(shuō)明的數(shù)學(xué)問(wèn)題更難。該實(shí)驗(yàn)結(jié)果強(qiáng)調(diào)了當(dāng)外部符號(hào)工具能夠可靠地工作時(shí)，知道何時(shí)和如何使用這些工具是至關(guān)重要的，而這由 LLM 的能力決定。

另外兩項(xiàng)研究 TALM（Parisi et al. 2022）和 Toolformer（Schick et al. 2023）都對(duì)語(yǔ)言模型（LM）進(jìn)行了微調(diào)，以學(xué)習(xí)使用外部工具 API。數(shù)據(jù)集則是根據(jù)新增加的 API 調(diào)用注釋是否能提高模型的輸出質(zhì)量來(lái)擴(kuò)展的。

ChatGPT 插件和 OpenAI 的 API 函數(shù)調(diào)用是 LLM 使用工具增強(qiáng)能力的最好實(shí)例。工具 API 的集合可以由其他開發(fā)者提供（插件）或自定義（函數(shù)調(diào)用）。

HuggingGPT（Shen et al. 2023）則是一個(gè)使用 ChatGPT 作為任務(wù)規(guī)劃器的框架，根據(jù)模型描述選擇 HuggingFace 平臺(tái)中可用的模型，并根據(jù)執(zhí)行結(jié)果歸納總結(jié)出響應(yīng)。

圖片

HuggingGPT 工作原理示意圖。圖源：Shen et al. 2023

HuggingGPT 系統(tǒng)由 4 個(gè)階段組成：

（1）任務(wù)規(guī)劃：LLM 作為大腦，將用戶請(qǐng)求解析為多個(gè)任務(wù)。每個(gè)任務(wù)有四個(gè)關(guān)聯(lián)屬性：任務(wù)類型、任務(wù) ID、依賴項(xiàng)和參數(shù)。研究團(tuán)隊(duì)使用少量例子來(lái)指導(dǎo) LLM 進(jìn)行任務(wù)解析和規(guī)劃。

The AI assistant can parse user input to several tasks: [{"task": task, "id", task_id, "dep": dependency_task_ids, "args": {"text": text, "image": URL, "audio": URL, "video": URL}}]. The "dep" field denotes the id of the previous task which generates a new resource that the current task relies on. A special tag "-task_id" refers to the generated text image, audio and video in the dependency task with id as task_id. The task MUST be selected from the following options: {{ Available Task List }}. There is a logical relationship between tasks, please note their order. If the user input can't be parsed, you need to reply empty JSON. Here are several cases for your reference: {{ Demonstrations }}. The chat history is recorded as {{ Chat History }}. From this chat history, you can find the path of the user-mentioned resources for your task planning.

(2) 模型選擇：LLM 會(huì)從一個(gè)模型列表中選擇模型，將任務(wù)分配給專家模型。由于上下文長(zhǎng)度有限，需要進(jìn)行基于任務(wù)類型的過(guò)濾。

Given the user request and the call command, the AI assistant helps the user to select a suitable model from a list of models to process the user request. The AI assistant merely outputs the model id of the most appropriate model. The output must be in a strict JSON format: "id": "id", "reason": "your detail reason for the choice". We have a list of models for you to choose from {{ Candidate Models }}. Please select one model from the list.

(3) 任務(wù)執(zhí)行：專家模型執(zhí)行具體任務(wù)，并記錄執(zhí)行結(jié)果。

With the input and the inference results, the AI assistant needs to describe the process and results. The previous stages can be formed as - User Input: {{ User Input }}, Task Planning: {{ Tasks }}, Model Selection: {{ Model Assignment }}, Task Execution: {{ Predictions }}. You must first answer the user's request in a straightforward manner. Then describe the task process and show your analysis and model inference results to the user in the first person. If inference results contain a file path, must tell the user the complete file path.

(4) 響應(yīng)生成：LLM 接收?qǐng)?zhí)行結(jié)果，并向用戶提供總體結(jié)果。

為了將 HuggingGPT 投入實(shí)際使用，需要解決幾個(gè)挑戰(zhàn)：（1）需要提高效率，因?yàn)?LLM 推理和與其他模型的交互都會(huì)減慢進(jìn)程；（2）它依賴一個(gè)長(zhǎng)的上下文窗口來(lái)溝通復(fù)雜的任務(wù)內(nèi)容；（3）提高 LLM 輸出和外部模型服務(wù)的穩(wěn)定性。

API-Bank（Li et al. 2023）是一個(gè)評(píng)估工具增強(qiáng)型 LLM 性能的基準(zhǔn)。它包含 53 個(gè)常用的 API 工具，一個(gè)完整的工具增強(qiáng)型 LLM 工作流，以及涉及 568 個(gè) API 調(diào)用的 264 個(gè)已注釋的對(duì)話。API-Bank 基準(zhǔn)中可選擇的 API 相當(dāng)多樣化，包括搜索引擎、計(jì)算器、日歷查詢、智能家居控制、日程管理等等。LLM 首先可以通過(guò) API 搜索引擎找到合適的 API 進(jìn)行調(diào)用，然后使用相關(guān)文檔調(diào)用 API。

圖片

LLM 在 API-BANK 中進(jìn)行 API 調(diào)用的偽代碼。(圖片來(lái)源：Li et al. 2023)

在 API-Bank 的工作流中，LLM 需要做出一些決定，包括：

是否需要調(diào)用 API；
確定要調(diào)用的正確 API：如果不夠好，LLM 需要反復(fù)修改 API 輸入（例如更換搜索引擎 API 的搜索關(guān)鍵詞）；
基于 API 結(jié)果的響應(yīng)：如果結(jié)果不滿意，模型可以選擇優(yōu)化并再次調(diào)用。

這個(gè)基準(zhǔn)在三個(gè)層次上評(píng)估了智能體的工具使用能力：

調(diào)用 API 的能力：根據(jù) API 的描述，模型需要確定是否調(diào)用給定的 API，正確地調(diào)用，并對(duì) API 的返回結(jié)果作出正確的反應(yīng)；
檢索 API 的能力。模型需要搜索可能解決用戶需求的 API，并通過(guò)閱讀文檔學(xué)習(xí)如何使用它們。
檢索和調(diào)用之外規(guī)劃 API 的能力。考慮到不明確的用戶要求（例如安排小組會(huì)議，為旅行預(yù)訂航班 / 酒店 / 餐廳），模型可能需要進(jìn)行多次 API 調(diào)用來(lái)解決實(shí)際問(wèn)題。

案例研究

用于科學(xué)發(fā)現(xiàn)的智能體

ChemCrow 是一個(gè)由大型語(yǔ)言模型（LLM）設(shè)計(jì)的化學(xué)智能體，旨在完成有機(jī)合成、藥物發(fā)現(xiàn)和材料設(shè)計(jì)等任務(wù)。通過(guò)整合 17 種專家設(shè)計(jì)的工具，ChemCrow 提高了 LLM 在化學(xué)方面的性能，并衍生出新的能力。

關(guān)于 ChemCrow ，一個(gè)有趣的觀察是，盡管基于 LLM 的評(píng)估結(jié)果得出的結(jié)論是 GPT-4 和 ChemCrow 的性能幾乎相當(dāng)，但經(jīng)過(guò)專家人工評(píng)估表明，ChemCrow 在很大程度上優(yōu)于 GPT-4。這意味著在需要深度專業(yè)知識(shí)的領(lǐng)域使用 LLM 來(lái)評(píng)估其自身的性能可能存在潛在問(wèn)題。缺乏專業(yè)知識(shí)可能導(dǎo)致 LLM 不了解其缺陷，因此無(wú)法很好地判斷任務(wù)結(jié)果的正確性。

Boiko 等人的論文則研究了用于科學(xué)發(fā)現(xiàn)的 AI 智能體，它被用來(lái)處理復(fù)雜科學(xué)實(shí)驗(yàn)的自主設(shè)計(jì)、規(guī)劃和執(zhí)行。這個(gè)智能體可以使用工具瀏覽互聯(lián)網(wǎng)、閱讀文檔、執(zhí)行代碼、調(diào)用機(jī)器人實(shí)驗(yàn) API 和利用其他 LLM。

舉例來(lái)說(shuō)，當(dāng)智能體收到提示「develop a novel anticancer drug（開發(fā)一種新的抗癌藥物）」時(shí)，其推理步驟是這樣的：

詢問(wèn)當(dāng)前抗癌藥物發(fā)現(xiàn)的趨勢(shì)；
選定目標(biāo)；
開始尋找針對(duì)這個(gè)目標(biāo)的化合物；
一旦確定了化合物，模型就嘗試合成它。

生產(chǎn)式智能體

生成式智能體將 LLM 與記憶、規(guī)劃和反射機(jī)制相結(jié)合，使智能體能夠根據(jù)過(guò)去的經(jīng)驗(yàn)做出反應(yīng)，并與其他智能體進(jìn)行交互。

生成式智能體架構(gòu)圖。

概念驗(yàn)證示例

這里作者提到了 AutoGPT（自主人工智能），有了它，人類無(wú)需插手，AutoGPT 就能自主完成任務(wù)。Andrej Karpathy 也大贊：「AutoGPT 是 prompt 工程的下一個(gè)前沿。」

具體來(lái)說(shuō)，AutoGPT 相當(dāng)于給基于 GPT 的模型一個(gè)內(nèi)存和一個(gè)身體。有了它，你可以把一項(xiàng)任務(wù)交給 AI 智能體，讓它自主地提出一個(gè)計(jì)劃，然后執(zhí)行計(jì)劃。此外其還具有互聯(lián)網(wǎng)訪問(wèn)、長(zhǎng)期和短期內(nèi)存管理、用于文本生成的 GPT-4 實(shí)例以及使用 GPT-3.5 進(jìn)行文件存儲(chǔ)和生成摘要等功能。AutoGPT 用處很多，可用來(lái)分析市場(chǎng)并提出交易策略、提供客戶服務(wù)、進(jìn)行營(yíng)銷等其他需要持續(xù)更新的任務(wù)。

此外，作者還列舉了 GPT-Engineer 項(xiàng)目，和代碼生成類工具差不多，其能根據(jù)提示生成代碼庫(kù)（codebase）。就像前面講到的，只要你提出合理的要求，GPT-Engineer 都能完成。

挑戰(zhàn)

在了解了構(gòu)建以 LLM 為中心的智能體關(guān)鍵思想和演示之后，我們應(yīng)該也看到一些限制：

有限的上下文長(zhǎng)度：LLM 處理上下文信息的能力有限，盡管 self-reflection 等機(jī)制可以從過(guò)去的錯(cuò)誤中學(xué)習(xí)，但更長(zhǎng)或無(wú)限的上下文窗口將會(huì)帶來(lái)很大的好處。雖然向量存儲(chǔ)和檢索可以提供對(duì)更大知識(shí)庫(kù)的訪問(wèn)，但它們的表示能力不如全注意力（full attention）強(qiáng)大。

LLM 在長(zhǎng)期規(guī)劃和任務(wù)分解中的挑戰(zhàn)：LLM 在面對(duì)意外錯(cuò)誤時(shí)很難調(diào)整規(guī)劃并進(jìn)行改正，與人類可以不斷試錯(cuò)相比，LLM 魯棒性還是比較差的。

自然語(yǔ)言接口的可靠性：當(dāng)前的智能體系統(tǒng)依賴于自然語(yǔ)言作為 LLM 與內(nèi)存和工具等外部組件之間的接口。然而，模型輸出的可靠性是值得懷疑的，因?yàn)?LLM 可能會(huì)出現(xiàn)格式錯(cuò)誤，偶爾還會(huì)表現(xiàn)出叛逆行為（例如，拒絕遵循指令）。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心