自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型自主智能體爆火,OpenAI也在暗中觀察、發(fā)力,這是內(nèi)部人的分析博客

人工智能 新聞
立志實(shí)現(xiàn) AGI 的 OpenAI,是不是已經(jīng)在暗中做起了大模型智能體?

最近幾個(gè)月,隨著大語(yǔ)言模型的持續(xù)火爆,利用其構(gòu)建 AI 智能體的研究陸續(xù)進(jìn)入人們的視線。AI 智能體這個(gè)概念也流行開來(lái),不斷突破人們的想象力。

先是斯坦福大學(xué)、谷歌的研究者,他們成功構(gòu)建了一個(gè)「虛擬小鎮(zhèn)」,小鎮(zhèn)上的居民不再是人,而是 25 個(gè) AI 智能體。它們的行為比人類角色的扮演更加真實(shí),甚至舉辦了一場(chǎng)情人節(jié)派對(duì)。

隨后商湯、清華等機(jī)構(gòu)提出了能夠自主學(xué)習(xí)解決任務(wù)的通才 AI 智能體 Ghost in the Minecraft (GITM),在《我的世界》中比以往所有智能體都有更優(yōu)秀的表現(xiàn)。

圖片圖片

同一時(shí)間,英偉達(dá)開源的 VOYAGER,也給 AI 圈帶來(lái)了「小小的」的震撼。作為一個(gè)大模型驅(qū)動(dòng)、可以終身學(xué)習(xí)的游戲智能體,VOYAGER 在《我的世界》中玩出了高水平。這些 AI 智能體的先后涌現(xiàn),甚至讓人認(rèn)為是未來(lái)通用人工智能(AGI)的雛形。

很多 AI 領(lǐng)域的大佬和科技巨頭對(duì) AI 智能體的發(fā)展產(chǎn)生了極大興趣并寄予了厚望。特斯拉前 AI 總監(jiān)、今年年初回歸 OpenAI 的 Andrej Karpathy 在一次開發(fā)者活動(dòng)上透漏,每當(dāng)有新的 AI 智能體論文出現(xiàn)時(shí),OpenAI 內(nèi)部就會(huì)非常感興趣,并認(rèn)真地進(jìn)行討論。

圖片圖片

圖源:https://twitter.com/GPTDAOCN/status/1673781206121578498

那么不禁要問(wèn),AI 智能體到底有哪些組成部分呢?它的神奇之處又具體表現(xiàn)在哪些方面呢?

近日,OpenAI 安全系統(tǒng)(Safety Systems)負(fù)責(zé)人 Lilian Weng 寫了一篇關(guān)于 AI 智能體的博客。她認(rèn)為 AI 智能體的核心驅(qū)動(dòng)力是大語(yǔ)言模型,規(guī)劃(Planning)、 記憶(Memory)和工具使用(Tool Use)是實(shí)現(xiàn)它的三個(gè)關(guān)鍵組件。

圖片

先前機(jī)器之心文章《GPT-4 背后的開發(fā)者:七大團(tuán)隊(duì),三十余位華人》也曾介紹過(guò) Lilian Weng,她 2018 年加入 OpenAI,在 GPT-4 項(xiàng)目中主要參與預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí) & 對(duì)齊、模型安全等方面的工作。

Lilian Weng 對(duì)每個(gè)組件展開詳細(xì)剖析,并提供了一些案例研究,比如科學(xué)發(fā)現(xiàn)智能體、生成式智能體模擬和概念驗(yàn)證示例。對(duì)于 AI 智能體未來(lái)將面臨哪些挑戰(zhàn),她也給出了自己的觀點(diǎn)。

圖片圖片

機(jī)器之心對(duì)博客的核心內(nèi)容進(jìn)行了編譯整理。

博客鏈接:https://lilianweng.github.io/posts/2023-06-23-agent/

智能體系統(tǒng)的概念

在大語(yǔ)言模型(LLM)賦能的自主智能體系統(tǒng)中,LLM 充當(dāng)了智能體的大腦,其三個(gè)關(guān)鍵組件分別如下:

首先是規(guī)劃,它又分為以下內(nèi)容:

  • 子目標(biāo)和分解。智能體將大型任務(wù)分解為更小、可管理的子目標(biāo),從而高效處理復(fù)雜的任務(wù);
  • 反思和完善:智能體可以對(duì)過(guò)去的行為展開自我批評(píng)和自我反思,從錯(cuò)誤中吸取教訓(xùn),并針對(duì)未來(lái)的步驟進(jìn)行完善,提高最終結(jié)果的質(zhì)量。

其次是記憶,分為了短期記憶和長(zhǎng)期記憶:

  • 短期記憶:作者認(rèn)為所有的上下文學(xué)習(xí)(參見提示工程)都是利用模型的短期記憶來(lái)學(xué)習(xí)。
  • 長(zhǎng)期記憶:為智能體提供了長(zhǎng)時(shí)間保留和回憶(無(wú)限)信息的能力,通常利用外部向量存儲(chǔ)和快速檢索實(shí)現(xiàn)。

最后是工具使用:

  • 智能體學(xué)習(xí)調(diào)用外部 API 來(lái)獲取模型權(quán)重中缺失的額外信息(通常在預(yù)訓(xùn)練后很難更改),包括當(dāng)前信息、代碼執(zhí)行能力、對(duì)專有信息源的訪問(wèn)等。

下圖 1 為 LLM 賦能的自主智能體系統(tǒng)概覽。

圖片圖片

組件 1:規(guī)劃

我們知道,一項(xiàng)復(fù)雜的任務(wù)通常涉及許多步驟。智能體必須了解任務(wù)是什么并提前進(jìn)行規(guī)劃。

任務(wù)分解

首先是思維鏈(CoT)。它已經(jīng)成為增強(qiáng)復(fù)雜任務(wù)上模型性能的標(biāo)準(zhǔn)提示技術(shù)。在實(shí)現(xiàn)過(guò)程中,模型被指示「一步一步思考」,從而利用更多的測(cè)試時(shí)間計(jì)算將困難任務(wù)分解為更小、更簡(jiǎn)單的步驟。CoT 將大型任務(wù)轉(zhuǎn)化為多個(gè)可管理的小任務(wù),并解釋清楚模型的思維過(guò)程。

其次是思維樹(Tree of Thoughts)。它通過(guò)在每一步探索多種推理可能性來(lái)擴(kuò)展 CoT。首先將問(wèn)題分解為多個(gè)思考步驟,并在每個(gè)步驟中生成多個(gè)思考,創(chuàng)建一種樹結(jié)構(gòu)。搜索過(guò)程可以是廣度優(yōu)先搜索(BFS)或深度優(yōu)先搜索(DFS),其中每個(gè)狀態(tài)由分類器(通過(guò)提示)或多數(shù) vote 進(jìn)行評(píng)估。

具體地,任務(wù)分解過(guò)程可以通過(guò)以下三種方式完成:

  • 基于 LLM 的簡(jiǎn)單提示,比如「XYZ 的步驟是什么?」、「實(shí)現(xiàn) XYZ 的子目標(biāo)是什么?」;
  • 使用特定于任務(wù)的指示,比如「寫一個(gè)故事大綱」;
  • 人工輸入。

最后一種截然不同的方法是 LLM+P,它依賴外部經(jīng)典規(guī)劃器來(lái)進(jìn)行長(zhǎng)期規(guī)劃。該方法利用規(guī)劃領(lǐng)域定義語(yǔ)言(PDDL)作為描述規(guī)劃問(wèn)題的中間接口。在這一過(guò)程中,LLM (1) 將問(wèn)題轉(zhuǎn)化為「Problem PDDL」,然后 (2) 請(qǐng)求經(jīng)典規(guī)劃器基于現(xiàn)有的「Domain PDDL」生成 PDDL 規(guī)劃,最后 (3) 將 PDDL 規(guī)劃轉(zhuǎn)換回自然語(yǔ)言。

本質(zhì)上,規(guī)劃步驟被外包給了外部工具,并假設(shè)特定領(lǐng)域的 PDDL 和合適的規(guī)劃器可用。這在某些機(jī)器人設(shè)置中很常見,而在許多其他領(lǐng)域并不常見。

自我反思

自我反思(Self-reflection)允許自主智能體通過(guò)完善以往行動(dòng)決策和糾正以往錯(cuò)誤來(lái)迭代改進(jìn),因而會(huì)在出現(xiàn)試錯(cuò)的現(xiàn)實(shí)世界任務(wù)中發(fā)揮至關(guān)重要的作用。

ReAct 通過(guò)將動(dòng)作空間擴(kuò)展為一個(gè)任務(wù)特定的「離散動(dòng)作和語(yǔ)言空間的組合」,將推理和動(dòng)作集成在 LLM 中。離散動(dòng)作使 LLM 能夠與環(huán)境交互(例如使用維基百科搜索 API),而語(yǔ)言空間促使 LLM 以自然語(yǔ)言生成推理軌跡。

ReAct 提示模板包含了 LLM 思考的明確步驟,大致格式如下所示:

Thought: ...
Action: ...
Observation: ...
... (Repeated many times)

下圖 2 為知識(shí)密集型任務(wù)(如 HotpotQA、FEVER)和決策型任務(wù)(如 AlfWorld Env、WebShop)的推理軌跡示例。

圖片圖片

圖源:https://arxiv.org/abs/2210.03629

實(shí)驗(yàn)結(jié)果顯示,對(duì)于知識(shí)密集型任務(wù)和決策型任務(wù),ReAct 的效果優(yōu)于僅 Act 的基線方法,這類方法刪除了「Thought: ...」步驟。

Reflexion 框架則為智能體配備了動(dòng)態(tài)記憶和自我反思能力,提高了推理技能。它有一個(gè)標(biāo)準(zhǔn)的 RL 設(shè)置,其中獎(jiǎng)勵(lì)模型提供簡(jiǎn)單的二元獎(jiǎng)勵(lì),而動(dòng)作空間遵循 ReAct 中的設(shè)置。并且特定于任務(wù)的動(dòng)作空間通過(guò)語(yǔ)言進(jìn)行增強(qiáng),實(shí)現(xiàn)復(fù)雜推理步驟。在每個(gè)動(dòng)作 a_t 之后,智能體計(jì)算啟發(fā)式 h_t,并選擇性地根據(jù)自我反思結(jié)果來(lái)決定重置環(huán)境,從而開始新的試驗(yàn)。

下圖 3 為 Reflexion 框架概覽。

圖片圖片

圖源:https://arxiv.org/abs/2303.11366

啟發(fā)式功能決定軌跡何時(shí)開始效率低下或包含幻覺(jué),以及何時(shí)應(yīng)該停止。低效的規(guī)劃是指花費(fèi)太長(zhǎng)時(shí)間而沒(méi)有成功的軌跡?;糜X(jué)(Hallucination)被定義為遇到了一系列連續(xù)的相同動(dòng)作,而這些動(dòng)作導(dǎo)致環(huán)境中出現(xiàn)相同的觀察。

自我反思通過(guò)向 LLM 展示 two-shot 示例來(lái)創(chuàng)建,每個(gè)例子都是一對(duì)失敗的軌跡,它們是指導(dǎo)未來(lái)規(guī)劃中變化的理想反思。然后反思被添加到智能體的工作記憶中,最多三個(gè),用作查詢 LLM 的上下文。

下圖 4 為在 AlfWorld Env 和 HotpotQA 上的實(shí)驗(yàn)。其中在 AlfWorld 中,幻覺(jué)是比低效規(guī)劃更常見的失敗。

圖片

圖源:https://arxiv.org/abs/2303.11366

Chain of Hindsight(CoH)鼓勵(lì)模型通過(guò)顯式地呈現(xiàn)一系列過(guò)去的輸出(每個(gè)輸出都帶有反饋?zhàn)⑨專﹣?lái)改進(jìn)其自身的輸出。人類反饋數(shù)據(jù)是圖片的集合,其中 x 是提示,每個(gè) y_i 是模型補(bǔ)全,r_i 是 y_i 的人類評(píng)分,z_i 是相應(yīng)的人類提供的事后反饋。假設(shè)反饋元組按獎(jiǎng)勵(lì)排序圖片,該過(guò)程是有監(jiān)督的微調(diào)。數(shù)據(jù)的序列形式為圖片,其中≤i≤j≤n。該模型經(jīng)過(guò)微調(diào),僅預(yù)測(cè)以序列前綴為條件的 y_n,使得模型可以根據(jù)反饋序列自我反思,從而產(chǎn)生更好的輸出。該模型可以選擇性地在測(cè)試時(shí)接受到人類注釋者的多輪指令。

為了避免過(guò)擬合,CoH 添加正則化項(xiàng)來(lái)最大化預(yù)訓(xùn)練數(shù)據(jù)集的對(duì)數(shù)似然。同時(shí)為了避免捷徑和復(fù)制(由于反饋序列中有很多常見單詞),研究者在訓(xùn)練過(guò)程中隨機(jī)屏蔽了 0%- 5% 的過(guò)去 token。

實(shí)驗(yàn)中采用的訓(xùn)練數(shù)據(jù)集是 WebGPT 比較、人類反饋總結(jié)以及人類偏好數(shù)據(jù)集的組合。下圖 5 展示了使用 CoH 進(jìn)行微調(diào)后,模型可以按照指令生成具有序列增量改進(jìn)的輸出。

圖片圖片

圖源:https://arxiv.org/abs/2302.02676

CoH 的思路是呈現(xiàn)上下文中連續(xù)改進(jìn)輸出的歷史,并訓(xùn)練模型產(chǎn)生更好輸出。算法蒸餾(AD)將相同的思路應(yīng)用于強(qiáng)化學(xué)習(xí)任務(wù)中的跨情節(jié)軌跡,其中算法被封裝在長(zhǎng)期歷史條件策略中。

下圖 6 為算法蒸餾的工作原理。

圖片圖片

圖源:https://arxiv.org/abs/2210.14215

在算法蒸餾論文中,研究者假設(shè)任何生成一組學(xué)習(xí)歷史的算法都可以通過(guò)對(duì)動(dòng)作執(zhí)行行為克隆來(lái)蒸餾成神經(jīng)網(wǎng)絡(luò)。歷史數(shù)據(jù)由一組源策略生成,而每個(gè)源策略針對(duì)特定任務(wù)進(jìn)行訓(xùn)練。

在訓(xùn)練階段,每次 RL 運(yùn)行期間,研究者都會(huì)對(duì)隨機(jī)任務(wù)進(jìn)行采樣,并使用 multi-episode 歷史的子序列進(jìn)行訓(xùn)練,使得學(xué)習(xí)到的策略與任務(wù)無(wú)關(guān)。

實(shí)際上該模型的上下文窗口長(zhǎng)度有限,因此 episode 應(yīng)足夠短以構(gòu)建 multi-episode 歷史。要學(xué)習(xí)近最優(yōu)的上下文 RL 算法,需要 2 到 4 個(gè) episode 的 multi-episodic 上下文。上下文 RL 的出現(xiàn)需要足夠長(zhǎng)的上下文。

與三個(gè)基線相比,包括 ED(專家蒸餾,用專家軌跡而不是學(xué)習(xí)歷史進(jìn)行行為克?。?、源策略(用于生成 UCB 蒸餾的軌跡)、RL^2( 2017 年提出的一種在線強(qiáng)化學(xué)習(xí)算法,作為上限進(jìn)行比較)。盡管 AD 算法僅使用離線強(qiáng)化學(xué)習(xí),但其性能接近 RL^2,并且學(xué)習(xí)速度比其他基線快得多。當(dāng)以源策略的部分訓(xùn)練歷史為條件時(shí),AD 的改進(jìn)速度也比 ED 基線快得多。

下圖 7 為 AD、ED、源策略和 RL^2 的比較。

圖片圖片

組件 2:記憶

作者表示,這一章節(jié)借助了 ChatGPT 來(lái)幫忙起草。下面我們看看這部分具體內(nèi)容。

記憶類型

記憶類型分為三類:感知記憶、短期記憶(STM)或工作記憶以及長(zhǎng)期記憶(LTM)。

感知記憶:這是記憶的早期階段,它能夠在原始刺激結(jié)束后保持對(duì)感官信息(視覺(jué)、聽覺(jué)等)的印象。感知記憶通常只能持續(xù)幾秒鐘。其子類包括圖像記憶(視覺(jué))、回聲記憶(聽覺(jué))和觸摸記憶(觸感)。

短期記憶(STM)或工作記憶:短期記憶存儲(chǔ)著我們目前所知道的信息,以及執(zhí)行復(fù)雜認(rèn)知任務(wù)(如學(xué)習(xí)和推理)所需要的信息。一般來(lái)講,短期記憶持續(xù) 20-30 秒。

長(zhǎng)期記憶:長(zhǎng)時(shí)記憶可以將信息存儲(chǔ)很長(zhǎng)時(shí)間,從幾天到幾十年不等,其存儲(chǔ)容量基本上是無(wú)限的。LTM 有兩種子類型:

  • 顯式、陳述性記憶:這是對(duì)事實(shí)和事件的記憶,指的是那些可以有意識(shí)地回憶起來(lái)的記憶,包括情景記憶(事件和經(jīng)過(guò))和語(yǔ)義記憶(事實(shí)和概念);
  • 隱式、程序性記憶:這種類型的記憶是無(wú)意識(shí)的,涉及自主執(zhí)行的技能和慣例,比如騎自行車或在鍵盤上打字。

圖片圖片

人類記憶分類

參考人類記憶的分類,我們可以得到以下映射:

  • 感知記憶作為原始輸入(包括文本、圖像或其他模態(tài))的學(xué)習(xí)嵌入表示。
  • 短期記憶作為上下文學(xué)習(xí),由于受到 Transformer 有限上下文窗口長(zhǎng)度的限制,短期記憶是短暫且有限的。
  • 長(zhǎng)期記憶作為外部向量存儲(chǔ),智能體可以查詢、快速檢索,從而進(jìn)行訪問(wèn)。

最大內(nèi)積搜索(MIPS)

外部記憶可以緩解注意力的一些限制。為了更好的處理外部記憶,一個(gè)常見的做法是將信息的嵌入表示保存到一個(gè)向量存儲(chǔ)數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)可以支持快速的最大內(nèi)積搜索(MIPS)。為了優(yōu)化檢索速度,研究者經(jīng)常使用的方法是近似最近鄰(ANN,approximate nearest neighbors)算法。

在加速 MIPS 中,經(jīng)常用到的 ANN 算法包括:

局部敏感哈希(LSH):它引入了一個(gè)哈希函數(shù),使得相似的輸入項(xiàng)以高概率映射到相同的 buckets 中,其中 buckets 的數(shù)量遠(yuǎn)遠(yuǎn)小于輸入的數(shù)量。

近似最近鄰(ANNOY):該方法的核心數(shù)據(jù)結(jié)構(gòu)是隨機(jī)投影樹(Random Projection Trees),它是一組二叉樹,其中每個(gè)非葉節(jié)點(diǎn)表示一個(gè)超平面,將輸入空間分割為兩部分,而每個(gè)葉節(jié)點(diǎn)則存儲(chǔ)一個(gè)數(shù)據(jù)點(diǎn)。樹是獨(dú)立且隨機(jī)構(gòu)建的,因此在某種程度上類似于哈希函數(shù)。這個(gè)想法與 KD 樹(一種將空間中點(diǎn)分開存儲(chǔ)的樹狀數(shù)據(jù)結(jié)構(gòu))密切相關(guān),但擴(kuò)展性更強(qiáng)。

分層可導(dǎo)小世界(HNSW,Hierarchical Navigable Small World):這個(gè)方法受到小世界網(wǎng)絡(luò)(small world networks,是一種圖結(jié)構(gòu))的啟發(fā),其中大多數(shù)節(jié)點(diǎn)可以在很少的步驟內(nèi)與其他節(jié)點(diǎn)相連。HNSW 構(gòu)建了這些小世界圖的層次結(jié)構(gòu),其中底層包含實(shí)際的數(shù)據(jù)點(diǎn),中間層創(chuàng)建了快捷方式以加速搜索。在執(zhí)行搜索時(shí),HNSW 從頂層的一個(gè)隨機(jī)節(jié)點(diǎn)開始,并向目標(biāo)節(jié)點(diǎn)導(dǎo)航,當(dāng)無(wú)法再靠近目標(biāo)時(shí),它向下移動(dòng)到下一層,直到達(dá)到底層。在上層進(jìn)行的每一次移動(dòng)都有可能在數(shù)據(jù)空間中覆蓋較大的距離,而在下層進(jìn)行的每一次移動(dòng)都會(huì)提高搜索的精度。

Facebook AI (現(xiàn) Meta AI)團(tuán)隊(duì)開源的庫(kù) FAISS:FAISS 運(yùn)作的基本假設(shè)是,在高維空間中,節(jié)點(diǎn)之間的距離遵循高斯分布,因此應(yīng)該存在數(shù)據(jù)點(diǎn)的聚類。FAISS 通過(guò)將向量空間分割成聚類并在聚類內(nèi)進(jìn)行量化來(lái)應(yīng)用向量量化。

可擴(kuò)展最近鄰(ScaNN):ScaNN 的主要?jiǎng)?chuàng)新是各向異性矢量量化(Anisotropic Vector Quantization,AVQ),它將數(shù)據(jù)點(diǎn) x_i 量化為圖片,使得內(nèi)積盡可能接近原始距離,從而減少了數(shù)據(jù)點(diǎn)之間的距離誤差。

圖片圖片

MIPS 算法比較。

組件 3:使用工具

使用工具是人類的一個(gè)顯著特點(diǎn)。我們創(chuàng)造、修改和利用外部物體來(lái)探索和認(rèn)知現(xiàn)實(shí)世界。類似地,給 LLM 配備外部工具可以大幅擴(kuò)展模型的能力。

一張海獺在水中漂浮時(shí)用石頭敲開貝殼的照片。雖然其他一些動(dòng)物也能使用工具,但其復(fù)雜性無(wú)法與人類相比。圖源:Animals using tools

MRKL(Karpas et al. 2022)是一種用于自主智能體的神經(jīng) - 符號(hào)(neuro-symbolic)架構(gòu),命名來(lái)源于模塊化推理(Modular Reasoning)、知識(shí)(Knowledge)和語(yǔ)言(Language)的簡(jiǎn)稱。每個(gè) MRKL 系統(tǒng)包含一些「專家」模塊,通用 LLM 作為一個(gè)路由器,負(fù)責(zé)將查詢路由到最合適的專家模塊。這些模塊可以是神經(jīng)的(如深度學(xué)習(xí)模型),也可以是符號(hào)的(如數(shù)學(xué)計(jì)算器、貨幣轉(zhuǎn)換器、天氣 API)。

MRKL 的研究團(tuán)隊(duì)使用數(shù)學(xué)計(jì)算作為測(cè)試案例,進(jìn)行了一個(gè)微調(diào) LLM 調(diào)用計(jì)算器的實(shí)驗(yàn)。由于 LLM(7B  Jurassic1-large 模型)未能可靠地提取基本計(jì)算的正確 argument,因此該實(shí)驗(yàn)表明解決口語(yǔ)簡(jiǎn)單闡述的數(shù)學(xué)問(wèn)題比明確說(shuō)明的數(shù)學(xué)問(wèn)題更難。該實(shí)驗(yàn)結(jié)果強(qiáng)調(diào)了當(dāng)外部符號(hào)工具能夠可靠地工作時(shí),知道何時(shí)和如何使用這些工具是至關(guān)重要的,而這由 LLM 的能力決定。

另外兩項(xiàng)研究 TALM(Parisi et al. 2022)和 Toolformer(Schick et al. 2023)都對(duì)語(yǔ)言模型(LM)進(jìn)行了微調(diào),以學(xué)習(xí)使用外部工具 API。數(shù)據(jù)集則是根據(jù)新增加的 API 調(diào)用注釋是否能提高模型的輸出質(zhì)量來(lái)擴(kuò)展的。

ChatGPT 插件和 OpenAI 的 API 函數(shù)調(diào)用是 LLM 使用工具增強(qiáng)能力的最好實(shí)例。工具 API 的集合可以由其他開發(fā)者提供(插件)或自定義(函數(shù)調(diào)用)。

HuggingGPT(Shen et al. 2023)則是一個(gè)使用 ChatGPT 作為任務(wù)規(guī)劃器的框架,根據(jù)模型描述選擇 HuggingFace 平臺(tái)中可用的模型,并根據(jù)執(zhí)行結(jié)果歸納總結(jié)出響應(yīng)。

圖片圖片

HuggingGPT 工作原理示意圖。圖源:Shen et al. 2023

HuggingGPT 系統(tǒng)由 4 個(gè)階段組成:

(1)任務(wù)規(guī)劃:LLM 作為大腦,將用戶請(qǐng)求解析為多個(gè)任務(wù)。每個(gè)任務(wù)有四個(gè)關(guān)聯(lián)屬性:任務(wù)類型、任務(wù) ID、依賴項(xiàng)和參數(shù)。研究團(tuán)隊(duì)使用少量例子來(lái)指導(dǎo) LLM 進(jìn)行任務(wù)解析和規(guī)劃。

The AI assistant can parse user input to several tasks: [{"task": task, "id", task_id, "dep": dependency_task_ids, "args": {"text": text, "image": URL, "audio": URL, "video": URL}}]. The "dep" field denotes the id of the previous task which generates a new resource that the current task relies on. A special tag "-task_id" refers to the generated text image, audio and video in the dependency task with id as task_id. The task MUST be selected from the following options: {{ Available Task List }}. There is a logical relationship between tasks, please note their order. If the user input can't be parsed, you need to reply empty JSON. Here are several cases for your reference: {{ Demonstrations }}. The chat history is recorded as {{ Chat History }}. From this chat history, you can find the path of the user-mentioned resources for your task planning.

(2) 模型選擇:LLM 會(huì)從一個(gè)模型列表中選擇模型,將任務(wù)分配給專家模型。由于上下文長(zhǎng)度有限,需要進(jìn)行基于任務(wù)類型的過(guò)濾。

Given the user request and the call command, the AI assistant helps the user to select a suitable model from a list of models to process the user request. The AI assistant merely outputs the model id of the most appropriate model. The output must be in a strict JSON format: "id": "id", "reason": "your detail reason for the choice". We have a list of models for you to choose from {{ Candidate Models }}. Please select one model from the list.

(3) 任務(wù)執(zhí)行:專家模型執(zhí)行具體任務(wù),并記錄執(zhí)行結(jié)果。

With the input and the inference results, the AI assistant needs to describe the process and results. The previous stages can be formed as - User Input: {{ User Input }}, Task Planning: {{ Tasks }}, Model Selection: {{ Model Assignment }}, Task Execution: {{ Predictions }}. You must first answer the user's request in a straightforward manner. Then describe the task process and show your analysis and model inference results to the user in the first person. If inference results contain a file path, must tell the user the complete file path.

(4) 響應(yīng)生成:LLM 接收?qǐng)?zhí)行結(jié)果,并向用戶提供總體結(jié)果。

為了將 HuggingGPT 投入實(shí)際使用,需要解決幾個(gè)挑戰(zhàn):(1)需要提高效率,因?yàn)?LLM 推理和與其他模型的交互都會(huì)減慢進(jìn)程;(2)它依賴一個(gè)長(zhǎng)的上下文窗口來(lái)溝通復(fù)雜的任務(wù)內(nèi)容;(3)提高 LLM 輸出和外部模型服務(wù)的穩(wěn)定性。

API-Bank(Li et al. 2023)是一個(gè)評(píng)估工具增強(qiáng)型 LLM 性能的基準(zhǔn)。它包含 53 個(gè)常用的 API 工具,一個(gè)完整的工具增強(qiáng)型 LLM 工作流,以及涉及 568 個(gè) API 調(diào)用的 264 個(gè)已注釋的對(duì)話。API-Bank 基準(zhǔn)中可選擇的 API 相當(dāng)多樣化,包括搜索引擎、計(jì)算器、日歷查詢、智能家居控制、日程管理等等。LLM 首先可以通過(guò) API 搜索引擎找到合適的 API 進(jìn)行調(diào)用,然后使用相關(guān)文檔調(diào)用 API。

圖片圖片

LLM 在 API-BANK 中進(jìn)行 API 調(diào)用的偽代碼。(圖片來(lái)源:Li et al. 2023)

在 API-Bank 的工作流中,LLM 需要做出一些決定,包括:

  • 是否需要調(diào)用 API;
  • 確定要調(diào)用的正確 API:如果不夠好,LLM 需要反復(fù)修改 API 輸入(例如更換搜索引擎 API 的搜索關(guān)鍵詞);
  • 基于 API 結(jié)果的響應(yīng):如果結(jié)果不滿意,模型可以選擇優(yōu)化并再次調(diào)用。

這個(gè)基準(zhǔn)在三個(gè)層次上評(píng)估了智能體的工具使用能力:

  • 調(diào)用 API 的能力:根據(jù) API 的描述,模型需要確定是否調(diào)用給定的 API,正確地調(diào)用,并對(duì) API 的返回結(jié)果作出正確的反應(yīng);
  • 檢索 API 的能力。模型需要搜索可能解決用戶需求的 API,并通過(guò)閱讀文檔學(xué)習(xí)如何使用它們。
  • 檢索和調(diào)用之外規(guī)劃 API 的能力。考慮到不明確的用戶要求(例如安排小組會(huì)議,為旅行預(yù)訂航班 / 酒店 / 餐廳),模型可能需要進(jìn)行多次 API 調(diào)用來(lái)解決實(shí)際問(wèn)題。

案例研究

用于科學(xué)發(fā)現(xiàn)的智能體

ChemCrow 是一個(gè)由大型語(yǔ)言模型(LLM)設(shè)計(jì)的化學(xué)智能體,旨在完成有機(jī)合成、藥物發(fā)現(xiàn)和材料設(shè)計(jì)等任務(wù)。通過(guò)整合 17 種專家設(shè)計(jì)的工具,ChemCrow 提高了 LLM 在化學(xué)方面的性能,并衍生出新的能力。

關(guān)于 ChemCrow ,一個(gè)有趣的觀察是,盡管基于 LLM 的評(píng)估結(jié)果得出的結(jié)論是 GPT-4 和 ChemCrow 的性能幾乎相當(dāng),但經(jīng)過(guò)專家人工評(píng)估表明,ChemCrow 在很大程度上優(yōu)于 GPT-4。這意味著在需要深度專業(yè)知識(shí)的領(lǐng)域使用 LLM 來(lái)評(píng)估其自身的性能可能存在潛在問(wèn)題。缺乏專業(yè)知識(shí)可能導(dǎo)致 LLM 不了解其缺陷,因此無(wú)法很好地判斷任務(wù)結(jié)果的正確性。

Boiko 等人的論文則研究了用于科學(xué)發(fā)現(xiàn)的 AI 智能體,它被用來(lái)處理復(fù)雜科學(xué)實(shí)驗(yàn)的自主設(shè)計(jì)、規(guī)劃和執(zhí)行。這個(gè)智能體可以使用工具瀏覽互聯(lián)網(wǎng)、閱讀文檔、執(zhí)行代碼、調(diào)用機(jī)器人實(shí)驗(yàn) API 和利用其他 LLM。

舉例來(lái)說(shuō),當(dāng)智能體收到提示「develop a novel anticancer drug(開發(fā)一種新的抗癌藥物)」時(shí),其推理步驟是這樣的:

  • 詢問(wèn)當(dāng)前抗癌藥物發(fā)現(xiàn)的趨勢(shì);
  • 選定目標(biāo);
  • 開始尋找針對(duì)這個(gè)目標(biāo)的化合物;
  • 一旦確定了化合物,模型就嘗試合成它。

生產(chǎn)式智能體

生成式智能體將 LLM 與記憶、規(guī)劃和反射機(jī)制相結(jié)合,使智能體能夠根據(jù)過(guò)去的經(jīng)驗(yàn)做出反應(yīng),并與其他智能體進(jìn)行交互。

圖片

生成式智能體架構(gòu)圖。

概念驗(yàn)證示例

這里作者提到了 AutoGPT(自主人工智能),有了它,人類無(wú)需插手,AutoGPT 就能自主完成任務(wù)。Andrej Karpathy 也大贊:「AutoGPT 是 prompt 工程的下一個(gè)前沿。」

具體來(lái)說(shuō),AutoGPT 相當(dāng)于給基于 GPT 的模型一個(gè)內(nèi)存和一個(gè)身體。有了它,你可以把一項(xiàng)任務(wù)交給 AI 智能體,讓它自主地提出一個(gè)計(jì)劃,然后執(zhí)行計(jì)劃。此外其還具有互聯(lián)網(wǎng)訪問(wèn)、長(zhǎng)期和短期內(nèi)存管理、用于文本生成的 GPT-4 實(shí)例以及使用 GPT-3.5 進(jìn)行文件存儲(chǔ)和生成摘要等功能。AutoGPT 用處很多,可用來(lái)分析市場(chǎng)并提出交易策略、提供客戶服務(wù)、進(jìn)行營(yíng)銷等其他需要持續(xù)更新的任務(wù)。

此外,作者還列舉了 GPT-Engineer 項(xiàng)目,和代碼生成類工具差不多,其能根據(jù)提示生成代碼庫(kù)(codebase)。就像前面講到的,只要你提出合理的要求,GPT-Engineer 都能完成。

挑戰(zhàn)

在了解了構(gòu)建以 LLM 為中心的智能體關(guān)鍵思想和演示之后,我們應(yīng)該也看到一些限制:

有限的上下文長(zhǎng)度:LLM 處理上下文信息的能力有限,盡管 self-reflection 等機(jī)制可以從過(guò)去的錯(cuò)誤中學(xué)習(xí),但更長(zhǎng)或無(wú)限的上下文窗口將會(huì)帶來(lái)很大的好處。雖然向量存儲(chǔ)和檢索可以提供對(duì)更大知識(shí)庫(kù)的訪問(wèn),但它們的表示能力不如全注意力(full attention)強(qiáng)大。

LLM 在長(zhǎng)期規(guī)劃和任務(wù)分解中的挑戰(zhàn):LLM 在面對(duì)意外錯(cuò)誤時(shí)很難調(diào)整規(guī)劃并進(jìn)行改正,與人類可以不斷試錯(cuò)相比,LLM 魯棒性還是比較差的。

自然語(yǔ)言接口的可靠性:當(dāng)前的智能體系統(tǒng)依賴于自然語(yǔ)言作為 LLM 與內(nèi)存和工具等外部組件之間的接口。然而,模型輸出的可靠性是值得懷疑的,因?yàn)?LLM 可能會(huì)出現(xiàn)格式錯(cuò)誤,偶爾還會(huì)表現(xiàn)出叛逆行為(例如,拒絕遵循指令)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-07-08 09:49:54

2024-09-09 09:00:00

2025-01-26 10:25:53

2022-09-13 14:54:08

模型AI

2024-10-14 10:00:00

OpenAI代碼

2023-05-05 18:09:41

Google開源OpenAI

2025-01-13 10:30:59

2021-11-23 11:51:49

公共云跟蹤網(wǎng)絡(luò)網(wǎng)絡(luò)掃描

2011-04-29 09:22:22

2024-11-04 15:54:16

2023-04-11 13:55:20

AI游戲

2025-01-24 15:09:43

2023-04-25 11:31:33

智能AI

2025-01-24 07:26:07

2024-05-24 08:42:29

智能體訓(xùn)練

2023-03-06 15:24:54

谷歌人才

2025-01-15 11:58:06

2025-04-01 08:05:00

智能體人工智能MCP

2022-06-21 14:08:25

AIGitHub模仿人類

2023-12-12 13:16:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)