自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepMind首提「統(tǒng)一智能體」!大模型做推理,賦能終身學(xué)習(xí),AI王者加冕

人工智能
通過利用這些模型中包含的先驗知識,可以設(shè)計出更好的智能體,能夠直接在現(xiàn)實世界中解決具有挑戰(zhàn)性的任務(wù)。

AI智能體的研究,已經(jīng)卷起來了。

一直以來,基礎(chǔ)模型不斷涌現(xiàn),還未有過統(tǒng)一的智能體。

來自Google DeepMind研究團隊,設(shè)計了一個框架,使用語言作為核心推理工具,探索讓智能體解決一系列基本的RL挑戰(zhàn)。

比如,高效探索、重復(fù)使用經(jīng)驗數(shù)據(jù)、從觀察中學(xué)習(xí)。

要知道,這些挑戰(zhàn)從傳統(tǒng)意義上來說,都需要專門的、垂直設(shè)計的算法。

圖片圖片

論文地址:https://arxiv.org/pdf/2307.09668.pdf

研究人員在一個稀疏獎勵模擬智能體操作環(huán)境中進行了測試。結(jié)果顯示,AI智能體在探索效率,重用數(shù)據(jù)等能力方面,得到了很大提升。

那么,DeepMind設(shè)計了一個怎樣的框架?

AI智能體:語言做核心

一般來說,智能體只有與環(huán)境相互作用后,才能從中學(xué)習(xí),但這個過程需要不斷進行實驗和試錯。

而現(xiàn)在,利用基礎(chǔ)模型已有的知識,可以極大地推進這個過程。

對此,研究人員設(shè)計了一個框架,將語言置于RL智能體的核心,特別是在從頭學(xué)習(xí)的背景下。

結(jié)果表明,該框架利用LLM和VLM,可以解決RL環(huán)境中的一系列基本問題,比如:

1) 有效地探索稀疏獎勵環(huán)境

2) 重新使用收集到的數(shù)據(jù)啟動新任務(wù)的順序?qū)W習(xí)

3) 安排學(xué)習(xí)技能來解決新任務(wù)

圖片圖片

以語言為中心的智能體框架

這項工作的目標(biāo)是,研究使用基礎(chǔ)模型,預(yù)訓(xùn)練的大量圖像和文本數(shù)據(jù)集,以設(shè)計一個更通用和統(tǒng)一的RL機器人智能體。

為此,智能體首先需要將視覺輸入映射到文本描述。

其次,需要提示一個帶有文本描述和任務(wù)描述的LLM來為智能體提供語言指令。最后,智能體需要將LLM的輸出轉(zhuǎn)化為行動。

具體來講,需要經(jīng)過以下四個過程:

- 使用VLM的連接視覺和語言

為了以語言形式描述從RGB攝像頭獲取的視覺輸入,研究人員使用CLIP這一大型對比視覺語言模型。

圖片圖片

CLIP計算觀察結(jié)果與文字描述之間相似性的示例

- 語言推理

語言模型以語言形式的提示作為輸入,通過自動回歸計算下一個token的概率分布,并從該分布中采樣,產(chǎn)生語言作為輸出。

- 把指令根植行動

LLMs提供的語言目標(biāo),然后根植到使用語言條件化策略網(wǎng)絡(luò)的行動中。

- 收集和推斷學(xué)習(xí)范式

智能體通過收集和推斷范式的啟發(fā),與環(huán)境的互動中學(xué)習(xí)。

圖片圖片

實驗結(jié)果

通過使用語言作為代理的核心,為解決RL中的一系列基本挑戰(zhàn)提供了一個統(tǒng)一的框架。

接下來,就這這樣智能體的能力如何,再此,研究人員重點從探索、重用過去的經(jīng)驗數(shù)據(jù)、安排和重用技能以及從觀察中學(xué)習(xí)進行了描述。

探索——通過語言生成課程

這里,團隊演示了一個RL智能體如何利用LLMs的優(yōu)勢,利用課程的文本子目標(biāo),產(chǎn)生沒有任何過去的環(huán)境互動。

如下,學(xué)習(xí)曲線清楚地說明了,最新方法是如何比所有任務(wù)的基線更有效率。

值得注意的是,智能體的學(xué)習(xí)曲線在Triple Stack任務(wù)中迅速增長,而基線智能體仍然必須得到一個單一的獎勵,因為任務(wù)的稀疏性是106。

圖片圖片

左圖:收集和推斷管線;中右圖:框架的學(xué)習(xí)曲線,以及「堆棧紅藍」和「三重堆?!谷蝿?wù)的基準(zhǔn)學(xué)習(xí)曲線

隨著任務(wù)變得越來越稀疏,LLM提出的子目標(biāo)數(shù)量也增加了。

這使得增長變得越來越緩慢,這表明最新框架可以擴展到更難的任務(wù),并使它們易于處理。

此外,與之前需要精心設(shè)計的內(nèi)在獎勵,或其他探索獎勵的方法不同,最新框架可以直接利用LLM和VLM的先驗知識,生成一個具有語義意義的探索課程。

從而為即使在獎勵稀少的環(huán)境中,也能以自我激勵的方式進行探索。

通過重用離線數(shù)據(jù)來學(xué)習(xí)任務(wù)

研究顯示,研究人員繪制了智能體在環(huán)境中,需要采取多少個相互作用步驟,才能在每個新任務(wù)上達到50%的成功率,如圖所示。

實驗清楚地說明了,最新框架在重用為以前的任務(wù)收集的數(shù)據(jù)方面的有效性,提高了新任務(wù)的學(xué)習(xí)效率。

圖片圖片

結(jié)果表明,谷歌框架可用于釋放機器人智能體的終身學(xué)習(xí)能力:連續(xù)學(xué)習(xí)的任務(wù)越多,學(xué)習(xí)下一個任務(wù)的速度就越快。

這對將智能體部署到開放式環(huán)境(尤其是現(xiàn)實世界)中尤其有利。

通過利用智能體在整個生命周期中遇到的數(shù)據(jù),智能體學(xué)習(xí)新任務(wù)的速度應(yīng)該遠遠快于純粹的從頭開始學(xué)習(xí)。

圖片圖片

從觀察中學(xué)習(xí): 從視頻到技能的映射

從觀察外部智能體中學(xué)習(xí)是一般智能體的理想能力,但這通常需要特別設(shè)計的算法和模型。

研究人員設(shè)計的智能體,可以以專家執(zhí)行任務(wù)的視頻為條件,從觀察中一次性學(xué)習(xí)。

測試中,智能體會拍攝一段人類用手堆放物品的視頻。

盡管只對來自MuJoCo模擬的圖像進行了微調(diào),VLM還是能夠準(zhǔn)確地預(yù)測,描繪機器人或人類手臂的真實世界圖像上的文本-圖像對應(yīng)關(guān)系。

圖片

研究的初步結(jié)果表明,利用基礎(chǔ)模型可以讓通用的RL算法能夠解決各種問題,提高效率和通用性。

通過利用這些模型中包含的先驗知識,可以設(shè)計出更好的智能體,能夠直接在現(xiàn)實世界中解決具有挑戰(zhàn)性的任務(wù)。

參考資料:

https://arxiv.org/pdf/2307.09668.pdf

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-07-21 14:58:05

智能開發(fā)

2024-08-07 14:50:00

2021-09-10 16:31:56

人工智能機器學(xué)習(xí)技術(shù)

2024-10-22 08:55:40

2025-04-30 16:48:07

2023-08-28 06:52:29

2024-04-23 13:24:48

琶洲算法大賽

2012-06-26 13:06:53

智能電視app標(biāo)準(zhǔn)

2021-06-24 13:20:29

人工智能AI

2019-04-26 12:31:11

新華三

2024-12-03 09:11:45

2024-09-05 15:48:21

2022-03-28 14:23:26

HarmonyAI算法統(tǒng)一推理接口

2024-10-09 08:36:52

2012-11-07 14:17:30

存儲中心數(shù)據(jù)災(zāi)備

2024-05-29 12:13:50

點贊
收藏

51CTO技術(shù)棧公眾號