自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

三「?!孤?lián)盟,谷歌DeepMind締造終身學(xué)習(xí)智能體!

人工智能 新聞
打造終身學(xué)習(xí)智能體,是研究界以來一直追求的目標(biāo)。最近,帝國理工聯(lián)手谷歌DeepMind打造了創(chuàng)新聯(lián)合框架擴(kuò)散增強(qiáng)智能體(DAAG),利用LLM+VLM+DM三大模型,讓AI完成遷移學(xué)習(xí)、高效探索。

為了讓AI實(shí)現(xiàn)終身學(xué)習(xí),帝國理工、谷歌DeepMind竟動(dòng)用了三大基礎(chǔ)模型!

「大模型+視覺語言模型+擴(kuò)散模型」三模并用,構(gòu)建了全新框架——擴(kuò)散增強(qiáng)智能體(DAAG)。

DAAG的誕生,就是讓具身智能體進(jìn)行遷移學(xué)習(xí)、高效探索。

圖片

最新框架利用了「后見之明經(jīng)驗(yàn)增強(qiáng)」(Hindsight Experience Augmentation)技術(shù),讓擴(kuò)散模型以時(shí)間和幾何一致的方式轉(zhuǎn)換視頻。

讓其與目標(biāo)指令對齊,從而對智能體過去經(jīng)驗(yàn)進(jìn)行重新標(biāo)記。

圖片

論文地址:https://arxiv.org/pdf/2407.20798

大模型在無需人類監(jiān)督情況下,自主協(xié)調(diào)這一過程,使其非常適合終身學(xué)習(xí)場景。

經(jīng)過一系列實(shí)驗(yàn),結(jié)果表明,DAAG改進(jìn)了獎(jiǎng)勵(lì)檢測器的學(xué)習(xí)、過去經(jīng)驗(yàn)的遷移以及新任務(wù)的獲取。

這些都是開發(fā)高效終身學(xué)習(xí)智能體的關(guān)鍵能力。

圖片

無需人類監(jiān)督,AI終身強(qiáng)化學(xué)習(xí)

一直以來,具身AI的訓(xùn)練數(shù)據(jù)極其稀缺,特別是在強(qiáng)化學(xué)習(xí)場景中尤為突出。

因?yàn)檫@類智能體需要與物體環(huán)境進(jìn)行互動(dòng),而傳感器和執(zhí)行器成為了主要瓶頸。

然而,克服這一挑戰(zhàn)需要開發(fā)出,能夠從有限經(jīng)驗(yàn)中高效學(xué)習(xí)、適應(yīng)的智能體。

對此,研究人員假設(shè),具身智能體可以通過利用過去經(jīng)驗(yàn),有效探索,并在任務(wù)之間轉(zhuǎn)移知識,實(shí)現(xiàn)更高數(shù)據(jù)搬運(yùn)效率。

即便在沒有外部獎(jiǎng)勵(lì)的情況下,他們希望讓智能體可以自主設(shè)置、評分子目標(biāo),并能重新利用之前任務(wù)經(jīng)驗(yàn),加速新任務(wù)學(xué)習(xí)。

因此,最新研究中,團(tuán)隊(duì)成員使用預(yù)訓(xùn)練的基礎(chǔ)模型Gemini 1.0 Pro來解決這些問題。

通過視覺、語言和擴(kuò)散模型的相互作用,讓智能體更有效推理任務(wù),解釋環(huán)境和過去經(jīng)驗(yàn),并操縱自身收集的數(shù)據(jù),以重新用于新任務(wù)和目標(biāo)。

更重要的是,DAAGG可以自主運(yùn)行,無需人類監(jiān)督,凸顯其特別適合終身強(qiáng)化學(xué)習(xí)的場景。

如下圖1,是擴(kuò)散增強(qiáng)智能體完整框架。

其中,LLM充當(dāng)主要控制器/大腦,查詢和指導(dǎo)VLM和DM,以及智能體的高級行為。

圖片

通過一系列在不同環(huán)境中的實(shí)驗(yàn),研究人員證明了DAAGG在改進(jìn)智能體在關(guān)鍵能力上的表現(xiàn):

1)用擴(kuò)散模型生成合成樣本增強(qiáng)的數(shù)據(jù),微調(diào)視覺語言模型,自主計(jì)算已見和未見任務(wù)的獎(jiǎng)勵(lì);

2)為給定任務(wù)設(shè)計(jì)和識別有用的子目標(biāo),通過擴(kuò)散模型修改記錄的觀察,重新利用原失敗的軌跡,從而更有效地探索和學(xué)習(xí)新任務(wù);

3)提取相關(guān)數(shù)據(jù),使用擴(kuò)散模型重新利用其他軌跡,有效地將先前收集的數(shù)據(jù)轉(zhuǎn)移到新任務(wù)中。

圖2所示,DAAGG方法如何通過擴(kuò)散增強(qiáng),重新利用智能體的經(jīng)驗(yàn)。

研究人員提出了一個(gè)擴(kuò)散管道,提高了幾何和時(shí)間一致性,并修改了智能體收集的部分視頻。

圖片

方法

DAAGG具體設(shè)計(jì)方法如下。

研究人員將環(huán)境形式化為「馬爾可夫決策過程」(MDP):在每個(gè)時(shí)間步t,環(huán)境和智能體處于狀態(tài)s ∈ S。

從該狀態(tài),智能體接收視覺觀察o ∈ O,并可以執(zhí)行動(dòng)作a ∈ A。

在每個(gè)回合中,智能體接收一個(gè)指令,這是用自然語言T描述的要執(zhí)行的任務(wù)。

如果任務(wù)成功執(zhí)行,智能體可以在回合結(jié)束時(shí),獲得獎(jiǎng)勵(lì)r = +1。

這項(xiàng)論文中,除了獨(dú)立學(xué)習(xí)新任務(wù)外,作者還研究了DAAGG框架以終身方式連續(xù)學(xué)習(xí)任務(wù)的能力。

因此,智能體將交互經(jīng)驗(yàn)存儲在兩個(gè)緩沖區(qū)中:當(dāng)前任務(wù)緩沖區(qū),稱之為新緩沖區(qū)圖片:這個(gè)緩沖區(qū)在每個(gè)新任務(wù)開始時(shí)初始化。

然后是離線終身緩沖區(qū)圖片:智能體將所有任務(wù)的所有回合存儲在這個(gè)緩沖區(qū)中,無論它們是否成功。

因此,后者是一個(gè)不斷增長的經(jīng)驗(yàn)緩沖區(qū),智能體隨后可以用它來引導(dǎo)新任務(wù)的學(xué)習(xí)。

以下是,作者選用的三種模型目的:

- 大模型LLM:編排智能體的行為,以及指導(dǎo)VLM和DM。LLM接受文本指令和數(shù)據(jù),并輸出文本響應(yīng)。而且,利用LLM將任務(wù)分解為子目標(biāo),比較不同任務(wù)/指令的相似性,并查詢VLM和DM。

- 視覺語言模型VLM:使用的是對比模型CLIP。CLIP由兩個(gè)分支組成:圖像分支和文本分支,它們分別以視覺觀察和文本描述作為輸入,最終輸出相同大小的嵌入向量。

- 擴(kuò)散Pipeline:研究的核心是通過語言指導(dǎo)的擴(kuò)散模型,修改視覺觀察。擴(kuò)散Pipeline是為了提取智能體記錄的觀察圖片或一系列時(shí)間觀察圖片,并保持幾何和時(shí)間一致性的同時(shí),修改觀察中的一個(gè)或多個(gè)對象。

如下是,擴(kuò)散Pipeline的示意圖。

圖片

在圖5中,作者比較了ROISE和自己提出的Pipeline輸出。前者不能保持對象姿勢和外觀,在幀之間的一致性。

圖片

擴(kuò)散增強(qiáng)智能體框架

在擴(kuò)散增強(qiáng)數(shù)據(jù)上,微調(diào)VLM作為獎(jiǎng)勵(lì)檢測器

VLM可以有效地用作獎(jiǎng)勵(lì)檢測器,條件是基于語言定義的目標(biāo)和視覺觀察。

最近的研究顯示,為了提升準(zhǔn)確性,VLM通常需要在目標(biāo)環(huán)境中收集的token數(shù)據(jù)上進(jìn)行微調(diào),適應(yīng)所需的任務(wù)。

這是一個(gè)耗時(shí)的任務(wù),而且每個(gè)新任務(wù)需要人類手動(dòng)完成,嚴(yán)重阻礙了智能體以終身方式自主連續(xù)學(xué)習(xí)的多任務(wù)能力。

通過DAAGG框架,作者在先前收集的觀察上微調(diào)VLM來解決這一挑戰(zhàn)。

這個(gè)過程如上圖2所示,通過這個(gè)過程,微調(diào)VLM作為LLM分解當(dāng)前任務(wù)的所有子目標(biāo)圖片的成功檢測器。

通過后見之明經(jīng)驗(yàn)增強(qiáng),實(shí)現(xiàn)高效學(xué)習(xí)和遷移

在任何任務(wù)中收集的每個(gè)回合后,智能體收集一系列觀察和動(dòng)作圖片

在DAAGG中,研究人員旨在最大化智能體可以學(xué)習(xí)處理新任務(wù)的回合數(shù)量,即使它沒有達(dá)到任何所需的子目標(biāo)。

最后,他們通過一個(gè)稱為后見之明經(jīng)驗(yàn)增強(qiáng)(HEA)的過程來實(shí)現(xiàn)這一點(diǎn)。

實(shí)驗(yàn)結(jié)果

DAAGG框架提出了LLM+VLM+DM之間的相互作用,以解決終身學(xué)習(xí)智能體面臨的3個(gè)主要的挑戰(zhàn):

1)微調(diào)新的獎(jiǎng)勵(lì)/子目標(biāo)檢測模型,

2)提取和轉(zhuǎn)移過去經(jīng)驗(yàn)用于新任務(wù),

3)高效探索新任務(wù)。

DAAGG能否將VLM微調(diào)為新任務(wù)的獎(jiǎng)勵(lì)檢測器?

圖7顯示了,在數(shù)據(jù)集中沒有示例的最左側(cè)任務(wù)中,DAAGG如何通過綜合其他任務(wù)中的示例實(shí)現(xiàn)大幅改進(jìn),同時(shí)在所見的任務(wù)中保持相同的性能。

在RGB Stacking和Language Table環(huán)境中,物體姿勢之間的精確幾何關(guān)系非常重要,而DAAGG與基線的差異則更為顯著,這說明需要進(jìn)行擴(kuò)散增強(qiáng)才能獲得有效的獎(jiǎng)勵(lì)檢測器。

圖片

在「房間」環(huán)境中,CLIP接收到的觀察結(jié)果雖然來自低保真模擬器和渲染器,但更接近它在網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集(水果和家具圖片),上進(jìn)行訓(xùn)練時(shí)接收到的觀察結(jié)果分布。

因此,CLIP「零樣本」性能要強(qiáng)得多,而在其他任務(wù)中,CLIP零樣本性能則接近于隨機(jī)猜測,這表明有必要進(jìn)行微調(diào)。

DAAGG能否更高效地探索和學(xué)習(xí)新任務(wù)?

下圖8中,作者繪制了100個(gè)測試事件中,成功解決任務(wù)實(shí)例的數(shù)量與訓(xùn)練事件數(shù)量的函數(shù)關(guān)系圖。

在測試過程中,不執(zhí)行任何探索策略或指導(dǎo),而是讓策略網(wǎng)絡(luò)來引導(dǎo)智能體。

可以看到,DAAGG的學(xué)習(xí)速度比基線更快,將某些不成功的事件作為學(xué)習(xí)信號的能力,有助于提高在所有測試環(huán)境中的學(xué)習(xí)效率。

圖片

DAAGG能否更有效地連續(xù)學(xué)習(xí)任務(wù),從過去的任務(wù)中轉(zhuǎn)移經(jīng)驗(yàn)?

圖9中,研究人員比較了每種方法在使用圖片時(shí),在任務(wù)圖片上的性能,性能指標(biāo)是成功率。

可以看到,DAAGG超越了兩個(gè)基準(zhǔn)方法,主要?dú)w功于它能夠從存儲在圖片中大部分經(jīng)驗(yàn)中學(xué)習(xí),通過修改和重新利用解決圖片或其子目標(biāo)圖片之外的任務(wù)軌跡。

圖片

通過場景視覺增強(qiáng)提高魯棒性

然后,研究人員使用pipeline對每個(gè)觀察進(jìn)行5次增強(qiáng),查詢LLM來提出增強(qiáng)的描述(比如,一個(gè)有紅色地板和白色墻壁的房間)。

作者將所有這些增強(qiáng)的觀察添加到緩沖區(qū),并在其上訓(xùn)練策略。

在原始和增強(qiáng)數(shù)據(jù)集上,訓(xùn)練的策略都在5個(gè)視覺上修改的房間中進(jìn)行測試,隨機(jī)改變墻壁和地板的顏色以及干擾物體,在每個(gè)房間進(jìn)行20次測試回合。

圖片

圖11展示了,視覺增強(qiáng)如何帶來一個(gè)更加魯棒的策略,能夠在視覺上與單一訓(xùn)練Room中,與訓(xùn)練環(huán)境很不同的Room中也達(dá)到相同目標(biāo)。

圖片

總而言之,這項(xiàng)研究中,作者提出了擴(kuò)散增強(qiáng)智能體(DAAGG)。

這是一個(gè)結(jié)合了大型語言模型、視覺語言模型和擴(kuò)散模型的框架,旨在解決具身AI智能體終身強(qiáng)化學(xué)習(xí)中的關(guān)鍵挑戰(zhàn)。

關(guān)鍵研究結(jié)果表明,DAAGG能夠在新的、未見過的任務(wù)中準(zhǔn)確檢測獎(jiǎng)勵(lì),而傳統(tǒng)方法在這些任務(wù)上難以泛化。

通過重用先前任務(wù)的經(jīng)驗(yàn),DAAGG能夠逐步更高效地學(xué)習(xí)每個(gè)后續(xù)任務(wù),得益于遷移學(xué)習(xí)而需要更少的回合。

最后,通過將不成功的回合,擴(kuò)散為相關(guān)子目標(biāo)的成功軌跡,DAAGG顯著提高了探索效率。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-07-29 16:01:15

智能體模型任務(wù)

2021-09-10 16:31:56

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-08-05 18:30:48

AI 數(shù)據(jù)人工智能

2024-01-31 13:42:05

模型訓(xùn)練

2021-05-24 16:02:25

谷歌技術(shù)人工智能

2020-06-05 14:49:51

強(qiáng)化學(xué)習(xí)算法框架

2024-03-14 11:55:21

2020-10-28 10:05:00

AI 數(shù)據(jù)人工智能

2023-04-21 09:12:43

2023-07-21 14:58:05

智能開發(fā)

2020-04-16 14:19:33

深度學(xué)習(xí)三體人工智能

2023-04-21 07:59:46

2017-08-21 11:29:43

谷歌人工智能

2025-01-03 11:02:38

OpenAIAgent大模型

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2021-05-06 08:48:30

谷歌人工智能AI

2022-02-24 13:59:59

AI智能體研究

2024-12-17 12:53:45

AI自我進(jìn)化谷歌

2024-02-26 09:00:00

谷歌AI

2025-01-13 12:12:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號