自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2024 | 哈工深提出新型智能體Optimus-1,橫掃M(jìn)inecraft長(zhǎng)序列任務(wù)

人工智能 新聞
在本文中,我們提出了混合多模態(tài)記憶模塊,由 HDKG 和 AMEP 組成。

本篇論文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2024 會(huì)議接收。本文主要作者來自哈爾濱工業(yè)大學(xué) (深圳) ,合作單位為鵬城實(shí)驗(yàn)室。其中,第一作者李在京就讀于哈爾濱工業(yè)大學(xué) (深圳) 計(jì)算機(jī)學(xué)院,研究方向?yàn)殚_放世界智能體和多模態(tài)學(xué)習(xí)。

在 Minecraft 中構(gòu)造一個(gè)能完成各種長(zhǎng)序列任務(wù)的智能體,頗有挑戰(zhàn)性?,F(xiàn)有的工作利用大語言模型 / 多模態(tài)大模型生成行動(dòng)規(guī)劃,以提升智能體執(zhí)行長(zhǎng)序列任務(wù)的能力。然而,由于這些智能體缺乏足夠的知識(shí)和經(jīng)驗(yàn),面對(duì) Minecraft 中復(fù)雜的環(huán)境仍顯得力不從心。為此,本文提出了一個(gè)新穎的智能體框架 ——Optimus-1,該框架結(jié)合結(jié)構(gòu)化知識(shí)與多模態(tài)經(jīng)驗(yàn),旨在賦能智能體更好地執(zhí)行長(zhǎng)序列任務(wù)。

圖片


  • 論文題目:Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
  • 論文鏈接:https://arxiv.org/abs/2408.03615
  • 項(xiàng)目主頁:https://cybertronagent.github.io/Optimus-1.github.io/
  • 代碼倉庫:https://github.com/JiuTian-VL/Optimus-1

現(xiàn)有的 Minecraft Agents 有哪些局限性?

1. 對(duì)結(jié)構(gòu)化知識(shí)缺乏探索。Minecraft 中充滿了豐富的結(jié)構(gòu)化知識(shí),例如工具的合成規(guī)則(一根木棍和兩塊鐵錠可以合成一把鐵劍),以及不同層級(jí)的科技樹(木材 → 石器 → 鐵器 → 金器 → 鉆石)等。這些知識(shí)有助于智能體做出合理的規(guī)劃,一步一步獲取完成任務(wù)所需的材料和工具。然而,現(xiàn)有的智能體缺乏必要的知識(shí),導(dǎo)致他們做出長(zhǎng)序列規(guī)劃的能力受限。

2. 缺乏充足的多模態(tài)經(jīng)驗(yàn)。過往的經(jīng)驗(yàn)對(duì)幫助人類完成未曾遇見的任務(wù)具有重要作用,同樣,智能體也能借助歷史經(jīng)驗(yàn)在面對(duì)新任務(wù)時(shí)作出更加精準(zhǔn)的判斷與決策。然而,現(xiàn)有的智能體在多模態(tài)經(jīng)驗(yàn)的積累與總結(jié)上存在缺陷,未能有效整合視覺、語言、動(dòng)作等多方面的經(jīng)驗(yàn),限制了其在復(fù)雜任務(wù)中的決策能力和適應(yīng)性。

為了解決上述挑戰(zhàn),我們?cè)O(shè)計(jì)了一個(gè)混合多模態(tài)記憶模塊,將結(jié)構(gòu)化知識(shí)和多模態(tài)經(jīng)驗(yàn)整合到智能體的記憶機(jī)制中。類似于知識(shí)與經(jīng)驗(yàn)在指導(dǎo)人類完成復(fù)雜任務(wù)中的重要作用,智能體在規(guī)劃階段借助結(jié)構(gòu)化知識(shí)生成可行的任務(wù)計(jì)劃,而在反思階段則利用多模態(tài)經(jīng)驗(yàn)對(duì)當(dāng)前狀態(tài)進(jìn)行判斷,并做出更加合理的決策。在此基礎(chǔ)上,我們提出了智能體框架 Optimus-1。在混合多模態(tài)記憶的賦能下,Optimus-1 在 67 個(gè)長(zhǎng)序列任務(wù)上實(shí)現(xiàn)了當(dāng)前最先進(jìn)的性能,并縮小了與人類水平基線的差距。

研究方法

Optimus-1 的框架如下圖所示。它由混合多模態(tài)記憶模塊,知識(shí)引導(dǎo)的規(guī)劃器,經(jīng)驗(yàn)驅(qū)動(dòng)的反思器,以及行動(dòng)控制器組成。給定一個(gè)長(zhǎng)序列任務(wù),知識(shí)引導(dǎo)的規(guī)劃器首先從混合多模態(tài)記憶中檢索任務(wù)相關(guān)的知識(shí),并基于這些知識(shí)生成一系列可執(zhí)行的子目標(biāo)。這些子目標(biāo)依次輸入到行動(dòng)控制器中,生成行動(dòng)信號(hào)以完成任務(wù)。在執(zhí)行任務(wù)過程中,經(jīng)驗(yàn)驅(qū)動(dòng)反思器會(huì)定期激活,檢索與當(dāng)前子目標(biāo)相關(guān)的多模態(tài)經(jīng)驗(yàn)作為參考,以此判斷智能體當(dāng)前狀態(tài),從而做出更為合理的決策。

圖片

圖 1:Optimus-1 的整體框架

1. 混合多模態(tài)記憶(Hybrid Multimodal Memory)

圖片

圖 2:摘要化多模態(tài)經(jīng)驗(yàn)池和層次化有向知識(shí)圖的構(gòu)建流程

如上圖所示,混合多模態(tài)記憶由摘要化多模態(tài)經(jīng)驗(yàn)池(AMEP)和層次化有向知識(shí)圖(HDKG)組成。對(duì)于 AMEP,視頻流首先通過 Video Buffer 和 Image Buffer 過濾,得到固定窗口大小的幀序列,并與文本通過 MineCLIP 計(jì)算相似度,若超過閾值,則保存幀序列、文本及環(huán)境信息等內(nèi)容作為多模態(tài)經(jīng)驗(yàn)。這些經(jīng)驗(yàn)為智能體反思階段提供細(xì)粒度的多模態(tài)信息,同時(shí)通過摘要化降低了存儲(chǔ)開銷。

對(duì)于 HDKG,任務(wù)執(zhí)行過程中獲取的知識(shí)被轉(zhuǎn)化為圖結(jié)構(gòu)。例如,“兩根木棍和三塊木板可以合成一把木鎬” 被表示為有向圖 {2 sticks, 3 planks} → {1 wooden pickaxe},為智能體的規(guī)劃階段提供必要的知識(shí)支持,幫助其做出合理的任務(wù)規(guī)劃。

2. 知識(shí)引導(dǎo)的規(guī)劃器(Knowledge-Guided Planner)

給定任務(wù) t,當(dāng)前的視覺觀察 o,知識(shí)引導(dǎo)的規(guī)劃器從 HDKG 中檢索相關(guān)知識(shí),生成子目標(biāo)序列圖片


圖片


其中,圖片表示多模態(tài)大模型,圖片表示從 HDKG 中檢索的有向圖。

3. 行動(dòng)控制器(Action Controller)

行動(dòng)控制器圖片以當(dāng)前的視覺觀察 o,以及子目標(biāo)圖片作為輸入,生成行動(dòng)圖片

圖片

4. 經(jīng)驗(yàn)驅(qū)動(dòng)的反思器(Experience-Driven Reflector)

經(jīng)驗(yàn)驅(qū)動(dòng)的反思器會(huì)定期被啟動(dòng),以當(dāng)前的視覺觀察 o,子目標(biāo)圖片,以及從 AMEP 中檢索的 case 圖片 作為輸入,生成反思 r:

圖片

反思 r 分為三類:COMPLETE 表示當(dāng)前子目標(biāo)已完成,可以執(zhí)行下一子目標(biāo);CONTINUE 表示當(dāng)前子目標(biāo)未完成,需要繼續(xù)執(zhí)行;REPLAN 表示當(dāng)前子目標(biāo)無法繼續(xù)執(zhí)行,需要知識(shí)引導(dǎo)的規(guī)劃器重新規(guī)劃。

實(shí)驗(yàn)結(jié)果

本文在開放世界環(huán)境 Minecraft 中選取了 67 個(gè)長(zhǎng)序列任務(wù)進(jìn)行評(píng)估,涵蓋木材,石器 ,鐵器,金器,鉆石,紅石,裝備七個(gè)任務(wù)組。每次執(zhí)行任務(wù),智能體都隨機(jī)在任意環(huán)境中,初始裝備為空,這顯著增加了任務(wù)的挑戰(zhàn)性。此外,本文還構(gòu)建了一個(gè)人類水平的基線,以評(píng)估現(xiàn)有的智能體與人類水平之間的差距。

圖片

表 1:Optimus-1 在 7 個(gè)任務(wù)組上的平均成功率

實(shí)驗(yàn)結(jié)果如上表所示,Optimus-1 在所有任務(wù)組的成功率都顯著高于先前的方法。廣泛的消融實(shí)驗(yàn)也證明了知識(shí)和經(jīng)驗(yàn)對(duì)智能體執(zhí)行長(zhǎng)序列任務(wù)的重要性。

圖片

表 2:消融實(shí)驗(yàn)結(jié)果。其中,P,R,K,E 分別代表規(guī)劃,反思,知識(shí),以及經(jīng)驗(yàn)。

值得注意的是,本文還探索了將任務(wù)失敗的 case 應(yīng)用于 in-context learning 所帶來的影響。實(shí)驗(yàn)結(jié)果顯示,將成功和失敗的 case 都納入智能體的反思階段,能夠顯著提升任務(wù)的成功率。

圖片

表 3:對(duì)多模態(tài)經(jīng)驗(yàn)的消融實(shí)驗(yàn)結(jié)果。其中,zero,suc,F(xiàn)ai 分別代表 zero-shot,僅使用成功 case,以及僅使用失敗 case。

通用性

雖然基于 GPT-4V 構(gòu)建的 Optimus-1 性能卓越,但調(diào)用商用大模型的成本不容忽視。因此,本文進(jìn)行了更廣泛的實(shí)驗(yàn),探索一個(gè)重要問題:使用現(xiàn)有的開源多模態(tài)大模型構(gòu)建 Optimus-1,性能表現(xiàn)如何?

圖 3:不同多模態(tài)大模型作為 backbone 的性能對(duì)比

如上圖所示,在沒有混合多模態(tài)記憶模塊的情況下,各種多模態(tài)大模型在長(zhǎng)序列任務(wù)上的表現(xiàn)較差,尤其是在具有挑戰(zhàn)性的鉆石任務(wù)組中,成功率接近 0。而在混合多模態(tài)記憶模塊賦能下,開源多模態(tài)大模型也和 GPT-4V 有了可比的性能。這揭示了混合多模態(tài)記憶模塊的通用性。

結(jié)論

在本文中,我們提出了混合多模態(tài)記憶模塊,由 HDKG 和 AMEP 組成。HDKG 為智能體的規(guī)劃階段提供必要的世界知識(shí),而 AMEP 則為反思階段提供精煉的歷史經(jīng)驗(yàn)。在此基礎(chǔ)上,我們?cè)?Minecraft 中構(gòu)建了智能體 Optimus-1。廣泛的實(shí)驗(yàn)結(jié)果表明,Optimus-1 在長(zhǎng)序列任務(wù)中的表現(xiàn)超越了現(xiàn)有的智能體。此外,我們還驗(yàn)證了混合多模態(tài)記憶模塊的通用性,開源多模態(tài)大模型在其賦能下,與 GPT-4V 也有可比的性能。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-07 07:55:00

視頻訓(xùn)練生成

2023-12-04 13:40:09

AI訓(xùn)練

2020-06-09 10:15:21

模型人工智能自然語言

2024-12-12 08:42:25

2023-04-03 14:27:58

框架數(shù)據(jù)

2019-10-12 11:10:32

AI 數(shù)據(jù)人工智能

2023-06-25 10:01:29

2021-09-10 16:24:00

框架AI開發(fā)

2012-11-21 21:44:12

惠普Flow MFP

2020-12-25 16:30:17

機(jī)器學(xué)習(xí)/隱私保護(hù)

2024-11-15 15:20:00

模型數(shù)據(jù)

2025-04-17 08:48:31

2009-03-26 18:46:20

戴爾Nehalem服務(wù)器

2012-05-08 15:19:10

2015-01-14 10:33:20

瞻博網(wǎng)絡(luò)

2024-12-02 11:00:00

模型架構(gòu)

2023-11-07 11:50:14

AI訓(xùn)練

2024-09-18 09:40:00

大模型LLMAI

2017-08-07 11:09:19

機(jī)器學(xué)習(xí)用戶推薦轉(zhuǎn)化率

2024-04-17 13:20:29

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)