NeurIPS 2024 | 哈工深提出新型智能體Optimus-1,橫掃M(jìn)inecraft長(zhǎng)序列任務(wù)
本篇論文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2024 會(huì)議接收。本文主要作者來自哈爾濱工業(yè)大學(xué) (深圳) ,合作單位為鵬城實(shí)驗(yàn)室。其中,第一作者李在京就讀于哈爾濱工業(yè)大學(xué) (深圳) 計(jì)算機(jī)學(xué)院,研究方向?yàn)殚_放世界智能體和多模態(tài)學(xué)習(xí)。
在 Minecraft 中構(gòu)造一個(gè)能完成各種長(zhǎng)序列任務(wù)的智能體,頗有挑戰(zhàn)性?,F(xiàn)有的工作利用大語言模型 / 多模態(tài)大模型生成行動(dòng)規(guī)劃,以提升智能體執(zhí)行長(zhǎng)序列任務(wù)的能力。然而,由于這些智能體缺乏足夠的知識(shí)和經(jīng)驗(yàn),面對(duì) Minecraft 中復(fù)雜的環(huán)境仍顯得力不從心。為此,本文提出了一個(gè)新穎的智能體框架 ——Optimus-1,該框架結(jié)合結(jié)構(gòu)化知識(shí)與多模態(tài)經(jīng)驗(yàn),旨在賦能智能體更好地執(zhí)行長(zhǎng)序列任務(wù)。
- 論文題目:Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
- 論文鏈接:https://arxiv.org/abs/2408.03615
- 項(xiàng)目主頁:https://cybertronagent.github.io/Optimus-1.github.io/
- 代碼倉庫:https://github.com/JiuTian-VL/Optimus-1
現(xiàn)有的 Minecraft Agents 有哪些局限性?
1. 對(duì)結(jié)構(gòu)化知識(shí)缺乏探索。Minecraft 中充滿了豐富的結(jié)構(gòu)化知識(shí),例如工具的合成規(guī)則(一根木棍和兩塊鐵錠可以合成一把鐵劍),以及不同層級(jí)的科技樹(木材 → 石器 → 鐵器 → 金器 → 鉆石)等。這些知識(shí)有助于智能體做出合理的規(guī)劃,一步一步獲取完成任務(wù)所需的材料和工具。然而,現(xiàn)有的智能體缺乏必要的知識(shí),導(dǎo)致他們做出長(zhǎng)序列規(guī)劃的能力受限。
2. 缺乏充足的多模態(tài)經(jīng)驗(yàn)。過往的經(jīng)驗(yàn)對(duì)幫助人類完成未曾遇見的任務(wù)具有重要作用,同樣,智能體也能借助歷史經(jīng)驗(yàn)在面對(duì)新任務(wù)時(shí)作出更加精準(zhǔn)的判斷與決策。然而,現(xiàn)有的智能體在多模態(tài)經(jīng)驗(yàn)的積累與總結(jié)上存在缺陷,未能有效整合視覺、語言、動(dòng)作等多方面的經(jīng)驗(yàn),限制了其在復(fù)雜任務(wù)中的決策能力和適應(yīng)性。
為了解決上述挑戰(zhàn),我們?cè)O(shè)計(jì)了一個(gè)混合多模態(tài)記憶模塊,將結(jié)構(gòu)化知識(shí)和多模態(tài)經(jīng)驗(yàn)整合到智能體的記憶機(jī)制中。類似于知識(shí)與經(jīng)驗(yàn)在指導(dǎo)人類完成復(fù)雜任務(wù)中的重要作用,智能體在規(guī)劃階段借助結(jié)構(gòu)化知識(shí)生成可行的任務(wù)計(jì)劃,而在反思階段則利用多模態(tài)經(jīng)驗(yàn)對(duì)當(dāng)前狀態(tài)進(jìn)行判斷,并做出更加合理的決策。在此基礎(chǔ)上,我們提出了智能體框架 Optimus-1。在混合多模態(tài)記憶的賦能下,Optimus-1 在 67 個(gè)長(zhǎng)序列任務(wù)上實(shí)現(xiàn)了當(dāng)前最先進(jìn)的性能,并縮小了與人類水平基線的差距。
研究方法
Optimus-1 的框架如下圖所示。它由混合多模態(tài)記憶模塊,知識(shí)引導(dǎo)的規(guī)劃器,經(jīng)驗(yàn)驅(qū)動(dòng)的反思器,以及行動(dòng)控制器組成。給定一個(gè)長(zhǎng)序列任務(wù),知識(shí)引導(dǎo)的規(guī)劃器首先從混合多模態(tài)記憶中檢索任務(wù)相關(guān)的知識(shí),并基于這些知識(shí)生成一系列可執(zhí)行的子目標(biāo)。這些子目標(biāo)依次輸入到行動(dòng)控制器中,生成行動(dòng)信號(hào)以完成任務(wù)。在執(zhí)行任務(wù)過程中,經(jīng)驗(yàn)驅(qū)動(dòng)反思器會(huì)定期激活,檢索與當(dāng)前子目標(biāo)相關(guān)的多模態(tài)經(jīng)驗(yàn)作為參考,以此判斷智能體當(dāng)前狀態(tài),從而做出更為合理的決策。
圖 1:Optimus-1 的整體框架
1. 混合多模態(tài)記憶(Hybrid Multimodal Memory)
圖 2:摘要化多模態(tài)經(jīng)驗(yàn)池和層次化有向知識(shí)圖的構(gòu)建流程
如上圖所示,混合多模態(tài)記憶由摘要化多模態(tài)經(jīng)驗(yàn)池(AMEP)和層次化有向知識(shí)圖(HDKG)組成。對(duì)于 AMEP,視頻流首先通過 Video Buffer 和 Image Buffer 過濾,得到固定窗口大小的幀序列,并與文本通過 MineCLIP 計(jì)算相似度,若超過閾值,則保存幀序列、文本及環(huán)境信息等內(nèi)容作為多模態(tài)經(jīng)驗(yàn)。這些經(jīng)驗(yàn)為智能體反思階段提供細(xì)粒度的多模態(tài)信息,同時(shí)通過摘要化降低了存儲(chǔ)開銷。
對(duì)于 HDKG,任務(wù)執(zhí)行過程中獲取的知識(shí)被轉(zhuǎn)化為圖結(jié)構(gòu)。例如,“兩根木棍和三塊木板可以合成一把木鎬” 被表示為有向圖 {2 sticks, 3 planks} → {1 wooden pickaxe},為智能體的規(guī)劃階段提供必要的知識(shí)支持,幫助其做出合理的任務(wù)規(guī)劃。
2. 知識(shí)引導(dǎo)的規(guī)劃器(Knowledge-Guided Planner)
給定任務(wù) t,當(dāng)前的視覺觀察 o,知識(shí)引導(dǎo)的規(guī)劃器從 HDKG 中檢索相關(guān)知識(shí),生成子目標(biāo)序列:
其中,表示多模態(tài)大模型,
表示從 HDKG 中檢索的有向圖。
3. 行動(dòng)控制器(Action Controller)
行動(dòng)控制器以當(dāng)前的視覺觀察 o,以及子目標(biāo)
作為輸入,生成行動(dòng)
:
4. 經(jīng)驗(yàn)驅(qū)動(dòng)的反思器(Experience-Driven Reflector)
經(jīng)驗(yàn)驅(qū)動(dòng)的反思器會(huì)定期被啟動(dòng),以當(dāng)前的視覺觀察 o,子目標(biāo),以及從 AMEP 中檢索的 case
作為輸入,生成反思 r:
反思 r 分為三類:COMPLETE 表示當(dāng)前子目標(biāo)已完成,可以執(zhí)行下一子目標(biāo);CONTINUE 表示當(dāng)前子目標(biāo)未完成,需要繼續(xù)執(zhí)行;REPLAN 表示當(dāng)前子目標(biāo)無法繼續(xù)執(zhí)行,需要知識(shí)引導(dǎo)的規(guī)劃器重新規(guī)劃。
實(shí)驗(yàn)結(jié)果
本文在開放世界環(huán)境 Minecraft 中選取了 67 個(gè)長(zhǎng)序列任務(wù)進(jìn)行評(píng)估,涵蓋木材,石器 ,鐵器,金器,鉆石,紅石,裝備七個(gè)任務(wù)組。每次執(zhí)行任務(wù),智能體都隨機(jī)在任意環(huán)境中,初始裝備為空,這顯著增加了任務(wù)的挑戰(zhàn)性。此外,本文還構(gòu)建了一個(gè)人類水平的基線,以評(píng)估現(xiàn)有的智能體與人類水平之間的差距。
表 1:Optimus-1 在 7 個(gè)任務(wù)組上的平均成功率
實(shí)驗(yàn)結(jié)果如上表所示,Optimus-1 在所有任務(wù)組的成功率都顯著高于先前的方法。廣泛的消融實(shí)驗(yàn)也證明了知識(shí)和經(jīng)驗(yàn)對(duì)智能體執(zhí)行長(zhǎng)序列任務(wù)的重要性。
表 2:消融實(shí)驗(yàn)結(jié)果。其中,P,R,K,E 分別代表規(guī)劃,反思,知識(shí),以及經(jīng)驗(yàn)。
值得注意的是,本文還探索了將任務(wù)失敗的 case 應(yīng)用于 in-context learning 所帶來的影響。實(shí)驗(yàn)結(jié)果顯示,將成功和失敗的 case 都納入智能體的反思階段,能夠顯著提升任務(wù)的成功率。
表 3:對(duì)多模態(tài)經(jīng)驗(yàn)的消融實(shí)驗(yàn)結(jié)果。其中,zero,suc,F(xiàn)ai 分別代表 zero-shot,僅使用成功 case,以及僅使用失敗 case。
通用性
雖然基于 GPT-4V 構(gòu)建的 Optimus-1 性能卓越,但調(diào)用商用大模型的成本不容忽視。因此,本文進(jìn)行了更廣泛的實(shí)驗(yàn),探索一個(gè)重要問題:使用現(xiàn)有的開源多模態(tài)大模型構(gòu)建 Optimus-1,性能表現(xiàn)如何?
圖 3:不同多模態(tài)大模型作為 backbone 的性能對(duì)比
如上圖所示,在沒有混合多模態(tài)記憶模塊的情況下,各種多模態(tài)大模型在長(zhǎng)序列任務(wù)上的表現(xiàn)較差,尤其是在具有挑戰(zhàn)性的鉆石任務(wù)組中,成功率接近 0。而在混合多模態(tài)記憶模塊賦能下,開源多模態(tài)大模型也和 GPT-4V 有了可比的性能。這揭示了混合多模態(tài)記憶模塊的通用性。
結(jié)論
在本文中,我們提出了混合多模態(tài)記憶模塊,由 HDKG 和 AMEP 組成。HDKG 為智能體的規(guī)劃階段提供必要的世界知識(shí),而 AMEP 則為反思階段提供精煉的歷史經(jīng)驗(yàn)。在此基礎(chǔ)上,我們?cè)?Minecraft 中構(gòu)建了智能體 Optimus-1。廣泛的實(shí)驗(yàn)結(jié)果表明,Optimus-1 在長(zhǎng)序列任務(wù)中的表現(xiàn)超越了現(xiàn)有的智能體。此外,我們還驗(yàn)證了混合多模態(tài)記憶模塊的通用性,開源多模態(tài)大模型在其賦能下,與 GPT-4V 也有可比的性能。