自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="14888"><li id="14888"></li></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

NeurIPS 2024 | 哈工深提出新型智能體Optimus-1，橫掃M(jìn)inecraft長(zhǎng)序列任務(wù)

作者：機(jī)器之心 2024-12-06 18:48:39

人工智能新聞

在本文中，我們提出了混合多模態(tài)記憶模塊，由 HDKG 和 AMEP 組成。

本篇論文的工作已被 NeurlPS（Conference on Neural Information Processing Systems）2024 會(huì)議接收。本文主要作者來自哈爾濱工業(yè)大學(xué) (深圳) ，合作單位為鵬城實(shí)驗(yàn)室。其中，第一作者李在京就讀于哈爾濱工業(yè)大學(xué) (深圳) 計(jì)算機(jī)學(xué)院，研究方向?yàn)殚_放世界智能體和多模態(tài)學(xué)習(xí)。

在 Minecraft 中構(gòu)造一個(gè)能完成各種長(zhǎng)序列任務(wù)的智能體，頗有挑戰(zhàn)性?，F(xiàn)有的工作利用大語言模型 / 多模態(tài)大模型生成行動(dòng)規(guī)劃，以提升智能體執(zhí)行長(zhǎng)序列任務(wù)的能力。然而，由于這些智能體缺乏足夠的知識(shí)和經(jīng)驗(yàn)，面對(duì) Minecraft 中復(fù)雜的環(huán)境仍顯得力不從心。為此，本文提出了一個(gè)新穎的智能體框架 ——Optimus-1，該框架結(jié)合結(jié)構(gòu)化知識(shí)與多模態(tài)經(jīng)驗(yàn)，旨在賦能智能體更好地執(zhí)行長(zhǎng)序列任務(wù)。

論文題目：Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
論文鏈接：https://arxiv.org/abs/2408.03615
項(xiàng)目主頁：https://cybertronagent.github.io/Optimus-1.github.io/
代碼倉庫：https://github.com/JiuTian-VL/Optimus-1

現(xiàn)有的 Minecraft Agents 有哪些局限性？

1. 對(duì)結(jié)構(gòu)化知識(shí)缺乏探索。Minecraft 中充滿了豐富的結(jié)構(gòu)化知識(shí)，例如工具的合成規(guī)則（一根木棍和兩塊鐵錠可以合成一把鐵劍），以及不同層級(jí)的科技樹（木材 → 石器 → 鐵器 → 金器 → 鉆石）等。這些知識(shí)有助于智能體做出合理的規(guī)劃，一步一步獲取完成任務(wù)所需的材料和工具。然而，現(xiàn)有的智能體缺乏必要的知識(shí)，導(dǎo)致他們做出長(zhǎng)序列規(guī)劃的能力受限。

2. 缺乏充足的多模態(tài)經(jīng)驗(yàn)。過往的經(jīng)驗(yàn)對(duì)幫助人類完成未曾遇見的任務(wù)具有重要作用，同樣，智能體也能借助歷史經(jīng)驗(yàn)在面對(duì)新任務(wù)時(shí)作出更加精準(zhǔn)的判斷與決策。然而，現(xiàn)有的智能體在多模態(tài)經(jīng)驗(yàn)的積累與總結(jié)上存在缺陷，未能有效整合視覺、語言、動(dòng)作等多方面的經(jīng)驗(yàn)，限制了其在復(fù)雜任務(wù)中的決策能力和適應(yīng)性。

為了解決上述挑戰(zhàn)，我們?cè)O(shè)計(jì)了一個(gè)混合多模態(tài)記憶模塊，將結(jié)構(gòu)化知識(shí)和多模態(tài)經(jīng)驗(yàn)整合到智能體的記憶機(jī)制中。類似于知識(shí)與經(jīng)驗(yàn)在指導(dǎo)人類完成復(fù)雜任務(wù)中的重要作用，智能體在規(guī)劃階段借助結(jié)構(gòu)化知識(shí)生成可行的任務(wù)計(jì)劃，而在反思階段則利用多模態(tài)經(jīng)驗(yàn)對(duì)當(dāng)前狀態(tài)進(jìn)行判斷，并做出更加合理的決策。在此基礎(chǔ)上，我們提出了智能體框架 Optimus-1。在混合多模態(tài)記憶的賦能下，Optimus-1 在 67 個(gè)長(zhǎng)序列任務(wù)上實(shí)現(xiàn)了當(dāng)前最先進(jìn)的性能，并縮小了與人類水平基線的差距。

研究方法

Optimus-1 的框架如下圖所示。它由混合多模態(tài)記憶模塊，知識(shí)引導(dǎo)的規(guī)劃器，經(jīng)驗(yàn)驅(qū)動(dòng)的反思器，以及行動(dòng)控制器組成。給定一個(gè)長(zhǎng)序列任務(wù)，知識(shí)引導(dǎo)的規(guī)劃器首先從混合多模態(tài)記憶中檢索任務(wù)相關(guān)的知識(shí)，并基于這些知識(shí)生成一系列可執(zhí)行的子目標(biāo)。這些子目標(biāo)依次輸入到行動(dòng)控制器中，生成行動(dòng)信號(hào)以完成任務(wù)。在執(zhí)行任務(wù)過程中，經(jīng)驗(yàn)驅(qū)動(dòng)反思器會(huì)定期激活，檢索與當(dāng)前子目標(biāo)相關(guān)的多模態(tài)經(jīng)驗(yàn)作為參考，以此判斷智能體當(dāng)前狀態(tài)，從而做出更為合理的決策。

圖 1：Optimus-1 的整體框架

1. 混合多模態(tài)記憶（Hybrid Multimodal Memory）

圖 2：摘要化多模態(tài)經(jīng)驗(yàn)池和層次化有向知識(shí)圖的構(gòu)建流程

如上圖所示，混合多模態(tài)記憶由摘要化多模態(tài)經(jīng)驗(yàn)池（AMEP）和層次化有向知識(shí)圖（HDKG）組成。對(duì)于 AMEP，視頻流首先通過 Video Buffer 和 Image Buffer 過濾，得到固定窗口大小的幀序列，并與文本通過 MineCLIP 計(jì)算相似度，若超過閾值，則保存幀序列、文本及環(huán)境信息等內(nèi)容作為多模態(tài)經(jīng)驗(yàn)。這些經(jīng)驗(yàn)為智能體反思階段提供細(xì)粒度的多模態(tài)信息，同時(shí)通過摘要化降低了存儲(chǔ)開銷。

對(duì)于 HDKG，任務(wù)執(zhí)行過程中獲取的知識(shí)被轉(zhuǎn)化為圖結(jié)構(gòu)。例如，“兩根木棍和三塊木板可以合成一把木鎬” 被表示為有向圖 {2 sticks, 3 planks} → {1 wooden pickaxe}，為智能體的規(guī)劃階段提供必要的知識(shí)支持，幫助其做出合理的任務(wù)規(guī)劃。

2. 知識(shí)引導(dǎo)的規(guī)劃器（Knowledge-Guided Planner）

給定任務(wù) t，當(dāng)前的視覺觀察 o，知識(shí)引導(dǎo)的規(guī)劃器從 HDKG 中檢索相關(guān)知識(shí)，生成子目標(biāo)序列：

其中，表示多模態(tài)大模型，表示從 HDKG 中檢索的有向圖。

3. 行動(dòng)控制器（Action Controller）

行動(dòng)控制器以當(dāng)前的視覺觀察 o，以及子目標(biāo)作為輸入，生成行動(dòng)：

4. 經(jīng)驗(yàn)驅(qū)動(dòng)的反思器（Experience-Driven Reflector）

經(jīng)驗(yàn)驅(qū)動(dòng)的反思器會(huì)定期被啟動(dòng)，以當(dāng)前的視覺觀察 o，子目標(biāo)，以及從 AMEP 中檢索的 case 作為輸入，生成反思 r:

反思 r 分為三類：COMPLETE 表示當(dāng)前子目標(biāo)已完成，可以執(zhí)行下一子目標(biāo)；CONTINUE 表示當(dāng)前子目標(biāo)未完成，需要繼續(xù)執(zhí)行；REPLAN 表示當(dāng)前子目標(biāo)無法繼續(xù)執(zhí)行，需要知識(shí)引導(dǎo)的規(guī)劃器重新規(guī)劃。

實(shí)驗(yàn)結(jié)果

本文在開放世界環(huán)境 Minecraft 中選取了 67 個(gè)長(zhǎng)序列任務(wù)進(jìn)行評(píng)估，涵蓋木材，石器，鐵器，金器，鉆石，紅石，裝備七個(gè)任務(wù)組。每次執(zhí)行任務(wù)，智能體都隨機(jī)在任意環(huán)境中，初始裝備為空，這顯著增加了任務(wù)的挑戰(zhàn)性。此外，本文還構(gòu)建了一個(gè)人類水平的基線，以評(píng)估現(xiàn)有的智能體與人類水平之間的差距。

表 1：Optimus-1 在 7 個(gè)任務(wù)組上的平均成功率

實(shí)驗(yàn)結(jié)果如上表所示，Optimus-1 在所有任務(wù)組的成功率都顯著高于先前的方法。廣泛的消融實(shí)驗(yàn)也證明了知識(shí)和經(jīng)驗(yàn)對(duì)智能體執(zhí)行長(zhǎng)序列任務(wù)的重要性。

表 2：消融實(shí)驗(yàn)結(jié)果。其中，P，R，K，E 分別代表規(guī)劃，反思，知識(shí)，以及經(jīng)驗(yàn)。

值得注意的是，本文還探索了將任務(wù)失敗的 case 應(yīng)用于 in-context learning 所帶來的影響。實(shí)驗(yàn)結(jié)果顯示，將成功和失敗的 case 都納入智能體的反思階段，能夠顯著提升任務(wù)的成功率。

表 3：對(duì)多模態(tài)經(jīng)驗(yàn)的消融實(shí)驗(yàn)結(jié)果。其中，zero，suc，F(xiàn)ai 分別代表 zero-shot，僅使用成功 case，以及僅使用失敗 case。

通用性

雖然基于 GPT-4V 構(gòu)建的 Optimus-1 性能卓越，但調(diào)用商用大模型的成本不容忽視。因此，本文進(jìn)行了更廣泛的實(shí)驗(yàn)，探索一個(gè)重要問題：使用現(xiàn)有的開源多模態(tài)大模型構(gòu)建 Optimus-1，性能表現(xiàn)如何？

圖 3：不同多模態(tài)大模型作為 backbone 的性能對(duì)比

如上圖所示，在沒有混合多模態(tài)記憶模塊的情況下，各種多模態(tài)大模型在長(zhǎng)序列任務(wù)上的表現(xiàn)較差，尤其是在具有挑戰(zhàn)性的鉆石任務(wù)組中，成功率接近 0。而在混合多模態(tài)記憶模塊賦能下，開源多模態(tài)大模型也和 GPT-4V 有了可比的性能。這揭示了混合多模態(tài)記憶模塊的通用性。

結(jié)論

在本文中，我們提出了混合多模態(tài)記憶模塊，由 HDKG 和 AMEP 組成。HDKG 為智能體的規(guī)劃階段提供必要的世界知識(shí)，而 AMEP 則為反思階段提供精煉的歷史經(jīng)驗(yàn)。在此基礎(chǔ)上，我們?cè)?Minecraft 中構(gòu)建了智能體 Optimus-1。廣泛的實(shí)驗(yàn)結(jié)果表明，Optimus-1 在長(zhǎng)序列任務(wù)中的表現(xiàn)超越了現(xiàn)有的智能體。此外，我們還驗(yàn)證了混合多模態(tài)記憶模塊的通用性，開源多模態(tài)大模型在其賦能下，與 GPT-4V 也有可比的性能。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="sxjgi"><track id="sxjgi"><dfn id="sxjgi"></dfn></track></cite>