自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

導(dǎo)航、采礦、建造,北大這個新智能體把《我的世界》玩透了

人工智能 新聞
CraftJarvis 團隊提出利用 VLMs (視覺語言模型)強大的視覺語言推理能力來指導(dǎo)任務(wù)的完成,并創(chuàng)新地提出了一種基于視覺 - 時間上下文提示(Visual-Temporal Context Prompting)的任務(wù)表示方法。

該研究成果由來自北京大學(xué)的蔡少斐、王子豪、連可為、牟湛存、來自北京通用人工智能研究院的馬曉健研究員、來自加州大學(xué)洛杉磯分校的劉安吉共同完成。通訊作者為北京大學(xué)助理教授梁一韜。所有作者均隸屬 CraftJarvis 研究團隊。

在游戲和機器人研究領(lǐng)域,讓智能體在開放世界環(huán)境中實現(xiàn)有效的交互,一直是令人興奮卻困難重重的挑戰(zhàn)。想象一下,智能體在《我的世界(Minecraft)》這樣的環(huán)境中,不僅要識別和理解復(fù)雜的視覺信息,還需要利用鼠標和鍵盤精細地控制游戲畫面,快速做出反應(yīng),完成像導(dǎo)航、采礦、建造、與生物互動等任務(wù)。面對如此龐大且復(fù)雜的交互空間,如何能讓智能體能理解并執(zhí)行人類的意圖呢?

圖片

針對這個問題,CraftJarvis 團隊提出利用 VLMs (視覺語言模型)強大的視覺語言推理能力來指導(dǎo)任務(wù)的完成,并創(chuàng)新地提出了一種基于視覺 - 時間上下文提示(Visual-Temporal Context Prompting)的任務(wù)表示方法。該方法允許人類或 VLMs 在當前和歷史游戲畫面中將希望進行交互的物體分割出來,來傳達具體的交互意圖。為了將交互意圖映射為具體的鼠標鍵盤操作,該團隊進一步訓(xùn)練了一個以物體分割為條件的底層策略 ROCKET-1。這種融合了視覺 - 時間上下文提示的智能體架構(gòu)為開放世界的交互奠定了基礎(chǔ),預(yù)示了未來游戲 AI 和機器人互動的新可能性。

圖片

  • 論文鏈接: https://arxiv.org/pdf/2410.17856
  • 項目主頁: https://craftjarvis.github.io/ROCKET-1

研究創(chuàng)新點

視覺 - 時間上下文提示方法

圖片

架構(gòu)對比圖;(e) 為基于視覺 - 時間上下文提示的新型架構(gòu)

視覺 - 時間上下文提示是一種全新的任務(wù)表達方式。通過整合智能體過去和當前的觀察信息,該方法利用物體分割信息,為智能體提供空間和交互類型的線索,從而讓低級策略能夠準確識別和理解環(huán)境中的關(guān)鍵對象。這一創(chuàng)新使得智能體能夠在執(zhí)行任務(wù)時始終保持對目標對象的關(guān)注。

基于物體分割的條件策略 ROCKET-1

圖片

基于因果 Transformer 實現(xiàn)的 ROCKET-1 架構(gòu)

ROCKET-1 是一種基于視覺 - 時間上下文的低級策略,能夠在視覺觀察和分割掩碼的支持下預(yù)測行動。通過使用 Transformer 模塊,ROCKET-1 可以在部分可觀測(Partially Observable)環(huán)境中推理過去和當前觀測的依賴關(guān)系,實現(xiàn)精準的動作預(yù)測。與傳統(tǒng)方法不同,ROCKET-1 能夠處理細微的空間和時序變化,并始終關(guān)注要進行交互的物體,顯著提升了與環(huán)境交互的成功率。

反向軌跡重標注策略

圖片

反向軌跡重標記流程示意

訓(xùn)練 ROCKET-1 需要收集大量帶有物體分割的軌跡數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)標注方法成本高、效率低,CraftJarvis 團隊提出了一種逆向軌跡重標注方法,利用 SAM-2 的物體分割能力在倒放的視頻中連續(xù)地對發(fā)生交互的物體生成分割注釋。這種方法能夠根據(jù)現(xiàn)有的交互事件重建數(shù)據(jù)集,使得 ROCKET-1 在離線條件下即可完成高效訓(xùn)練,減少了對人工標注的依賴,并為大規(guī)模數(shù)據(jù)處理提供了切實可行的解決方案。

充分釋放預(yù)訓(xùn)練基礎(chǔ)模型的能力

圖片

CraftJarvis 團隊將具身決策所依賴的能力分解為視覺語言推理、視覺空間定位、物體追蹤和實時動作預(yù)測,并巧妙地組合 GPT-4o、Molmo、SAM-2、ROCKET-1 加以解決。

為了應(yīng)對復(fù)雜任務(wù)規(guī)劃的挑戰(zhàn),該團隊引入了 GPT-4o,目前最先進的視覺語言模型之一??梢赃M行強大的視覺語言推理,將復(fù)雜的任務(wù)分解為一系列具體的物體交互指令。此外,該團隊采用了 Molmo 模型來將 GPT-4o 的交互意圖翻譯為觀察圖像中的坐標點,用以精確定位交互物體。

為了應(yīng)對對象跟蹤的挑戰(zhàn),該團隊引入了 SAM-2,一個先進的視頻分割模型。SAM-2 不僅能夠通過點提示對物體進行分割,還可以在時間上連續(xù)追蹤目標,即便物體在視野中消失或重新出現(xiàn)時也能有效保持跟蹤。這為 ROCKET-1 提供了穩(wěn)定的對象信息流,確保了在高頻變化的環(huán)境中智能體的交互精度。

實驗成果

為了驗證 ROCKET-1 的交互能力,CraftJarvis 團隊在《我的世界》中設(shè)計了一系列任務(wù),包括采礦、放置物品、導(dǎo)航和與生物互動等。

圖片

《我的世界》交互任務(wù)評測集

圖片

ROCKET-1 評測結(jié)果

實驗結(jié)果顯示,ROCKET-1 在這些任務(wù)上,尤其在一些具有高空間敏感性的任務(wù)中,獲得的成功率遠高于現(xiàn)有方法(在多數(shù)任務(wù)上實現(xiàn)了高達 90% 的成功率提升),ROCKET-1 表現(xiàn)出了出色的泛化能力。即便在訓(xùn)練集中從未出現(xiàn)的任務(wù)(如將木門放到鉆石塊上),ROCKET-1 依然能夠借助 SAM-2 的物體追蹤能力完成指定目標,體現(xiàn)了其在未知場景中的適應(yīng)性。

此外,該團隊也設(shè)計了一些需要較為復(fù)雜的推理能力的長期任務(wù),同樣展示了這套方法的杰出性能。

圖片

ROCKET-1 在解決任務(wù)時的截圖

圖片

需要依賴規(guī)劃能力的長期任務(wù)性能結(jié)果

視覺 - 時間上下文方法的提出和 ROCKET-1 策略的開發(fā)不僅為 Minecraft 中的復(fù)雜任務(wù)帶來了全新解決方案,也在通用機器人控制、通用視覺導(dǎo)航等領(lǐng)域展示了廣泛的應(yīng)用前景。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-12-08 14:16:00

AI數(shù)據(jù)

2024-11-05 14:40:00

智能體AI

2022-06-15 11:38:47

自動化工業(yè)4.0

2024-09-04 13:19:16

2009-07-31 10:52:09

新電氣世界智能家庭布線

2024-11-04 08:45:00

2025-03-10 09:15:00

2019-04-08 12:14:59

Elasticsear程序員Lucene

2024-05-24 08:42:29

智能體訓(xùn)練

2015-12-31 17:54:30

惠普

2014-12-30 11:26:00

地圖

2021-09-30 18:22:46

VSCode插件API

2015-01-19 16:16:11

韓寒

2020-10-11 20:40:58

編程語言PythonJava

2019-10-24 07:29:05

采礦安全物聯(lián)網(wǎng)IOT

2009-04-21 10:19:24

Oracle智慧的地球IBM

2024-09-18 10:32:00

AI智能體模型

2023-08-17 13:35:44

OpenAI收購

2014-11-04 10:57:42

移動優(yōu)先
點贊
收藏

51CTO技術(shù)棧公眾號