自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從Minecraft到虛幻5,AI首次實現(xiàn)3D游戲零樣本遷移,跨游戲直接上手

人工智能 新聞
從 Minecraft 到虛幻 5,從像素世界到物理模擬,ROCKET-2 展示了 AI 主動理解、泛化與交互的全新可能性。或許在不遠(yuǎn)的將來,跨平臺、跨任務(wù)、跨世界的 “萬能 AI” 將真正走入現(xiàn)實。

該研究成果由北京大學(xué)和加州大學(xué)洛杉磯分校共同完成。第一作者蔡少斐為北京大學(xué)三年級博士生,通訊作者為北京大學(xué)助理教授梁一韜。該工作基于 MineStudio 開源項目,一個全流程簡化版 Minecraft AI Agent 開發(fā)包,相關(guān)代碼均已在 GitHub 上開源。

在 Minecraft 里能打怪、建房、探險的 AI 已經(jīng)夠厲害了,但你見過能一跳跨進(jìn)另一個游戲世界、直接上手操作的 AI 嗎?

北京大學(xué)最新發(fā)布的智能體 ROCKET-2 做到了這一點。它僅在 Minecraft 上預(yù)訓(xùn)練,卻能直接泛化到多個從未見過的 3D 游戲環(huán)境中,比如 “毀滅戰(zhàn)士(VizDoom)”、“DeepMind Lab” 甚至是 “虛幻 5 引擎”,真正實現(xiàn)了零樣本跨游戲遷移。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2503.02505
  • 項目主頁:https://craftjarvis.github.io/ROCKET-2
  • 代碼倉庫:https://github.com/CraftJarvis/ROCKET-2
  • MineStudio:https://github.com/CraftJarvis/MineStudio

ROCKET-2 效果是這樣的:

圖片

ROCKET-2 在 Minecraft 中遵循人類指令完成任務(wù)的示例

(畫面為智能體視角,右上小圖為目標(biāo)第三視角,其中分割掩碼表示交互目標(biāo))

圖片

Minecraft AI 首次對末影龍造成了傷害

圖片

Minecraft AI 首次涌現(xiàn)出 “搭橋” 能力

圖片

ROCKET-2 零樣本適配虛幻 5 引擎

圖片

ROCKET-2 零樣本適配毀滅戰(zhàn)士

圖片

ROCKET-2 零樣本適配 DeepMind Lab

方法介紹

研究團隊首先從 “指令空間” 這一核心問題入手。

所謂指令空間,是指人類與智能體溝通的接口。一個設(shè)計良好的指令空間,不僅能幫助人類更高效地表達(dá)意圖,也能顯著提升智能體的理解效率與訓(xùn)練效果。

提到指令空間,許多人第一時間會想到自然語言。語言的確是人類構(gòu)建復(fù)雜社會關(guān)系、實現(xiàn)高效協(xié)作的關(guān)鍵工具。然而,該研究團隊指出,自然語言作為指令媒介在智能體交互中存在三大顯著劣勢:

1. 表達(dá)空間關(guān)系低效:

例如,當(dāng)我們希望智能體拆除房屋中某塊特定位置的磚塊時,需要使用大量方位詞和空間描述來構(gòu)造完整句子,這種方式不僅冗長,還容易引發(fā)歧義。

2. 難以泛化到新視覺概念:

一旦游戲中出現(xiàn)新的物體或怪物(如版本更新或新關(guān)卡設(shè)計),語言模型往往無法利用已有詞匯完成對齊,這嚴(yán)重限制了指令的可泛化性,是阻礙 AI 泛化到新游戲環(huán)境的關(guān)鍵因素之一。

3. 訓(xùn)練數(shù)據(jù)標(biāo)注成本高昂:

要訓(xùn)練一個能理解語言的智能體,通常需要對大量視頻進(jìn)行精細(xì)標(biāo)注。這個過程極其耗時且難以擴展,成為限制語言指令規(guī)?;瘧?yīng)用的重要瓶頸。

基于上述問題,該團隊進(jìn)一步探索了無需語言的指令形式,并提出了 “跨視角目標(biāo)對齊” 的新范式,構(gòu)建出一種更具泛化性、可擴展性的指令空間。

圖片

跨視角目標(biāo)對齊示例圖

針對傳統(tǒng)指令空間存在的諸多局限,該團隊創(chuàng)新性地提出了一個名為 “跨視角目標(biāo)對齊” 的新概念。

這一方法強調(diào),人類用戶和智能體以不同視角對同一環(huán)境進(jìn)行觀測:其中,人類用戶可以在自身視角中通過分割掩碼標(biāo)注目標(biāo)物體;而智能體則同時接收人類視角及其對應(yīng)的目標(biāo)掩碼,以及自身視角下的環(huán)境觀測。通過跨視角的信息對齊,智能體能夠建立起目標(biāo)在不同視角之間的空間映射關(guān)系,進(jìn)而推斷出人類的交互意圖,并輸出相應(yīng)的動作序列完成交互任務(wù)。

這種設(shè)計的最大優(yōu)勢在于:指令空間被重構(gòu)為一種語言無關(guān)、領(lǐng)域無關(guān)的表達(dá)方式,使得指令理解能力不再依賴自然語言或手工設(shè)計的命令系統(tǒng),而是由智能體對 3D 空間的理解能力與跨視角對齊能力共同決定,為泛化至更多 3D 場景提供了新的可能性。

此外,這一機制也極大降低了人機交互的門檻:人類用戶只需通過簡單的 “指指點點” 操作,即可表達(dá)復(fù)雜的交互意圖,無需費力描述或理解繁瑣的空間關(guān)系,進(jìn)一步推動了更自然、高效的人機協(xié)作方式的發(fā)展。

盡管本文提出的指令空間概念功能強大、泛化能力突出,但一個關(guān)鍵問題隨之而來:它真的容易訓(xùn)練嗎?

研究團隊指出跨視角目標(biāo)對齊在實際訓(xùn)練中面臨諸多挑戰(zhàn),比如不同視角之間的幾何形變、物體遮擋、以及來自環(huán)境中其他物體的干擾等。這些因素導(dǎo)致智能體難以穩(wěn)定地理解人類所指示的目標(biāo),僅僅依賴常規(guī)的行為克隆損失(Behavior Cloning Loss)進(jìn)行模仿學(xué)習(xí)是遠(yuǎn)遠(yuǎn)不夠的。為此,團隊從跨視角交互中提出了一個關(guān)鍵假設(shè):

人類和智能體視角中觀測到的目標(biāo)物體應(yīng)具有一致性(交互一致性)。

基于這一假設(shè),他們設(shè)計了兩個輔助任務(wù)與對應(yīng)的損失函數(shù),以提升訓(xùn)練穩(wěn)定性和泛化能力:

1. 跨視角一致性損失(Cross-View Consistency Loss):

要求智能體從自身視角出發(fā),準(zhǔn)確預(yù)測目標(biāo)物體在圖像中的中心位置與邊界框,從而學(xué)習(xí)對目標(biāo)的空間感知能力。

2. 目標(biāo)可見性損失(Target Visibility Loss):

要求智能體判斷目標(biāo)物體在其當(dāng)前視角下是否可見,幫助其在遮擋場景中保持魯棒的目標(biāo)感知能力。

通過引入這兩項輔助任務(wù),ROCKET-2 在訓(xùn)練中有效克服了跨視角的不確定性,使得指令空間的強大能力得以真正落地。

圖片

ROCKET-2 模型架構(gòu)

如圖所示,ROCKET-2 的整體架構(gòu)由 Spatial 模塊與 Temporal 模塊共同構(gòu)成。其中,Spatial 模塊采用非因果(non-causal)Transformer 編碼器,用于提取單幀圖像中的空間特征;而 Temporal 模塊則使用因果(causal)Transformer,用于建模隨時間演化的動態(tài)信息。該研究強調(diào),Temporal 模塊在時序建模中的作用至關(guān)重要。它能夠幫助模型在目標(biāo)被暫時遮擋的情況下,依然維持對目標(biāo)物體的追蹤與理解,從而保證智能體的行為具備連續(xù)性和穩(wěn)健性。

圖片

性能 - 效率曲線

實驗及結(jié)果

在對空間細(xì)節(jié)要求極高的 Minecraft Interaction 任務(wù)上,研究團隊將 ROCKET-2 與當(dāng)前主流的 Minecraft 智能體,包括 ROCKET-1、STEVE-1 和 GROOT-1 進(jìn)行了系統(tǒng)對比。

實驗結(jié)果顯示,ROCKET-2 在大多數(shù)任務(wù)中均達(dá)到了接近 100% 的最新 SOTA(State of the Art)水平,在性能上實現(xiàn)了顯著突破。更令人矚目的是,其推理速度相比 ROCKET-1 提升了 3 至 6 倍。這一優(yōu)勢主要得益于指令空間設(shè)計的優(yōu)化:ROCKET-1 依賴外部的物體追蹤模型,在每一幀都需實時生成分割掩碼,計算開銷較大;而 ROCKET-2 只需在交互初始時生成一次目標(biāo)掩碼,大幅降低了計算成本。

此外,與基于語言指令的智能體 STEVE-1 相比,ROCKET-2 實現(xiàn)了高達(dá) 80% 的絕對性能提升,充分驗證了其跨任務(wù)、跨場景的泛化能力和更高效的指令理解方式。

圖片

人機交互案例分析

研究團隊還分析了一些典型的人機交互案例,發(fā)現(xiàn)即使在智能體初始視角中無法直接觀測到人類所指示的目標(biāo)物體時,它仍能憑借對環(huán)境中 “地標(biāo)性建筑” 或顯著參照物的識別,合理推斷出目標(biāo)物體可能的位置,并自主導(dǎo)航前往完成交互任務(wù)。

ROCKET-2 的推出標(biāo)志著交互式智能體向前邁出了關(guān)鍵一步。它不僅在 Minecraft 中展現(xiàn)出強大的生存、戰(zhàn)斗與建造能力,更首次實現(xiàn)了 3D 游戲間的零樣本遷移,突破了長期以來 AI 難以跨場景泛化的瓶頸。通過創(chuàng)新的跨視角目標(biāo)對齊機制與高效的架構(gòu)設(shè)計,ROCKET-2 重新審視了人機交互范式,也為構(gòu)建面向未來的多模態(tài)通用智能體奠定了基礎(chǔ)。

從 Minecraft 到虛幻 5,從像素世界到物理模擬,ROCKET-2 展示了 AI 主動理解、泛化與交互的全新可能性?;蛟S在不遠(yuǎn)的將來,跨平臺、跨任務(wù)、跨世界的 “萬能 AI” 將真正走入現(xiàn)實。


責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-10-25 09:06:29

模型人工智能計算

2021-12-28 10:52:10

鴻蒙HarmonyOS應(yīng)用

2025-03-24 13:32:43

2025-02-06 11:25:50

2021-08-15 22:52:30

前端H5拼圖

2021-09-26 10:45:27

前端游戲CSS

2022-06-14 07:51:10

Godot游戲引擎

2017-07-12 23:08:03

白鷺引擎

2012-12-24 08:48:25

iOSUnity3D

2020-10-06 16:28:49

AI

2023-08-18 08:00:00

游戲開發(fā)3D模型

2013-11-21 19:36:56

暢游游戲引擎Genesis-3D

2025-02-08 11:12:34

ZAPS影像模型

2015-06-26 11:51:26

HTML5JavaScript

2012-06-20 15:12:22

筆記本評測

2024-06-25 09:35:04

模型訓(xùn)練

2023-09-19 13:11:26

自動駕駛研究

2023-02-24 10:22:15

2013-04-25 00:06:06

unity3D手機游戲引擎
點贊
收藏

51CTO技術(shù)棧公眾號