自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"

發(fā)布于 2025-3-4 09:46
瀏覽
0收藏

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

文章鏈接:https://www.arxiv.org/pdf/2502.13130 
項(xiàng)目鏈接:https://microsoft.github.io/Magma/ 
模型鏈接:https://huggingface.co/microsoft/Magma-8B

亮點(diǎn)直擊

  • 提出了Magma,第一個(gè)不僅具備多模態(tài)理解能力,還具備空間-時(shí)間推理能力的基礎(chǔ)模型,能夠在數(shù)字和物理環(huán)境中完成智能體任務(wù)。
  • 提出了使用Set-of-Mark (SoM)Trace-of-Mark (ToM)技術(shù),顯著增強(qiáng)了空間-時(shí)間智能,用于行動(dòng)定位和規(guī)劃,并使Magma能夠在大規(guī)模異構(gòu)數(shù)據(jù)集上進(jìn)行有效的預(yù)訓(xùn)練。
  • 構(gòu)建了一個(gè)大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集,其中不僅包含開(kāi)源的多模態(tài)視覺(jué)-語(yǔ)言(VL)數(shù)據(jù)集,還包括UI數(shù)據(jù)、機(jī)器人數(shù)據(jù)以及通過(guò)SoM和ToM自動(dòng)標(biāo)注的人類(lèi)教學(xué)視頻。訓(xùn)練語(yǔ)料庫(kù)總共包含約3900萬(wàn)個(gè)多樣化的樣本。
  • 廣泛評(píng)估了預(yù)訓(xùn)練的Magma模型,展示了其在廣泛任務(wù)中的卓越性能。Magma通過(guò)單一參數(shù)配置,在機(jī)器人操作和UI導(dǎo)航任務(wù)上均超越了開(kāi)源模型,達(dá)到了新的SOTA水平。
  • 展示了所提出的Magma預(yù)訓(xùn)練方法顯著提升了模型的語(yǔ)言智能空間-時(shí)間智能能力。

總結(jié)速覽

解決的問(wèn)題

  • 多模態(tài)理解與行動(dòng)的分離:現(xiàn)有的視覺(jué)-語(yǔ)言-行動(dòng)(VLA)模型通常在特定任務(wù)上表現(xiàn)良好,但在跨任務(wù)和跨領(lǐng)域的泛化能力上表現(xiàn)有限。這些模型往往在特定任務(wù)上學(xué)習(xí)行動(dòng)策略,而犧牲了通用的多模態(tài)理解能力。
  • 環(huán)境差異帶來(lái)的挑戰(zhàn):2D數(shù)字世界和3D物理世界之間的差異使得VLA模型通常需要分別訓(xùn)練,難以在多個(gè)環(huán)境中通用。
  • 數(shù)據(jù)集之間的差距:多模態(tài)理解(主要是文本描述)與行動(dòng)任務(wù)(主要是空間坐標(biāo))之間存在顯著差距,導(dǎo)致直接結(jié)合數(shù)據(jù)集難以提升模型性能。

提出的方案

  • Magma基礎(chǔ)模型:提出了一個(gè)多模態(tài)AI智能體的基礎(chǔ)模型Magma,旨在同時(shí)具備多模態(tài)理解和多模態(tài)行動(dòng)預(yù)測(cè)能力。
  • Set-of-Mark (SoM) 和 Trace-of-Mark (ToM):通過(guò)SoM標(biāo)記圖像中的可操作視覺(jué)對(duì)象(如GUI中的可點(diǎn)擊按鈕),通過(guò)ToM標(biāo)記視頻中的對(duì)象運(yùn)動(dòng)軌跡(如人手或機(jī)械臂的軌跡),將圖像和視頻數(shù)據(jù)集轉(zhuǎn)化為“視覺(jué)-語(yǔ)言-行動(dòng)”數(shù)據(jù),以彌合不同任務(wù)類(lèi)型之間的差距。
  • 統(tǒng)一訓(xùn)練:通過(guò)大量異構(gòu)數(shù)據(jù)集(包括UI數(shù)據(jù)集、機(jī)器人操作數(shù)據(jù)集、人類(lèi)教學(xué)視頻等)進(jìn)行統(tǒng)一訓(xùn)練,使模型能夠在零樣本情況下應(yīng)用于不同的下游任務(wù)。

應(yīng)用的技術(shù)

  • 多模態(tài)理解:模型能夠理解來(lái)自不同領(lǐng)域(數(shù)字和物理)的多模態(tài)輸入,不僅在語(yǔ)義上,還在空間和時(shí)間上。
  • 多模態(tài)行動(dòng)預(yù)測(cè):模型能夠?qū)㈤L(zhǎng)時(shí)程任務(wù)分解為準(zhǔn)確的行動(dòng)序列,并由AI智能體系統(tǒng)有效執(zhí)行。
  • SoM和ToM:通過(guò)SoM和ToM標(biāo)記技術(shù),將圖像和視頻數(shù)據(jù)集轉(zhuǎn)化為可用于行動(dòng)任務(wù)的數(shù)據(jù),提升模型的空間-時(shí)間智能。

達(dá)到的效果

  • 新SOTA結(jié)果:Magma在UI導(dǎo)航和機(jī)器人操作任務(wù)上創(chuàng)造了新的SOTA結(jié)果,超越了專(zhuān)門(mén)針對(duì)這些任務(wù)的模型。
  • 廣泛適用性:Magma在圖像和視頻相關(guān)的多模態(tài)任務(wù)上也表現(xiàn)出色,與訓(xùn)練在更大數(shù)據(jù)集上的大型多模態(tài)模型相比具有競(jìng)爭(zhēng)力。
  • 環(huán)境無(wú)關(guān)性:SoM和ToM技術(shù)環(huán)境無(wú)關(guān),易于推廣到新的智能體任務(wù),為使用大量未標(biāo)記視頻(如原始教學(xué)視頻)擴(kuò)展模型預(yù)訓(xùn)練提供了有效且高效的方法。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

多模態(tài)智能體建模

問(wèn)題定義

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

對(duì)于這些看似不同的輸出模態(tài),遵循一種常見(jiàn)做法,將所有輸出轉(zhuǎn)換為文本標(biāo)記,以促進(jìn)模型學(xué)習(xí)。將2D動(dòng)作轉(zhuǎn)換為文本字典(如[19]),并使用大型語(yǔ)言模型(LLMs)中幾乎未使用的最后256個(gè)離散語(yǔ)言標(biāo)記表示機(jī)器人動(dòng)作。盡管這種統(tǒng)一到語(yǔ)言空間的方法簡(jiǎn)化了學(xué)習(xí),但我們注意到任務(wù)之間存在顯著沖突,實(shí)驗(yàn)中將展示這一點(diǎn)。接下來(lái),我們將討論如何緩解這些挑戰(zhàn),以在廣泛的數(shù)據(jù)集上訓(xùn)練智能體基礎(chǔ)模型。

方法

在構(gòu)建多模態(tài)AI智能體的強(qiáng)大基礎(chǔ)時(shí),解決了兩個(gè)關(guān)鍵挑戰(zhàn):預(yù)訓(xùn)練目標(biāo):如何構(gòu)建統(tǒng)一的預(yù)訓(xùn)練接口以促進(jìn)聯(lián)合訓(xùn)練?一種直接的方法是預(yù)測(cè)UI導(dǎo)航的2D坐標(biāo)、末端執(zhí)行器的3D位置以及多模態(tài)視覺(jué)-語(yǔ)言(VL)任務(wù)的常規(guī)文本輸出。然而,在實(shí)驗(yàn)中,觀察到這些任務(wù)在輸入和輸出上存在固有的領(lǐng)域差距。前者導(dǎo)致像素級(jí)別的巨大搜索空間,后者直接預(yù)測(cè)本體感知?jiǎng)幼鞯妮敵?,而未基于圖像觀察進(jìn)行接地。我們能否設(shè)計(jì)一個(gè)智能體任務(wù)來(lái)彌合所有任務(wù)之間的差距?


數(shù)據(jù)擴(kuò)展:現(xiàn)有的視覺(jué)-語(yǔ)言-動(dòng)作數(shù)據(jù)在數(shù)量和多樣性上有限,與LLMs的語(yǔ)言數(shù)據(jù)或LMMs的圖像-文本語(yǔ)料庫(kù)不同。例如,最大的開(kāi)源機(jī)器人數(shù)據(jù)集OXE 包含來(lái)自22個(gè)環(huán)境的約100萬(wàn)條軌跡。另一方面,像LAION 這樣的大規(guī)模圖像-文本數(shù)據(jù)集幾乎不包含對(duì)動(dòng)作預(yù)訓(xùn)練有用的監(jiān)督信息,因?yàn)樗鼈兌际庆o態(tài)的,沒(méi)有動(dòng)作的概念。然而,視頻描繪了大量的人類(lèi)動(dòng)作和人與物體的交互。我們能否充分利用這些視頻數(shù)據(jù)進(jìn)行智能體預(yù)訓(xùn)練?


本工作提出了一種簡(jiǎn)單而有效的方法來(lái)解決上述挑戰(zhàn)。受Set-of-Mark (SoM) 提示 [126] 的通用性啟發(fā),采用它來(lái)實(shí)現(xiàn)UI和機(jī)器人任務(wù)中的動(dòng)作接地,因?yàn)槟P驮陬A(yù)測(cè)圖像空間中的可點(diǎn)擊按鈕或機(jī)器人手臂的數(shù)字標(biāo)記時(shí)面臨的困難較小。我們進(jìn)一步沿時(shí)間軸擴(kuò)展它,要求模型預(yù)測(cè)**Trace-of-Mark (ToM)**,這迫使模型通過(guò)預(yù)測(cè)遠(yuǎn)期的未來(lái)“動(dòng)作”來(lái)學(xué)習(xí)更長(zhǎng)的時(shí)間范圍,更重要的是,提供了一種有效利用未標(biāo)記視頻數(shù)據(jù)的方法。SoM和ToM的結(jié)合實(shí)現(xiàn)了數(shù)字和物理領(lǐng)域中智能體任務(wù)的無(wú)縫協(xié)同,以及從原始視頻中提取“動(dòng)作”監(jiān)督的可擴(kuò)展方法。

Set-of-Mark 用于動(dòng)作接地

SoM提示最初是為了增強(qiáng)GPT-4V的接地能力而提出的,隨后被廣泛用于各種智能體任務(wù)。與之前利用它提示現(xiàn)成的LMMs以增強(qiáng)視覺(jué)-語(yǔ)言接地的工作不同,我們?cè)诖颂岢鲇?xùn)練一個(gè)智能體模型用于動(dòng)作接地,即定位特定任務(wù)的可操作點(diǎn)/區(qū)域,并在需要時(shí)進(jìn)一步預(yù)測(cè)原子動(dòng)作。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

其中 CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū) 是標(biāo)記 CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū) 的一個(gè)子集。


在下圖3中,展示了一些實(shí)例,以演示基于SoM的動(dòng)作接地(如下圖1所示)。為了獲得要標(biāo)記的候選區(qū)域,可以利用不同的提議網(wǎng)絡(luò),如圖像分割模型 、目標(biāo)檢測(cè)模型或領(lǐng)域特定模型。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

Trace-of-Mark 用于動(dòng)作規(guī)劃

視頻數(shù)據(jù)包含大量關(guān)于人類(lèi)動(dòng)作和行為的信息,這些信息可以有效地用于提升智能體模型的能力。然而,由于缺乏動(dòng)作標(biāo)簽,之前的方法很少探索這一方向,除了一些專(zhuān)注于世界模型學(xué)習(xí)的工作。通過(guò)提出Trace-of-Mark (ToM),將“疊加標(biāo)記”策略從靜態(tài)圖像擴(kuò)展到動(dòng)態(tài)視頻,使智能體模型能夠有效地從視頻中學(xué)習(xí)規(guī)劃和行動(dòng)。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

建模

為了保留Magma所需的多模態(tài)理解能力,采用了當(dāng)前視覺(jué)-語(yǔ)言模型(VLMs)中的常見(jiàn)做法(例如LLaVA和 Phi-3-Vision)。給定視覺(jué)觀察 I,使用視覺(jué)編碼V將每一幀編碼為若干標(biāo)記,然后將所有標(biāo)記連接成一個(gè)序列,并將其與編碼任務(wù)描述的語(yǔ)言標(biāo)記一起輸入到僅解碼器的大型語(yǔ)言模型(LLM)中。由于任務(wù)的多樣性,需要一個(gè)能夠無(wú)縫編碼各種分辨率的圖像和視頻的視覺(jué)編碼器。本文提出使用卷積網(wǎng)絡(luò)ConvNeXt 作為視覺(jué)骨干網(wǎng)絡(luò),因?yàn)樗J(rèn)支持任意圖像分辨率。為了處理高分辨率圖像(例如高達(dá)2000的UI截圖),簡(jiǎn)單地執(zhí)行全局編碼,而不使用之前工作中的復(fù)雜技巧,并發(fā)現(xiàn)它可以編碼全局上下文,同時(shí)結(jié)合全局和局部裁剪。最終,將智能體建模公式化為自回歸解碼過(guò)程:

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

多模態(tài)智能體預(yù)訓(xùn)練

數(shù)據(jù)集

為了開(kāi)發(fā)一個(gè)具備語(yǔ)言和空間智能的基礎(chǔ)模型,能夠處理多樣化的智能體任務(wù),我們從廣泛的圖像、視頻和機(jī)器人領(lǐng)域整理了一個(gè)綜合的預(yù)訓(xùn)練數(shù)據(jù)集。

  • 機(jī)器人操作數(shù)據(jù):對(duì)于機(jī)器人任務(wù),遵循OpenVLA,使用Open-X-Embodiment 的機(jī)器人數(shù)據(jù)集。
  • UI導(dǎo)航數(shù)據(jù):利用兩個(gè)預(yù)訓(xùn)練數(shù)據(jù)集,SeeClick 和 Vision2UI 。
  • 教學(xué)視頻:整理了Epic-Kitchen、Ego4d、Somethingv2 和其他相關(guān)數(shù)據(jù)集,考慮到其中包含粗糙但豐富的目標(biāo)驅(qū)動(dòng)的人類(lèi)動(dòng)作。
  • 多模態(tài)理解:最后,納入了ShareGPT4V、LLaVA-1.5中的指令調(diào)優(yōu)數(shù)據(jù),以及其他一些OCR相關(guān)數(shù)據(jù)集,以獲得圖像理解能力。


還有許多相關(guān)數(shù)據(jù)集可以用于模型預(yù)訓(xùn)練,例如大規(guī)模指令調(diào)優(yōu)數(shù)據(jù) 和更多樣化的視頻數(shù)據(jù)。本研究專(zhuān)注于展示我們的預(yù)訓(xùn)練方法,并將進(jìn)一步的擴(kuò)展留給未來(lái)。接下來(lái),將詳細(xì)闡述如何通過(guò)Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 提取智能體動(dòng)作監(jiān)督。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

SoM 和 ToM 生成

如下表1所示,對(duì)不同的數(shù)據(jù)類(lèi)型應(yīng)用SoM和ToM,其中SoM應(yīng)用于所有數(shù)據(jù)以學(xué)習(xí)統(tǒng)一的動(dòng)作接地。ToM不適用于UI數(shù)據(jù),因?yàn)閁I數(shù)據(jù)由離散的截圖序列組成。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

SoM 用于 UI 導(dǎo)航

對(duì)于預(yù)訓(xùn)練數(shù)據(jù)中的UI截圖,主要依賴(lài)于基于DoM Tree提取的原始注釋。除了從HTML代碼中提取的邊界框,還進(jìn)一步使用Android視圖層次結(jié)構(gòu) 對(duì)SeeClick數(shù)據(jù)中的移動(dòng)截圖進(jìn)行邊界框標(biāo)注。給定圖像中提取的候選邊界框,我們應(yīng)用下算法1為對(duì)象分配文本標(biāo)簽(第3行)并繪制邊界框。為了最小化重疊框的放置,我們?cè)谟?jì)算文本框大小并分配其坐標(biāo)之前(第7行),使用先前繪制的框確定標(biāo)簽的最佳位置(第5行)。在評(píng)估期間,遵循常見(jiàn)做法,使用OmniParser 對(duì)ScreenSpot 進(jìn)行零樣本評(píng)估,并使用 [27] 提供的候選框?qū)ind2Web進(jìn)行下游訓(xùn)練和評(píng)估。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

SoM 和 ToM 用于視頻和機(jī)器人數(shù)據(jù)

使用標(biāo)記和軌跡作為智能體動(dòng)作監(jiān)督,預(yù)訓(xùn)練Magma模型以進(jìn)行動(dòng)作接地和規(guī)劃。為了提取可靠的軌跡,使用最先進(jìn)的點(diǎn)跟蹤模型CoTracker 來(lái)跟蹤每個(gè)視頻片段中的關(guān)鍵點(diǎn)。與之前工作中使用的目標(biāo)檢測(cè)和跟蹤系統(tǒng)不同,點(diǎn)跟蹤提供了最精細(xì)的末端執(zhí)行器(機(jī)器人手臂或人手)和對(duì)象的運(yùn)動(dòng)軌跡,更重要的是,它可以應(yīng)用于任何視頻,因?yàn)樗恍枰獙?duì)象識(shí)別。

CoTracker的可靠性:為了確定這些軌跡的泛化能力,在所有預(yù)訓(xùn)練數(shù)據(jù)上運(yùn)行算法之前檢查了CoTracker的可靠性。CoTracker已經(jīng)在多個(gè)視頻數(shù)據(jù)集(如TAP-Vid 和 PointOdyssey)上得到了充分驗(yàn)證。在本工作中,提出了全面的策略來(lái)處理視頻中的場(chǎng)景轉(zhuǎn)換和相機(jī)運(yùn)動(dòng)(下算法2),這些策略有效地?cái)U(kuò)展到Ego4D和其他教學(xué)視頻數(shù)據(jù)集(下圖13)。為了進(jìn)一步驗(yàn)證ToM的可靠性,在YouCook2-BB的一個(gè)子集上定量評(píng)估了軌跡,該子集包含人類(lèi)標(biāo)注的邊界框。從每個(gè)標(biāo)注的框中提取軌跡,并統(tǒng)計(jì)1秒后仍落入框內(nèi)的未來(lái)軌跡數(shù)量。在1320個(gè)片段上,得到了0.89的精度,表明軌跡可靠地捕捉了時(shí)間運(yùn)動(dòng)。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

片段和CLIP分?jǐn)?shù)過(guò)濾:由于點(diǎn)跟蹤系統(tǒng)在短時(shí)間窗口內(nèi)工作,首先使用提供的注釋將每個(gè)視頻分割成片段,然后使用PySceneDetect進(jìn)一步將每個(gè)片段分解為具有一致鏡頭的短視頻片段。然而,檢測(cè)到的視頻片段可能并不總是與其相關(guān)的文本注釋相關(guān)。因此,使用預(yù)訓(xùn)練的CLIP視覺(jué)和文本編碼器計(jì)算每個(gè)片段和文本對(duì)之間的余弦相似度分?jǐn)?shù),并過(guò)濾掉分?jǐn)?shù)低于0.25的片段。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

預(yù)訓(xùn)練

上述數(shù)據(jù)和注釋整理形成了一個(gè)綜合的預(yù)訓(xùn)練套件,涵蓋:

  1. 不同的數(shù)字和物理環(huán)境;
  2. 語(yǔ)言和空間注釋?zhuān)?/li>
  3. 各種多模態(tài)理解和智能體任務(wù)。


如下圖6(左)所示,包含了來(lái)自SeeClick 和 Vision2UI 的近270萬(wàn)張UI導(dǎo)航截圖。遵循OpenVLA,將Open-X-Embodiment中的97萬(wàn)條軌跡納入其中,這些軌跡包含940萬(wàn)條圖像-語(yǔ)言-動(dòng)作三元組。預(yù)訓(xùn)練數(shù)據(jù)的大部分是視頻,包含超過(guò)2500萬(wàn)個(gè)樣本,源自約400萬(wàn)個(gè)鏡頭一致的視頻片段。最后,我們納入了來(lái)自ShareGPT4V、LLaVa-1.5 和其他一些OCR相關(guān)數(shù)據(jù)集 的120萬(wàn)張圖像和文本對(duì),將其稱(chēng)為Magma-SFT(82萬(wàn))。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

默認(rèn)情況下,使用LLaMA-3-8B作為語(yǔ)言骨干網(wǎng)絡(luò),ConvNext-XXlarge作為視覺(jué)骨干網(wǎng)絡(luò)。在下圖7中展示了預(yù)訓(xùn)練架構(gòu)。本文提出的SoM和ToM作為橋梁,連接了所有四種類(lèi)型數(shù)據(jù)的語(yǔ)言和動(dòng)作監(jiān)督,并顯著增強(qiáng)了模型的空間智能,正如在實(shí)驗(yàn)中所觀察到的那樣。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

為了進(jìn)行比較,在實(shí)驗(yàn)中運(yùn)行了一些變體以進(jìn)行消融研究:

  • Magma-8B (SFT):使用Magma-SFT(82萬(wàn))進(jìn)行指令調(diào)優(yōu)的模型,遵循LMM訓(xùn)練中使用的常規(guī)方法。
  • Magma-8B (UI)Magma-8B (OXE):分別在UI截圖和OXE機(jī)器人數(shù)據(jù)上預(yù)訓(xùn)練的模型。
  • Magma-8B (ACT):在UI截圖和機(jī)器人數(shù)據(jù)上聯(lián)合預(yù)訓(xùn)練的模型。
  • Magma-8B (Full):使用整個(gè)數(shù)據(jù)集(包含SoM和ToM注釋?zhuān)┯?xùn)練的完整模型。


除非另有說(shuō)明,所有預(yù)訓(xùn)練都包括Magma-SFT(82萬(wàn))。使用整理的數(shù)據(jù)對(duì)模型進(jìn)行最多三個(gè)epoch的預(yù)訓(xùn)練,學(xué)習(xí)率恒定為1e-5,并在零樣本設(shè)置下評(píng)估預(yù)訓(xùn)練模型在不同任務(wù)上的表現(xiàn),同時(shí)在下游任務(wù)上微調(diào)其權(quán)重。整個(gè)模型(包括語(yǔ)言模型和視覺(jué)編碼器的參數(shù))都會(huì)被調(diào)整。

實(shí)驗(yàn)

智能體能力評(píng)估

評(píng)估 Magma 作為多模態(tài)智能體的基礎(chǔ)模型在數(shù)字世界中的UI導(dǎo)航任務(wù)、物理世界中的機(jī)器人操作任務(wù),以及通用多模態(tài)理解方面的有效性。

零樣本評(píng)估

為了評(píng)估 Magma 的零樣本遷移能力,采用 ScreenSpot 和 VisualWebBench評(píng)估 UI 動(dòng)作定位和導(dǎo)航,并使用 SimplerEnv 評(píng)估機(jī)器人操作。此外,還在通用和文本豐富的 VQA 任務(wù)以及幻覺(jué)基準(zhǔn) POPE上驗(yàn)證了本文的模型。


如下表 2 所示,Magma 在所有其他通用領(lǐng)域的大型多模態(tài)模型(LMMs)(如 LLaVA、Qwen-VL)以及特定領(lǐng)域的智能體模型(如用于 UI 導(dǎo)航的 SeeClick和用于機(jī)器人操作的 OpenVLA)上始終表現(xiàn)優(yōu)越。值得注意的是,Magma 在 UI 任務(wù)上的零樣本性能遠(yuǎn)超使用 GPT-4V 和 Omniparser 的最先進(jìn)視覺(jué)方法。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

本文報(bào)告了 SimplerEnv 中兩種常用模擬器(Bridge 和 Google Robot)的結(jié)果,包括 8 項(xiàng)任務(wù),共 172 個(gè)視覺(jué)匹配和變體聚合場(chǎng)景。由于 OpenVLA 在真實(shí)機(jī)器人軌跡上進(jìn)行預(yù)訓(xùn)練,該模型在真實(shí)到模擬(real-to-sim)自適應(yīng)過(guò)程中容易受到領(lǐng)域差距的影響。相比之下,本文的 Magma 模型在多模態(tài)理解和動(dòng)作預(yù)測(cè)方面使用了廣泛的異構(gòu)數(shù)據(jù)集進(jìn)行訓(xùn)練,對(duì)這種差距更具適應(yīng)性,并取得了顯著更高的成功率。


下圖 8 展示了預(yù)訓(xùn)練的 Magma 模型與其他代表性模型的詳細(xì)對(duì)比。值得注意的是,Magma 領(lǐng)先排名第二的 OpenVLA 19.6%,幾乎將平均成功率翻倍。在“將物體放入抽屜”和“將胡蘿卜放在盤(pán)子上”等具有挑戰(zhàn)性的任務(wù)中,Magma 取得了卓越的成功率,而大多數(shù)基線模型完全失敗。此外,在預(yù)訓(xùn)練模型的基礎(chǔ)上微調(diào)的 Magma 版本比僅在機(jī)器人數(shù)據(jù)集上訓(xùn)練的版本表現(xiàn)更好,這凸顯了從多樣化數(shù)據(jù)集中學(xué)習(xí)的空間智能對(duì)于物理機(jī)器人操作任務(wù)的價(jià)值。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

消融研究對(duì)模型的預(yù)訓(xùn)練技術(shù)和數(shù)據(jù)組合進(jìn)行消融實(shí)驗(yàn),結(jié)果如下表 3 所示。首先,簡(jiǎn)單地將 UI 和機(jī)器人數(shù)據(jù)結(jié)合并不會(huì)帶來(lái)性能提升,反而會(huì)對(duì)兩類(lèi)任務(wù)的性能造成損害。這是可以預(yù)見(jiàn)的,因?yàn)檫@兩個(gè)智能體任務(wù)在圖像域和動(dòng)作空間(2D 坐標(biāo) vs. 7-DoF)上存在顯著差異。在預(yù)訓(xùn)練中加入視頻數(shù)據(jù)可以在整體上略微提升性能,但仍無(wú)法彌合二者之間的差距,因?yàn)轭~外的視頻解說(shuō)只能增強(qiáng)語(yǔ)言智能。然而,當(dāng)在所有預(yù)訓(xùn)練數(shù)據(jù)上應(yīng)用 SoM 和 ToM 并將其映射到統(tǒng)一接口后,模型能夠有效地從異構(gòu)數(shù)據(jù)中學(xué)習(xí)語(yǔ)言和空間智能。該研究表明,本文提出的方法是有效的,并且語(yǔ)言理解與空間理解對(duì)于智能體任務(wù)同等重要。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

高效微調(diào)

UI導(dǎo)航:遵循之前的工作 [19, 43],在Mind2Web和AITW上對(duì)Magma進(jìn)行微調(diào),分別測(cè)試其在網(wǎng)頁(yè)和移動(dòng)UI導(dǎo)航中的能力。對(duì)于Mind2Web,首先根據(jù) [140] 選擇的候選框?qū)τ?xùn)練樣本應(yīng)用SoM提示,然后在與SeeClick相同的樣本上對(duì)Magma進(jìn)行微調(diào)。下表4顯示了三個(gè)子任務(wù)的結(jié)果,清楚地表明Magma優(yōu)于通用領(lǐng)域和特定領(lǐng)域的LMMs。同樣,在AITW上,Magma超越了基于開(kāi)源或?qū)S心P偷淖钕冗M(jìn)方法。考慮到我們使用了類(lèi)似規(guī)模的LLM和適量的UI相關(guān)預(yù)訓(xùn)練數(shù)據(jù),這種出色的性能主要?dú)w功于所提出的SoM和ToM建模技術(shù),這些技術(shù)顯著促進(jìn)了UI導(dǎo)航中的動(dòng)作接地。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

機(jī)器人操作:前面表2顯示,未經(jīng)領(lǐng)域特定微調(diào)的Magma模型已經(jīng)優(yōu)于在相同數(shù)量OXE數(shù)據(jù)上預(yù)訓(xùn)練27個(gè)epoch的最近提出的OpenVLA模型。接下來(lái),我們通過(guò)將微調(diào)后的Magma模型與OpenVLA在三種設(shè)置下進(jìn)行比較,驗(yàn)證其有效性:

  1. 在真實(shí)機(jī)器人數(shù)據(jù)上微調(diào):評(píng)估分布外操作任務(wù);
  2. 在模擬機(jī)器人設(shè)置中微調(diào):使用LIBERO基準(zhǔn)測(cè)試評(píng)估Magma在有限軌跡下的任務(wù)適應(yīng)能力;
  3. 在物理WidoxW 250 Arm上評(píng)估。


研究者們收集了四個(gè)操作任務(wù),每個(gè)任務(wù)大約有50條軌跡(詳見(jiàn)補(bǔ)充材料),并在這些任務(wù)上聯(lián)合微調(diào)OpenVLA和Magma。為了評(píng)估,我們每個(gè)任務(wù)進(jìn)行10次試驗(yàn),確保模型之間的初始狀態(tài)(末端執(zhí)行器和對(duì)象的位置和方向)相同。如下圖9所示,結(jié)果清楚地展示了Magma的優(yōu)越性能。對(duì)于涉及日常對(duì)象的挑戰(zhàn)性任務(wù),如“Pick Place Hotdog Sausage”、“Put Mushroom in Pot”和“Push Cloth Right to Left”,OpenVLA幾乎無(wú)法完成任務(wù),主要是由于觀察到的臂部運(yùn)動(dòng)和對(duì)象定位不精確。相比之下,Magma在這些復(fù)雜任務(wù)上表現(xiàn)良好,這主要?dú)w功于其從預(yù)訓(xùn)練中獲得的空間理解和接地能力。此外評(píng)估了模型在未見(jiàn)任務(wù)“Push Cloth Left to Right”上的表現(xiàn),該任務(wù)未包含在微調(diào)數(shù)據(jù)集中。Magma顯著優(yōu)于基線,表明其具有更強(qiáng)的保留預(yù)訓(xùn)練知識(shí)并泛化到新任務(wù)的能力。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

Magma的高效適應(yīng)能力(通過(guò)微調(diào))在LIBERO基準(zhǔn)測(cè)試中的少樣本微調(diào)評(píng)估中得到了進(jìn)一步驗(yàn)證。對(duì)于基準(zhǔn)測(cè)試中的每個(gè)任務(wù)套件,我們僅采樣10條軌跡進(jìn)行微調(diào)。在評(píng)估期間,每個(gè)任務(wù)套件進(jìn)行100次試驗(yàn)。如下圖10所示,結(jié)果表明Magma在所有任務(wù)套件中實(shí)現(xiàn)了顯著更高的平均成功率。此外,在預(yù)訓(xùn)練期間移除SoM和ToM會(huì)對(duì)模型性能產(chǎn)生負(fù)面影響,這進(jìn)一步證明了我們預(yù)訓(xùn)練方法的有效性。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

評(píng)估空間推理能力

將 Magma 模型在 UI 導(dǎo)航和機(jī)器人操作任務(wù)上的顯著性能提升(如上所示)歸因于其增強(qiáng)的空間推理能力。為了驗(yàn)證這一假設(shè),我們?cè)诰哂刑魬?zhàn)性的視覺(jué)空間推理(VSR)、BLINK 和 SpatialEval基準(zhǔn)測(cè)試上,以零樣本(zero-shot)設(shè)置評(píng)估我們預(yù)訓(xùn)練模型所學(xué)到的空間智能的有效性。結(jié)果匯總在表 6 中。我們發(fā)現(xiàn),Magma 在 VSR 和 SpatialEval 上的表現(xiàn)大幅超越現(xiàn)有方法,并且在 BLINK 任務(wù)上的表現(xiàn)與 CogVLM 相當(dāng),盡管后者使用了約 15 億張圖像進(jìn)行預(yù)訓(xùn)練,而 Magma 僅使用了約 2900 萬(wàn)張圖像。此外,我們的消融研究表明,SoM 和 ToM 預(yù)訓(xùn)練任務(wù)對(duì)于 Magma 提升空間推理能力具有重要作用。最后,在預(yù)訓(xùn)練過(guò)程中使用視頻數(shù)據(jù)的優(yōu)勢(shì),并通過(guò)實(shí)驗(yàn)表明,在訓(xùn)練數(shù)據(jù)中去除視頻會(huì)導(dǎo)致 BLINK 任務(wù)的性能下降約 8%。此外,在下圖 11 中提供了一些 Magma 模型的預(yù)測(cè)示例??臻g推理問(wèn)題對(duì) GPT-4o 等最新專(zhuān)有模型仍然具有挑戰(zhàn)性。盡管 Magma 沒(méi)有在包含迷宮的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,但它仍然能夠回答與迷宮相關(guān)的空間推理問(wèn)題。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

評(píng)估多模態(tài)理解

圖像指令微調(diào)為了進(jìn)一步評(píng)估 Magma 的多模態(tài)理解能力,在 Magma-SFT-820K 數(shù)據(jù)上進(jìn)行持續(xù)微調(diào)。然后,將微調(diào)后的 Magma 模型與現(xiàn)有的 VLMs(視覺(jué)語(yǔ)言模型)進(jìn)行比較,使用一系列常用的圖像推理基準(zhǔn),例如 MME 和 GQA。如下表 7 所示,Magma 在大多數(shù)任務(wù)上超越了最近提出的 VLMs,尤其是在 TextVQA 和 ChartQA 上分別取得了約 5% 和 22% 的顯著提升。與下表 6 中的觀察結(jié)果類(lèi)似,我們的消融研究強(qiáng)調(diào)了 SoM 和 ToM 預(yù)訓(xùn)練任務(wù)的有效性,這在 ChartQA 上帶來(lái)了約 5% 的提升。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

視頻指令微調(diào)下表 8中報(bào)告了 Magma 模型在多個(gè)挑戰(zhàn)性視頻問(wèn)答(QA)基準(zhǔn)測(cè)試中的表現(xiàn),包括 IntentQA、NextQA、VideoMME 和 MVBench。使用 LMMs-Eval 框架進(jìn)行后三個(gè)基準(zhǔn)測(cè)試,以確保評(píng)估結(jié)果的可重復(fù)性。

CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會(huì)點(diǎn)按鈕會(huì)搬磚,標(biāo)注竟讓AI長(zhǎng)出"時(shí)空大腦"-AI.x社區(qū)

結(jié)果展示了本文預(yù)訓(xùn)練方法的有效性,在不同基準(zhǔn)測(cè)試中,Magna consistently 在大多數(shù)具有可比參數(shù)數(shù)量的最新模型中表現(xiàn)更好。例如,我們的 Magma 模型在 IG-VLM 和 SF-LLaVA 模型上實(shí)現(xiàn)了約 28% 的性能提升。IntentQA 基準(zhǔn)評(píng)估模型理解視頻中觀察到的動(dòng)作背后意圖的能力。因此,Magma 在該數(shù)據(jù)集上取得的顯著提升可能歸因于我們 ToM 預(yù)訓(xùn)練任務(wù)的有效性,該任務(wù)鼓勵(lì)模型推理未來(lái)視頻幀中的時(shí)間動(dòng)態(tài)。MVBench 中動(dòng)作預(yù)測(cè)子任務(wù)上的顯著提升也進(jìn)一步證實(shí)了這一點(diǎn),Magma 超越了 VideoChat2 和 LLaVA-OV 等最先進(jìn)的模型。


最先進(jìn)的視頻 LMMs 通常依賴(lài)于像 Webvid 和 ShareGPT4Video 這樣的大型視頻和文本數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,這些數(shù)據(jù)集包含超過(guò) 400 萬(wàn)個(gè)樣本,并且有經(jīng)過(guò)策劃的文本。此外,前述模型在預(yù)訓(xùn)練時(shí)也使用了更多的幀數(shù)。相比之下,即使在我們的案例中進(jìn)行了多幀預(yù)訓(xùn)練,由于計(jì)算限制,我們最多只使用了 4 幀。因此,Magma 在 VideoMME 和 MVBench 上超越了 LLaVA-OV 和 ShareGPT4Video 等方法尤其具有意義,因?yàn)檫@些方法通常使用更大的指令微調(diào)數(shù)據(jù)集,包括圖像和視頻數(shù)據(jù)。此外,正如 Magma 在專(zhuān)有模型 GPT-4V 上獲得的性能提升所證明的那樣,我們注意到這些結(jié)果的改進(jìn)不僅僅是因?yàn)槭褂昧讼?LLama-3 這樣更新更強(qiáng)大的語(yǔ)言模型。值得注意的是,Magma 在性能上遠(yuǎn)超 LongVA,盡管它只使用了 32 幀,而 LongVA 使用了 64 幀。

結(jié)論

本文提出了 Magma 基礎(chǔ)模型,它能夠理解和處理多模態(tài)輸入,以完成不同環(huán)境中的智能體任務(wù)。實(shí)驗(yàn)表明,在預(yù)訓(xùn)練中使用 SoM 和 ToM 預(yù)測(cè)任務(wù)幫助模型分別學(xué)習(xí)如何進(jìn)行基礎(chǔ)推理和規(guī)劃動(dòng)作。在實(shí)驗(yàn)中,Magma 展示了強(qiáng)大的時(shí)空推理能力,并且在下游的 UI 導(dǎo)航和機(jī)器人操作任務(wù)上顯著超越了基準(zhǔn)模型。


社會(huì)影響和局限性為了開(kāi)發(fā)一個(gè)具有語(yǔ)言和空間智能、能夠處理數(shù)字和物理環(huán)境中多樣化智能體任務(wù)的基礎(chǔ)模型,從多個(gè)領(lǐng)域收集了全面的預(yù)訓(xùn)練數(shù)據(jù)集,包括圖像、視頻和機(jī)器人領(lǐng)域:

  • UI 導(dǎo)航數(shù)據(jù):利用了兩個(gè)預(yù)訓(xùn)練數(shù)據(jù)集 SeeClick 和 Vision2UI。
  • 教學(xué)視頻:由于我們的目標(biāo)是學(xué)習(xí)一個(gè)能夠執(zhí)行日常任務(wù)(如人類(lèi))的智能體模型,我們匯編了來(lái)自 Epic Kitchen、Ego4d、Something-Something v2 和其他教學(xué)視頻的數(shù)據(jù)。
  • 機(jī)器人操作數(shù)據(jù):對(duì)于機(jī)器人任務(wù),遵循 OpenVLA 方法,利用了 Open-X-Embodiment 中的機(jī)器人數(shù)據(jù)。
  • 多模態(tài)理解數(shù)據(jù):最后,包括了一小部分多模態(tài)預(yù)訓(xùn)練數(shù)據(jù) ShareGPT4V,以及指令調(diào)優(yōu)數(shù)據(jù) LlaVA-1.5 和其他領(lǐng)域特定的數(shù)據(jù),以保持預(yù)訓(xùn)練模型的通用多模態(tài)理解能力。


機(jī)器人和 UI 導(dǎo)航數(shù)據(jù)的標(biāo)注非常標(biāo)準(zhǔn)化,集中于通用的操作任務(wù)(“將 x 物體放置在 y 物體上”)和通用的 UI 導(dǎo)航任務(wù)(“點(diǎn)擊搜索按鈕”)。然而,我們對(duì)執(zhí)行特定任務(wù)的人物視頻數(shù)據(jù)進(jìn)行了詳細(xì)的數(shù)據(jù)反思。在這些視頻中,我們的核心推論是任務(wù)執(zhí)行時(shí)物體的運(yùn)動(dòng)軌跡。


教學(xué)視頻中身份和活動(dòng)的分布并未代表全球人群及社會(huì)中的多樣性。意識(shí)到在使用這些數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),可能存在無(wú)意的社會(huì)性、性別、種族及其他偏見(jiàn),因此我們將確保在發(fā)布模型時(shí)提供必要的免責(zé)聲明。訓(xùn)練數(shù)據(jù)集、任務(wù)列表和描述僅關(guān)注要執(zhí)行的下一步操作,而不是描述、處理或分析任務(wù)本身。雖然模型可能會(huì)基于不良的任務(wù)描述產(chǎn)生意外輸出,我們將確保突出展示模型訓(xùn)練的用例及其預(yù)期用途。


負(fù)責(zé)任的 AI值得注意的是,該模型專(zhuān)為受控的 Web UI 和 Android 模擬器中的 UI 導(dǎo)航任務(wù)以及機(jī)器人操作任務(wù)設(shè)計(jì),不應(yīng)廣泛應(yīng)用于其他任務(wù)。推薦的使用場(chǎng)景是在其訓(xùn)練環(huán)境內(nèi),即配備機(jī)器人臂和日常物體的封閉空間用于機(jī)器人操作,及在計(jì)算機(jī)上運(yùn)行的 Android 模擬器用于 UI 操作任務(wù)。對(duì)于 UI 導(dǎo)航任務(wù),研究人員應(yīng)確保在每個(gè)智能體系統(tǒng)生成的動(dòng)作中,始終由人工干預(yù)和控制。由于模型本身無(wú)法獨(dú)立行動(dòng),因此研究人員使用的子模塊必須確保執(zhí)行模型提出的 UI 操作時(shí)不會(huì)產(chǎn)生意外后果。


該模型本身展示了足夠的 UI 導(dǎo)航和機(jī)器人操作能力,但不能直接用于惡意利用場(chǎng)景。惡意攻擊者可以使用特定的訓(xùn)練數(shù)據(jù)進(jìn)行特定的惡意任務(wù),將該模型作為基礎(chǔ)來(lái)執(zhí)行自動(dòng)化的 UI 導(dǎo)航任務(wù)。這是與智能體模型相關(guān)的普遍風(fēng)險(xiǎn)。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接??https://mp.weixin.qq.com/s/z69YT0Ww_QGCYQ1ghiaFXQ??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄