自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

具身智能新時(shí)代!VLA迎來(lái)最強(qiáng)基礎(chǔ)模型Magma:UI導(dǎo)航、機(jī)器人操作全能

人工智能
Magma是一個(gè)新型多模態(tài)基礎(chǔ)模型,能夠理解和執(zhí)行多模態(tài)任務(wù),適用于數(shù)字和物理環(huán)境:通過(guò)標(biāo)記集合(SoM)和標(biāo)記軌跡(ToM)技術(shù),將視覺(jué)語(yǔ)言數(shù)據(jù)轉(zhuǎn)化為可操作任務(wù),顯著提升了空間智能和任務(wù)泛化能力。

現(xiàn)有的大語(yǔ)言模型、圖像生成模型等都只是在某幾個(gè)模態(tài)數(shù)據(jù)上進(jìn)行操作,無(wú)法像人類一樣與物理世界產(chǎn)生交互。

視覺(jué)-語(yǔ)言-行動(dòng)(VLA,Vision-Language-Action)模型是可以感知視覺(jué)刺激、語(yǔ)言輸入以及其他與環(huán)境相關(guān)數(shù)據(jù)的自主智能體,能夠在物理和數(shù)字環(huán)境中生成有意義的「具身行動(dòng)」(embodied actions)以完成特定任務(wù)。

圖片圖片

由于二維數(shù)字世界和三維物理世界之間存在差異,現(xiàn)有的VLA模型通常對(duì)任務(wù)進(jìn)行簡(jiǎn)化,導(dǎo)致多模態(tài)理解能力偏弱,在跨任務(wù)和跨領(lǐng)域的泛化能力上不夠通用。

微軟、馬里蘭大學(xué)、威斯康星大學(xué)麥迪遜分校、韓國(guó)科學(xué)技術(shù)院、華盛頓大學(xué)的研究人員開(kāi)發(fā)了一個(gè)具備多模態(tài)理解、行動(dòng)預(yù)測(cè)的智能體基礎(chǔ)模型Magma,不僅保留了視覺(jué)語(yǔ)言模型的語(yǔ)言理解能力(語(yǔ)言智能),還具備在視覺(jué)空間世界中進(jìn)行規(guī)劃和行動(dòng)的能力(時(shí)空智能),能夠完成從用戶界面(UI)導(dǎo)航到機(jī)器人操作等各種智能體任務(wù)。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2502.13130

代碼鏈接:https://microsoft.github.io/Magma

為了賦予Magma智能體能力,研究人員使用海量圖像、視頻和機(jī)器人數(shù)據(jù)集對(duì)其進(jìn)行預(yù)訓(xùn)練:

在圖像中,可操作的視覺(jué)對(duì)象(如用戶界面中的點(diǎn)擊按鈕)通過(guò)「標(biāo)記集合」(SoM,Set-of-Mark)進(jìn)行標(biāo)注,以便實(shí)現(xiàn)行動(dòng)定位;

在視頻中,物體的運(yùn)動(dòng)(如人類手部或機(jī)器人臂的動(dòng)作軌跡)則通過(guò)「標(biāo)記軌跡」(ToM,Trace-of-Mark)進(jìn)行標(biāo)注,以支持行動(dòng)規(guī)劃。

圖片圖片

實(shí)驗(yàn)結(jié)果表明,SoM和ToM之間形成了良好的協(xié)同效應(yīng),Magma在UI導(dǎo)航和機(jī)器人操作任務(wù)上實(shí)現(xiàn)了最佳性能記錄,同時(shí)在圖像和視頻相關(guān)多模態(tài)任務(wù)中的表現(xiàn)也優(yōu)于其他常用的多模態(tài)模型。

多模態(tài)智能體建模

問(wèn)題定義

通用的多模態(tài)AI智能體π能夠同時(shí)執(zhí)行多模態(tài)理解和行動(dòng)執(zhí)行,以過(guò)去的視覺(jué)觀察圖像L={I1, ..., Ik}和文本形式的任務(wù)描述作為輸入,并輸出一組至少包含T≥1個(gè)token的集合O:

圖片圖片

其中,ctx為上下文,l ∈ {verbal,spatial}表示第i個(gè)token是語(yǔ)言token還是空間token

二維截圖中的UI導(dǎo)航任務(wù):對(duì)于「預(yù)訂酒店」任務(wù),智能體的輸出應(yīng)該包括表示動(dòng)作語(yǔ)義類型的語(yǔ)言token(如type、click等)以及動(dòng)作應(yīng)用的具體位置(x, y)或矩形框(x, y, w, h);

三維世界中的機(jī)器人操作任務(wù):對(duì)于「關(guān)閉抽屜」任務(wù),智能體的輸出包括終端執(zhí)行器的六自由度(6-DoF)位移(x, y, z, 偏航角、俯仰角、翻滾角),還可以添加一個(gè)維度來(lái)表示夾爪是打開(kāi)還是關(guān)閉狀態(tài);

多模態(tài)理解任務(wù):如果任務(wù)僅與輸入圖像L有關(guān),例如視覺(jué)問(wèn)答(VQA)任務(wù),問(wèn)題就簡(jiǎn)化為對(duì)生成「輸入圖像/視頻的文本描述」或「目標(biāo)位置」。

盡管任務(wù)的輸出形式看似不同,但研究人員通常會(huì)將所有輸出統(tǒng)一轉(zhuǎn)換為文本token,以便于模型的學(xué)習(xí)。

方法

研究人員提出了一種簡(jiǎn)單、有效的方法,結(jié)合「標(biāo)記集合」(Set-of-Mark, SoM)和「標(biāo)記軌跡」(Trace-of-Mark, ToM)將模型擴(kuò)展到空間預(yù)測(cè)任務(wù)(可點(diǎn)擊按鈕)和時(shí)間維度,解決了兩個(gè)通用性難題

1)如何構(gòu)建一個(gè)統(tǒng)一的預(yù)訓(xùn)練接口,以便實(shí)現(xiàn)聯(lián)合訓(xùn)練?

2)現(xiàn)有的視覺(jué)語(yǔ)言動(dòng)作數(shù)據(jù)在數(shù)量和多樣性上都較為有限,沒(méi)有足夠的數(shù)據(jù)用于擴(kuò)大模型規(guī)模。

基于標(biāo)記集合(SoM)的動(dòng)作定位

「標(biāo)記集合」提示方法最初是為了增強(qiáng)GPT-4V的視覺(jué)定位能力而提出的,但以往的研究主要利用SoM來(lái)增強(qiáng)現(xiàn)成的大型多模態(tài)模型(LMMs)的視覺(jué)語(yǔ)言定位能力,研究人員提出利用SoM來(lái)訓(xùn)練智能體模型,使其能夠定位特定任務(wù)中的可操作點(diǎn)或區(qū)域,并在需要時(shí)進(jìn)一步預(yù)測(cè)基本動(dòng)作。

假設(shè)在時(shí)間步t,智能體觀察到一張圖像It,其大小為H×W×3(即高度、寬度和顏色通道),同時(shí)智能體的輸入還包括任務(wù)描述和上下文信息。

圖片圖片

先從圖像中提取一組可操作的候選區(qū)域或點(diǎn)P = {p1, ..., pK},其中每個(gè)點(diǎn)pk可以是一個(gè)四維的矩形框坐標(biāo)(例如x, y, w, h)或二維的點(diǎn)坐標(biāo)(x, y),然后在圖像上對(duì)應(yīng)的位置疊加標(biāo)記和矩形框,并用數(shù)字標(biāo)簽標(biāo)記它們,例如M = {1: p1, 2: p2, ..., K: pK},從而生成一張帶有標(biāo)記的新圖像。

模型需要從候選標(biāo)記中選擇相應(yīng)的標(biāo)記,并結(jié)合原始坐標(biāo),極大簡(jiǎn)化了智能體模型的動(dòng)作定位任務(wù)。

圖片圖片

基于標(biāo)記軌跡(ToM)的動(dòng)作規(guī)劃

視頻數(shù)據(jù)包含了大量人類動(dòng)作和活動(dòng)的信息,可以用來(lái)提升智能體模型的能力,但動(dòng)作標(biāo)簽數(shù)據(jù)極為稀缺。

研究人員提出「標(biāo)記軌跡」(Trace-of-Mark, ToM)的方法,將「疊加標(biāo)記」(overlaying marks)的策略從靜態(tài)圖像擴(kuò)展到動(dòng)態(tài)視頻,讓智能體模型能夠有效地從視頻中學(xué)習(xí)規(guī)劃和執(zhí)行動(dòng)作。

對(duì)于第t幀It中的K個(gè)標(biāo)記,提取標(biāo)記在接下來(lái)I幀中的對(duì)應(yīng)位置,記為軌跡T = {Mt+1, ..., Mt+l},進(jìn)一步要求模型預(yù)測(cè)有效標(biāo)記的未來(lái)軌跡,其中trace[t+1:t+l]為標(biāo)記集合T中有效標(biāo)記的軌跡序列的一個(gè)子集。

圖片圖片

ToM預(yù)測(cè)方法可以充分利用視頻數(shù)據(jù),迫使模型理解視頻觀察中的時(shí)間動(dòng)態(tài),并在采取下一步動(dòng)作之前「向前看」;使用更少的token來(lái)捕捉更長(zhǎng)時(shí)間范圍內(nèi)的動(dòng)作相關(guān)目標(biāo)動(dòng)態(tài),且忽略周圍無(wú)關(guān)的內(nèi)容。

研究人員采用點(diǎn)跟蹤模型CoTracker來(lái)提取ToM數(shù)據(jù)。

建模

為了保持Magma所需的多模態(tài)理解能力,研究人員使用一個(gè)視覺(jué)編碼器V,將每一幀圖像編碼成多個(gè)token,然后將所有token拼接成一個(gè)序列,并與編碼任務(wù)描述的語(yǔ)言token一起輸入到一個(gè)僅解碼器的語(yǔ)言模型(LLM)中。

由于任務(wù)的多樣性,研究人員選擇ConvNeXt作為視覺(jué)主干網(wǎng)絡(luò),能夠無(wú)縫處理各種分辨率圖像和視頻,能夠很好地捕捉全局上下文,效果與結(jié)合全局和局部裁剪的方法相當(dāng)。

圖片圖片

智能體建模為一個(gè)自回歸解碼過(guò)程,即基于之前的所有輸出、視覺(jué)編碼器對(duì)圖像的編碼、任務(wù)描述以及上下文信息,來(lái)生成下一個(gè)輸出。

實(shí)驗(yàn)結(jié)果

智能體能力

研究人員使用了ScreenSpot來(lái)評(píng)估用戶界面(UI)動(dòng)作定位和導(dǎo)航能力,使用VisualWebBench來(lái)測(cè)試其在網(wǎng)頁(yè)環(huán)境中的表現(xiàn),同時(shí)還用SimplerEnv來(lái)評(píng)估機(jī)器人操作任務(wù)的表現(xiàn)。

圖片圖片

結(jié)果顯示,Magma在所有測(cè)試中都持續(xù)超越了其他通用領(lǐng)域的大型多模態(tài)模型(例如LLaVA和Qwen-VL),以及特定領(lǐng)域的智能體模型,比如用于UI導(dǎo)航的SeeClick和用于機(jī)器人操作的OpenVLA;在用戶界面任務(wù)上,Magma的零樣本性能甚至超過(guò)了目前最先進(jìn)的基于視覺(jué)的方法(結(jié)合了GPT-4V和Omniparser)。

圖片圖片

Magma預(yù)訓(xùn)練模型的成功率比排名第二的OpenVLA高出19.6%,幾乎達(dá)到了平均成功率的兩倍。

空間推理

研究人員將Magma模型在用戶界面(UI)導(dǎo)航和機(jī)器人操作任務(wù)上表現(xiàn)出色的原因歸結(jié)為其在空間推理能力上的提升,然后在視覺(jué)空間推理(VSR)、BLINK和SpatialEval基準(zhǔn)測(cè)試中進(jìn)行評(píng)估。

圖片圖片

結(jié)果可以看到,Magma在VSR和SpatialEval上的表現(xiàn)顯著優(yōu)于現(xiàn)有的方法,并且其預(yù)訓(xùn)練僅使用了大約2900萬(wàn)張圖像,對(duì)比CogVLM使用了約15億張圖像,兩個(gè)模型的性能大致相當(dāng);消融實(shí)驗(yàn)證明了標(biāo)記集合(SoM)和標(biāo)記軌跡(ToM)預(yù)訓(xùn)練任務(wù)在幫助Magma提升空間推理能力方面的有效性。

圖片圖片

多模態(tài)理解

圖像指令微調(diào):研究人員在Magma-SFT-820K數(shù)據(jù)集上進(jìn)行微調(diào),然后將微調(diào)后的Magma模型與現(xiàn)有的視覺(jué)語(yǔ)言模型(VLMs)在一系列常用的圖像推理基準(zhǔn)測(cè)試上進(jìn)行了比較,結(jié)果顯示Magma在大多數(shù)任務(wù)上的表現(xiàn)都優(yōu)于最近提出的VLMs,尤其是在TextVQA和ChartQA任務(wù)上,分別取得了約5%和22%的顯著提升。

圖片圖片

視頻指令微調(diào):研究人員報(bào)告了Magma模型在多個(gè)視頻問(wèn)答(QA)基準(zhǔn)測(cè)試上的表現(xiàn),包括IntentQA、NextQA、VideoMME和MVBench,結(jié)果展現(xiàn)了預(yù)訓(xùn)練方法的有效性。

圖片圖片

Magma在不同基準(zhǔn)測(cè)試中持續(xù)超越了大多數(shù)參數(shù)數(shù)量相當(dāng)?shù)淖钕冗M(jìn)模型,表明Magma能夠很好地理解和推理視頻內(nèi)容,即使在復(fù)雜的任務(wù)場(chǎng)景中也能表現(xiàn)出色。

參考資料:https://huggingface.co/papers/2502.13130


責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-12-19 14:44:22

2023-12-23 23:16:36

機(jī)器人模型

2023-11-08 13:20:00

模型數(shù)據(jù)

2023-10-04 11:54:34

2024-11-01 09:45:08

2024-07-22 08:00:00

機(jī)器人虛擬

2025-01-09 12:39:27

2024-12-11 12:00:00

2024-07-04 10:16:26

2024-06-04 09:25:51

2022-09-23 09:53:41

機(jī)器人機(jī)器學(xué)習(xí)

2020-04-09 09:56:55

機(jī)器人導(dǎo)航框架

2024-09-18 13:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)