微軟開(kāi)源多模態(tài)AI基礎(chǔ)模型!無(wú)需額外微調(diào)輕松拿捏網(wǎng)頁(yè)、機(jī)器人
微軟研究院官宣開(kāi)源多模態(tài)AI——Magma模型。
首個(gè)能在所處環(huán)境中理解多模態(tài)輸入并將其與實(shí)際情況相聯(lián)系的基礎(chǔ)模型。
該模型近期已被計(jì)算機(jī)視覺(jué)頂會(huì)CVPR接收,只要給定一個(gè)目標(biāo)描述,Magma就能制定計(jì)劃、執(zhí)行行動(dòng),無(wú)論是在數(shù)字界面中還是物理世界里,都能展現(xiàn)出靈活而高效的交互能力。
比如在網(wǎng)頁(yè)中找到天氣信息并打開(kāi)飛行模式,或是執(zhí)行分享、發(fā)送消息等多步驟操作。
再比如在真實(shí)機(jī)器人任務(wù)中,讓機(jī)器人移動(dòng)桌面上的“熱狗”模型、把蘑菇模型放到鍋里,或者將抹布從左至右推開(kāi)。
相比其它模型,它在實(shí)際滾動(dòng)演示中更加“絲滑”,出錯(cuò)率更低。
或者在多模態(tài)理解和對(duì)話任務(wù)中,贏了眼前國(guó)際象棋比賽(左),或根據(jù)當(dāng)前環(huán)境提出放松幾個(gè)小時(shí)的建議(右)。
甚至還能描述視頻中發(fā)生了什么動(dòng)作,并預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。
目前該模型以MIT許可證在GitHub上開(kāi)源。
融合視覺(jué)、語(yǔ)言與動(dòng)作的全新能力
傳統(tǒng)的視覺(jué)語(yǔ)言(VL)模型主要關(guān)注圖像與文本信息的理解,而Magma則在此基礎(chǔ)上進(jìn)一步拓展,加入了空間與時(shí)序智能,賦予AI更強(qiáng)的行動(dòng)決策能力。
微軟研究院團(tuán)隊(duì)指出,Magma在視覺(jué)理解和語(yǔ)言理解的基礎(chǔ)上,又讓AI具備了在視覺(jué)空間世界進(jìn)行動(dòng)作規(guī)劃與執(zhí)行的能力。
這意味著,Magma能夠勝任從UI界面導(dǎo)航到機(jī)器人精準(zhǔn)抓取與移動(dòng)等更多“跨界”任務(wù)。
Magma的核心創(chuàng)新在于其獨(dú)創(chuàng)的兩大標(biāo)注方法:
1、Set-of-Mark(SoM)
該方法為任務(wù)中需要關(guān)注的關(guān)鍵對(duì)象(如網(wǎng)頁(yè)中的可點(diǎn)擊元素或餐桌上的擺放物品)提供了一組高層次的“關(guān)注標(biāo)記”。通過(guò)對(duì)這些目標(biāo)進(jìn)行精準(zhǔn)定位,Magma能夠更有效地捕捉任務(wù)的核心要素,從而為后續(xù)動(dòng)作規(guī)劃奠定基礎(chǔ)。
微軟研究院的研究還顯示,SoM對(duì)UI導(dǎo)航、機(jī)器人和人類視頻都有統(tǒng)一的操作標(biāo)記作用,讓模型能快速識(shí)別并鎖定可交互目標(biāo)。
2、Trace-of-Mark(ToM)
不僅是靜態(tài)標(biāo)記,ToM方法還擴(kuò)展到動(dòng)態(tài)視頻場(chǎng)景中,通過(guò)對(duì)物體運(yùn)動(dòng)軌跡的標(biāo)注,捕捉到動(dòng)作的時(shí)序變化。
無(wú)論是機(jī)器人抓取物體時(shí)的手臂軌跡,還是人類在視頻中的動(dòng)態(tài)操作,ToM都能幫助模型理解任務(wù)的時(shí)序邏輯,預(yù)測(cè)未來(lái)狀態(tài),進(jìn)而作出更加精準(zhǔn)的決策。
研究團(tuán)隊(duì)表示,相比直接進(jìn)行下一幀預(yù)測(cè),ToM用更少的token就可捕捉更長(zhǎng)時(shí)間跨度的動(dòng)作語(yǔ)義,從而讓Magma更能關(guān)注關(guān)鍵動(dòng)作細(xì)節(jié)。
那么,Magma的實(shí)際表現(xiàn)如何呢?
概括而言,它在零樣本智能與跨領(lǐng)域應(yīng)用方面擁有強(qiáng)悍表現(xiàn)。
在多項(xiàng)測(cè)試中,包括UI導(dǎo)航、機(jī)器人操作與視頻理解,Magma無(wú)需針對(duì)特定領(lǐng)域進(jìn)行額外微調(diào),就能交出令人滿意的表現(xiàn)。
此外,研究團(tuán)隊(duì)還對(duì)多個(gè)模型(包括ChatGPT在內(nèi))做了零樣本評(píng)估,結(jié)果顯示預(yù)訓(xùn)練好的Magma是唯一能完成所有測(cè)試任務(wù)的模型。
而Magma的跨領(lǐng)域優(yōu)勢(shì)表現(xiàn)在以下幾個(gè)方面:
- UI導(dǎo)航場(chǎng)景:在Mind2Web、AITW等網(wǎng)頁(yè)或移動(dòng)設(shè)備界面導(dǎo)航任務(wù)中,Magma僅需少量微調(diào)(few-shot)就可以取得非常突出的成績(jī);
- 機(jī)器人任務(wù):在WidowX機(jī)械臂真實(shí)操作和LIBERO中進(jìn)行少樣本微調(diào),Magma同樣大幅領(lǐng)先于其它對(duì)比模型,尤其在軟物體操作和精確擺放任務(wù)中表現(xiàn)穩(wěn)定。研究者還指出,在預(yù)訓(xùn)練階段去除SoM和ToM標(biāo)注后,Magma的性能顯著下降,這說(shuō)明這兩大關(guān)鍵標(biāo)注策略對(duì)模型的通用性和表現(xiàn)力至關(guān)重要;
- 跨實(shí)體模擬:在Google Robots和Bridge任務(wù)中,Magma也展現(xiàn)了強(qiáng)大的跨實(shí)體泛化能力,能勝任不同種類物品的抓取與擺放。
與此同時(shí),其多模態(tài)理解能力體現(xiàn)在:
在視頻理解和對(duì)話場(chǎng)景中,Magma所需的視頻指令調(diào)優(yōu)數(shù)據(jù)量并不大,卻在大多數(shù)基準(zhǔn)測(cè)試上與Video-Llama2、ShareGPT4Video等先進(jìn)方法相當(dāng)甚至超越。
它不僅能描述視頻內(nèi)容,還能對(duì)下一步動(dòng)作進(jìn)行合理的預(yù)測(cè)和推斷。
據(jù)介紹,Magma使用大規(guī)模異構(gòu)視覺(jué)語(yǔ)言(VL)數(shù)據(jù)集預(yù)訓(xùn)練,包含3900多萬(wàn)條樣本,覆蓋圖像、視頻以及機(jī)器人動(dòng)作軌跡等多種形式,并采用ConvNeXt-XXL作為視覺(jué)骨干網(wǎng)絡(luò)和Llama-3-8B作為語(yǔ)言模型。
目前團(tuán)隊(duì)已經(jīng)將Magma以MIT許可證在GitHub上開(kāi)源,同時(shí)也在Hugging Face上提供了部分模型權(quán)重和示例,方便開(kāi)發(fā)者快速上手。
團(tuán)隊(duì)大部分為華人
從論文作者名單可以看到,其中大部分為華人。
論文一作兼項(xiàng)目負(fù)責(zé)人楊健偉,是Microsoft Research深度學(xué)習(xí)組的首席研究員,由Jianfeng Gao博士領(lǐng)導(dǎo)。
2020年3月加入微軟前,他在喬治亞理工學(xué)院互動(dòng)計(jì)算學(xué)院獲得計(jì)算機(jī)科學(xué)博士學(xué)位,研究“結(jié)構(gòu)化視覺(jué)理解、生成與推理”,師從Devi Parikh教授,并與Dhruv Batra教授合作。
他的研究專注于通用多模態(tài)智能體,是該領(lǐng)域的先驅(qū)之一,推動(dòng)了多個(gè)重要突破,包括:
- 多模態(tài)視覺(jué)基礎(chǔ)模型:UniCL、RegionCLIP、GLIP、大規(guī)?;A(chǔ)模型Florence;
- 通用多模態(tài)模型:X-Decoder、SEEM、Semantic-SAM;
- 大型多模態(tài)模型:LLaVa變體、GPT-4V的SoM提示工程、Phi-3-Vision。
由他主導(dǎo)的Project Magma項(xiàng)目,于發(fā)布后登上Hacker News熱榜第一,并在學(xué)術(shù)界和工業(yè)界引發(fā)廣泛關(guān)注。
作者之一顧禹,是Microsoft Research資深科學(xué)家,專注于大規(guī)模基礎(chǔ)模型、多模態(tài)學(xué)習(xí)和智能體技術(shù),推動(dòng)AI在醫(yī)療和企業(yè)級(jí)應(yīng)用中的落地。
他主導(dǎo)開(kāi)發(fā)了PubMedBERT,作為世界首批自適應(yīng)大模型,下載量超過(guò)2000萬(wàn),ACM年度最佳論文,廣泛應(yīng)用于全球醫(yī)療機(jī)構(gòu)。他共同主導(dǎo)BiomedParse(發(fā)表于《自然·方法》),并研發(fā)BiomedJourney,用于模擬疾病進(jìn)展,提升醫(yī)學(xué)AI在數(shù)據(jù)稀缺場(chǎng)景下的適應(yīng)能力。
在智能體系統(tǒng)方面,他展示了LLM驅(qū)動(dòng)的multi agent協(xié)作推理,優(yōu)化腫瘤決策,并在世界經(jīng)濟(jì)論壇上亮相,其研究成果發(fā)表在《自然》、《細(xì)胞》等期刊。
項(xiàng)目主頁(yè):https://microsoft.github.io/Magma/
論文:https://www.arxiv.org/pdf/2502.13130
開(kāi)源地址:https://github.com/microsoft/Magma