自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟開(kāi)源多模態(tài)AI基礎(chǔ)模型!無(wú)需額外微調(diào)輕松拿捏網(wǎng)頁(yè)、機(jī)器人

人工智能 開(kāi)源
首個(gè)能在所處環(huán)境中理解多模態(tài)輸入并將其與實(shí)際情況相聯(lián)系的基礎(chǔ)模型。

微軟研究院官宣開(kāi)源多模態(tài)AI——Magma模型。

首個(gè)能在所處環(huán)境中理解多模態(tài)輸入并將其與實(shí)際情況相聯(lián)系的基礎(chǔ)模型。

圖片

該模型近期已被計(jì)算機(jī)視覺(jué)頂會(huì)CVPR接收,只要給定一個(gè)目標(biāo)描述,Magma就能制定計(jì)劃、執(zhí)行行動(dòng),無(wú)論是在數(shù)字界面中還是物理世界里,都能展現(xiàn)出靈活而高效的交互能力。

比如在網(wǎng)頁(yè)中找到天氣信息并打開(kāi)飛行模式,或是執(zhí)行分享、發(fā)送消息等多步驟操作。

圖片

再比如在真實(shí)機(jī)器人任務(wù)中,讓機(jī)器人移動(dòng)桌面上的“熱狗”模型、把蘑菇模型放到鍋里,或者將抹布從左至右推開(kāi)。

相比其它模型,它在實(shí)際滾動(dòng)演示中更加“絲滑”,出錯(cuò)率更低。

圖片

或者在多模態(tài)理解和對(duì)話任務(wù)中,贏了眼前國(guó)際象棋比賽(左),或根據(jù)當(dāng)前環(huán)境提出放松幾個(gè)小時(shí)的建議(右)。

圖片

甚至還能描述視頻中發(fā)生了什么動(dòng)作,并預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。

圖片
圖片

目前該模型以MIT許可證在GitHub上開(kāi)源。

融合視覺(jué)、語(yǔ)言與動(dòng)作的全新能力

傳統(tǒng)的視覺(jué)語(yǔ)言(VL)模型主要關(guān)注圖像與文本信息的理解,而Magma則在此基礎(chǔ)上進(jìn)一步拓展,加入了空間與時(shí)序智能,賦予AI更強(qiáng)的行動(dòng)決策能力。

微軟研究院團(tuán)隊(duì)指出,Magma在視覺(jué)理解和語(yǔ)言理解的基礎(chǔ)上,又讓AI具備了在視覺(jué)空間世界進(jìn)行動(dòng)作規(guī)劃與執(zhí)行的能力。

這意味著,Magma能夠勝任從UI界面導(dǎo)航到機(jī)器人精準(zhǔn)抓取與移動(dòng)等更多“跨界”任務(wù)。

圖片

Magma的核心創(chuàng)新在于其獨(dú)創(chuàng)的兩大標(biāo)注方法

1、Set-of-Mark(SoM)

該方法為任務(wù)中需要關(guān)注的關(guān)鍵對(duì)象(如網(wǎng)頁(yè)中的可點(diǎn)擊元素或餐桌上的擺放物品)提供了一組高層次的“關(guān)注標(biāo)記”。通過(guò)對(duì)這些目標(biāo)進(jìn)行精準(zhǔn)定位,Magma能夠更有效地捕捉任務(wù)的核心要素,從而為后續(xù)動(dòng)作規(guī)劃奠定基礎(chǔ)。

微軟研究院的研究還顯示,SoM對(duì)UI導(dǎo)航、機(jī)器人和人類視頻都有統(tǒng)一的操作標(biāo)記作用,讓模型能快速識(shí)別并鎖定可交互目標(biāo)。

2、Trace-of-Mark(ToM)

不僅是靜態(tài)標(biāo)記,ToM方法還擴(kuò)展到動(dòng)態(tài)視頻場(chǎng)景中,通過(guò)對(duì)物體運(yùn)動(dòng)軌跡的標(biāo)注,捕捉到動(dòng)作的時(shí)序變化。

無(wú)論是機(jī)器人抓取物體時(shí)的手臂軌跡,還是人類在視頻中的動(dòng)態(tài)操作,ToM都能幫助模型理解任務(wù)的時(shí)序邏輯,預(yù)測(cè)未來(lái)狀態(tài),進(jìn)而作出更加精準(zhǔn)的決策。

研究團(tuán)隊(duì)表示,相比直接進(jìn)行下一幀預(yù)測(cè),ToM用更少的token就可捕捉更長(zhǎng)時(shí)間跨度的動(dòng)作語(yǔ)義,從而讓Magma更能關(guān)注關(guān)鍵動(dòng)作細(xì)節(jié)。

那么,Magma的實(shí)際表現(xiàn)如何呢?

概括而言,它在零樣本智能跨領(lǐng)域應(yīng)用方面擁有強(qiáng)悍表現(xiàn)。

在多項(xiàng)測(cè)試中,包括UI導(dǎo)航、機(jī)器人操作與視頻理解,Magma無(wú)需針對(duì)特定領(lǐng)域進(jìn)行額外微調(diào),就能交出令人滿意的表現(xiàn)。

此外,研究團(tuán)隊(duì)還對(duì)多個(gè)模型(包括ChatGPT在內(nèi))做了零樣本評(píng)估,結(jié)果顯示預(yù)訓(xùn)練好的Magma是唯一能完成所有測(cè)試任務(wù)的模型。

而Magma的跨領(lǐng)域優(yōu)勢(shì)表現(xiàn)在以下幾個(gè)方面:

  • UI導(dǎo)航場(chǎng)景:在Mind2Web、AITW等網(wǎng)頁(yè)或移動(dòng)設(shè)備界面導(dǎo)航任務(wù)中,Magma僅需少量微調(diào)(few-shot)就可以取得非常突出的成績(jī);
  • 機(jī)器人任務(wù):在WidowX機(jī)械臂真實(shí)操作和LIBERO中進(jìn)行少樣本微調(diào),Magma同樣大幅領(lǐng)先于其它對(duì)比模型,尤其在軟物體操作和精確擺放任務(wù)中表現(xiàn)穩(wěn)定。研究者還指出,在預(yù)訓(xùn)練階段去除SoM和ToM標(biāo)注后,Magma的性能顯著下降,這說(shuō)明這兩大關(guān)鍵標(biāo)注策略對(duì)模型的通用性和表現(xiàn)力至關(guān)重要;
  • 跨實(shí)體模擬:在Google Robots和Bridge任務(wù)中,Magma也展現(xiàn)了強(qiáng)大的跨實(shí)體泛化能力,能勝任不同種類物品的抓取與擺放。

與此同時(shí),其多模態(tài)理解能力體現(xiàn)在:

在視頻理解和對(duì)話場(chǎng)景中,Magma所需的視頻指令調(diào)優(yōu)數(shù)據(jù)量并不大,卻在大多數(shù)基準(zhǔn)測(cè)試上與Video-Llama2、ShareGPT4Video等先進(jìn)方法相當(dāng)甚至超越。

它不僅能描述視頻內(nèi)容,還能對(duì)下一步動(dòng)作進(jìn)行合理的預(yù)測(cè)和推斷。

據(jù)介紹,Magma使用大規(guī)模異構(gòu)視覺(jué)語(yǔ)言(VL)數(shù)據(jù)集預(yù)訓(xùn)練,包含3900多萬(wàn)條樣本,覆蓋圖像、視頻以及機(jī)器人動(dòng)作軌跡等多種形式,并采用ConvNeXt-XXL作為視覺(jué)骨干網(wǎng)絡(luò)和Llama-3-8B作為語(yǔ)言模型。

目前團(tuán)隊(duì)已經(jīng)將Magma以MIT許可證在GitHub上開(kāi)源,同時(shí)也在Hugging Face上提供了部分模型權(quán)重和示例,方便開(kāi)發(fā)者快速上手。

團(tuán)隊(duì)大部分為華人

從論文作者名單可以看到,其中大部分為華人。

圖片

論文一作兼項(xiàng)目負(fù)責(zé)人楊健偉,是Microsoft Research深度學(xué)習(xí)組的首席研究員,由Jianfeng Gao博士領(lǐng)導(dǎo)。

2020年3月加入微軟前,他在喬治亞理工學(xué)院互動(dòng)計(jì)算學(xué)院獲得計(jì)算機(jī)科學(xué)博士學(xué)位,研究“結(jié)構(gòu)化視覺(jué)理解、生成與推理”,師從Devi Parikh教授,并與Dhruv Batra教授合作。

他的研究專注于通用多模態(tài)智能體,是該領(lǐng)域的先驅(qū)之一,推動(dòng)了多個(gè)重要突破,包括:

  • 多模態(tài)視覺(jué)基礎(chǔ)模型:UniCL、RegionCLIP、GLIP、大規(guī)?;A(chǔ)模型Florence;
  • 通用多模態(tài)模型:X-Decoder、SEEM、Semantic-SAM;
  • 大型多模態(tài)模型:LLaVa變體、GPT-4V的SoM提示工程、Phi-3-Vision。

由他主導(dǎo)的Project Magma項(xiàng)目,于發(fā)布后登上Hacker News熱榜第一,并在學(xué)術(shù)界和工業(yè)界引發(fā)廣泛關(guān)注。

作者之一顧禹,是Microsoft Research資深科學(xué)家,專注于大規(guī)模基礎(chǔ)模型、多模態(tài)學(xué)習(xí)和智能體技術(shù),推動(dòng)AI在醫(yī)療和企業(yè)級(jí)應(yīng)用中的落地。

他主導(dǎo)開(kāi)發(fā)了PubMedBERT,作為世界首批自適應(yīng)大模型,下載量超過(guò)2000萬(wàn),ACM年度最佳論文,廣泛應(yīng)用于全球醫(yī)療機(jī)構(gòu)。他共同主導(dǎo)BiomedParse(發(fā)表于《自然·方法》),并研發(fā)BiomedJourney,用于模擬疾病進(jìn)展,提升醫(yī)學(xué)AI在數(shù)據(jù)稀缺場(chǎng)景下的適應(yīng)能力。

在智能體系統(tǒng)方面,他展示了LLM驅(qū)動(dòng)的multi agent協(xié)作推理,優(yōu)化腫瘤決策,并在世界經(jīng)濟(jì)論壇上亮相,其研究成果發(fā)表在《自然》、《細(xì)胞》等期刊。

項(xiàng)目主頁(yè):https://microsoft.github.io/Magma/
論文:https://www.arxiv.org/pdf/2502.13130
開(kāi)源地址:https://github.com/microsoft/Magma

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-12-30 00:01:00

多模態(tài)大模型Python

2025-03-24 08:06:00

2024-12-13 15:41:46

2024-09-02 10:00:00

機(jī)器人開(kāi)源

2024-05-07 13:24:54

2017-04-02 09:30:15

機(jī)器人駕校機(jī)器人教學(xué)

2024-11-01 07:30:00

2023-07-01 19:49:04

機(jī)器人

2021-10-31 15:51:30

機(jī)器人人工智能監(jiān)控

2022-07-28 11:26:41

人工智能機(jī)器人

2023-03-29 13:07:34

微軟網(wǎng)絡(luò)安全聊天機(jī)器人

2024-11-25 19:04:21

2024-01-05 19:44:48

谷歌機(jī)器人憲法AI

2019-08-27 11:15:20

機(jī)器人人工智能編程

2025-01-02 08:23:51

2021-08-05 10:58:58

Facebook開(kāi)源Droidlet

2020-10-15 15:42:00

人工智能

2016-06-02 11:45:34

2017-08-21 13:31:44

AI聊天機(jī)器人facebook
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)