自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="xabac"><track id="xabac"><sup id="xabac"></sup></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

微軟開(kāi)源多模態(tài)AI基礎(chǔ)模型！無(wú)需額外微調(diào)輕松拿捏網(wǎng)頁(yè)、機(jī)器人

作者：量子位 2025-03-11 09:35:00

人工智能開(kāi)源

首個(gè)能在所處環(huán)境中理解多模態(tài)輸入并將其與實(shí)際情況相聯(lián)系的基礎(chǔ)模型。

微軟研究院官宣開(kāi)源多模態(tài)AI——Magma模型。

首個(gè)能在所處環(huán)境中理解多模態(tài)輸入并將其與實(shí)際情況相聯(lián)系的基礎(chǔ)模型。

該模型近期已被計(jì)算機(jī)視覺(jué)頂會(huì)CVPR接收，只要給定一個(gè)目標(biāo)描述，Magma就能制定計(jì)劃、執(zhí)行行動(dòng)，無(wú)論是在數(shù)字界面中還是物理世界里，都能展現(xiàn)出靈活而高效的交互能力。

比如在網(wǎng)頁(yè)中找到天氣信息并打開(kāi)飛行模式，或是執(zhí)行分享、發(fā)送消息等多步驟操作。

再比如在真實(shí)機(jī)器人任務(wù)中，讓機(jī)器人移動(dòng)桌面上的“熱狗”模型、把蘑菇模型放到鍋里，或者將抹布從左至右推開(kāi)。

相比其它模型，它在實(shí)際滾動(dòng)演示中更加“絲滑”，出錯(cuò)率更低。

或者在多模態(tài)理解和對(duì)話任務(wù)中，贏了眼前國(guó)際象棋比賽（左），或根據(jù)當(dāng)前環(huán)境提出放松幾個(gè)小時(shí)的建議（右）。

甚至還能描述視頻中發(fā)生了什么動(dòng)作，并預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。

目前該模型以MIT許可證在GitHub上開(kāi)源。

融合視覺(jué)、語(yǔ)言與動(dòng)作的全新能力

傳統(tǒng)的視覺(jué)語(yǔ)言（VL）模型主要關(guān)注圖像與文本信息的理解，而Magma則在此基礎(chǔ)上進(jìn)一步拓展，加入了空間與時(shí)序智能，賦予AI更強(qiáng)的行動(dòng)決策能力。

微軟研究院團(tuán)隊(duì)指出，Magma在視覺(jué)理解和語(yǔ)言理解的基礎(chǔ)上，又讓AI具備了在視覺(jué)空間世界進(jìn)行動(dòng)作規(guī)劃與執(zhí)行的能力。

這意味著，Magma能夠勝任從UI界面導(dǎo)航到機(jī)器人精準(zhǔn)抓取與移動(dòng)等更多“跨界”任務(wù)。

Magma的核心創(chuàng)新在于其獨(dú)創(chuàng)的兩大標(biāo)注方法：

1、Set-of-Mark（SoM）

該方法為任務(wù)中需要關(guān)注的關(guān)鍵對(duì)象（如網(wǎng)頁(yè)中的可點(diǎn)擊元素或餐桌上的擺放物品）提供了一組高層次的“關(guān)注標(biāo)記”。通過(guò)對(duì)這些目標(biāo)進(jìn)行精準(zhǔn)定位，Magma能夠更有效地捕捉任務(wù)的核心要素，從而為后續(xù)動(dòng)作規(guī)劃奠定基礎(chǔ)。

微軟研究院的研究還顯示，SoM對(duì)UI導(dǎo)航、機(jī)器人和人類視頻都有統(tǒng)一的操作標(biāo)記作用，讓模型能快速識(shí)別并鎖定可交互目標(biāo)。

2、Trace-of-Mark（ToM）

不僅是靜態(tài)標(biāo)記，ToM方法還擴(kuò)展到動(dòng)態(tài)視頻場(chǎng)景中，通過(guò)對(duì)物體運(yùn)動(dòng)軌跡的標(biāo)注，捕捉到動(dòng)作的時(shí)序變化。

無(wú)論是機(jī)器人抓取物體時(shí)的手臂軌跡，還是人類在視頻中的動(dòng)態(tài)操作，ToM都能幫助模型理解任務(wù)的時(shí)序邏輯，預(yù)測(cè)未來(lái)狀態(tài)，進(jìn)而作出更加精準(zhǔn)的決策。

研究團(tuán)隊(duì)表示，相比直接進(jìn)行下一幀預(yù)測(cè)，ToM用更少的token就可捕捉更長(zhǎng)時(shí)間跨度的動(dòng)作語(yǔ)義，從而讓Magma更能關(guān)注關(guān)鍵動(dòng)作細(xì)節(jié)。

那么，Magma的實(shí)際表現(xiàn)如何呢？

概括而言，它在零樣本智能與跨領(lǐng)域應(yīng)用方面擁有強(qiáng)悍表現(xiàn)。

在多項(xiàng)測(cè)試中，包括UI導(dǎo)航、機(jī)器人操作與視頻理解，Magma無(wú)需針對(duì)特定領(lǐng)域進(jìn)行額外微調(diào)，就能交出令人滿意的表現(xiàn)。

此外，研究團(tuán)隊(duì)還對(duì)多個(gè)模型（包括ChatGPT在內(nèi)）做了零樣本評(píng)估，結(jié)果顯示預(yù)訓(xùn)練好的Magma是唯一能完成所有測(cè)試任務(wù)的模型。

而Magma的跨領(lǐng)域優(yōu)勢(shì)表現(xiàn)在以下幾個(gè)方面：

UI導(dǎo)航場(chǎng)景：在Mind2Web、AITW等網(wǎng)頁(yè)或移動(dòng)設(shè)備界面導(dǎo)航任務(wù)中，Magma僅需少量微調(diào)（few-shot）就可以取得非常突出的成績(jī)；
機(jī)器人任務(wù)：在WidowX機(jī)械臂真實(shí)操作和LIBERO中進(jìn)行少樣本微調(diào)，Magma同樣大幅領(lǐng)先于其它對(duì)比模型，尤其在軟物體操作和精確擺放任務(wù)中表現(xiàn)穩(wěn)定。研究者還指出，在預(yù)訓(xùn)練階段去除SoM和ToM標(biāo)注后，Magma的性能顯著下降，這說(shuō)明這兩大關(guān)鍵標(biāo)注策略對(duì)模型的通用性和表現(xiàn)力至關(guān)重要；
跨實(shí)體模擬：在Google Robots和Bridge任務(wù)中，Magma也展現(xiàn)了強(qiáng)大的跨實(shí)體泛化能力，能勝任不同種類物品的抓取與擺放。

與此同時(shí)，其多模態(tài)理解能力體現(xiàn)在：

在視頻理解和對(duì)話場(chǎng)景中，Magma所需的視頻指令調(diào)優(yōu)數(shù)據(jù)量并不大，卻在大多數(shù)基準(zhǔn)測(cè)試上與Video-Llama2、ShareGPT4Video等先進(jìn)方法相當(dāng)甚至超越。

它不僅能描述視頻內(nèi)容，還能對(duì)下一步動(dòng)作進(jìn)行合理的預(yù)測(cè)和推斷。

據(jù)介紹，Magma使用大規(guī)模異構(gòu)視覺(jué)語(yǔ)言（VL）數(shù)據(jù)集預(yù)訓(xùn)練，包含3900多萬(wàn)條樣本，覆蓋圖像、視頻以及機(jī)器人動(dòng)作軌跡等多種形式，并采用ConvNeXt-XXL作為視覺(jué)骨干網(wǎng)絡(luò)和Llama-3-8B作為語(yǔ)言模型。

目前團(tuán)隊(duì)已經(jīng)將Magma以MIT許可證在GitHub上開(kāi)源，同時(shí)也在Hugging Face上提供了部分模型權(quán)重和示例，方便開(kāi)發(fā)者快速上手。

團(tuán)隊(duì)大部分為華人

從論文作者名單可以看到，其中大部分為華人。

論文一作兼項(xiàng)目負(fù)責(zé)人楊健偉，是Microsoft Research深度學(xué)習(xí)組的首席研究員，由Jianfeng Gao博士領(lǐng)導(dǎo)。

2020年3月加入微軟前，他在喬治亞理工學(xué)院互動(dòng)計(jì)算學(xué)院獲得計(jì)算機(jī)科學(xué)博士學(xué)位，研究“結(jié)構(gòu)化視覺(jué)理解、生成與推理”，師從Devi Parikh教授，并與Dhruv Batra教授合作。

他的研究專注于通用多模態(tài)智能體，是該領(lǐng)域的先驅(qū)之一，推動(dòng)了多個(gè)重要突破，包括：

多模態(tài)視覺(jué)基礎(chǔ)模型：UniCL、RegionCLIP、GLIP、大規(guī)?；A(chǔ)模型Florence；
通用多模態(tài)模型：X-Decoder、SEEM、Semantic-SAM；
大型多模態(tài)模型：LLaVa變體、GPT-4V的SoM提示工程、Phi-3-Vision。

由他主導(dǎo)的Project Magma項(xiàng)目，于發(fā)布后登上Hacker News熱榜第一，并在學(xué)術(shù)界和工業(yè)界引發(fā)廣泛關(guān)注。

作者之一顧禹，是Microsoft Research資深科學(xué)家，專注于大規(guī)模基礎(chǔ)模型、多模態(tài)學(xué)習(xí)和智能體技術(shù)，推動(dòng)AI在醫(yī)療和企業(yè)級(jí)應(yīng)用中的落地。

他主導(dǎo)開(kāi)發(fā)了PubMedBERT，作為世界首批自適應(yīng)大模型，下載量超過(guò)2000萬(wàn)，ACM年度最佳論文，廣泛應(yīng)用于全球醫(yī)療機(jī)構(gòu)。他共同主導(dǎo)BiomedParse（發(fā)表于《自然·方法》），并研發(fā)BiomedJourney，用于模擬疾病進(jìn)展，提升醫(yī)學(xué)AI在數(shù)據(jù)稀缺場(chǎng)景下的適應(yīng)能力。

在智能體系統(tǒng)方面，他展示了LLM驅(qū)動(dòng)的multi agent協(xié)作推理，優(yōu)化腫瘤決策，并在世界經(jīng)濟(jì)論壇上亮相，其研究成果發(fā)表在《自然》、《細(xì)胞》等期刊。

項(xiàng)目主頁(yè)：https://microsoft.github.io/Magma/
論文：https://www.arxiv.org/pdf/2502.13130
開(kāi)源地址：https://github.com/microsoft/Magma

責(zé)任編輯：張燕妮來(lái)源：量子位

微軟開(kāi)源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)