統(tǒng)一細(xì)粒度感知!北大&阿里提出UFO:無(wú)需SAM,16個(gè)token讓MLLM實(shí)現(xiàn)精準(zhǔn)分割
本文作者來(lái)自北京大學(xué)和阿里通義萬(wàn)相實(shí)驗(yàn)室。其中論文第一作者是湯昊,北京大學(xué) 2022 級(jí)博士生,目前主要關(guān)注統(tǒng)一的多模態(tài)任務(wù)建模算法。指導(dǎo)教授是王立威老師,北京大學(xué)智能學(xué)院教授,曾獲 NeurIPS 2024 最佳論文獎(jiǎng)、ICLR 2023 杰出論文獎(jiǎng)及 ICLR 2024 杰出論文提名獎(jiǎng)。
無(wú)需 SAM 和 Grounding DINO,MLLM 也能做分割和檢測(cè)!統(tǒng)一細(xì)粒度感知的多模態(tài)大模型 UFO 來(lái)了!
- 論文標(biāo)題:UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
- 論文鏈接:https://arxiv.org/abs/2503.01342
- 開(kāi)源代碼:https://github.com/nnnth/UFO
- 開(kāi)源模型:https://huggingface.co/kanashi6/UFO
具體來(lái)說(shuō),UFO 提出了一種基于特征檢索的分割方法,將分割任務(wù)重新定義為計(jì)算 token 特征和圖像特征的相似度,無(wú)需 SAM,最多僅需輸出 16 個(gè) token 即可實(shí)現(xiàn) MLLM 的精細(xì)分割。UFO 還支持文本格式的目標(biāo)框輸出,通過(guò)并行解碼高效支持密集檢測(cè)和分割。
背景介紹
多模態(tài)大模型(MLLM)統(tǒng)一了視覺(jué)-語(yǔ)言任務(wù),但在細(xì)粒度感知任務(wù)中(如檢測(cè)、分割)仍依賴(lài)任務(wù)解碼器(如 SAM、Grounding DINO),結(jié)構(gòu)和訓(xùn)練非常復(fù)雜。
基于文本的方法采用粗糙的多邊形表示,表達(dá)能力不足,且在密集場(chǎng)景(如 COCO 數(shù)據(jù)集)中性能不佳。因此,亟需開(kāi)發(fā)無(wú)需額外解碼器、與視覺(jué)-語(yǔ)言任務(wù)統(tǒng)一且性能優(yōu)異的細(xì)粒度感知方法。
為此,研究團(tuán)隊(duì)提出了基于特征檢索的方式來(lái)支持分割:模型通過(guò)預(yù)測(cè)<MASK>標(biāo)記,計(jì)算其特征與圖像特征的相似度實(shí)現(xiàn)分割。
這種方式有效地挖掘了多模態(tài)大模型的圖像表征能力。研究團(tuán)隊(duì)認(rèn)為,既然多模態(tài)大模型可以回答物體的類(lèi)別和位置,那么圖像特征中已經(jīng)包含物體的分割信息。
對(duì)于檢測(cè)任務(wù),UFO 將目標(biāo)框轉(zhuǎn)換成文本格式的坐標(biāo),使得檢測(cè)和分割的任務(wù)輸出都可以通過(guò)文本統(tǒng)一。
針對(duì)密集感知場(chǎng)景,研究團(tuán)隊(duì)提出了一種并行解碼策略,將多個(gè)預(yù)測(cè)拆分成多個(gè)單目標(biāo)的子任務(wù),通過(guò)局部圖像特征進(jìn)行區(qū)分。這種方式可以大大簡(jiǎn)化任務(wù)難度,同時(shí)加速推理。
方法細(xì)節(jié)
基于特征檢索的分割方式
在執(zhí)行分割時(shí),模型被訓(xùn)練輸出<MASK>標(biāo)記,如上圖(a)所示。給定輸入圖像和分割提示
,模型生成文本響應(yīng)
以及相應(yīng)的文本特征
和圖像特征
:
從中提取與<MASK>標(biāo)記對(duì)應(yīng)的掩碼標(biāo)記特征
。然后通過(guò)縮放點(diǎn)積計(jì)算掩碼標(biāo)記特征
與圖像特征
之間的相似性。檢索正分?jǐn)?shù)以形成二值掩碼
。該過(guò)程表示為:
其中 d 是特征維度,表示相似性分?jǐn)?shù),
是指示函數(shù),將相似性分?jǐn)?shù)轉(zhuǎn)換為二值掩碼。
通過(guò)多個(gè)掩碼標(biāo)記上采樣
在上述方法中,相似度使用下采樣的圖像特征計(jì)算,導(dǎo)致生成的掩碼分辨率低。
為此,研究團(tuán)隊(duì)提出了一種通過(guò)預(yù)測(cè)多個(gè)掩碼標(biāo)記進(jìn)行上采樣的方法。
給定圖像,下采樣后的圖像特征為
,模型需要自回歸地預(yù)測(cè)
個(gè)<MASK>標(biāo)記,其特征表示為
。每個(gè)標(biāo)記對(duì)應(yīng)于 NxN 上采樣網(wǎng)格中的一個(gè)位置,如上圖(b)所示。
對(duì)于每個(gè)掩碼標(biāo)記特征 ,計(jì)算其與視覺(jué)特征
的相似性,得到
然后,這些分?jǐn)?shù)被連接并重塑為上采樣后的相似性圖:
最后在中檢索正分?jǐn)?shù),以生成上采樣后的二值掩碼
。默認(rèn)情況下,N 設(shè)置為 4,預(yù)測(cè) 16 個(gè)<MASK>標(biāo)記,這將輸出掩碼上采樣 4 倍。
多任務(wù)數(shù)據(jù)模版
對(duì)于單一預(yù)測(cè)的任務(wù),任務(wù)模板為:<Text Prompt><Image><Text Response>。
對(duì)于多預(yù)測(cè)任務(wù),比如目標(biāo)檢測(cè)和實(shí)例分割,UFO 將其拆分為多個(gè)單一預(yù)測(cè)的獨(dú)立子任務(wù),使得他們能在同一個(gè)批處理內(nèi)并行。模板結(jié)構(gòu)是:<Text Prompt><Image><Local><Text Response>。其中<Local>指局部圖像特征,作為局部視覺(jué)提示,用于區(qū)分不同子任務(wù)。
如上圖右側(cè)所示,UFO 在整個(gè)圖像上均勻采樣網(wǎng)格點(diǎn),并在每個(gè)網(wǎng)格位置插值局部圖像特征。每個(gè)網(wǎng)格點(diǎn)預(yù)測(cè)最近的目標(biāo),如果沒(méi)有則預(yù)測(cè)結(jié)束標(biāo)記。
實(shí)驗(yàn)結(jié)果
多任務(wù)訓(xùn)練
UFO 在 GiT 提出的多任務(wù)基準(zhǔn)上取得顯著提升,在 COCO 實(shí)例分割上相比 GiT-H 提升 12.3 mAP,在 ADE20K 語(yǔ)義分割上提升 3.3 mIoU。
視覺(jué)定位
無(wú)需任務(wù)解碼器,UFO 在引用表達(dá)式理解(REC)和分割(RES)兩種任務(wù)展現(xiàn)出優(yōu)越的性能。
推理分割
推理分割要求模型進(jìn)行深層推理得出分割目標(biāo),更加困難。UFO 可以深度融合文本推理和分割能力,性能超過(guò)基于 SAM 的 LISA。
視網(wǎng)膜血管分割
視網(wǎng)膜血管形狀不規(guī)則且狹窄,難以用多邊形表示。UFO 在 DRIVE 上進(jìn)行了訓(xùn)練,取得了 77.4 的 Dice 系數(shù),驗(yàn)證了在極細(xì)粒度結(jié)構(gòu)上的有效性。
深度估計(jì)
UFO 可以用類(lèi)似分割的方式支持深度估計(jì),取得具有競(jìng)爭(zhēng)力的性能。
可視化結(jié)果
UFO 可以適應(yīng)任意數(shù)量的預(yù)測(cè)和任意形式的描述。
采用 4 個(gè)<MASK>標(biāo)記時(shí),每個(gè)掩碼標(biāo)記能捕捉不同細(xì)節(jié),使得融合的掩碼更精細(xì)。
結(jié)論
UFO 提出了一種統(tǒng)一的細(xì)粒度感知框架,通過(guò)開(kāi)放式語(yǔ)言界面處理各種細(xì)粒度的視覺(jué)感知任務(wù),無(wú)需修改架構(gòu)即可在多模態(tài)大模型上實(shí)現(xiàn)出色的性能。
UFO 的核心創(chuàng)新是一種新穎的特征檢索方法用于分割,有效利用了模型的圖像表征能力。
UFO 的統(tǒng)一方式完全對(duì)齊視覺(jué)-語(yǔ)言任務(wù),提供了一種靈活、有效且可擴(kuò)展的解決方案,以增強(qiáng)多模態(tài)大模型的細(xì)粒度感知能力,為構(gòu)建更通用的多模態(tài)模型鋪平了道路。