0微調(diào)搞定160個(gè)測(cè)試集!最強(qiáng)多模態(tài)分割一切大模型來(lái)了,架構(gòu)參數(shù)全開源
用多模態(tài)大模型來(lái)做語(yǔ)義分割,效果有多好?
一張圖+文字輸入想分割的物體,大模型幾秒鐘就能識(shí)別并搞定!
只需輸入想分割的對(duì)象如“擎天柱”,單個(gè)目標(biāo)立刻就能被精準(zhǔn)識(shí)別、快速切割:
多個(gè)物體也是手到擒來(lái),像是指定天空、水、樹、草、女孩、龍貓(Chinchilla),同樣能火速分割:
表情包也沒(méi)問(wèn)題:
這是來(lái)自廈門大學(xué)等機(jī)構(gòu)的最新多模態(tài)基礎(chǔ)感知大模型,一上來(lái)就在160個(gè)測(cè)試集上達(dá)成了SOTA或持平近似的結(jié)果,沒(méi)有針對(duì)任何下游任務(wù)進(jìn)行微調(diào)。
目前,模型架構(gòu)和參數(shù)已經(jīng)全部開源,一起來(lái)看看這是怎么實(shí)現(xiàn)的。
多模態(tài)大模型APE長(zhǎng)啥樣?
此前,視覺(jué)基礎(chǔ)模型(Vision Foundation Models)方向一直在探索建立一個(gè)通用的視覺(jué)感知系統(tǒng)。
已有的方法可以分為三類,但都有一些不足之處:
第一類采用自監(jiān)督的訓(xùn)練方式,例如DINO和CLIP等,這類方法在做下游感知類任務(wù)的時(shí)候需要再訓(xùn)練單獨(dú)的Head或者Adapter;
第二類方法是開集檢測(cè),對(duì)齊圖像的局部區(qū)域和文本表達(dá),例如GLIP、UNINEXT和GroundingDINO等,但這類方法在每次推理時(shí)只能檢測(cè)非常有限數(shù)量的類別(例如lvis的1023類單詞要拆分成30多次推理)或者單個(gè)句子,檢測(cè)類別或者句子長(zhǎng)度的提升會(huì)給計(jì)算量和性能帶來(lái)巨大的挑戰(zhàn);
第三類方法是開集語(yǔ)義分割,例如SAM、Xdecoder和SEEM等,但這類方法在加上語(yǔ)義信息時(shí)面臨著前景可數(shù)物體和背景不可數(shù)物體的粒度差異問(wèn)題,導(dǎo)致性能下降,這類方法往往需要設(shè)計(jì)特定的網(wǎng)絡(luò)結(jié)構(gòu)或者訓(xùn)練策略來(lái)緩解前背景沖突。
針對(duì)以上問(wèn)題,來(lái)自廈門大學(xué)等機(jī)構(gòu)的研究人員提出了一種新的模型,名叫APE(Aligning and Prompting Everything All at Once for Universal Visual Perception)。
APE的框架如下所示:
它有以下6點(diǎn)值得關(guān)注的設(shè)計(jì):
1、Independent Prompt
給定多個(gè)目標(biāo)類別,例如Girl和Sky等,以往的方法通常直接聯(lián)結(jié)這些類別名組成一個(gè)單獨(dú)的Prompt:“Girl. Sky. …”,這種構(gòu)造方式是期望可以建模不同類別名之間的相互關(guān)系。
但論文發(fā)現(xiàn),這種類別名之間的相互關(guān)系不是必須的,每種類別名獨(dú)立建模就可以學(xué)習(xí)不同的實(shí)例。
為此,論文對(duì)每種類別名或者描述的短語(yǔ)都進(jìn)行獨(dú)立建模:[“Girl”, “Sky”, “Little child with hat on branch”, “The big chinchilla”, . . . ],并獲得其獨(dú)立的prompt embedding。
2、Sentence-Level Embeddings
為了減少計(jì)算復(fù)雜度和內(nèi)存消耗,論文進(jìn)一步將Word-Level Embeddings壓縮成Sentence-Level Embeddings,也就是將一句話中所有Word Embeddings求平均。
實(shí)驗(yàn)中發(fā)現(xiàn),這種Sentence-Level Embeddings足夠表達(dá)語(yǔ)義信息。
3、Gated Cross-modality Interaction
GLIP等方法直接融合文本和視覺(jué)特征,在類別名很多的情況下融合的代價(jià)逐步提升。
論文則針對(duì)不同的Prompt類型來(lái)進(jìn)行特征融合,對(duì)于純類別名(Vocabulary Prompt)的文本特征,采用一種“zero”文本token來(lái)作為它們的替代。
過(guò)往經(jīng)驗(yàn)表明,直接將Vocabulary Prompt和視覺(jué)特征融合容易導(dǎo)致過(guò)擬合現(xiàn)象,使得在新類別上的表現(xiàn)欠佳。
語(yǔ)言描述(Sentence Prompt)的文本特征則被融合到視覺(jué)特征中以實(shí)現(xiàn)語(yǔ)義級(jí)的理解。
4、Region-sentence Alignment
論文直接通過(guò)矩陣乘法計(jì)算Object Embeddings和Prompt Embeddings之間的相似度,從而實(shí)現(xiàn)一次性檢測(cè)&分割萬(wàn)物。
值得注意的是論文維持了一個(gè)Embedding Bank用于構(gòu)建負(fù)樣本。
5、Thing-stuff-equalizing Alignment
分割任務(wù)的前景和背景的粒度是不同的,比如背景天空即使由好幾塊組成,但仍然被認(rèn)為是同一個(gè)標(biāo)簽,而前景比如人則是單獨(dú)的標(biāo)簽。
這種粒度差異會(huì)給模型訓(xùn)練帶來(lái)挑戰(zhàn),為此論文提出統(tǒng)一前景和背景的粒度,對(duì)于不同塊的背景論文將其視為獨(dú)立的標(biāo)簽,如上圖中的“天空”。
這使得模型可以采用統(tǒng)一的架構(gòu)訓(xùn)練前景和背景數(shù)據(jù),也可以方便地融入SA-1B這類大規(guī)模的Class-Agnostic數(shù)據(jù)。
6、數(shù)據(jù)配比
論文使用了10中常見(jiàn)的開源數(shù)據(jù)集進(jìn)行訓(xùn)練,包括:
通用檢測(cè)分割數(shù)據(jù)(COCO、Objects365),長(zhǎng)尾檢測(cè)分割數(shù)據(jù)(LVIS),聯(lián)邦標(biāo)注的數(shù)據(jù)(OpenImages),指向性檢測(cè)分割數(shù)據(jù)(VG、RefCOCO/+/g、GQA、Phrascut、Flickr30k),不帶語(yǔ)義的分割數(shù)據(jù)(SA-1B)。
論文提出一系列原則精心設(shè)計(jì)數(shù)據(jù)配比和損失權(quán)重。
160個(gè)測(cè)試集SOTA或近似打平
作者們進(jìn)行了大規(guī)模的實(shí)驗(yàn),以驗(yàn)證論文方法的有效性。
他們一共訓(xùn)練了四組大模型:
- APE (A):基礎(chǔ)版,基于DETA構(gòu)建,并只在通常的檢測(cè)和分割數(shù)據(jù)集上訓(xùn)練,包括COCO, LVIS, Objects365, OpenImages, and Visual Genome。
- APE (B):APE (A)的基礎(chǔ)上加入Visual Genome和COCO的指向性檢測(cè)和分割數(shù)據(jù)進(jìn)行訓(xùn)練。
- APE (C):進(jìn)一步加入大規(guī)模SA-1B數(shù)據(jù)集進(jìn)行訓(xùn)練。
- APE (D):除了上面的數(shù)據(jù),進(jìn)一步加入GQA, PhraseCut, Flickr30k數(shù)據(jù)集,并且修改了部分訓(xùn)練策略。
其中,APE-ABCD分別對(duì)應(yīng)不同的訓(xùn)練數(shù)據(jù)。
實(shí)驗(yàn)表明,這種方法在160種測(cè)試集上普遍取得了當(dāng)前SOTA或具有競(jìng)爭(zhēng)性的結(jié)果。
值得注意的是,論文只采用了一個(gè)模型架構(gòu)和一套參數(shù),沒(méi)有針對(duì)下游任務(wù)進(jìn)行微調(diào)。
性能對(duì)比總覽
整體上看,APE方法在各個(gè)檢測(cè)、分割和指向性檢測(cè)數(shù)據(jù)集上都比之前的方法好,特別是在D3數(shù)據(jù)集上。
開集檢測(cè)
在檢測(cè)上,論文主要比較了LVIS、OpenImages,Objects365和COCO這四個(gè)常見(jiàn)數(shù)據(jù)集。
APE的效果優(yōu)勢(shì)非常明顯。
此前不少方法都在Objects365上預(yù)訓(xùn)練過(guò),例如GLIP、OWL和UNINEXT,但是它們?cè)谶@些訓(xùn)練過(guò)的數(shù)據(jù)集上效果也并不是很好。
另外,實(shí)驗(yàn)還比較了RoboFlow100和ODinW評(píng)測(cè)基準(zhǔn)。RoboFlow100和ODinW分別由100和35個(gè)獨(dú)立的小數(shù)據(jù)集組成,專門用于開集評(píng)測(cè),APE在這兩個(gè)數(shù)據(jù)集上取得了新SOTA。
開集分割
在開集分割評(píng)測(cè)基準(zhǔn)上,當(dāng)類別數(shù)量較多時(shí)候,例如PC-459、ADE20K和SegInW分別有459、150和85個(gè)類,APE的效果比其他方法好不少。
其中,SegInW由25個(gè)差異很大的小數(shù)據(jù)集組成,專門用于開集分割評(píng)測(cè)。而在類別數(shù)量較少的數(shù)據(jù)集上,APE的效果相對(duì)差些。
視覺(jué)定位
在視覺(jué)定位D3評(píng)測(cè)基準(zhǔn)上,APE取得的效果提升最明顯。特別在inter-scenario的設(shè)定下,大部分方法的指標(biāo)都低于6,而APE可以取得21.0。
因?yàn)樵趇nter-scenario設(shè)定下,每張圖都要用422個(gè)句子去查詢,之前模型總是會(huì)每句話預(yù)測(cè)一個(gè)物體,因此效果不理想,而APE會(huì)拒絕不相關(guān)的查詢。
在intra-scenario設(shè)定下,APE在各項(xiàng)指標(biāo)上也取得了15+個(gè)點(diǎn)的提升。