自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

0微調(diào)搞定160個(gè)測(cè)試集!最強(qiáng)多模態(tài)分割一切大模型來(lái)了,架構(gòu)參數(shù)全開源

人工智能 新聞
這是來(lái)自廈門大學(xué)等機(jī)構(gòu)的最新多模態(tài)基礎(chǔ)感知大模型,一上來(lái)就在160個(gè)測(cè)試集上達(dá)成了SOTA或持平近似的結(jié)果,沒(méi)有針對(duì)任何下游任務(wù)進(jìn)行微調(diào)。

多模態(tài)大模型來(lái)做語(yǔ)義分割,效果有多好?

一張圖+文字輸入想分割的物體,大模型幾秒鐘就能識(shí)別并搞定!

只需輸入想分割的對(duì)象如“擎天柱”,個(gè)目標(biāo)立刻就能被精準(zhǔn)識(shí)別、快速切割:

個(gè)物體也是手到擒來(lái),像是指定天空、水、樹、草、女孩、龍貓(Chinchilla),同樣能火速分割:

表情包也沒(méi)問(wèn)題:

圖片

這是來(lái)自廈門大學(xué)等機(jī)構(gòu)的最新多模態(tài)基礎(chǔ)感知大模型,一上來(lái)就在160個(gè)測(cè)試集上達(dá)成了SOTA或持平近似的結(jié)果,沒(méi)有針對(duì)任何下游任務(wù)進(jìn)行微調(diào)。

圖片

目前,模型架構(gòu)和參數(shù)已經(jīng)全部開源,一起來(lái)看看這是怎么實(shí)現(xiàn)的。

多模態(tài)大模型APE長(zhǎng)啥樣?

此前,視覺(jué)基礎(chǔ)模型(Vision Foundation Models)方向一直在探索建立一個(gè)通用的視覺(jué)感知系統(tǒng)。

已有的方法可以分為三類,但都有一些不足之處:

第一類采用自監(jiān)督的訓(xùn)練方式,例如DINO和CLIP等,這類方法在做下游感知類任務(wù)的時(shí)候需要再訓(xùn)練單獨(dú)的Head或者Adapter;

第二類方法是開集檢測(cè),對(duì)齊圖像的局部區(qū)域和文本表達(dá),例如GLIP、UNINEXT和GroundingDINO等,但這類方法在每次推理時(shí)只能檢測(cè)非常有限數(shù)量的類別(例如lvis的1023類單詞要拆分成30多次推理)或者單個(gè)句子,檢測(cè)類別或者句子長(zhǎng)度的提升會(huì)給計(jì)算量和性能帶來(lái)巨大的挑戰(zhàn);

第三類方法是開集語(yǔ)義分割,例如SAM、Xdecoder和SEEM等,但這類方法在加上語(yǔ)義信息時(shí)面臨著前景可數(shù)物體和背景不可數(shù)物體的粒度差異問(wèn)題,導(dǎo)致性能下降,這類方法往往需要設(shè)計(jì)特定的網(wǎng)絡(luò)結(jié)構(gòu)或者訓(xùn)練策略來(lái)緩解前背景沖突。

針對(duì)以上問(wèn)題,來(lái)自廈門大學(xué)等機(jī)構(gòu)的研究人員提出了一種新的模型,名叫APE(Aligning and Prompting Everything All at Once for Universal Visual Perception)。

APE的框架如下所示:

圖片

它有以下6點(diǎn)值得關(guān)注的設(shè)計(jì):

1、Independent Prompt

給定多個(gè)目標(biāo)類別,例如Girl和Sky等,以往的方法通常直接聯(lián)結(jié)這些類別名組成一個(gè)單獨(dú)的Prompt:“Girl. Sky. …”,這種構(gòu)造方式是期望可以建模不同類別名之間的相互關(guān)系。

但論文發(fā)現(xiàn),這種類別名之間的相互關(guān)系不是必須的,每種類別名獨(dú)立建模就可以學(xué)習(xí)不同的實(shí)例。

為此,論文對(duì)每種類別名或者描述的短語(yǔ)都進(jìn)行獨(dú)立建模:[“Girl”, “Sky”, “Little child with hat on branch”, “The big chinchilla”, . . . ],并獲得其獨(dú)立的prompt embedding。

2、Sentence-Level Embeddings

為了減少計(jì)算復(fù)雜度和內(nèi)存消耗,論文進(jìn)一步將Word-Level Embeddings壓縮成Sentence-Level Embeddings,也就是將一句話中所有Word Embeddings求平均。

實(shí)驗(yàn)中發(fā)現(xiàn),這種Sentence-Level Embeddings足夠表達(dá)語(yǔ)義信息。

3、Gated Cross-modality Interaction

GLIP等方法直接融合文本和視覺(jué)特征,在類別名很多的情況下融合的代價(jià)逐步提升。

論文則針對(duì)不同的Prompt類型來(lái)進(jìn)行特征融合,對(duì)于純類別名(Vocabulary Prompt)的文本特征,采用一種“zero”文本token來(lái)作為它們的替代。

過(guò)往經(jīng)驗(yàn)表明,直接將Vocabulary Prompt和視覺(jué)特征融合容易導(dǎo)致過(guò)擬合現(xiàn)象,使得在新類別上的表現(xiàn)欠佳。

語(yǔ)言描述(Sentence Prompt)的文本特征則被融合到視覺(jué)特征中以實(shí)現(xiàn)語(yǔ)義級(jí)的理解。

4、Region-sentence Alignment

論文直接通過(guò)矩陣乘法計(jì)算Object Embeddings和Prompt Embeddings之間的相似度,從而實(shí)現(xiàn)一次性檢測(cè)&分割萬(wàn)物。

值得注意的是論文維持了一個(gè)Embedding Bank用于構(gòu)建負(fù)樣本。

5、Thing-stuff-equalizing Alignment

分割任務(wù)的前景和背景的粒度是不同的,比如背景天空即使由好幾塊組成,但仍然被認(rèn)為是同一個(gè)標(biāo)簽,而前景比如人則是單獨(dú)的標(biāo)簽。

這種粒度差異會(huì)給模型訓(xùn)練帶來(lái)挑戰(zhàn),為此論文提出統(tǒng)一前景和背景的粒度,對(duì)于不同塊的背景論文將其視為獨(dú)立的標(biāo)簽,如上圖中的“天空”。

這使得模型可以采用統(tǒng)一的架構(gòu)訓(xùn)練前景和背景數(shù)據(jù),也可以方便地融入SA-1B這類大規(guī)模的Class-Agnostic數(shù)據(jù)。

6、數(shù)據(jù)配比

論文使用了10中常見(jiàn)的開源數(shù)據(jù)集進(jìn)行訓(xùn)練,包括:

通用檢測(cè)分割數(shù)據(jù)(COCO、Objects365),長(zhǎng)尾檢測(cè)分割數(shù)據(jù)(LVIS),聯(lián)邦標(biāo)注的數(shù)據(jù)(OpenImages),指向性檢測(cè)分割數(shù)據(jù)(VG、RefCOCO/+/g、GQA、Phrascut、Flickr30k),不帶語(yǔ)義的分割數(shù)據(jù)(SA-1B)。

論文提出一系列原則精心設(shè)計(jì)數(shù)據(jù)配比和損失權(quán)重。

160個(gè)測(cè)試集SOTA或近似打平

作者們進(jìn)行了大規(guī)模的實(shí)驗(yàn),以驗(yàn)證論文方法的有效性。

他們一共訓(xùn)練了四組大模型:

  • APE (A):基礎(chǔ)版,基于DETA構(gòu)建,并只在通常的檢測(cè)和分割數(shù)據(jù)集上訓(xùn)練,包括COCO, LVIS, Objects365, OpenImages, and Visual Genome。
  • APE (B):APE (A)的基礎(chǔ)上加入Visual Genome和COCO的指向性檢測(cè)和分割數(shù)據(jù)進(jìn)行訓(xùn)練。
  • APE (C):進(jìn)一步加入大規(guī)模SA-1B數(shù)據(jù)集進(jìn)行訓(xùn)練。
  • APE (D):除了上面的數(shù)據(jù),進(jìn)一步加入GQA, PhraseCut, Flickr30k數(shù)據(jù)集,并且修改了部分訓(xùn)練策略。

其中,APE-ABCD分別對(duì)應(yīng)不同的訓(xùn)練數(shù)據(jù)。

實(shí)驗(yàn)表明,這種方法在160種測(cè)試集上普遍取得了當(dāng)前SOTA或具有競(jìng)爭(zhēng)性的結(jié)果。

值得注意的是,論文只采用了一個(gè)模型架構(gòu)和一套參數(shù),沒(méi)有針對(duì)下游任務(wù)進(jìn)行微調(diào)。

性能對(duì)比總覽

整體上看,APE方法在各個(gè)檢測(cè)分割指向性檢測(cè)數(shù)據(jù)集上都比之前的方法好,特別是在D3數(shù)據(jù)集上。

圖片

開集檢測(cè)

在檢測(cè)上,論文主要比較了LVIS、OpenImages,Objects365和COCO這四個(gè)常見(jiàn)數(shù)據(jù)集。

APE的效果優(yōu)勢(shì)非常明顯。

此前不少方法都在Objects365上預(yù)訓(xùn)練過(guò),例如GLIP、OWL和UNINEXT,但是它們?cè)谶@些訓(xùn)練過(guò)的數(shù)據(jù)集上效果也并不是很好。

另外,實(shí)驗(yàn)還比較了RoboFlow100和ODinW評(píng)測(cè)基準(zhǔn)。RoboFlow100和ODinW分別由100和35個(gè)獨(dú)立的小數(shù)據(jù)集組成,專門用于開集評(píng)測(cè),APE在這兩個(gè)數(shù)據(jù)集上取得了新SOTA。

圖片

開集分割

在開集分割評(píng)測(cè)基準(zhǔn)上,當(dāng)類別數(shù)量較多時(shí)候,例如PC-459、ADE20K和SegInW分別有459、150和85個(gè)類,APE的效果比其他方法好不少。

其中,SegInW由25個(gè)差異很大的小數(shù)據(jù)集組成,專門用于開集分割評(píng)測(cè)。而在類別數(shù)量較少的數(shù)據(jù)集上,APE的效果相對(duì)差些。

圖片

視覺(jué)定位

在視覺(jué)定位D3評(píng)測(cè)基準(zhǔn)上,APE取得的效果提升最明顯。特別在inter-scenario的設(shè)定下,大部分方法的指標(biāo)都低于6,而APE可以取得21.0。

因?yàn)樵趇nter-scenario設(shè)定下,每張圖都要用422個(gè)句子去查詢,之前模型總是會(huì)每句話預(yù)測(cè)一個(gè)物體,因此效果不理想,而APE會(huì)拒絕不相關(guān)的查詢。

在intra-scenario設(shè)定下,APE在各項(xiàng)指標(biāo)上也取得了15+個(gè)點(diǎn)的提升。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-07-30 10:51:51

2023-05-04 12:19:47

模型AI

2023-04-25 11:36:17

CV模型

2023-12-07 07:16:57

Meta訓(xùn)練

2025-03-10 18:50:57

2025-04-27 08:30:00

2024-07-30 14:45:08

2023-06-06 14:09:32

模型開源

2024-04-08 12:19:19

AI數(shù)據(jù)

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-10-30 14:59:28

2023-07-05 14:06:43

視頻AI

2023-04-10 15:52:57

模型樣本

2021-02-19 23:08:27

軟件測(cè)試軟件開發(fā)

2021-02-28 09:47:54

軟件架構(gòu)軟件開發(fā)軟件設(shè)計(jì)

2015-03-02 14:48:07

2023-10-19 13:48:00

數(shù)據(jù)訓(xùn)練

2023-11-22 11:40:00

Meta模型

2023-08-09 17:38:47

模型AI

2024-05-15 10:15:00

自動(dòng)駕駛模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)