自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

0微調(diào)搞定160個(gè)測(cè)試集！最強(qiáng)多模態(tài)分割一切大模型來(lái)了，架構(gòu)參數(shù)全開源

作者：量子位 2023-12-10 15:21:39

人工智能新聞

這是來(lái)自廈門大學(xué)等機(jī)構(gòu)的最新多模態(tài)基礎(chǔ)感知大模型，一上來(lái)就在160個(gè)測(cè)試集上達(dá)成了SOTA或持平近似的結(jié)果，沒(méi)有針對(duì)任何下游任務(wù)進(jìn)行微調(diào)。

用多模態(tài)大模型來(lái)做語(yǔ)義分割，效果有多好？

一張圖+文字輸入想分割的物體，大模型幾秒鐘就能識(shí)別并搞定！

只需輸入想分割的對(duì)象如“擎天柱”，單個(gè)目標(biāo)立刻就能被精準(zhǔn)識(shí)別、快速切割：

多個(gè)物體也是手到擒來(lái)，像是指定天空、水、樹、草、女孩、龍貓（Chinchilla），同樣能火速分割：

表情包也沒(méi)問(wèn)題：

這是來(lái)自廈門大學(xué)等機(jī)構(gòu)的最新多模態(tài)基礎(chǔ)感知大模型，一上來(lái)就在160個(gè)測(cè)試集上達(dá)成了SOTA或持平近似的結(jié)果，沒(méi)有針對(duì)任何下游任務(wù)進(jìn)行微調(diào)。

目前，模型架構(gòu)和參數(shù)已經(jīng)全部開源，一起來(lái)看看這是怎么實(shí)現(xiàn)的。

多模態(tài)大模型APE長(zhǎng)啥樣？

此前，視覺(jué)基礎(chǔ)模型（Vision Foundation Models）方向一直在探索建立一個(gè)通用的視覺(jué)感知系統(tǒng)。

已有的方法可以分為三類，但都有一些不足之處：

第一類采用自監(jiān)督的訓(xùn)練方式，例如DINO和CLIP等，這類方法在做下游感知類任務(wù)的時(shí)候需要再訓(xùn)練單獨(dú)的Head或者Adapter；

第二類方法是開集檢測(cè)，對(duì)齊圖像的局部區(qū)域和文本表達(dá)，例如GLIP、UNINEXT和GroundingDINO等，但這類方法在每次推理時(shí)只能檢測(cè)非常有限數(shù)量的類別（例如lvis的1023類單詞要拆分成30多次推理）或者單個(gè)句子，檢測(cè)類別或者句子長(zhǎng)度的提升會(huì)給計(jì)算量和性能帶來(lái)巨大的挑戰(zhàn)；

第三類方法是開集語(yǔ)義分割，例如SAM、Xdecoder和SEEM等，但這類方法在加上語(yǔ)義信息時(shí)面臨著前景可數(shù)物體和背景不可數(shù)物體的粒度差異問(wèn)題，導(dǎo)致性能下降，這類方法往往需要設(shè)計(jì)特定的網(wǎng)絡(luò)結(jié)構(gòu)或者訓(xùn)練策略來(lái)緩解前背景沖突。

針對(duì)以上問(wèn)題，來(lái)自廈門大學(xué)等機(jī)構(gòu)的研究人員提出了一種新的模型，名叫APE（Aligning and Prompting Everything All at Once for Universal Visual Perception）。

APE的框架如下所示：

它有以下6點(diǎn)值得關(guān)注的設(shè)計(jì)：

1、Independent Prompt

給定多個(gè)目標(biāo)類別，例如Girl和Sky等，以往的方法通常直接聯(lián)結(jié)這些類別名組成一個(gè)單獨(dú)的Prompt：“Girl. Sky. …”，這種構(gòu)造方式是期望可以建模不同類別名之間的相互關(guān)系。

但論文發(fā)現(xiàn)，這種類別名之間的相互關(guān)系不是必須的，每種類別名獨(dú)立建模就可以學(xué)習(xí)不同的實(shí)例。

為此，論文對(duì)每種類別名或者描述的短語(yǔ)都進(jìn)行獨(dú)立建模：[“Girl”, “Sky”, “Little child with hat on branch”, “The big chinchilla”, . . . ]，并獲得其獨(dú)立的prompt embedding。

2、Sentence-Level Embeddings

為了減少計(jì)算復(fù)雜度和內(nèi)存消耗，論文進(jìn)一步將Word-Level Embeddings壓縮成Sentence-Level Embeddings，也就是將一句話中所有Word Embeddings求平均。

實(shí)驗(yàn)中發(fā)現(xiàn)，這種Sentence-Level Embeddings足夠表達(dá)語(yǔ)義信息。

3、Gated Cross-modality Interaction

GLIP等方法直接融合文本和視覺(jué)特征，在類別名很多的情況下融合的代價(jià)逐步提升。

論文則針對(duì)不同的Prompt類型來(lái)進(jìn)行特征融合，對(duì)于純類別名（Vocabulary Prompt）的文本特征，采用一種“zero”文本token來(lái)作為它們的替代。

過(guò)往經(jīng)驗(yàn)表明，直接將Vocabulary Prompt和視覺(jué)特征融合容易導(dǎo)致過(guò)擬合現(xiàn)象，使得在新類別上的表現(xiàn)欠佳。

語(yǔ)言描述（Sentence Prompt）的文本特征則被融合到視覺(jué)特征中以實(shí)現(xiàn)語(yǔ)義級(jí)的理解。

4、Region-sentence Alignment

論文直接通過(guò)矩陣乘法計(jì)算Object Embeddings和Prompt Embeddings之間的相似度，從而實(shí)現(xiàn)一次性檢測(cè)&分割萬(wàn)物。

值得注意的是論文維持了一個(gè)Embedding Bank用于構(gòu)建負(fù)樣本。

5、Thing-stuff-equalizing Alignment

分割任務(wù)的前景和背景的粒度是不同的，比如背景天空即使由好幾塊組成，但仍然被認(rèn)為是同一個(gè)標(biāo)簽，而前景比如人則是單獨(dú)的標(biāo)簽。

這種粒度差異會(huì)給模型訓(xùn)練帶來(lái)挑戰(zhàn)，為此論文提出統(tǒng)一前景和背景的粒度，對(duì)于不同塊的背景論文將其視為獨(dú)立的標(biāo)簽，如上圖中的“天空”。

這使得模型可以采用統(tǒng)一的架構(gòu)訓(xùn)練前景和背景數(shù)據(jù)，也可以方便地融入SA-1B這類大規(guī)模的Class-Agnostic數(shù)據(jù)。

6、數(shù)據(jù)配比

論文使用了10中常見(jiàn)的開源數(shù)據(jù)集進(jìn)行訓(xùn)練，包括：

通用檢測(cè)分割數(shù)據(jù)（COCO、Objects365），長(zhǎng)尾檢測(cè)分割數(shù)據(jù)（LVIS），聯(lián)邦標(biāo)注的數(shù)據(jù)（OpenImages），指向性檢測(cè)分割數(shù)據(jù)（VG、RefCOCO/+/g、GQA、Phrascut、Flickr30k），不帶語(yǔ)義的分割數(shù)據(jù)（SA-1B）。

論文提出一系列原則精心設(shè)計(jì)數(shù)據(jù)配比和損失權(quán)重。

160個(gè)測(cè)試集SOTA或近似打平

作者們進(jìn)行了大規(guī)模的實(shí)驗(yàn)，以驗(yàn)證論文方法的有效性。

他們一共訓(xùn)練了四組大模型：

APE (A)：基礎(chǔ)版，基于DETA構(gòu)建，并只在通常的檢測(cè)和分割數(shù)據(jù)集上訓(xùn)練，包括COCO, LVIS, Objects365, OpenImages, and Visual Genome。
APE (B)：APE (A)的基礎(chǔ)上加入Visual Genome和COCO的指向性檢測(cè)和分割數(shù)據(jù)進(jìn)行訓(xùn)練。
APE (C)：進(jìn)一步加入大規(guī)模SA-1B數(shù)據(jù)集進(jìn)行訓(xùn)練。
APE (D)：除了上面的數(shù)據(jù)，進(jìn)一步加入GQA, PhraseCut, Flickr30k數(shù)據(jù)集，并且修改了部分訓(xùn)練策略。

其中，APE-ABCD分別對(duì)應(yīng)不同的訓(xùn)練數(shù)據(jù)。

實(shí)驗(yàn)表明，這種方法在160種測(cè)試集上普遍取得了當(dāng)前SOTA或具有競(jìng)爭(zhēng)性的結(jié)果。

值得注意的是，論文只采用了一個(gè)模型架構(gòu)和一套參數(shù)，沒(méi)有針對(duì)下游任務(wù)進(jìn)行微調(diào)。

性能對(duì)比總覽

整體上看，APE方法在各個(gè)檢測(cè)、分割和指向性檢測(cè)數(shù)據(jù)集上都比之前的方法好，特別是在D3數(shù)據(jù)集上。

開集檢測(cè)

在檢測(cè)上，論文主要比較了LVIS、OpenImages，Objects365和COCO這四個(gè)常見(jiàn)數(shù)據(jù)集。

APE的效果優(yōu)勢(shì)非常明顯。

此前不少方法都在Objects365上預(yù)訓(xùn)練過(guò)，例如GLIP、OWL和UNINEXT，但是它們?cè)谶@些訓(xùn)練過(guò)的數(shù)據(jù)集上效果也并不是很好。

另外，實(shí)驗(yàn)還比較了RoboFlow100和ODinW評(píng)測(cè)基準(zhǔn)。RoboFlow100和ODinW分別由100和35個(gè)獨(dú)立的小數(shù)據(jù)集組成，專門用于開集評(píng)測(cè)，APE在這兩個(gè)數(shù)據(jù)集上取得了新SOTA。

開集分割

在開集分割評(píng)測(cè)基準(zhǔn)上，當(dāng)類別數(shù)量較多時(shí)候，例如PC-459、ADE20K和SegInW分別有459、150和85個(gè)類，APE的效果比其他方法好不少。

其中，SegInW由25個(gè)差異很大的小數(shù)據(jù)集組成，專門用于開集分割評(píng)測(cè)。而在類別數(shù)量較少的數(shù)據(jù)集上，APE的效果相對(duì)差些。

視覺(jué)定位

在視覺(jué)定位D3評(píng)測(cè)基準(zhǔn)上，APE取得的效果提升最明顯。特別在inter-scenario的設(shè)定下，大部分方法的指標(biāo)都低于6，而APE可以取得21.0。

因?yàn)樵趇nter-scenario設(shè)定下，每張圖都要用422個(gè)句子去查詢，之前模型總是會(huì)每句話預(yù)測(cè)一個(gè)物體，因此效果不理想，而APE會(huì)拒絕不相關(guān)的查詢。

在intra-scenario設(shè)定下，APE在各項(xiàng)指標(biāo)上也取得了15+個(gè)點(diǎn)的提升。

責(zé)任編輯：張燕妮來(lái)源：量子位

模型測(cè)試開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<var id="i1k9f"><button id="i1k9f"><span id="i1k9f"></span></button></var><cite id="i1k9f"><track id="i1k9f"></track></cite><sub id="i1k9f"><p id="i1k9f"></p></sub>

<sup id="i1k9f"></sup>