自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CLIP當(dāng)RNN用入選CVPR:無需訓(xùn)練即可分割無數(shù)概念|牛津大學(xué)&谷歌研究院

人工智能
CaR(CLIP as RNN)是一種創(chuàng)新的循環(huán)神經(jīng)網(wǎng)絡(luò)框架,能夠在無需額外訓(xùn)練數(shù)據(jù)的情況下,有效地進(jìn)行零樣本語義和指代圖像分割任務(wù)。它通過保留預(yù)訓(xùn)練視覺-語言模型的廣泛詞匯空間,并利用迭代過程不斷優(yōu)化文本查詢與掩膜提議的對(duì)齊度,顯著提升了分割質(zhì)量。

循環(huán)調(diào)用CLIP,無需額外訓(xùn)練就有效分割無數(shù)概念。

包括電影動(dòng)漫人物,地標(biāo),品牌,和普通類別在內(nèi)的任意短語。

圖片

牛津大學(xué)與谷歌研究院聯(lián)合團(tuán)隊(duì)的這項(xiàng)新成果,已被CVPR 2024接收,并開源了代碼。

圖片

團(tuán)隊(duì)提出名為CLIP as RNN(簡稱CaR)的新技術(shù),解決了開放詞匯量圖像分割領(lǐng)域中的幾個(gè)關(guān)鍵問題:

  • 無需訓(xùn)練數(shù)據(jù):傳統(tǒng)方法需要大量的掩膜注釋或圖像-文本數(shù)據(jù)集進(jìn)行微調(diào),CaR技術(shù)則無需任何額外的訓(xùn)練數(shù)據(jù)即可工作。
  • 開放詞匯量的限制:預(yù)訓(xùn)練的視覺-語言模型(VLMs)在經(jīng)過微調(diào)后,其處理開放詞匯量的能力受到限制。CaR技術(shù)保留了VLMs的廣泛詞匯空間。
  • 對(duì)非圖像中概念的文本查詢處理:在沒有微調(diào)的情況下,VLMs難以對(duì)圖像中不存在的概念進(jìn)行準(zhǔn)確分割,CaR通過迭代過程逐步優(yōu)化,提高了分割質(zhì)量。

受RNN啟發(fā),循環(huán)調(diào)用CLIP

要理解CaR的原理,需要先回顧一下循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。

RNN引入了隱狀態(tài)(hidden state)的概念,就像是一個(gè)”記憶體”,存儲(chǔ)了過去時(shí)間步的信息。而且每個(gè)時(shí)間步共享同一組權(quán)重,可以很好地建模序列數(shù)據(jù)。

受RNN啟發(fā),CaR也設(shè)計(jì)成循環(huán)的框架,由兩部分組成:

  • 掩膜提議生成器:借助CLIP為每個(gè)文本查詢生成一個(gè)mask。
  • 掩膜分類器:再用一個(gè)CLIP模型,評(píng)估生成的每個(gè)mask和對(duì)應(yīng)的文本查詢的匹配度。如果匹配度低,就把那個(gè)文本查詢剔除掉。

就這樣反復(fù)迭代下去,文本查詢會(huì)越來越精準(zhǔn),mask的質(zhì)量也會(huì)越來越高。

最后當(dāng)查詢集合不再變化,就可以輸出最終的分割結(jié)果了。

圖片

之所以要設(shè)計(jì)這個(gè)遞歸框架,是為了最大限度地保留CLIP預(yù)訓(xùn)練的”知識(shí)”。

CLIP預(yù)訓(xùn)練中見過的概念可是海量,涵蓋了從名人、地標(biāo)到動(dòng)漫角色等方方面面。如果在分割數(shù)據(jù)集上微調(diào),詞匯量勢必會(huì)大幅縮水。

例如“分割一切”SAM模型就只能認(rèn)出一瓶可口可樂,百事可樂是一瓶也不認(rèn)了。

圖片

但是直接拿CLIP做分割,效果又不盡如人意。

這是因?yàn)镃LIP的預(yù)訓(xùn)練目標(biāo)本來就不是為密集預(yù)測設(shè)計(jì)的。尤其是當(dāng)圖像中不存在某些文本查詢時(shí),CLIP很容易生成一些錯(cuò)誤的mask。

CaR巧妙地通過RNN式的迭代來解決這個(gè)問題。通過反復(fù)評(píng)估、篩選查詢,同時(shí)完善mask,最終實(shí)現(xiàn)了高質(zhì)量的開放詞匯分割。

最后再來跟隨團(tuán)隊(duì)的解讀,了解一下CaR框架的細(xì)節(jié)。

CaR技術(shù)細(xì)節(jié)

圖片

  • 循環(huán)神經(jīng)網(wǎng)絡(luò)框架:CaR采用了一個(gè)新穎的循環(huán)框架,通過迭代過程不斷優(yōu)化文本查詢與圖像之間的對(duì)應(yīng)關(guān)系。
  • 兩階段分割器:由掩膜提議生成器和掩膜分類器組成,均基于預(yù)訓(xùn)練的CLIP模型構(gòu)建,且權(quán)重在迭代過程中保持不變。
  • 掩膜提議生成:使用gradCAM技術(shù),基于圖像和文本特征的相似度得分來生成掩膜提議。
  • 視覺提示:應(yīng)用如紅圈、背景模糊等視覺提示,以增強(qiáng)模型對(duì)圖像特定區(qū)域的關(guān)注。
  • 閾值函數(shù):通過設(shè)置相似度閾值,篩選出與文本查詢對(duì)齊程度高的掩膜提議。
  • 后處理:使用密集條件隨機(jī)場(CRF)和可選的SAM模型進(jìn)行掩膜細(xì)化。

通過這些技術(shù)手段,CaR技術(shù)在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了顯著的性能提升,超越了傳統(tǒng)的零樣本學(xué)習(xí)方法,并在與進(jìn)行了大量數(shù)據(jù)微調(diào)的模型相比時(shí)也展現(xiàn)出了競爭力。如下表所示,盡管完全無需額外訓(xùn)練及微調(diào),CaR在零樣本語義分割的8個(gè)不同指標(biāo)上表現(xiàn)出比之前在額外數(shù)據(jù)上進(jìn)行微調(diào)過的方法更強(qiáng)的性能。

圖片

作者還測試了CaR在零樣本Refering segmentation的效果,CaR也表現(xiàn)出了相較之前零樣本的方法表現(xiàn)出更強(qiáng)的性能。

圖片

綜上所述,CaR(CLIP as RNN)是一種創(chuàng)新的循環(huán)神經(jīng)網(wǎng)絡(luò)框架,能夠在無需額外訓(xùn)練數(shù)據(jù)的情況下,有效地進(jìn)行零樣本語義和指代圖像分割任務(wù)。它通過保留預(yù)訓(xùn)練視覺-語言模型的廣泛詞匯空間,并利用迭代過程不斷優(yōu)化文本查詢與掩膜提議的對(duì)齊度,顯著提升了分割質(zhì)量。

CaR的優(yōu)勢在于其無需微調(diào)、處理復(fù)雜文本查詢的能力和對(duì)視頻領(lǐng)域的擴(kuò)展性,為開放詞匯量圖像分割領(lǐng)域帶來了突破性進(jìn)展。

論文鏈接:https://arxiv.org/abs/2312.07661。
項(xiàng)目主頁:https://torrvision.com/clip_as_rnn/。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2018-10-10 13:57:32

區(qū)塊鏈技術(shù)智能

2022-02-10 15:15:41

人工智能強(qiáng)化學(xué)習(xí)谷歌

2024-07-10 13:20:45

2023-12-03 23:01:49

算法研究

2024-04-23 09:30:07

3D模型

2023-11-26 18:04:00

IDEA視覺

2014-11-19 15:08:38

SAP

2021-02-01 09:51:35

IBM中國研究院

2021-10-13 17:28:33

AI 數(shù)據(jù)人工智能

2021-10-11 14:30:50

人工智能數(shù)據(jù)技術(shù)

2021-03-23 13:49:21

人工智能機(jī)器學(xué)習(xí)

2022-04-11 11:37:13

AI研究NLP

2022-09-30 11:55:36

AI算力

2022-04-22 11:22:47

達(dá)摩院阿里巴巴

2022-03-03 10:06:41

Transforme模型機(jī)器學(xué)習(xí)

2024-12-23 14:30:00

AI模型數(shù)據(jù)

2025-02-12 13:42:25

2011-03-11 13:22:16

2021-01-12 15:11:01

AI 數(shù)據(jù)人工智能

2020-03-27 09:29:10

微軟開源無人機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)