CLIP當(dāng)RNN用入選CVPR:無需訓(xùn)練即可分割無數(shù)概念|牛津大學(xué)&谷歌研究院
循環(huán)調(diào)用CLIP,無需額外訓(xùn)練就有效分割無數(shù)概念。
包括電影動(dòng)漫人物,地標(biāo),品牌,和普通類別在內(nèi)的任意短語。
牛津大學(xué)與谷歌研究院聯(lián)合團(tuán)隊(duì)的這項(xiàng)新成果,已被CVPR 2024接收,并開源了代碼。
團(tuán)隊(duì)提出名為CLIP as RNN(簡稱CaR)的新技術(shù),解決了開放詞匯量圖像分割領(lǐng)域中的幾個(gè)關(guān)鍵問題:
- 無需訓(xùn)練數(shù)據(jù):傳統(tǒng)方法需要大量的掩膜注釋或圖像-文本數(shù)據(jù)集進(jìn)行微調(diào),CaR技術(shù)則無需任何額外的訓(xùn)練數(shù)據(jù)即可工作。
- 開放詞匯量的限制:預(yù)訓(xùn)練的視覺-語言模型(VLMs)在經(jīng)過微調(diào)后,其處理開放詞匯量的能力受到限制。CaR技術(shù)保留了VLMs的廣泛詞匯空間。
- 對(duì)非圖像中概念的文本查詢處理:在沒有微調(diào)的情況下,VLMs難以對(duì)圖像中不存在的概念進(jìn)行準(zhǔn)確分割,CaR通過迭代過程逐步優(yōu)化,提高了分割質(zhì)量。
受RNN啟發(fā),循環(huán)調(diào)用CLIP
要理解CaR的原理,需要先回顧一下循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。
RNN引入了隱狀態(tài)(hidden state)的概念,就像是一個(gè)”記憶體”,存儲(chǔ)了過去時(shí)間步的信息。而且每個(gè)時(shí)間步共享同一組權(quán)重,可以很好地建模序列數(shù)據(jù)。
受RNN啟發(fā),CaR也設(shè)計(jì)成循環(huán)的框架,由兩部分組成:
- 掩膜提議生成器:借助CLIP為每個(gè)文本查詢生成一個(gè)mask。
- 掩膜分類器:再用一個(gè)CLIP模型,評(píng)估生成的每個(gè)mask和對(duì)應(yīng)的文本查詢的匹配度。如果匹配度低,就把那個(gè)文本查詢剔除掉。
就這樣反復(fù)迭代下去,文本查詢會(huì)越來越精準(zhǔn),mask的質(zhì)量也會(huì)越來越高。
最后當(dāng)查詢集合不再變化,就可以輸出最終的分割結(jié)果了。
之所以要設(shè)計(jì)這個(gè)遞歸框架,是為了最大限度地保留CLIP預(yù)訓(xùn)練的”知識(shí)”。
CLIP預(yù)訓(xùn)練中見過的概念可是海量,涵蓋了從名人、地標(biāo)到動(dòng)漫角色等方方面面。如果在分割數(shù)據(jù)集上微調(diào),詞匯量勢必會(huì)大幅縮水。
例如“分割一切”SAM模型就只能認(rèn)出一瓶可口可樂,百事可樂是一瓶也不認(rèn)了。
但是直接拿CLIP做分割,效果又不盡如人意。
這是因?yàn)镃LIP的預(yù)訓(xùn)練目標(biāo)本來就不是為密集預(yù)測設(shè)計(jì)的。尤其是當(dāng)圖像中不存在某些文本查詢時(shí),CLIP很容易生成一些錯(cuò)誤的mask。
CaR巧妙地通過RNN式的迭代來解決這個(gè)問題。通過反復(fù)評(píng)估、篩選查詢,同時(shí)完善mask,最終實(shí)現(xiàn)了高質(zhì)量的開放詞匯分割。
最后再來跟隨團(tuán)隊(duì)的解讀,了解一下CaR框架的細(xì)節(jié)。
CaR技術(shù)細(xì)節(jié)
- 循環(huán)神經(jīng)網(wǎng)絡(luò)框架:CaR采用了一個(gè)新穎的循環(huán)框架,通過迭代過程不斷優(yōu)化文本查詢與圖像之間的對(duì)應(yīng)關(guān)系。
- 兩階段分割器:由掩膜提議生成器和掩膜分類器組成,均基于預(yù)訓(xùn)練的CLIP模型構(gòu)建,且權(quán)重在迭代過程中保持不變。
- 掩膜提議生成:使用gradCAM技術(shù),基于圖像和文本特征的相似度得分來生成掩膜提議。
- 視覺提示:應(yīng)用如紅圈、背景模糊等視覺提示,以增強(qiáng)模型對(duì)圖像特定區(qū)域的關(guān)注。
- 閾值函數(shù):通過設(shè)置相似度閾值,篩選出與文本查詢對(duì)齊程度高的掩膜提議。
- 后處理:使用密集條件隨機(jī)場(CRF)和可選的SAM模型進(jìn)行掩膜細(xì)化。
通過這些技術(shù)手段,CaR技術(shù)在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了顯著的性能提升,超越了傳統(tǒng)的零樣本學(xué)習(xí)方法,并在與進(jìn)行了大量數(shù)據(jù)微調(diào)的模型相比時(shí)也展現(xiàn)出了競爭力。如下表所示,盡管完全無需額外訓(xùn)練及微調(diào),CaR在零樣本語義分割的8個(gè)不同指標(biāo)上表現(xiàn)出比之前在額外數(shù)據(jù)上進(jìn)行微調(diào)過的方法更強(qiáng)的性能。
作者還測試了CaR在零樣本Refering segmentation的效果,CaR也表現(xiàn)出了相較之前零樣本的方法表現(xiàn)出更強(qiáng)的性能。
綜上所述,CaR(CLIP as RNN)是一種創(chuàng)新的循環(huán)神經(jīng)網(wǎng)絡(luò)框架,能夠在無需額外訓(xùn)練數(shù)據(jù)的情況下,有效地進(jìn)行零樣本語義和指代圖像分割任務(wù)。它通過保留預(yù)訓(xùn)練視覺-語言模型的廣泛詞匯空間,并利用迭代過程不斷優(yōu)化文本查詢與掩膜提議的對(duì)齊度,顯著提升了分割質(zhì)量。
CaR的優(yōu)勢在于其無需微調(diào)、處理復(fù)雜文本查詢的能力和對(duì)視頻領(lǐng)域的擴(kuò)展性,為開放詞匯量圖像分割領(lǐng)域帶來了突破性進(jìn)展。
論文鏈接:https://arxiv.org/abs/2312.07661。
項(xiàng)目主頁:https://torrvision.com/clip_as_rnn/。