告別“木桶原理”,CLIP系列模型如何補(bǔ)短板再升級(jí)?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
CLIP(Contrastive Language–Image Pre-training)模型自推出以來(lái),在圖像-文本跨模態(tài)理解和生成領(lǐng)域取得了顯著成果。然而,經(jīng)典模型CLIP還是存在許多短板,對(duì)此,學(xué)界對(duì)CLIP模型的改造與增強(qiáng)還在持續(xù)進(jìn)行中,希望通過(guò)改造CLIP模型架構(gòu)、添加某些模塊來(lái)彌補(bǔ)CLIP的能力短板,不斷提升其在跨模態(tài)、少樣本任務(wù)中的泛化性能與適用性。具體如下:
- 細(xì)化CLIP的視覺(jué)識(shí)別顆粒度
- 即提升其識(shí)別圖像中細(xì)微差異和局部特征的能力,可以在視覺(jué)編碼器部分引入更精細(xì)的特征提取機(jī)制。
- 可以采用多尺度特征融合策略,通過(guò)并行處理不同尺度的圖像輸入,并將多尺度特征進(jìn)行有效融合,以捕捉圖像中的多層次信息。
- 還可以引入注意力機(jī)制,使模型能夠自動(dòng)聚焦于圖像中的關(guān)鍵區(qū)域或特征點(diǎn)。
- 結(jié)合弱監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)方法,利用圖像中的自然標(biāo)注(如顏色、紋理等)或自生成標(biāo)簽(如聚類(lèi)結(jié)果)來(lái)指導(dǎo)特征學(xué)習(xí),也是提升視覺(jué)識(shí)別顆粒度的有效途徑。
- 延長(zhǎng)CLIP處理的文本長(zhǎng)度并細(xì)化CLIP提取的文本信息
可以通過(guò)增加網(wǎng)絡(luò)層數(shù)或采用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)(如Transformer)來(lái)擴(kuò)展文本編碼器的容量,以支持更長(zhǎng)的文本輸入。
可以引入文本分段或分層處理機(jī)制,將長(zhǎng)文本劃分為多個(gè)子序列或段落,并分別進(jìn)行編碼和表示學(xué)習(xí),最后再將各部分的表示進(jìn)行有效融合。
為了細(xì)化文本信息的提取,可以設(shè)計(jì)更精細(xì)的文本表示學(xué)習(xí)方法,如基于詞嵌入的向量表示、基于句法結(jié)構(gòu)的圖表示或基于語(yǔ)義角色的框架表示等。
對(duì)CLIP的圖像文本輸入做數(shù)據(jù)增強(qiáng)
對(duì)于圖像數(shù)據(jù)增強(qiáng),可以采用旋轉(zhuǎn)、縮放、裁剪、翻轉(zhuǎn)、顏色變換等傳統(tǒng)方法,以及基于生成模型的對(duì)抗性樣本生成等高級(jí)方法。
對(duì)于文本數(shù)據(jù)增強(qiáng),則可以采用同義詞替換、回譯、隨機(jī)刪除、句子重組等方法來(lái)生成多樣化的文本樣本,或生成偽字幕改善輸入數(shù)據(jù)的質(zhì)量。
其他方法如, 通過(guò)文本到圖像的擴(kuò)散模型生成反饋來(lái)實(shí)現(xiàn)CLIP的自監(jiān)督學(xué)習(xí)、增強(qiáng)模塊以提升CLIP在某一少樣本分類(lèi)任務(wù)上的泛化能力等,還有的方法將CLIP輸入擴(kuò)展到視頻……
本期推送再次盤(pán)點(diǎn)了CLIP模型架構(gòu)還能如何改造,讓我們一起來(lái)看看吧!
GroupViT: 從文本監(jiān)督中實(shí)現(xiàn)語(yǔ)義分割
https://arxiv.org/abs/2202.11094
文章介紹了一個(gè)名為GroupViT(Grouping Vision Transformer)的模型,它是為了實(shí)現(xiàn)僅通過(guò)文本監(jiān)督進(jìn)行語(yǔ)義分割的任務(wù)而設(shè)計(jì)的。GroupViT通過(guò)一個(gè)分層的Transformer架構(gòu)進(jìn)行視覺(jué)概念的逐步分組,從較小的圖像片段合并成較大的任意形狀的語(yǔ)義段。GroupViT首先將輸入圖像劃分為多個(gè)不重疊的小patch,并將每個(gè)patch線性投影到潛在空間,形成輸入的image token。在每個(gè)分組階段,image token和group token通過(guò)Transformer層進(jìn)行信息傳播,通過(guò)自注意力機(jī)制(self-attention)聚合全局信息。每個(gè)分組階段的末尾都有一個(gè)grouping block,負(fù)責(zé)將相似的image token合并為更大的語(yǔ)義段(segment)。Grouping block通過(guò)計(jì)算group token和segment token之間的相似性矩陣來(lái)實(shí)現(xiàn)合并。在Grouping Block中,使用Gumbel-Softmax操作和直通技巧(straight through trick)來(lái)進(jìn)行硬分配,使得segment tokens能夠明確地分配給不同的group tokens。為了訓(xùn)練GroupViT執(zhí)行分層分組,模型采用了特別設(shè)計(jì)的對(duì)比損失函數(shù),包括原始的圖像-文本對(duì)比損失和多標(biāo)簽對(duì)比損失。
相對(duì)于CLIP,GroupViT引入了分組機(jī)制,允許模型自動(dòng)地將圖像區(qū)域分組為語(yǔ)義段,而CLIP是一個(gè)基于對(duì)比學(xué)習(xí)的模型,主要用于圖像和文本的聯(lián)合表示學(xué)習(xí),并沒(méi)有顯式的分組機(jī)制。GroupViT還采用了分層的Transformer架構(gòu),能夠處理任意形狀的圖像段,而CLIP通常處理的是固定大小的圖像patch。此外,GroupViT特有的Grouping Block模塊,用于將圖像tokens合并為更大的語(yǔ)義段。最后,GroupViT使用了多標(biāo)簽對(duì)比損失,通過(guò)從文本中提取名詞并使用句子模板生成額外的文本標(biāo)簽,增強(qiáng)了模型對(duì)視覺(jué)分組的學(xué)習(xí)能力。
FFF:在對(duì)比性預(yù)訓(xùn)練中修復(fù)有缺陷的基礎(chǔ)產(chǎn)生的視覺(jué)語(yǔ)言模型
https://arxiv.org/abs/2405.10286
文章提出了一種改進(jìn)的對(duì)比性預(yù)訓(xùn)練方法,稱(chēng)為FFF(Fixing Flawed Foundations),旨在通過(guò)解決現(xiàn)有視覺(jué)-語(yǔ)言模型訓(xùn)練中的兩個(gè)關(guān)鍵問(wèn)題來(lái)增強(qiáng)模型性能:錯(cuò)誤分配的負(fù)對(duì)(false negative pairs)和低質(zhì)量及多樣性不足的字幕(captions)。
- 在對(duì)比學(xué)習(xí)中,通常假設(shè)每個(gè)樣本只有一個(gè)正對(duì)(positive pair),但實(shí)際中,由于圖像和/或字幕在語(yǔ)義上的相似性,一些負(fù)對(duì)(negative pairs)可能被錯(cuò)誤地標(biāo)記。這導(dǎo)致訓(xùn)練過(guò)程和模型質(zhì)量受限。為了解決這個(gè)問(wèn)題,文章提出了一種基于圖像-文本、圖像-圖像和文本-文本相似性的算法,用于發(fā)現(xiàn)并糾正這些錯(cuò)誤分配的負(fù)對(duì),并挖掘新的真正例(true positives)。
- 現(xiàn)有的網(wǎng)絡(luò)收集的數(shù)據(jù)集往往包含質(zhì)量低下、描述簡(jiǎn)短或不相關(guān)的字幕,這不利于訓(xùn)練。文章通過(guò)使用最先進(jìn)的圖像字幕技術(shù)生成偽字幕(pseudo-captions),作為給定圖像的新真正例,從而提高字幕的質(zhì)量和描述性。為了進(jìn)一步提升訓(xùn)練數(shù)據(jù)的多樣性,文章提出了批量文本增強(qiáng)策略。在同一個(gè)批次中,為每個(gè)訓(xùn)練圖像生成多個(gè)偽字幕(例如,通過(guò)束搜索選擇的五個(gè)字幕),這樣可以有效增加字幕的多樣性。
- 由于上述方法導(dǎo)致每個(gè)圖像的正對(duì)數(shù)量可能不同,文章提出使用sigmoid loss作為訓(xùn)練損失函數(shù)。這種損失函數(shù)允許每個(gè)樣本的正對(duì)數(shù)量動(dòng)態(tài)變化,且對(duì)挖掘過(guò)程中的潛在錯(cuò)誤具有魯棒性。
文章展示了FFF方法在圖像識(shí)別(在11個(gè)數(shù)據(jù)集上平均提高了約6%)和圖像檢索(在Flickr30k上提高了約19%,在MSCOCO上提高了約15%)方面的顯著性能提升。總之,F(xiàn)FF方法通過(guò)解決負(fù)對(duì)分配錯(cuò)誤和提升字幕質(zhì)量與多樣性,顯著提高了視覺(jué)-語(yǔ)言模型的預(yù)訓(xùn)練效果,并通過(guò)使用sigmoid loss作為訓(xùn)練損失函數(shù),有效地利用了多個(gè)正對(duì)進(jìn)行訓(xùn)練。
DreamLIP:帶有長(zhǎng)字幕的語(yǔ)言圖像預(yù)訓(xùn)練
https://arxiv.org/abs/2403.17007
文章提出的DreamLIP模型實(shí)現(xiàn)了從長(zhǎng)標(biāo)題中動(dòng)態(tài)采樣子標(biāo)題,并與圖像的局部區(qū)域進(jìn)行細(xì)粒度對(duì)齊。
- DreamLIP首先使用預(yù)訓(xùn)練的多模態(tài)大型語(yǔ)言模型(MLLM)為30M圖像重新生成詳細(xì)的描述性長(zhǎng)標(biāo)題,這些長(zhǎng)標(biāo)題比現(xiàn)有的數(shù)據(jù)集更豐富、更詳盡。進(jìn)而從長(zhǎng)標(biāo)題中動(dòng)態(tài)采樣子標(biāo)題(subcaptions),以構(gòu)建多個(gè)正對(duì)(positive pairs)。每個(gè)子標(biāo)題可能描述圖像的一個(gè)部分,例如一個(gè)物體或者場(chǎng)景的一個(gè)方面。引入分組損失來(lái)匹配每個(gè)子標(biāo)題的文本嵌入與相應(yīng)的局部圖像塊。這種損失函數(shù)在自我監(jiān)督的方式下工作,意味著它不需要外部標(biāo)注來(lái)指導(dǎo)子標(biāo)題和圖像塊之間的對(duì)齊。
- 采用多正對(duì)對(duì)比學(xué)習(xí)框架(Multi-Positive Contrastive Learning),將文本嵌入與圖像嵌入進(jìn)行對(duì)齊,使得來(lái)自同一圖像的多個(gè)子標(biāo)題能夠與圖像的不同部分形成正對(duì)。通過(guò)分組損失實(shí)現(xiàn)細(xì)粒度對(duì)齊,確保每個(gè)子標(biāo)題的文本特征與圖像中相應(yīng)的局部特征精確匹配,從而提高模型對(duì)圖像細(xì)節(jié)的理解。將多正對(duì)對(duì)比損失和細(xì)粒度對(duì)齊損失結(jié)合起來(lái),形成DreamLIP的整體訓(xùn)練目標(biāo)函數(shù),通過(guò)這個(gè)函數(shù)來(lái)優(yōu)化模型。
在多種下游任務(wù)上進(jìn)行實(shí)驗(yàn),包括圖像-文本檢索、語(yǔ)義分割等,證明了DreamLIP模型相較于現(xiàn)有方法在細(xì)粒度表示能力上的一致優(yōu)越性。通過(guò)這種方法,DreamLIP能夠充分利用長(zhǎng)標(biāo)題中的信息,提高模型對(duì)圖像內(nèi)容的理解和表示能力,尤其是在零樣本學(xué)習(xí)的場(chǎng)景下,展現(xiàn)出了強(qiáng)大的性能。
DIVA:擴(kuò)散反饋幫助 CLIP 看得更清楚
https://arxiv.org/abs/2407.20171
對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練 (CLIP) 擅長(zhǎng)跨領(lǐng)域和模態(tài)抽象開(kāi)放世界表示,已成為各種視覺(jué)和多模態(tài)任務(wù)的基礎(chǔ)。然而,最近的研究表明,CLIP存在嚴(yán)重的視覺(jué)缺陷,例如幾乎無(wú)法區(qū)分方向、數(shù)量、顏色、結(jié)構(gòu)等。這些視覺(jué)缺陷也限制了基于 CLIP 構(gòu)建的多模態(tài)大型語(yǔ)言模型 (MLLM) 的感知能力。主要原因可能是用于訓(xùn)練 CLIP 的圖像-文本對(duì)具有固有的偏見(jiàn),因?yàn)槿狈ξ谋镜莫?dú)特性和圖像的多樣性。這項(xiàng)工作提出了一種簡(jiǎn)單的CLIP模型后訓(xùn)練方法,該方法通過(guò)自監(jiān)督擴(kuò)散過(guò)程在很大程度上克服了其視覺(jué)缺陷。我們介紹了 DIVA,它使用 DIffusion 模型作為 CLIP 的視覺(jué)助手。具體來(lái)說(shuō),DIVA利用來(lái)自文本到圖像擴(kuò)散模型的生成反饋來(lái)優(yōu)化CLIP的表征,僅使用圖像(沒(méi)有相應(yīng)的文本),從而實(shí)現(xiàn)了自監(jiān)督學(xué)習(xí)。
- DIVA使用一個(gè)預(yù)訓(xùn)練的條件擴(kuò)散模型,該模型能夠根據(jù)條件生成詳細(xì)的圖像。擴(kuò)散模型通過(guò)一個(gè)逐步添加高斯噪聲的過(guò)程來(lái)學(xué)習(xí)圖像的概率分布,這個(gè)過(guò)程可以逆轉(zhuǎn),從而從噪聲中重建圖像。DIVA利用文本到圖像擴(kuò)散模型的生成能力,將CLIP模型編碼的視覺(jué)特征作為擴(kuò)散模型的條件輸入。這意味著CLIP的視覺(jué)特征被用來(lái)指導(dǎo)擴(kuò)散模型生成圖像。通過(guò)最大化圖像似然度,使用擴(kuò)散損失來(lái)優(yōu)化CLIP模型的表示。具體來(lái)說(shuō),擴(kuò)散模型嘗試預(yù)測(cè)每一步中添加的噪聲,并通過(guò)這種方式來(lái)優(yōu)化CLIP的權(quán)重,使其學(xué)習(xí)到更豐富的視覺(jué)細(xì)節(jié)。
- DIVA引入了一種視覺(jué)密集重述策略(Visual Dense Recap Scheme),通過(guò)結(jié)合局部區(qū)域的視覺(jué)特征(patch tokens)和類(lèi)別標(biāo)記(class token)來(lái)增強(qiáng)條件信息的豐富性,從而提高CLIP模型的優(yōu)化能力。
- 盡管進(jìn)行了優(yōu)化,DIVA框架仍然保持了CLIP模型原有的零樣本(zero-shot)能力,在多種圖像分類(lèi)和檢索基準(zhǔn)測(cè)試中表現(xiàn)出色。
通過(guò)在MMVP-VLM基準(zhǔn)測(cè)試上的實(shí)驗(yàn),DIVA顯著提升了CLIP模型在細(xì)粒度視覺(jué)能力上的表現(xiàn),并在多模態(tài)理解和分割任務(wù)上提高了MLLMs和視覺(jué)模型的性能。總的來(lái)說(shuō),DIVA模型通過(guò)一個(gè)簡(jiǎn)單而有效的自監(jiān)督框架,使用擴(kuò)散模型的生成反饋來(lái)優(yōu)化CLIP的視覺(jué)表示,使其在視覺(jué)細(xì)節(jié)的感知上有了顯著的提升,同時(shí)保留了CLIP的原有優(yōu)勢(shì)。
CLIP-FSAR:小樣本動(dòng)作識(shí)別的原型調(diào)制方法
https://arxiv.org/abs/2303.02982
本文的目標(biāo)是遷移CLIP強(qiáng)大的多模態(tài)知識(shí),以解決由于數(shù)據(jù)稀缺而導(dǎo)致的原型估計(jì)不準(zhǔn)確的問(wèn)題,這是少樣本動(dòng)作識(shí)別(Few-shot Action Recognition, FSAR)中一個(gè)關(guān)鍵問(wèn)題。文章提出了一種名為CLIP-FSAR的原型調(diào)制框架,該框架由兩個(gè)關(guān)鍵組件組成:視頻-文本對(duì)比物鏡(Video-text Contrastive Objective)和原型調(diào)制(Prototype Modulation)。
- 視頻-文本對(duì)比物鏡的目的是縮小CLIP和少樣本視頻任務(wù)之間的差異。通過(guò)對(duì)比視頻特征和對(duì)應(yīng)的類(lèi)別文本描述,框架能夠學(xué)習(xí)如何將視頻內(nèi)容與文本描述相匹配。使用CLIP的視覺(jué)編碼器(Visual Encoder)提取視頻幀的特征,同時(shí)使用文本編碼器(Text Encoder)提取文本描述的特征。然后通過(guò)全局平均池化(Global Average Pooling, GAP)和余弦相似度函數(shù)來(lái)計(jì)算視頻特征和文本特征之間的匹配概率。最后應(yīng)用交叉熵?fù)p失函數(shù)來(lái)優(yōu)化視頻-文本匹配概率,使得匹配對(duì)的相似度最大化,不匹配對(duì)的相似度最小化。
- 原型調(diào)制是為了解決少樣本情況下視覺(jué)信息不足導(dǎo)致的原型估計(jì)不準(zhǔn)確問(wèn)題,原型調(diào)制組件利用CLIP中的文本語(yǔ)義先驗(yàn)來(lái)優(yōu)化視覺(jué)原型。首先在支持集(Support Set)的視覺(jué)特征基礎(chǔ)上,將文本特征沿時(shí)間維度堆疊,并使用時(shí)間Transformer來(lái)自適應(yīng)地融合文本和視覺(jué)特征。時(shí)間Transformer能夠處理支持視頻和查詢(xún)視頻的特征,使得融合后的特征在共同的特征空間中進(jìn)行匹配,以計(jì)算查詢(xún)視頻與支持視頻之間的距離。采用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)或其他時(shí)間對(duì)齊度量來(lái)計(jì)算查詢(xún)視頻和支持視頻之間的距離,并通過(guò)少數(shù)樣本度量目標(biāo)(Few-shot Metric Objective)來(lái)進(jìn)行分類(lèi)。
CLIP-FSAR框架通過(guò)這兩個(gè)組件的協(xié)同工作,能夠充分利用CLIP模型中的豐富語(yǔ)義信息,生成可靠原型,并在少樣本分類(lèi)任務(wù)中實(shí)現(xiàn)精確分類(lèi)。通過(guò)視頻-文本對(duì)比物鏡,CLIP-FSAR適應(yīng)于視頻任務(wù),并通過(guò)原型調(diào)制增強(qiáng)了對(duì)視頻中動(dòng)作類(lèi)別的識(shí)別能力。
MA-CLIP:CLIP的多模態(tài)自適應(yīng)用于小樣本動(dòng)作識(shí)別
https://arxiv.org/abs/2308.01532
將大規(guī)模預(yù)訓(xùn)練的視覺(jué)模型(如 CLIP)應(yīng)用于小樣本動(dòng)作識(shí)別任務(wù)可以提高性能和效率。利用“預(yù)訓(xùn)練,微調(diào)”范式可以避免從頭開(kāi)始訓(xùn)練網(wǎng)絡(luò),這可能既耗時(shí)又耗費(fèi)資源。但是,這種方法有兩個(gè)缺點(diǎn)。首先,用于小樣本動(dòng)作識(shí)別的標(biāo)記樣本有限,因此需要盡量減少可調(diào)參數(shù)的數(shù)量以減輕過(guò)擬合,這也會(huì)導(dǎo)致微調(diào)不足,從而增加資源消耗并可能破壞模型的廣義表示。其次,視頻的超時(shí)域維度挑戰(zhàn)了小樣本識(shí)別的有效時(shí)間建模,而預(yù)訓(xùn)練的視覺(jué)模型通常是圖像模型。為了解決這些問(wèn)題,本文提出了一種名為CLIP多模態(tài)適應(yīng)(MA-CLIP, Multimodal Adaptation of CLIP)的新方法。
- 輕量級(jí)適配器(Lightweight Adapters)被添加到CLIP模型中,目的是最小化可學(xué)習(xí)的參數(shù)數(shù)量,從而減少過(guò)擬合的風(fēng)險(xiǎn),并允許模型快速適應(yīng)新任務(wù)。適配器的設(shè)計(jì)允許它們結(jié)合視頻和文本信息,進(jìn)行面向任務(wù)的時(shí)空建模。MA-CLIP利用視頻的時(shí)空信息和文本的語(yǔ)義信息,通過(guò)適配器進(jìn)行有效的多模態(tài)信息融合。這種融合方法可以提高模型對(duì)動(dòng)作類(lèi)別的識(shí)別能力,尤其是在小樣本學(xué)習(xí)場(chǎng)景下。
- 模型不僅關(guān)注視頻幀內(nèi)的空間特征,還關(guān)注幀之間的時(shí)間關(guān)系,這對(duì)于理解動(dòng)作的發(fā)展和變化至關(guān)重要。面向任務(wù)的時(shí)空建模(Task-oriented Spatiotemporal Modeling)使得MA-CLIP能夠捕捉到動(dòng)作的本質(zhì)特征,提高識(shí)別的準(zhǔn)確性。
- 文本引導(dǎo)的原型構(gòu)建模塊(TPCM, Text-guided Prototype Construction Module)基于注意力機(jī)制設(shè)計(jì),用于增強(qiáng)視頻原型的表示。通過(guò)利用文本描述,TPCM能夠更好地理解視頻內(nèi)容,從而提高類(lèi)別原型的質(zhì)量,這對(duì)于小樣本學(xué)習(xí)中的類(lèi)別匹配和識(shí)別非常關(guān)鍵。
MA-CLIP設(shè)計(jì)為可以與任何不同的小樣本動(dòng)作識(shí)別時(shí)間對(duì)齊度量(如視頻匹配器)一起使用,這增加了模型的通用性和靈活性。由于適配器的輕量級(jí)特性和參數(shù)數(shù)量的減少,MA-CLIP在訓(xùn)練時(shí)更加快速和高效,同時(shí)降低了訓(xùn)練成本??偟膩?lái)說(shuō),MA-CLIP通過(guò)精心設(shè)計(jì)的適配器和文本引導(dǎo)的原型構(gòu)建模塊,有效地結(jié)合了視覺(jué)和語(yǔ)言信息,提高了小樣本動(dòng)作識(shí)別的性能,同時(shí)保持了模型的快速適應(yīng)性和低訓(xùn)練成本。
APE:并非所有特征都重要:通過(guò)自適應(yīng)先驗(yàn)優(yōu)化增強(qiáng)CLIP的少樣本泛化能力
https://arxiv.org/abs/2304.01195
現(xiàn)有的CLIP少樣本泛化方法要么表現(xiàn)出有限的性能,要么存在過(guò)多的可學(xué)習(xí)參數(shù)。本文提出了 APE(Adaptive Prior rE?nement),這是一種為CLIP模型的預(yù)訓(xùn)練知識(shí)進(jìn)行適應(yīng)性細(xì)化的方法,旨在提高CLIP在下游任務(wù)中的性能,特別是在小樣本學(xué)習(xí)場(chǎng)景下。
- APE通過(guò)先驗(yàn)細(xì)化模塊(Prior Refinement Module)分析下游數(shù)據(jù)中的類(lèi)間差異性,目的是將領(lǐng)域特定的知識(shí)與CLIP模型中已經(jīng)提取的緩存模型進(jìn)行解耦,從而選擇最有意義的特征通道。利用兩個(gè)標(biāo)準(zhǔn)——類(lèi)間相似度(inter-class similarity)和方差(variance)——來(lái)選擇最具區(qū)分性的特征通道,減少冗余信息并降低緩存大小,以減少內(nèi)存成本。
- APE提供了兩種模型變體:(1)無(wú)需訓(xùn)練的APE(Training-free APE):直接利用細(xì)化后的緩存模型進(jìn)行推理,探索測(cè)試圖像、細(xì)化的緩存模型和文本表示之間的三邊親和性,實(shí)現(xiàn)無(wú)需訓(xùn)練的穩(wěn)健識(shí)別。(2)需要訓(xùn)練的APE-T:在APE的基礎(chǔ)上,增加了一個(gè)輕量級(jí)的類(lèi)別殘差模塊(category-residual module),該模塊只需對(duì)類(lèi)別殘差進(jìn)行訓(xùn)練,而不需要對(duì)整個(gè)緩存模型進(jìn)行昂貴的微調(diào)。這個(gè)模塊進(jìn)一步更新細(xì)化的緩存模型,并在模態(tài)之間共享以確保視覺(jué)-語(yǔ)言的對(duì)應(yīng)關(guān)系。
- APE模型探索了測(cè)試圖像、先驗(yàn)緩存模型和文本表示之間的三邊關(guān)系,通過(guò)這種關(guān)系來(lái)增強(qiáng)小樣本學(xué)習(xí)的性能。
APE和APE-T在保持高計(jì)算效率的同時(shí),實(shí)現(xiàn)了在多個(gè)基準(zhǔn)測(cè)試中的最先進(jìn)性能,特別是在16次拍攝的ImageNet分類(lèi)任務(wù)中,APE和APE-T分別以少于第二佳方法+1.59%和+1.99%的平均準(zhǔn)確率,并且具有×30更少的可學(xué)習(xí)參數(shù)。