上海交大新框架解鎖CLIP長文本能力,多模態(tài)生成細(xì)節(jié)拿捏,圖像檢索能力顯著提升
CLIP長文本能力被解鎖,圖像檢索任務(wù)表現(xiàn)顯著提升!
一些關(guān)鍵細(xì)節(jié)也能被捕捉到。上海交大聯(lián)合上海AI實驗室提出新框架Long-CLIP。
△棕色文本為區(qū)分兩張圖的關(guān)鍵細(xì)節(jié)
Long-CLIP在保持CLIP原始特征空間的基礎(chǔ)上,在圖像生成等下游任務(wù)中即插即用,實現(xiàn)長文本細(xì)粒度圖像生成——
長文本-圖像檢索提升20%,短文本-圖像檢索提升6%。
解鎖CLIP長文本能力
CLIP對齊了視覺與文本模態(tài),擁有強大的zero-shot泛化能力。因此,CLIP被廣泛應(yīng)用在各種多模態(tài)任務(wù)中,如圖像分類、文本圖像檢索、圖像生成等。
但CLIP的一大弊病是在于長文本能力的缺失。
首先,由于采用了絕對位置編碼,CLIP的文本輸入長度被限制在了77個token。不僅如此,實驗發(fā)現(xiàn)CLIP真正的有效長度甚至不足20個token,遠遠不足以表征細(xì)粒度信息。
文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本,CLIP的視覺編碼器也只會提取一張圖片中最主要的成分,而忽略了各種細(xì)節(jié)。這對跨模態(tài)檢索等細(xì)粒度任務(wù)是十分不利的。
同時,長文本的缺乏也使CLIP采取了類似bag-of-feature(BOF)的簡單建模方式,不具備因果推理等復(fù)雜能力。
針對這一問題,研究人員提出了Long-CLIP模型。
具體提出了兩大策略:保留知識的位置編碼擴充(Knowledge-Preserving Stretching of Positional Embedding)與加入核心成分對齊(Primary Component Matching)的微調(diào)策略。
保留知識的位置編碼擴充
一個簡單的擴充輸入長度、增強長文本能力的方法是先以固定的比率 λ1 對位置編碼進行插值,再通過長文本進行微調(diào)。
研究者們發(fā)現(xiàn),CLIP的不同位置編碼的訓(xùn)練程度是不同的。由于訓(xùn)練文本很可能以短文本為主,較低位的位置編碼訓(xùn)練較為充分,能夠精確地表征絕對位置,而較高位的位置編碼則僅能表征其大致的相對位置。因此,對不同位置的編碼進行插值的代價是不同的。
基于以上觀察,研究者保留了前20個位置編碼,而對于剩下的57個位置編碼,則以一個更大的比率λ2 進行插值,計算公式可表示為:
實驗表明,相較于直接插值,該策略可以在支持更長的總長度的同時大幅提升在各個任務(wù)上的性能。
加入核心屬性對齊的微調(diào)
僅僅引入長文本微調(diào)會使模型走入另一個誤區(qū),即一視同仁地囊括所有細(xì)節(jié)。針對這一問題,研究者們在微調(diào)中引入核心屬性對齊這一策略。
具體而言,研究者們利用主成分分析(PCA)算法,從細(xì)粒度的圖像特征中提取核心屬性,將其余屬性過濾后重建粗粒度圖像特征,并將其與概括性的短文本進行對齊。這一策略既要求模型不僅能夠包含更多的細(xì)節(jié)(細(xì)粒度對齊),同時還能識別并建模其中最為核心的屬性(核心成分提取與粗粒度對齊)。
△加入核心屬性對齊的微調(diào)流程
即插即用在各種多模態(tài)任務(wù)中
在圖文檢索、圖像生成等領(lǐng)域,Long-CLIP可即插即用地替換CLIP。
比如圖文檢索,Long-CLIP能夠在圖像與文本模態(tài)捕捉更多細(xì)粒度信息,從而可以增強相似圖像和文本的區(qū)分能力,大幅提升圖文檢索的表現(xiàn)。
無論是在傳統(tǒng)的短文本檢索(COCO、Flickr30k),還是在長文本檢索任務(wù)上,Long-CLIP在召回率上均有顯著提升。
△短文本-圖像檢索實驗結(jié)果
△長文本-圖像檢索實驗結(jié)果
△長文本-圖像檢索可視化,棕色文本為區(qū)分兩張圖片的關(guān)鍵細(xì)節(jié)
除此之外,CLIP的文本編碼器常被用于文本到圖像生成模型中,如stable diffusion系列等。但由于長文本能力的缺失,用于生成圖像的文本描述通常都十分簡短,無法個性化地訂制各種細(xì)節(jié)。
Long-CLIP可以突破77個token的限制,實現(xiàn)篇章級別的圖像生成(右下)。
也可以在77個token內(nèi)建模更多地細(xì)節(jié),實現(xiàn)細(xì)粒度圖像生成(右上)。
論文鏈接:https://arxiv.org/abs/2403.15378
代碼鏈接:https://github.com/beichenzbc/Long-CLIP