Diffusion反饋強(qiáng)勢助力CLIP秒變火眼金睛!北京智源&中科院自動化所
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
- 作者:王文軒(中科院自動化所-智源研究院聯(lián)培博一研究生),孫泉(智源研究院視覺模型研究中心算法研究員),張帆(智源研究院視覺模型研究中心算法研究員),唐業(yè)鵬(北交博一研究生),劉靜(中科院自動化所研究員),王鑫龍(智源研究院視覺模型研究中心負(fù)責(zé)人)
- 單位:中科院自動化所,中國科學(xué)院大學(xué),北京智源人工智能研究院,北京交通大學(xué)
- 論文鏈接:https://arxiv.org/abs/2407.20171
- 項(xiàng)目主頁:https://rubics-xuan.github.io/DIVA/
- 相關(guān)代碼鏈接:https://github.com/baaivision/DIVA
動機(jī)何在?——CLIP視覺缺陷
對比語言-圖像預(yù)訓(xùn)練(CLIP)在跨領(lǐng)域和跨模態(tài)的開放世界表示方面表現(xiàn)出色,已成為各種視覺和多模態(tài)任務(wù)的基礎(chǔ)。
自從CLIP被提出以來,近年來涌現(xiàn)了許多關(guān)于CLIP模型的后續(xù)研究。這些研究通過預(yù)訓(xùn)練和微調(diào)CLIP模型,取得了性能提升并開發(fā)了新的能力。然而,這些方法仍然存在不可避免的局限性,因?yàn)樗鼈兏叨纫蕾囉趫D像-文本數(shù)據(jù)對,無法僅在圖像數(shù)據(jù)上實(shí)現(xiàn)預(yù)期效果。
此外,最近的不少研究指出,盡管CLIP在零樣本任務(wù)中表現(xiàn)出色,但由于對比學(xué)習(xí)范式和訓(xùn)練中使用的噪聲圖像-文本對,其在感知理解方面存在一些局限性。這些局限性包括難以準(zhǔn)確理解長文本和難以辨別相似圖像中的細(xì)微差異。雖然一些研究試圖解決長文本理解問題,但改善CLIP的細(xì)粒度視覺感知能力的研究仍然不足。感知視覺細(xì)節(jié)的能力對于基礎(chǔ)模型至關(guān)重要,而CLIP在這方面的不足直接影響了以CLIP作為視覺編碼器的視覺和多模態(tài)模型的表現(xiàn)。
因此,在這項(xiàng)工作中,我們專注于通過自監(jiān)督學(xué)習(xí)范式解決CLIP無法區(qū)分細(xì)粒度視覺細(xì)節(jié)的問題。基于文本到圖像的擴(kuò)散模型能夠生成具有豐富細(xì)節(jié)逼真圖像的先驗(yàn),我們探索了利用擴(kuò)散模型的生成反饋來優(yōu)化CLIP表征的潛力。
如何解決?——Diffusion Feedback來優(yōu)化CLIP視覺細(xì)節(jié)表征
我們提出了一種簡單的CLIP模型后訓(xùn)練方法,通過自監(jiān)督擴(kuò)散過程在很大程度上克服了其視覺缺陷。通過使用CLIP的密集視覺特征對擴(kuò)散模型進(jìn)行條件化,并將重建損失應(yīng)用于CLIP優(yōu)化,我們將擴(kuò)散模型作為CLIP的視覺助手,因此我們將該框架命名為DIVA。
具體而言,如圖2所示,DIVA主要由兩個部分組成:一是需要增強(qiáng)視覺感知能力的CLIP模型,二是提供生成反饋的預(yù)訓(xùn)練擴(kuò)散模型。輸入原始圖像和空文本(圖2中標(biāo)記為'Null')后,CLIP模型會編碼相應(yīng)的視覺特征,這些特征將與來自擴(kuò)散模型文本編碼器的空文本嵌入結(jié)合,為擴(kuò)散過程提供條件。對于添加了噪聲的圖像,擴(kuò)散模型嘗試在上述條件下預(yù)測從前一步到當(dāng)前步驟中添加的噪聲。在訓(xùn)練過程中,除了CLIP模型外,所有部分的權(quán)重都保持不變,訓(xùn)練目標(biāo)只是最小化重建損失(即擴(kuò)散反饋指導(dǎo))。通過這種方式,通過約束擴(kuò)散模型更準(zhǔn)確地預(yù)測添加的噪聲,CLIP的原始語義豐富的判別表示將通過擴(kuò)散反饋逐漸優(yōu)化為包含更多視覺細(xì)節(jié)的表示。
此外更有意思的是,DIVA不需要額外的文本標(biāo)注數(shù)據(jù),只需可輕易獲取的純圖片數(shù)據(jù)就能大幅使得CLIP彌補(bǔ)其視覺感知短板,這一點(diǎn)相比之前方法收集大量圖文數(shù)據(jù)對的高昂成本是非常難得的!
效果如何?——立竿見影!
為了評估DIVA的有效性并展示其增強(qiáng)CLIP表示的潛力,我們在多模態(tài)理解和視覺感知任務(wù)上進(jìn)行了全面的實(shí)驗(yàn)。
視覺細(xì)粒度感知方面
為了驗(yàn)證DIVA能夠有效緩解CLIP模型固有的視覺能力不足,我們首先在各種現(xiàn)有的CLIP模型上進(jìn)行了實(shí)驗(yàn)。DIVA在評估視覺-語言模型視覺能力的MMVP-VLM基準(zhǔn)測試中使得現(xiàn)有的多個CLIP模型的性能取得了顯著的提升(提高了3-7%)。
作為更強(qiáng)的視覺骨干網(wǎng)絡(luò)為多模態(tài)大模型和視覺模型帶來的收益評估
接下來,在DIVA的幫助下,我們進(jìn)一步評估了增強(qiáng)后的CLIP骨干網(wǎng)絡(luò)在多模態(tài)理解和視覺感知任務(wù)中帶來的性能提升。DIVA的優(yōu)勢在于它不僅僅能讓CLIP變聰明,還能讓那些基于CLIP的大型多模態(tài)語言模型以及視覺模型變得更加厲害。在這些多模態(tài)和純視覺的基準(zhǔn)測試上準(zhǔn)確率的顯著提升,得益于我們DIVA范式通過生成反饋大幅增強(qiáng)了CLIP的視覺感知能力。
CLIP泛化能力評估
在全面驗(yàn)證了我們的方法提升CLIP模型細(xì)粒度視覺感知能力的效果后,我們進(jìn)行了CLIP模型原始泛化能力的全面評估。在只由純圖片數(shù)據(jù)驅(qū)動整個框架的前提上,DIVA能夠保持CLIP原本優(yōu)秀的泛化性能。29個圖片分類和圖文檢索的基準(zhǔn)測試上無論是看圖識物還是找圖配字的實(shí)驗(yàn)結(jié)果都能證明,經(jīng)過DIVA優(yōu)化視覺表征之后的CLIP模型能夠保留CLIP原本優(yōu)秀的泛化能力。
未來展望?——大有可為!
當(dāng)前局限
- 數(shù)據(jù)和模型規(guī)模可進(jìn)一步擴(kuò)展。
- 由于這篇工作只是該方向的一個開始,目前僅展示了生成擴(kuò)散模型用于提升CLIP模型表示的潛力,當(dāng)前主要關(guān)注設(shè)計(jì)一個簡單但有效的框架。
未來可探討的方向
- 可以結(jié)合更細(xì)粒度的監(jiān)督方案進(jìn)一步提升CLIP模型的能力。
- 擴(kuò)展超越圖像-文本數(shù)據(jù)的其他模態(tài),如視頻和音頻。
- 發(fā)展基于擴(kuò)散模型的更通用、更強(qiáng)大的框架,以增強(qiáng)視覺-語言基礎(chǔ)模型。