自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Diffusion反饋強(qiáng)勢助力CLIP秒變火眼金睛!北京智源&中科院自動化所

人工智能 智能汽車
本文分享論文Diffusion Feedback Helps CLIP See Better,專注于通過自監(jiān)督學(xué)習(xí)范式解決CLIP無法區(qū)分細(xì)粒度視覺細(xì)節(jié)的問題。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

圖片

  • 作者:王文軒(中科院自動化所-智源研究院聯(lián)培博一研究生),孫泉(智源研究院視覺模型研究中心算法研究員),張帆(智源研究院視覺模型研究中心算法研究員),唐業(yè)鵬(北交博一研究生),劉靜(中科院自動化所研究員),王鑫龍(智源研究院視覺模型研究中心負(fù)責(zé)人)
  • 單位:中科院自動化所,中國科學(xué)院大學(xué),北京智源人工智能研究院,北京交通大學(xué)
  • 論文鏈接:https://arxiv.org/abs/2407.20171
  • 項(xiàng)目主頁:https://rubics-xuan.github.io/DIVA/
  • 相關(guān)代碼鏈接:https://github.com/baaivision/DIVA

動機(jī)何在?——CLIP視覺缺陷


圖片

對比語言-圖像預(yù)訓(xùn)練(CLIP)在跨領(lǐng)域和跨模態(tài)的開放世界表示方面表現(xiàn)出色,已成為各種視覺和多模態(tài)任務(wù)的基礎(chǔ)。

自從CLIP被提出以來,近年來涌現(xiàn)了許多關(guān)于CLIP模型的后續(xù)研究。這些研究通過預(yù)訓(xùn)練和微調(diào)CLIP模型,取得了性能提升并開發(fā)了新的能力。然而,這些方法仍然存在不可避免的局限性,因?yàn)樗鼈兏叨纫蕾囉趫D像-文本數(shù)據(jù)對,無法僅在圖像數(shù)據(jù)上實(shí)現(xiàn)預(yù)期效果。

此外,最近的不少研究指出,盡管CLIP在零樣本任務(wù)中表現(xiàn)出色,但由于對比學(xué)習(xí)范式和訓(xùn)練中使用的噪聲圖像-文本對,其在感知理解方面存在一些局限性。這些局限性包括難以準(zhǔn)確理解長文本和難以辨別相似圖像中的細(xì)微差異。雖然一些研究試圖解決長文本理解問題,但改善CLIP的細(xì)粒度視覺感知能力的研究仍然不足。感知視覺細(xì)節(jié)的能力對于基礎(chǔ)模型至關(guān)重要,而CLIP在這方面的不足直接影響了以CLIP作為視覺編碼器的視覺和多模態(tài)模型的表現(xiàn)。

因此,在這項(xiàng)工作中,我們專注于通過自監(jiān)督學(xué)習(xí)范式解決CLIP無法區(qū)分細(xì)粒度視覺細(xì)節(jié)的問題。基于文本到圖像的擴(kuò)散模型能夠生成具有豐富細(xì)節(jié)逼真圖像的先驗(yàn),我們探索了利用擴(kuò)散模型的生成反饋來優(yōu)化CLIP表征的潛力。

如何解決?——Diffusion Feedback來優(yōu)化CLIP視覺細(xì)節(jié)表征

圖片

我們提出了一種簡單的CLIP模型后訓(xùn)練方法,通過自監(jiān)督擴(kuò)散過程在很大程度上克服了其視覺缺陷。通過使用CLIP的密集視覺特征對擴(kuò)散模型進(jìn)行條件化,并將重建損失應(yīng)用于CLIP優(yōu)化,我們將擴(kuò)散模型作為CLIP的視覺助手,因此我們將該框架命名為DIVA。

具體而言,如圖2所示,DIVA主要由兩個部分組成:一是需要增強(qiáng)視覺感知能力的CLIP模型,二是提供生成反饋的預(yù)訓(xùn)練擴(kuò)散模型。輸入原始圖像和空文本(圖2中標(biāo)記為'Null')后,CLIP模型會編碼相應(yīng)的視覺特征,這些特征將與來自擴(kuò)散模型文本編碼器的空文本嵌入結(jié)合,為擴(kuò)散過程提供條件。對于添加了噪聲的圖像,擴(kuò)散模型嘗試在上述條件下預(yù)測從前一步到當(dāng)前步驟中添加的噪聲。在訓(xùn)練過程中,除了CLIP模型外,所有部分的權(quán)重都保持不變,訓(xùn)練目標(biāo)只是最小化重建損失(即擴(kuò)散反饋指導(dǎo))。通過這種方式,通過約束擴(kuò)散模型更準(zhǔn)確地預(yù)測添加的噪聲,CLIP的原始語義豐富的判別表示將通過擴(kuò)散反饋逐漸優(yōu)化為包含更多視覺細(xì)節(jié)的表示。

此外更有意思的是,DIVA不需要額外的文本標(biāo)注數(shù)據(jù),只需可輕易獲取的純圖片數(shù)據(jù)就能大幅使得CLIP彌補(bǔ)其視覺感知短板,這一點(diǎn)相比之前方法收集大量圖文數(shù)據(jù)對的高昂成本是非常難得的!

效果如何?——立竿見影!

為了評估DIVA的有效性并展示其增強(qiáng)CLIP表示的潛力,我們在多模態(tài)理解和視覺感知任務(wù)上進(jìn)行了全面的實(shí)驗(yàn)。

圖片

視覺細(xì)粒度感知方面

為了驗(yàn)證DIVA能夠有效緩解CLIP模型固有的視覺能力不足,我們首先在各種現(xiàn)有的CLIP模型上進(jìn)行了實(shí)驗(yàn)。DIVA在評估視覺-語言模型視覺能力的MMVP-VLM基準(zhǔn)測試中使得現(xiàn)有的多個CLIP模型的性能取得了顯著的提升(提高了3-7%)。

圖片

作為更強(qiáng)的視覺骨干網(wǎng)絡(luò)為多模態(tài)大模型和視覺模型帶來的收益評估

接下來,在DIVA的幫助下,我們進(jìn)一步評估了增強(qiáng)后的CLIP骨干網(wǎng)絡(luò)在多模態(tài)理解和視覺感知任務(wù)中帶來的性能提升。DIVA的優(yōu)勢在于它不僅僅能讓CLIP變聰明,還能讓那些基于CLIP的大型多模態(tài)語言模型以及視覺模型變得更加厲害。在這些多模態(tài)和純視覺的基準(zhǔn)測試上準(zhǔn)確率的顯著提升,得益于我們DIVA范式通過生成反饋大幅增強(qiáng)了CLIP的視覺感知能力。

圖片

CLIP泛化能力評估

在全面驗(yàn)證了我們的方法提升CLIP模型細(xì)粒度視覺感知能力的效果后,我們進(jìn)行了CLIP模型原始泛化能力的全面評估。在只由純圖片數(shù)據(jù)驅(qū)動整個框架的前提上,DIVA能夠保持CLIP原本優(yōu)秀的泛化性能。29個圖片分類和圖文檢索的基準(zhǔn)測試上無論是看圖識物還是找圖配字的實(shí)驗(yàn)結(jié)果都能證明,經(jīng)過DIVA優(yōu)化視覺表征之后的CLIP模型能夠保留CLIP原本優(yōu)秀的泛化能力。

圖片

未來展望?——大有可為!

當(dāng)前局限

  1. 數(shù)據(jù)和模型規(guī)模可進(jìn)一步擴(kuò)展。
  2. 由于這篇工作只是該方向的一個開始,目前僅展示了生成擴(kuò)散模型用于提升CLIP模型表示的潛力,當(dāng)前主要關(guān)注設(shè)計(jì)一個簡單但有效的框架。

未來可探討的方向

  1. 可以結(jié)合更細(xì)粒度的監(jiān)督方案進(jìn)一步提升CLIP模型的能力。
  2. 擴(kuò)展超越圖像-文本數(shù)據(jù)的其他模態(tài),如視頻和音頻。
  3. 發(fā)展基于擴(kuò)散模型的更通用、更強(qiáng)大的框架,以增強(qiáng)視覺-語言基礎(chǔ)模型。
責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2020-05-26 12:52:06

Windows 10網(wǎng)絡(luò)故障

2013-01-23 09:12:13

云存儲服務(wù)云存儲提供商選擇云存儲

2011-03-08 09:27:33

2021-03-19 11:05:50

Linux目錄命令

2017-06-23 17:18:56

互聯(lián)網(wǎng)

2010-11-08 15:26:31

曙光服務(wù)器

2024-08-12 08:20:00

自動化研究

2018-11-28 14:59:56

云計(jì)算

2021-10-21 15:20:35

智能自動化Science

2017-10-17 09:49:06

2023-04-18 10:12:06

模型解碼

2025-03-11 13:49:20

2015-11-03 11:59:08

戴爾云計(jì)算

2024-03-11 12:21:07

模型數(shù)據(jù)

2010-11-17 13:35:50

BUG

2021-12-20 10:03:01

自動化人工智能 人臉識別

2022-02-19 08:21:21

中科院量子計(jì)算編程軟件

2020-07-08 13:26:47

Python

2023-09-06 07:11:41

大模型人工智能

2024-12-10 10:35:00

AI自動駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號