自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越CLIP,視覺大模型訓(xùn)練新范式? 原創(chuàng)

發(fā)布于 2024-11-1 15:52
瀏覽
0收藏

OpenGVLab新作:Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

Github: ??https://github.com/OpenGVLab/LCL??

Paper: https://arxiv.org/abs/2406.07543


超越CLIP,視覺大模型訓(xùn)練新范式?-AI.x社區(qū)


視覺backbone的數(shù)據(jù)瓶頸

CLIP是第一個(gè)連接圖像和文本的基礎(chǔ)模型,但在大模型時(shí)代,僅憑對比學(xué)習(xí)的監(jiān)督,已經(jīng)不足夠讓下游視覺-語言模型(VLM)取得足夠好的性能,尤其是在OCR等細(xì)粒度、高分辨率視覺任務(wù)上。而且這類方法通常要求圖像和文本數(shù)據(jù)嚴(yán)格配對,這在實(shí)際應(yīng)用中可能不現(xiàn)實(shí)(難以獲得大量高質(zhì)量內(nèi)容嚴(yán)格匹配的圖文對,而且圖文對表達(dá)的信息通常難以足夠細(xì)粒度),已經(jīng)成為了視覺多模態(tài)大模型Scaling Law的數(shù)據(jù)瓶頸。

交織圖像-文本數(shù)據(jù)是一種更具靈活性和實(shí)用性的資源。此類數(shù)據(jù)通常從社交媒體、新聞網(wǎng)站等獲取,圖像和文本之間的關(guān)系更為復(fù)雜,不總是嚴(yán)格配對。這對預(yù)訓(xùn)練提出了新的挑戰(zhàn),但也提供了新的機(jī)會(huì)。

Latent Compression Learning (LCL)

超越CLIP,視覺大模型訓(xùn)練新范式?-AI.x社區(qū)

本文提出了一種新的預(yù)訓(xùn)練方法,旨在解決交織圖像-文本數(shù)據(jù)預(yù)訓(xùn)練中的挑戰(zhàn)。該方法名為隱壓縮學(xué)習(xí)(Latent Compression Learning, LCL)。與傳統(tǒng)的對比學(xué)習(xí)不同,LCL方法通過最大化因果注意力模型的輸入和輸出之間的互信息,實(shí)現(xiàn)了更加高效的視覺表示學(xué)習(xí)。

LCL方法的核心思想是通過對比學(xué)習(xí)和生成任務(wù)的結(jié)合,充分利用圖像和文本之間的潛在聯(lián)系。具體來說,該方法包括兩個(gè)主要任務(wù):

  • 對比學(xué)習(xí)任務(wù):通過對比視覺表征和前文上下文,提升視覺模型的理解能力。
  • 生成任務(wù):利用視覺表示生成后續(xù)文本,增強(qiáng)模型的生成能力。

這種方法不僅適用于嚴(yán)格配對的圖像-文本數(shù)據(jù),也能有效處理交織數(shù)據(jù),使得視覺模型的預(yù)訓(xùn)練更加靈活和高效。

超越CLIP,視覺大模型訓(xùn)練新范式?-AI.x社區(qū)

利用兩個(gè)互補(bǔ)損失來從頭開始學(xué)習(xí)交錯(cuò)圖像文本數(shù)據(jù)上的魯棒視覺表示:對比損失確保了視覺潛在表示與其先前上下文之間的一致性,而自回歸損失增強(qiáng)了后續(xù)文本視覺表示的可預(yù)測性

實(shí)驗(yàn)結(jié)果表明,LCL方法在不同類型的數(shù)據(jù)集上表現(xiàn)優(yōu)異。特別是在配對預(yù)訓(xùn)練數(shù)據(jù)集(如LAION)和交織預(yù)訓(xùn)練數(shù)據(jù)(如MMC4)上,LCL均表現(xiàn)出了強(qiáng)大的學(xué)習(xí)能力。與CLIP相比,LCL在交織數(shù)據(jù)上的表現(xiàn)尤為突出,顯示出其在處理復(fù)雜數(shù)據(jù)關(guān)系方面的優(yōu)勢。

超越CLIP,視覺大模型訓(xùn)練新范式?-AI.x社區(qū)

這個(gè)工作首次探索了使用交錯(cuò)圖像文本數(shù)據(jù),進(jìn)行視覺模型預(yù)訓(xùn)練。這篇文章從理論上證明了latent compression等價(jià)于最大化因果模型的輸入和輸出之間的相互信息,并將該目標(biāo)進(jìn)一步分解為兩個(gè)基本的訓(xùn)練任務(wù)(對比學(xué)習(xí)+生成任務(wù)),最終得到了更魯棒的視覺表征。在用作多模態(tài)大模型的視覺backbone時(shí),這種方法能更加充分利用互聯(lián)網(wǎng)數(shù)據(jù),更能scaling數(shù)據(jù)集規(guī)模,可能有更多應(yīng)用前景。


本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學(xué) 作者:思源Source

原文鏈接:??https://mp.weixin.qq.com/s/yaPUtZMKjFyQ7zO39q1jFQ???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦