自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

上海交大新框架解鎖CLIP長文本能力,多模態(tài)生成細(xì)節(jié)拿捏,圖像檢索能力顯著提升

人工智能 新聞
一些關(guān)鍵細(xì)節(jié)也能被捕捉到。上海交大聯(lián)合上海AI實驗室提出新框架Long-CLIP。

CLIP長文本能力被解鎖,圖像檢索任務(wù)表現(xiàn)顯著提升!

一些關(guān)鍵細(xì)節(jié)也能被捕捉到。上海交大聯(lián)合上海AI實驗室提出新框架Long-CLIP

圖片

△棕色文本為區(qū)分兩張圖的關(guān)鍵細(xì)節(jié)

Long-CLIP在保持CLIP原始特征空間的基礎(chǔ)上,在圖像生成等下游任務(wù)中即插即用,實現(xiàn)長文本細(xì)粒度圖像生成——

長文本-圖像檢索提升20%,短文本-圖像檢索提升6%。

解鎖CLIP長文本能力

CLIP對齊了視覺與文本模態(tài),擁有強大的zero-shot泛化能力。因此,CLIP被廣泛應(yīng)用在各種多模態(tài)任務(wù)中,如圖像分類、文本圖像檢索、圖像生成等。

但CLIP的一大弊病是在于長文本能力的缺失。

首先,由于采用了絕對位置編碼,CLIP的文本輸入長度被限制在了77個token。不僅如此,實驗發(fā)現(xiàn)CLIP真正的有效長度甚至不足20個token,遠遠不足以表征細(xì)粒度信息。

文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本,CLIP的視覺編碼器也只會提取一張圖片中最主要的成分,而忽略了各種細(xì)節(jié)。這對跨模態(tài)檢索等細(xì)粒度任務(wù)是十分不利的。

同時,長文本的缺乏也使CLIP采取了類似bag-of-feature(BOF)的簡單建模方式,不具備因果推理等復(fù)雜能力。

針對這一問題,研究人員提出了Long-CLIP模型。

圖片
具體提出了兩大策略:保留知識的位置編碼擴充(Knowledge-Preserving Stretching of Positional Embedding)與加入核心成分對齊(Primary Component Matching)的微調(diào)策略。

保留知識的位置編碼擴充

一個簡單的擴充輸入長度、增強長文本能力的方法是先以固定的比率 λ對位置編碼進行插值,再通過長文本進行微調(diào)。

研究者們發(fā)現(xiàn),CLIP的不同位置編碼的訓(xùn)練程度是不同的。由于訓(xùn)練文本很可能以短文本為主,較低位的位置編碼訓(xùn)練較為充分,能夠精確地表征絕對位置,而較高位的位置編碼則僅能表征其大致的相對位置。因此,對不同位置的編碼進行插值的代價是不同的。

基于以上觀察,研究者保留了前20個位置編碼,而對于剩下的57個位置編碼,則以一個更大的比率λ進行插值,計算公式可表示為:
圖片
實驗表明,相較于直接插值,該策略可以在支持更長的總長度的同時大幅提升在各個任務(wù)上的性能。

加入核心屬性對齊的微調(diào)

僅僅引入長文本微調(diào)會使模型走入另一個誤區(qū),即一視同仁地囊括所有細(xì)節(jié)。針對這一問題,研究者們在微調(diào)中引入核心屬性對齊這一策略。

具體而言,研究者們利用主成分分析(PCA)算法,從細(xì)粒度的圖像特征中提取核心屬性,將其余屬性過濾后重建粗粒度圖像特征,并將其與概括性的短文本進行對齊。這一策略既要求模型不僅能夠包含更多的細(xì)節(jié)(細(xì)粒度對齊),同時還能識別并建模其中最為核心的屬性(核心成分提取與粗粒度對齊)。

圖片

△加入核心屬性對齊的微調(diào)流程

即插即用在各種多模態(tài)任務(wù)中

在圖文檢索、圖像生成等領(lǐng)域,Long-CLIP可即插即用地替換CLIP。

比如圖文檢索,Long-CLIP能夠在圖像與文本模態(tài)捕捉更多細(xì)粒度信息,從而可以增強相似圖像和文本的區(qū)分能力,大幅提升圖文檢索的表現(xiàn)。

無論是在傳統(tǒng)的短文本檢索(COCO、Flickr30k),還是在長文本檢索任務(wù)上,Long-CLIP在召回率上均有顯著提升。

圖片

△短文本-圖像檢索實驗結(jié)果

圖片

△長文本-圖像檢索實驗結(jié)果

圖片

△長文本-圖像檢索可視化,棕色文本為區(qū)分兩張圖片的關(guān)鍵細(xì)節(jié)

除此之外,CLIP的文本編碼器常被用于文本到圖像生成模型中,如stable diffusion系列等。但由于長文本能力的缺失,用于生成圖像的文本描述通常都十分簡短,無法個性化地訂制各種細(xì)節(jié)。

Long-CLIP可以突破77個token的限制,實現(xiàn)篇章級別的圖像生成(右下)。

也可以在77個token內(nèi)建模更多地細(xì)節(jié),實現(xiàn)細(xì)粒度圖像生成(右上)。

圖片

論文鏈接:https://arxiv.org/abs/2403.15378
代碼鏈接:https://github.com/beichenzbc/Long-CLIP

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-21 13:02:42

2025-03-17 12:55:18

2024-02-02 16:25:01

模型訓(xùn)練

2021-07-22 15:25:14

開源技術(shù) 框架

2025-03-13 09:47:29

2024-04-02 09:23:04

測試開源

2009-05-18 09:25:00

2024-05-27 12:05:23

2022-06-06 14:29:20

圖像模型任務(wù)

2014-04-15 15:49:19

博世2014

2023-11-12 23:01:44

PaddleOCR深度學(xué)習(xí)

2023-06-09 13:29:58

2009-07-03 11:42:00

2024-12-31 14:00:00

模型訓(xùn)練數(shù)據(jù)

2023-08-30 13:23:00

模型訓(xùn)練

2024-01-11 16:24:12

人工智能RAG

2025-01-09 09:56:34

視覺模型圖像生成

2025-04-17 02:55:00

2011-07-11 15:09:33

水晶石動漫CG
點贊
收藏

51CTO技術(shù)棧公眾號