自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<li id="ctg5r"><option id="ctg5r"><del id="ctg5r"></del></option></li>

<kbd id="ctg5r"><listing id="ctg5r"></listing></kbd>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

上海交大新框架解鎖CLIP長文本能力，多模態(tài)生成細(xì)節(jié)拿捏，圖像檢索能力顯著提升

作者：量子位 2024-04-01 07:25:00

人工智能新聞

一些關(guān)鍵細(xì)節(jié)也能被捕捉到。上海交大聯(lián)合上海AI實驗室提出新框架Long-CLIP。

CLIP長文本能力被解鎖，圖像檢索任務(wù)表現(xiàn)顯著提升！

一些關(guān)鍵細(xì)節(jié)也能被捕捉到。上海交大聯(lián)合上海AI實驗室提出新框架Long-CLIP。

△棕色文本為區(qū)分兩張圖的關(guān)鍵細(xì)節(jié)

Long-CLIP在保持CLIP原始特征空間的基礎(chǔ)上，在圖像生成等下游任務(wù)中即插即用，實現(xiàn)長文本細(xì)粒度圖像生成——

長文本-圖像檢索提升20%，短文本-圖像檢索提升6%。

解鎖CLIP長文本能力

CLIP對齊了視覺與文本模態(tài)，擁有強大的zero-shot泛化能力。因此，CLIP被廣泛應(yīng)用在各種多模態(tài)任務(wù)中，如圖像分類、文本圖像檢索、圖像生成等。

但CLIP的一大弊病是在于長文本能力的缺失。

首先，由于采用了絕對位置編碼，CLIP的文本輸入長度被限制在了77個token。不僅如此，實驗發(fā)現(xiàn)CLIP真正的有效長度甚至不足20個token，遠遠不足以表征細(xì)粒度信息。

文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本，CLIP的視覺編碼器也只會提取一張圖片中最主要的成分，而忽略了各種細(xì)節(jié)。這對跨模態(tài)檢索等細(xì)粒度任務(wù)是十分不利的。

同時，長文本的缺乏也使CLIP采取了類似bag-of-feature（BOF）的簡單建模方式，不具備因果推理等復(fù)雜能力。

針對這一問題，研究人員提出了Long-CLIP模型。

具體提出了兩大策略：保留知識的位置編碼擴充（Knowledge-Preserving Stretching of Positional Embedding）與加入核心成分對齊（Primary Component Matching）的微調(diào)策略。

保留知識的位置編碼擴充

一個簡單的擴充輸入長度、增強長文本能力的方法是先以固定的比率 λ₁對位置編碼進行插值，再通過長文本進行微調(diào)。

研究者們發(fā)現(xiàn)，CLIP的不同位置編碼的訓(xùn)練程度是不同的。由于訓(xùn)練文本很可能以短文本為主，較低位的位置編碼訓(xùn)練較為充分，能夠精確地表征絕對位置，而較高位的位置編碼則僅能表征其大致的相對位置。因此，對不同位置的編碼進行插值的代價是不同的。

基于以上觀察，研究者保留了前20個位置編碼，而對于剩下的57個位置編碼，則以一個更大的比率λ₂進行插值，計算公式可表示為：

實驗表明，相較于直接插值，該策略可以在支持更長的總長度的同時大幅提升在各個任務(wù)上的性能。

加入核心屬性對齊的微調(diào)

僅僅引入長文本微調(diào)會使模型走入另一個誤區(qū)，即一視同仁地囊括所有細(xì)節(jié)。針對這一問題，研究者們在微調(diào)中引入核心屬性對齊這一策略。

具體而言，研究者們利用主成分分析（PCA）算法，從細(xì)粒度的圖像特征中提取核心屬性，將其余屬性過濾后重建粗粒度圖像特征，并將其與概括性的短文本進行對齊。這一策略既要求模型不僅能夠包含更多的細(xì)節(jié)（細(xì)粒度對齊），同時還能識別并建模其中最為核心的屬性（核心成分提取與粗粒度對齊）。

△加入核心屬性對齊的微調(diào)流程

即插即用在各種多模態(tài)任務(wù)中

在圖文檢索、圖像生成等領(lǐng)域，Long-CLIP可即插即用地替換CLIP。

比如圖文檢索，Long-CLIP能夠在圖像與文本模態(tài)捕捉更多細(xì)粒度信息，從而可以增強相似圖像和文本的區(qū)分能力，大幅提升圖文檢索的表現(xiàn)。

無論是在傳統(tǒng)的短文本檢索（COCO、Flickr30k），還是在長文本檢索任務(wù)上，Long-CLIP在召回率上均有顯著提升。

△短文本-圖像檢索實驗結(jié)果

△長文本-圖像檢索實驗結(jié)果

△長文本-圖像檢索可視化，棕色文本為區(qū)分兩張圖片的關(guān)鍵細(xì)節(jié)

除此之外，CLIP的文本編碼器常被用于文本到圖像生成模型中，如stable diffusion系列等。但由于長文本能力的缺失，用于生成圖像的文本描述通常都十分簡短，無法個性化地訂制各種細(xì)節(jié)。

Long-CLIP可以突破77個token的限制，實現(xiàn)篇章級別的圖像生成（右下）。

也可以在77個token內(nèi)建模更多地細(xì)節(jié)，實現(xiàn)細(xì)粒度圖像生成（右上）。

論文鏈接：https://arxiv.org/abs/2403.15378
代碼鏈接：https://github.com/beichenzbc/Long-CLIP

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="nwide"></thead>

<pre id="nwide"></pre>