自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文生圖的基石CLIP模型的發(fā)展綜述

人工智能 機器學(xué)習(xí)
CLIP的英文全稱是Contrastive Language-Image Pre-training,即一種基于對比文本-圖像對的預(yù)訓(xùn)練方法或者模型。CLIP是一種基于對比學(xué)習(xí)的多模態(tài)模型,CLIP的訓(xùn)練數(shù)據(jù)是文本-圖像對:一張圖像和它對應(yīng)的文本描述,這里希望通過對比學(xué)習(xí),模型能夠?qū)W習(xí)到文本-圖像對的匹配關(guān)系。

CLIP的英文全稱是Contrastive Language-Image Pre-training,即一種基于對比文本-圖像對的預(yù)訓(xùn)練方法或者模型。CLIP是一種基于對比學(xué)習(xí)的多模態(tài)模型,CLIP的訓(xùn)練數(shù)據(jù)是文本-圖像對:一張圖像和它對應(yīng)的文本描述,這里希望通過對比學(xué)習(xí),模型能夠?qū)W習(xí)到文本-圖像對的匹配關(guān)系。

Open AI在2021年1月份發(fā)布的DALL-E和CLIP,這兩個都屬于結(jié)合圖像和文本的多模態(tài)模型,其中DALL-E是基于文本來生成模型的模型,而CLIP是用文本作為監(jiān)督信號來訓(xùn)練可遷移的視覺模型。

而Stable Diffusion模型中將CLIP文本編碼器提取的文本特征通過cross attention嵌入擴散模型的UNet中,具體來說,文本特征作為attention的key和value,而UNet的特征作為query。也就是說CLIP其實是連接Stable Diffusion模型中文字和圖片之間的橋梁。

CLIP

這是OpenAI在21年最早發(fā)布的論文,要想理解CLIP,我們需要將縮略詞解構(gòu)為三個組成部分:(1)Contrastive ,(2)Language-Image,(3)Pre-training。

我們先從Language-Image開始。

傳統(tǒng)上,機器學(xué)習(xí)模型的架構(gòu)是接受來自單一模式的輸入數(shù)據(jù):文本、圖像、表格數(shù)據(jù)或音頻。如果你想使用不同的模態(tài)來生成預(yù)測,則需要訓(xùn)練一個不同的模型。CLIP中的“Language-Image”指的是CLIP模型接受兩種類型的輸入:文本(語言)或圖像。

CLIP通過兩個編碼器處理這些不同的輸入-一個文本編碼器和一個圖像編碼器。這些編碼器將數(shù)據(jù)投影到較低維的潛在空間中,為每個輸入生成嵌入向量。一個關(guān)鍵的細節(jié)是,圖像和文本編碼器都將數(shù)據(jù)嵌入到相同的空間中在原始的CLIP是一個512維向量空間。

Contrastive

在同一向量空間中嵌入文本和圖像數(shù)據(jù)是一個開始,但就其本身而言,它并不能保證模型對文本和圖像的表示可以進行有意義的比較。例如,在“狗”或“一張狗的照片”的文本嵌入與狗的圖像嵌入之間建立一些合理且可解釋的關(guān)系是有用的。但是我們需要一種方法來彌合這兩種模式之間的差距。

在多模態(tài)機器學(xué)習(xí)中,有各種各樣的技術(shù)來對齊兩個模態(tài),但目前最流行的方法是對比。對比技術(shù)從兩種模式中獲取成對的輸入:比如一張圖像和它的標(biāo)題并訓(xùn)練模型的兩個編碼器盡可能接近地表示這些輸入的數(shù)據(jù)對。與此同時,該模型被激勵去接受不配對的輸入(如狗的圖像和“汽車的照片”的文本),并盡可能遠地表示它們。CLIP并不是第一個圖像和文本的對比學(xué)習(xí)技術(shù),但它的簡單性和有效性使其成為多模式應(yīng)用的支柱。

Pre-training

雖然CLIP本身對于諸如零樣本分類、語義搜索和無監(jiān)督數(shù)據(jù)探索等應(yīng)用程序很有用,但CLIP也被用作大量多模式應(yīng)用程序的構(gòu)建塊,從Stable Diffusion和DALL-E到StyleCLIP和OWL-ViT。對于大多數(shù)這些下游應(yīng)用程序,初始CLIP模型被視為“預(yù)訓(xùn)練”的起點,并且整個模型針對其新用例進行微調(diào)。

雖然OpenAI從未明確指定或共享用于訓(xùn)練原始CLIP模型的數(shù)據(jù),但CLIP論文提到該模型是在從互聯(lián)網(wǎng)收集的4億對圖像-文本上進行訓(xùn)練的。

https://arxiv.org/abs/2103.00020

ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

使用CLIP, OpenAI使用了4億對圖像-文本,因為沒有提供細節(jié),所以我們不可能確切地知道如何構(gòu)建數(shù)據(jù)集。但是在描述新的數(shù)據(jù)集時,他們參考了谷歌的Google’s Conceptual Captions 作為靈感——一個相對較小的數(shù)據(jù)集(330萬圖像描述對,這個數(shù)據(jù)集使用了昂貴的過濾和后處理技術(shù),雖然這些技術(shù)很強大,但不是特別可擴展)。

所以高質(zhì)量的數(shù)據(jù)集就成為了研究的方向,在CLIP之后不久,ALIGN通過規(guī)模過濾來解決這個問題。ALIGN不依賴于小的、精心標(biāo)注的、精心策劃的圖像字幕數(shù)據(jù)集,而是利用了18億對圖像和替代文本。

雖然這些替代文本描述平均而言比標(biāo)題噪音大得多,但數(shù)據(jù)集的絕對規(guī)模足以彌補這一點。作者使用基本的過濾來去除重復(fù)的,有1000多個相關(guān)的替代文本的圖像,以及沒有信息的替代文本(要么太常見,要么包含罕見的標(biāo)記)。通過這些簡單的步驟,ALIGN在各種零樣本和微調(diào)任務(wù)上達到或超過了當(dāng)時最先進的水平。

https://arxiv.org/abs/2102.05918

K-LITE: Learning Transferable Visual Models with External Knowledge

與ALIGN一樣,K-LITE也在解決用于對比預(yù)訓(xùn)練的高質(zhì)量圖像-文本對數(shù)量有限的問題。

K-LITE專注于解釋概念,即將定義或描述作為上下文以及未知概念可以幫助發(fā)展廣義理解。一個通俗的解釋就是人們第一次介紹專業(yè)術(shù)語和不常用詞匯時,他們通常會簡單地定義它們!或者使用一個大家都知道的事物作為類比。

為了實現(xiàn)這種方法,微軟和加州大學(xué)伯克利分校的研究人員使用WordNet和維基詞典來增強圖像-文本對中的文本。對于一些孤立的概念,例如ImageNet中的類標(biāo)簽,概念本身被增強,而對于標(biāo)題(例如來自GCC),最不常見的名詞短語被增強。通過這些額外的結(jié)構(gòu)化知識,對比預(yù)訓(xùn)練模型在遷移學(xué)習(xí)任務(wù)上表現(xiàn)出實質(zhì)性的改進。

https://arxiv.org/abs/2204.09222

OpenCLIP: Reproducible scaling laws for contrastive language-image learning

到2022年底,transformer 模型已經(jīng)在文本和視覺領(lǐng)域建立起來。在這兩個領(lǐng)域的開創(chuàng)性經(jīng)驗工作也清楚地表明,transformer 模型在單峰任務(wù)上的性能可以通過簡單的縮放定律來很好地描述。也就是說隨著訓(xùn)練數(shù)據(jù)量、訓(xùn)練時間或模型大小的增加,人們可以相當(dāng)準(zhǔn)確地預(yù)測模型的性能。

OpenCLIP通過使用迄今為止發(fā)布的最大的開源圖像-文本對數(shù)據(jù)集(5B)將上面的理論擴展到多模式場景,系統(tǒng)地研究了訓(xùn)練數(shù)據(jù)對模型在零樣本和微調(diào)任務(wù)中的性能的影響。與單模態(tài)情況一樣,該研究揭示了模型在多模態(tài)任務(wù)上的性能在計算、所見樣本和模型參數(shù)數(shù)量方面按冪律縮放。

比冪律的存在更有趣的是冪律縮放和預(yù)訓(xùn)練數(shù)據(jù)之間的關(guān)系。保留OpenAI的CLIP模型架構(gòu)和訓(xùn)練方法,OpenCLIP模型在樣本圖像檢索任務(wù)上表現(xiàn)出更強的縮放能力。對于ImageNet上的零樣本圖像分類,OpenAI的模型(在其專有數(shù)據(jù)集上訓(xùn)練)表現(xiàn)出更強的縮放能力。這些發(fā)現(xiàn)突出了數(shù)據(jù)收集和過濾程序?qū)ο掠涡阅艿闹匾浴?/p>

https://arxiv.org/abs/2212.07143

但是在OpenCLIP發(fā)布不久,LAION數(shù)據(jù)集因包含非法圖像已從互聯(lián)網(wǎng)上被下架了。

MetaCLIP: Demystifying CLIP Data

OpenCLIP試圖理解下游任務(wù)的性能如何隨數(shù)據(jù)量、計算量和模型參數(shù)數(shù)量的變化而變化,而MetaCLIP關(guān)注的是如何選擇數(shù)據(jù)。正如作者所說,“我們認為CLIP成功的主要因素是它的數(shù)據(jù),而不是模型架構(gòu)或預(yù)訓(xùn)練目標(biāo)。”

為了驗證這一假設(shè),作者固定了模型架構(gòu)和訓(xùn)練步驟并進行了實驗。MetaCLIP團隊測試了與子字符串匹配、過濾和平衡數(shù)據(jù)分布相關(guān)的多種策略,發(fā)現(xiàn)當(dāng)每個文本在訓(xùn)練數(shù)據(jù)集中最多出現(xiàn)20,000次時,可以實現(xiàn)最佳性能,為了驗證這個理論他們甚至將在初始數(shù)據(jù)池中出現(xiàn)5400萬次的單詞 “photo”在訓(xùn)練數(shù)據(jù)中也被限制為20,000對圖像-文本。使用這種策略,MetaCLIP在來自Common Crawl數(shù)據(jù)集的400M圖像-文本對上進行了訓(xùn)練,在各種基準(zhǔn)測試中表現(xiàn)優(yōu)于OpenAI的CLIP模型。

https://arxiv.org/abs/2309.16671

DFN: Data Filtering Networks

有了MetaCLIP的研究,可以說明數(shù)據(jù)管理可能是訓(xùn)練高性能多模態(tài)模型(如CLIP)的最重要因素。MetaCLIP的過濾策略非常成功,但它也主要基于啟發(fā)式的方法。研究人員又將研究目標(biāo)變?yōu)槭欠窨梢杂?xùn)練一個模型來更有效地進行這種過濾。

為了驗證這一點,作者使用來自概念性12M的高質(zhì)量數(shù)據(jù)來訓(xùn)練CLIP模型,從低質(zhì)量數(shù)據(jù)中過濾高質(zhì)量數(shù)據(jù)。這個數(shù)據(jù)過濾網(wǎng)絡(luò)(DFN)被用來構(gòu)建一個更大的高質(zhì)量數(shù)據(jù)集,方法是只從一個未經(jīng)管理的數(shù)據(jù)集(在本例中是Common Crawl)中選擇高質(zhì)量數(shù)據(jù)。在過濾后的數(shù)據(jù)上訓(xùn)練的CLIP模型優(yōu)于僅在初始高質(zhì)量數(shù)據(jù)上訓(xùn)練的模型和在大量未過濾數(shù)據(jù)上訓(xùn)練的模型。

https://arxiv.org/abs/2309.17425

總結(jié)

OpenAI的CLIP模型顯著地改變了我們處理多模態(tài)數(shù)據(jù)的方式。但是CLIP只是一個開始。從預(yù)訓(xùn)練數(shù)據(jù)到訓(xùn)練方法和對比損失函數(shù)的細節(jié),CLIP家族在過去幾年中取得了令人難以置信的進步。ALIGN縮放噪聲文本,K-LITE增強外部知識,OpenCLIP研究縮放定律,MetaCLIP優(yōu)化數(shù)據(jù)管理,DFN增強數(shù)據(jù)質(zhì)量。這些模型加深了我們對CLIP在多模態(tài)人工智能發(fā)展中的作用的理解,展示了在連接圖像和文本方面的進步。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2024-07-01 10:19:22

2022-10-11 16:34:28

深度學(xué)習(xí)模型

2023-11-29 18:56:43

圖像搜索FAISS

2025-04-24 06:02:45

2009-11-19 17:23:13

路由器技術(shù)

2023-12-25 15:15:17

模型訓(xùn)練

2024-06-19 16:11:22

2024-05-10 07:58:03

2010-06-24 17:03:45

BitTorrent協(xié)

2020-02-06 15:31:55

視頻數(shù)據(jù)分類模型發(fā)展

2020-02-07 17:48:53

RGB視頻數(shù)據(jù)分類模型

2024-10-18 16:10:00

AI文生圖框架

2025-03-11 00:22:00

DeepSeekAI圖片

2010-10-09 21:30:57

FTTx

2023-10-26 15:38:03

混元大模型騰訊

2025-04-08 03:00:00

2025-03-05 00:00:55

2022-05-25 10:28:35

模型AI

2025-04-16 15:30:59

模型AI數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號