自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="bq1dm"><code id="bq1dm"><rp id="bq1dm"></rp></code></big>

^{<blockquote id="bq1dm"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

文生圖的基石CLIP模型的發(fā)展綜述

作者：Jacob Marks, Ph.D 2024-03-22 15:08:47

人工智能機器學(xué)習(xí)

CLIP的英文全稱是Contrastive Language-Image Pre-training，即一種基于對比文本-圖像對的預(yù)訓(xùn)練方法或者模型。CLIP是一種基于對比學(xué)習(xí)的多模態(tài)模型，CLIP的訓(xùn)練數(shù)據(jù)是文本-圖像對：一張圖像和它對應(yīng)的文本描述，這里希望通過對比學(xué)習(xí)，模型能夠?qū)W習(xí)到文本-圖像對的匹配關(guān)系。

CLIP的英文全稱是Contrastive Language-Image Pre-training，即一種基于對比文本-圖像對的預(yù)訓(xùn)練方法或者模型。CLIP是一種基于對比學(xué)習(xí)的多模態(tài)模型，CLIP的訓(xùn)練數(shù)據(jù)是文本-圖像對：一張圖像和它對應(yīng)的文本描述，這里希望通過對比學(xué)習(xí)，模型能夠?qū)W習(xí)到文本-圖像對的匹配關(guān)系。

Open AI在2021年1月份發(fā)布的DALL-E和CLIP，這兩個都屬于結(jié)合圖像和文本的多模態(tài)模型，其中DALL-E是基于文本來生成模型的模型，而CLIP是用文本作為監(jiān)督信號來訓(xùn)練可遷移的視覺模型。

而Stable Diffusion模型中將CLIP文本編碼器提取的文本特征通過cross attention嵌入擴散模型的UNet中，具體來說，文本特征作為attention的key和value，而UNet的特征作為query。也就是說CLIP其實是連接Stable Diffusion模型中文字和圖片之間的橋梁。

CLIP

這是OpenAI在21年最早發(fā)布的論文，要想理解CLIP，我們需要將縮略詞解構(gòu)為三個組成部分:(1)Contrastive ，(2)Language-Image，(3)Pre-training。

我們先從Language-Image開始。

傳統(tǒng)上，機器學(xué)習(xí)模型的架構(gòu)是接受來自單一模式的輸入數(shù)據(jù):文本、圖像、表格數(shù)據(jù)或音頻。如果你想使用不同的模態(tài)來生成預(yù)測，則需要訓(xùn)練一個不同的模型。CLIP中的“Language-Image”指的是CLIP模型接受兩種類型的輸入:文本(語言)或圖像。

CLIP通過兩個編碼器處理這些不同的輸入-一個文本編碼器和一個圖像編碼器。這些編碼器將數(shù)據(jù)投影到較低維的潛在空間中，為每個輸入生成嵌入向量。一個關(guān)鍵的細節(jié)是，圖像和文本編碼器都將數(shù)據(jù)嵌入到相同的空間中在原始的CLIP是一個512維向量空間。

Contrastive

在同一向量空間中嵌入文本和圖像數(shù)據(jù)是一個開始，但就其本身而言，它并不能保證模型對文本和圖像的表示可以進行有意義的比較。例如，在“狗”或“一張狗的照片”的文本嵌入與狗的圖像嵌入之間建立一些合理且可解釋的關(guān)系是有用的。但是我們需要一種方法來彌合這兩種模式之間的差距。

在多模態(tài)機器學(xué)習(xí)中，有各種各樣的技術(shù)來對齊兩個模態(tài)，但目前最流行的方法是對比。對比技術(shù)從兩種模式中獲取成對的輸入：比如一張圖像和它的標(biāo)題并訓(xùn)練模型的兩個編碼器盡可能接近地表示這些輸入的數(shù)據(jù)對。與此同時，該模型被激勵去接受不配對的輸入(如狗的圖像和“汽車的照片”的文本)，并盡可能遠地表示它們。CLIP并不是第一個圖像和文本的對比學(xué)習(xí)技術(shù)，但它的簡單性和有效性使其成為多模式應(yīng)用的支柱。

Pre-training

雖然CLIP本身對于諸如零樣本分類、語義搜索和無監(jiān)督數(shù)據(jù)探索等應(yīng)用程序很有用，但CLIP也被用作大量多模式應(yīng)用程序的構(gòu)建塊，從Stable Diffusion和DALL-E到StyleCLIP和OWL-ViT。對于大多數(shù)這些下游應(yīng)用程序，初始CLIP模型被視為“預(yù)訓(xùn)練”的起點，并且整個模型針對其新用例進行微調(diào)。

雖然OpenAI從未明確指定或共享用于訓(xùn)練原始CLIP模型的數(shù)據(jù)，但CLIP論文提到該模型是在從互聯(lián)網(wǎng)收集的4億對圖像-文本上進行訓(xùn)練的。

https://arxiv.org/abs/2103.00020

ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

使用CLIP, OpenAI使用了4億對圖像-文本，因為沒有提供細節(jié)，所以我們不可能確切地知道如何構(gòu)建數(shù)據(jù)集。但是在描述新的數(shù)據(jù)集時，他們參考了谷歌的Google’s Conceptual Captions 作為靈感——一個相對較小的數(shù)據(jù)集(330萬圖像描述對，這個數(shù)據(jù)集使用了昂貴的過濾和后處理技術(shù)，雖然這些技術(shù)很強大，但不是特別可擴展）。

所以高質(zhì)量的數(shù)據(jù)集就成為了研究的方向，在CLIP之后不久，ALIGN通過規(guī)模過濾來解決這個問題。ALIGN不依賴于小的、精心標(biāo)注的、精心策劃的圖像字幕數(shù)據(jù)集，而是利用了18億對圖像和替代文本。

雖然這些替代文本描述平均而言比標(biāo)題噪音大得多，但數(shù)據(jù)集的絕對規(guī)模足以彌補這一點。作者使用基本的過濾來去除重復(fù)的，有1000多個相關(guān)的替代文本的圖像，以及沒有信息的替代文本(要么太常見，要么包含罕見的標(biāo)記)。通過這些簡單的步驟，ALIGN在各種零樣本和微調(diào)任務(wù)上達到或超過了當(dāng)時最先進的水平。

https://arxiv.org/abs/2102.05918

K-LITE: Learning Transferable Visual Models with External Knowledge

與ALIGN一樣，K-LITE也在解決用于對比預(yù)訓(xùn)練的高質(zhì)量圖像-文本對數(shù)量有限的問題。

K-LITE專注于解釋概念，即將定義或描述作為上下文以及未知概念可以幫助發(fā)展廣義理解。一個通俗的解釋就是人們第一次介紹專業(yè)術(shù)語和不常用詞匯時，他們通常會簡單地定義它們!或者使用一個大家都知道的事物作為類比。

為了實現(xiàn)這種方法，微軟和加州大學(xué)伯克利分校的研究人員使用WordNet和維基詞典來增強圖像-文本對中的文本。對于一些孤立的概念，例如ImageNet中的類標(biāo)簽，概念本身被增強，而對于標(biāo)題(例如來自GCC)，最不常見的名詞短語被增強。通過這些額外的結(jié)構(gòu)化知識，對比預(yù)訓(xùn)練模型在遷移學(xué)習(xí)任務(wù)上表現(xiàn)出實質(zhì)性的改進。

https://arxiv.org/abs/2204.09222

OpenCLIP: Reproducible scaling laws for contrastive language-image learning

到2022年底，transformer 模型已經(jīng)在文本和視覺領(lǐng)域建立起來。在這兩個領(lǐng)域的開創(chuàng)性經(jīng)驗工作也清楚地表明，transformer 模型在單峰任務(wù)上的性能可以通過簡單的縮放定律來很好地描述。也就是說隨著訓(xùn)練數(shù)據(jù)量、訓(xùn)練時間或模型大小的增加，人們可以相當(dāng)準(zhǔn)確地預(yù)測模型的性能。

OpenCLIP通過使用迄今為止發(fā)布的最大的開源圖像-文本對數(shù)據(jù)集(5B)將上面的理論擴展到多模式場景，系統(tǒng)地研究了訓(xùn)練數(shù)據(jù)對模型在零樣本和微調(diào)任務(wù)中的性能的影響。與單模態(tài)情況一樣，該研究揭示了模型在多模態(tài)任務(wù)上的性能在計算、所見樣本和模型參數(shù)數(shù)量方面按冪律縮放。

比冪律的存在更有趣的是冪律縮放和預(yù)訓(xùn)練數(shù)據(jù)之間的關(guān)系。保留OpenAI的CLIP模型架構(gòu)和訓(xùn)練方法，OpenCLIP模型在樣本圖像檢索任務(wù)上表現(xiàn)出更強的縮放能力。對于ImageNet上的零樣本圖像分類，OpenAI的模型(在其專有數(shù)據(jù)集上訓(xùn)練)表現(xiàn)出更強的縮放能力。這些發(fā)現(xiàn)突出了數(shù)據(jù)收集和過濾程序?qū)ο掠涡阅艿闹匾浴?/p>

https://arxiv.org/abs/2212.07143

但是在OpenCLIP發(fā)布不久，LAION數(shù)據(jù)集因包含非法圖像已從互聯(lián)網(wǎng)上被下架了。

MetaCLIP: Demystifying CLIP Data

OpenCLIP試圖理解下游任務(wù)的性能如何隨數(shù)據(jù)量、計算量和模型參數(shù)數(shù)量的變化而變化，而MetaCLIP關(guān)注的是如何選擇數(shù)據(jù)。正如作者所說，“我們認為CLIP成功的主要因素是它的數(shù)據(jù)，而不是模型架構(gòu)或預(yù)訓(xùn)練目標(biāo)。”

為了驗證這一假設(shè)，作者固定了模型架構(gòu)和訓(xùn)練步驟并進行了實驗。MetaCLIP團隊測試了與子字符串匹配、過濾和平衡數(shù)據(jù)分布相關(guān)的多種策略，發(fā)現(xiàn)當(dāng)每個文本在訓(xùn)練數(shù)據(jù)集中最多出現(xiàn)20,000次時，可以實現(xiàn)最佳性能，為了驗證這個理論他們甚至將在初始數(shù)據(jù)池中出現(xiàn)5400萬次的單詞 “photo”在訓(xùn)練數(shù)據(jù)中也被限制為20,000對圖像-文本。使用這種策略，MetaCLIP在來自Common Crawl數(shù)據(jù)集的400M圖像-文本對上進行了訓(xùn)練，在各種基準(zhǔn)測試中表現(xiàn)優(yōu)于OpenAI的CLIP模型。

https://arxiv.org/abs/2309.16671

DFN: Data Filtering Networks

有了MetaCLIP的研究，可以說明數(shù)據(jù)管理可能是訓(xùn)練高性能多模態(tài)模型(如CLIP)的最重要因素。MetaCLIP的過濾策略非常成功，但它也主要基于啟發(fā)式的方法。研究人員又將研究目標(biāo)變?yōu)槭欠窨梢杂?xùn)練一個模型來更有效地進行這種過濾。

為了驗證這一點，作者使用來自概念性12M的高質(zhì)量數(shù)據(jù)來訓(xùn)練CLIP模型，從低質(zhì)量數(shù)據(jù)中過濾高質(zhì)量數(shù)據(jù)。這個數(shù)據(jù)過濾網(wǎng)絡(luò)(DFN)被用來構(gòu)建一個更大的高質(zhì)量數(shù)據(jù)集，方法是只從一個未經(jīng)管理的數(shù)據(jù)集(在本例中是Common Crawl)中選擇高質(zhì)量數(shù)據(jù)。在過濾后的數(shù)據(jù)上訓(xùn)練的CLIP模型優(yōu)于僅在初始高質(zhì)量數(shù)據(jù)上訓(xùn)練的模型和在大量未過濾數(shù)據(jù)上訓(xùn)練的模型。

https://arxiv.org/abs/2309.17425

總結(jié)

OpenAI的CLIP模型顯著地改變了我們處理多模態(tài)數(shù)據(jù)的方式。但是CLIP只是一個開始。從預(yù)訓(xùn)練數(shù)據(jù)到訓(xùn)練方法和對比損失函數(shù)的細節(jié)，CLIP家族在過去幾年中取得了令人難以置信的進步。ALIGN縮放噪聲文本，K-LITE增強外部知識，OpenCLIP研究縮放定律，MetaCLIP優(yōu)化數(shù)據(jù)管理，DFN增強數(shù)據(jù)質(zhì)量。這些模型加深了我們對CLIP在多模態(tài)人工智能發(fā)展中的作用的理解，展示了在連接圖像和文本方面的進步。

責(zé)任編輯：華軒來源： DeepHub IMBA

CLIP 機器學(xué)習(xí)人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營