自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="fsosz"><i id="fsosz"></i></sub>

<sub id="fsosz"><p id="fsosz"></p></sub>

<cite id="fsosz"></cite>

<cite id="fsosz"><track id="fsosz"></track></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

一文講清楚視覺大模型！CLIP模型論文解讀

發(fā)布于 2025-1-7 11:46

瀏覽

0收藏

概覽

該論文提出了一種名為CLIP（Contrastive Language-Image Pre-Training）的多模態(tài)預(yù)訓(xùn)練模型，用于學(xué)習(xí)圖像和文本之間的語義關(guān)系。該模型使用自然語言作為監(jiān)督信號(hào)，通過對(duì)比預(yù)測(cè)正確的圖像-文本配對(duì)和錯(cuò)誤的配對(duì)來學(xué)習(xí)特征表示。具體來說，CLIP首先將輸入的圖像和文本分別編碼為高維向量，并在兩個(gè)空間中計(jì)算它們之間的相似度。然后，CLIP使用一個(gè)對(duì)比損失函數(shù)來優(yōu)化這些向量的表示，以最大化正確配對(duì)的相似度并最小化錯(cuò)誤配對(duì)的相似度。最終，CLIP可以用于各種下游任務(wù)，如圖像分類、對(duì)象檢測(cè)等。

方法改進(jìn)

相比于傳統(tǒng)的基于標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法，CLIP利用了大量未標(biāo)注的自然語言數(shù)據(jù)來進(jìn)行無監(jiān)督學(xué)習(xí)，從而提高了模型的表現(xiàn)。此外，CLIP還采用了多種技術(shù)來提高效率和性能，包括使用多個(gè)GPU進(jìn)行分布式訓(xùn)練、使用半精度浮點(diǎn)數(shù)計(jì)算以及使用梯度檢查點(diǎn)技術(shù)等。

解決的問題

CLIP的主要目標(biāo)是解決多模態(tài)學(xué)習(xí)中的語義匹配問題，即如何將圖像和文本聯(lián)系起來。傳統(tǒng)的方法通常需要大量的標(biāo)注數(shù)據(jù)來進(jìn)行監(jiān)督學(xué)習(xí)，而CLIP則可以通過利用未標(biāo)注的自然語言數(shù)據(jù)來進(jìn)行無監(jiān)督學(xué)習(xí)，從而減少了對(duì)標(biāo)注數(shù)據(jù)的依賴。此外，CLIP還可以應(yīng)用于各種下游任務(wù)，如圖像分類、對(duì)象檢測(cè)等，具有廣泛的應(yīng)用前景。

1. 選擇高效的預(yù)訓(xùn)練方式

一文講清楚視覺大模型！CLIP模型論文解讀-AI.x社區(qū)

給定一批 N（圖像，文本）對(duì)，CLIP 被訓(xùn)練來預(yù)測(cè)批次中 N × N 可能（圖像，文本）對(duì)中的哪一個(gè)實(shí)際發(fā)生。為此，CLIP 通過聯(lián)合訓(xùn)練圖像編碼器和文本編碼器來學(xué)習(xí)多模態(tài)嵌入空間，以最大化批次中 N 個(gè)實(shí)數(shù)對(duì)的圖像和文本嵌入的余弦相似度，同時(shí)最小化 N2 - N 個(gè)不正確的配對(duì)。我們優(yōu)化了這些相似性分?jǐn)?shù)的對(duì)稱交叉熵?fù)p失。在圖 3 中，我們包含了 CLIP 實(shí)現(xiàn)的核心偽代碼。

一文講清楚視覺大模型！CLIP模型論文解讀-AI.x社區(qū)

據(jù)我們所知，這種批量構(gòu)建技術(shù)和目標(biāo)首先作為多類 N 對(duì)損失 Sohn (2016) 在深度度量學(xué)習(xí)領(lǐng)域引入，并被 Oord 推廣用于對(duì)比表示學(xué)習(xí)。作為 InfoNCE 損失，最近被 Zhang 等人改編為醫(yī)學(xué)成像領(lǐng)域的對(duì)比（文本、圖像）表示學(xué)習(xí)。由于我們的預(yù)訓(xùn)練數(shù)據(jù)集很大，過擬合不是主要問題，訓(xùn)練 CLIP 的細(xì)節(jié)得到了簡(jiǎn)化。
我們從頭開始訓(xùn)練 CLIP，而沒有使用 ImageNet 權(quán)重初始化圖像編碼器或使用預(yù)訓(xùn)練權(quán)重的文本編碼器。我們不使用表示和對(duì)比嵌入空間之間的非線性投影，相反，我們僅使用線性投影將每個(gè)編碼器的表示映射到多模態(tài)嵌入空間。
我們沒有注意到兩個(gè)版本之間訓(xùn)練效率的差異，并推測(cè)非線性投影可能僅在自監(jiān)督表示學(xué)習(xí)方法中與當(dāng)前圖像的細(xì)節(jié)共同適應(yīng)。我們還簡(jiǎn)化了圖像變換函數(shù)t_v 。來自調(diào)整大小的圖像的隨機(jī)正方形裁剪是訓(xùn)練期間使用的唯一數(shù)據(jù)增強(qiáng)。最后，控制 softmax 中 logits 范圍的溫度參數(shù) τ 在訓(xùn)練期間直接優(yōu)化為對(duì)數(shù)參數(shù)化乘法標(biāo)量，以避免轉(zhuǎn)為超參數(shù)。

2.選擇和擴(kuò)展模型

我們考慮圖像編碼器的兩種不同架構(gòu)。

圖像編碼器

一文講清楚視覺大模型！CLIP模型論文解讀-AI.x社區(qū)

首先，我們使用 ResNet-50 (He et al., 2016a) 作為圖像編碼器的基礎(chǔ)架構(gòu)，因?yàn)樗粡V泛采用并且經(jīng)過驗(yàn)證有良好的性能。我們使用 He 等人的 ResNetD 改進(jìn)對(duì)原始版本進(jìn)行了一些改進(jìn)，同時(shí)采用了 Zhang 的抗鋸齒 rect-2 模糊池。我們還用注意力池機(jī)制替換了全局平均池層。注意力池被實(shí)現(xiàn)為單層“transformer形式”的多頭 QKV 注意力，其中查詢以圖像的全局平均池表示為條件。對(duì)于第二種架構(gòu)，我們?cè)囼?yàn)了最近推出的 Vision Transformer (ViT)。我們密切關(guān)注它們的實(shí)現(xiàn)，僅對(duì)變換器之前的組合補(bǔ)丁和位置嵌入添加額外的層歸一化并使用略有不同的初始化方案進(jìn)行了微小的修改。

文本編碼器

一文講清楚視覺大模型！CLIP模型論文解讀-AI.x社區(qū)

文本編碼器是一個(gè) Transformer，具有 Radford 等人中描述的架構(gòu)修改。作為基礎(chǔ)尺寸，我們使用具有 8 個(gè)注意力頭的 63M 參數(shù) 12 層 512 寬模型。轉(zhuǎn)換器對(duì)具有 49,152 個(gè)詞匯大小的文本的小寫字節(jié)對(duì)編碼 (BPE) 表示進(jìn)行操作。為了計(jì)算效率，最大序列長(zhǎng)度上限為 76。文本序列用 [SOS] 和 [EOS] 標(biāo)記括起來，轉(zhuǎn)換器最高層在 [EOS] 標(biāo)記處的激活被視為文本的特征表示，該文本被層歸一化，然后線性投影到多 -模態(tài)嵌入空間。Masked self-attention 在文本編碼器中使用，以保留使用預(yù)訓(xùn)練語言模型進(jìn)行初始化或添加語言建模作為輔助目標(biāo)的能力，盡管對(duì)此的探索留待未來的工作。

結(jié)合之處

雖然之前的計(jì)算機(jī)視覺研究通常通過單獨(dú)增加寬度或深度來縮放模型，但對(duì)于 ResNet 圖像編碼器，我們采用了 Tan & Le（2019）的方法，該方法發(fā)現(xiàn) 在所有寬度、深度和分辨率上分配額外的計(jì)算優(yōu)于僅將其分配給模型的一個(gè)維度。雖然 Tan & Le (2019) 調(diào)整了為其 EfficientNet 架構(gòu)分配給每個(gè)維度的計(jì)算比率，但我們使用了一個(gè)簡(jiǎn)單的基線，即平均分配額外的計(jì)算以增加模型的寬度、深度和分辨率。對(duì)于文本編碼器，我們只縮放模型的寬度，使其與計(jì)算出的 ResNet 寬度增加成正比，根本不縮放深度，因?yàn)槲覀儼l(fā)現(xiàn) CLIP 的性能對(duì)文本編碼器的容量不太敏感。

3.訓(xùn)練過程

我們訓(xùn)練了一系列的 5 個(gè) ResNets 和 3 個(gè) Vision Transformer。對(duì)于 ResNet，我們訓(xùn)練了一個(gè) ResNet-50、一個(gè) ResNet-101，然后是另外 3 個(gè)，它們遵循 EfficientNet 風(fēng)格的模型縮放，并使用大約 4 倍、16 倍和 64 倍的 ResNet-50 計(jì)算。它們分別表示為 RN50x4、RN50x16 和 RN50x64。對(duì)于 Vision Transformers，我們訓(xùn)練了一個(gè) ViT-B/32、一個(gè) ViT-B/16 和一個(gè) ViT-L/14。我們訓(xùn)練所有模型 32 個(gè)epoch。我們使用 Adam 優(yōu)化器將解耦權(quán)重衰減正則化應(yīng)用于所有不是增益或偏差的權(quán)重，并使用余弦計(jì)劃衰減學(xué)習(xí)率 (Loshchilov & Hutter, 2016) .

當(dāng)訓(xùn)練 1 個(gè)epoch時(shí)，初始超參數(shù)是使用網(wǎng)格搜索、隨機(jī)搜索和手動(dòng)調(diào)整的組合在基線 ResNet-50 模型上設(shè)置的。由于計(jì)算限制，超參數(shù)然后啟發(fā)式地適應(yīng)更大的模型。

一文講清楚視覺大模型！CLIP模型論文解讀-AI.x社區(qū)

可學(xué)習(xí)的溫度參數(shù) τ 從初始化為相當(dāng)于 0.07 并被剪裁以防止將 logits 縮放超過 100，我們發(fā)現(xiàn)這是防止訓(xùn)練不穩(wěn)定所必需的。我們使用 32,768 的非常大的minibatch。混合精度用于加速訓(xùn)練和節(jié)省內(nèi)存。為了節(jié)省額外的內(nèi)存，使用了梯度檢查點(diǎn) 、半精度 Adam 統(tǒng)計(jì)和半精度隨機(jī)舍入文本編碼器權(quán)重。嵌入相似度的計(jì)算也與單個(gè) GPU 進(jìn)行了分片，僅計(jì)算其本地批量嵌入所需的成對(duì)相似度的子集。最大的 ResNet 模型 RN50x64 在 592 個(gè) V100 GPU 上訓(xùn)練了 18 天，而最大的 Vision Transformer 在 256 個(gè) V100 GPU 上訓(xùn)練了 12 天。對(duì)于 ViT-L/14，我們還以更高的 336 像素分辨率對(duì)一個(gè)額外的 epoch 進(jìn)行了預(yù)訓(xùn)練，以提高類似于 FixRes 的性能。我們將此模型表示為 ViT-L/14@336px。除非另有說明，否則本文中報(bào)告為“CLIP”的所有結(jié)果均使用我們發(fā)現(xiàn)性能最佳的模型。

4. 零樣本學(xué)習(xí)

CLIP 經(jīng)過預(yù)訓(xùn)練，可以預(yù)測(cè)圖像和文本片段是否在其數(shù)據(jù)集中配對(duì)在一起。為了執(zhí)行零樣本分類，我們重用了此功能。對(duì)于每個(gè)數(shù)據(jù)集，我們使用數(shù)據(jù)集中所有類的名稱作為潛在文本對(duì)的集合，并根據(jù) CLIP 預(yù)測(cè)最可能的（圖像，文本）對(duì)。更詳細(xì)一點(diǎn)，我們首先通過各自的編碼器計(jì)算圖像的特征嵌入和一組可能文本的特征嵌入。然后計(jì)算這些嵌入的余弦相似度，通過溫度參數(shù) τ 縮放，并通過 softmax 歸一化為概率分布。請(qǐng)注意，此預(yù)測(cè)層是一個(gè)多項(xiàng)邏輯回歸分類器，具有 L2 歸一化輸入、L2 歸一化權(quán)重、無偏差和溫度縮放。以這種方式解釋時(shí)，圖像編碼器是計(jì)算圖像特征表示的計(jì)算機(jī)視覺主干，而文本編碼器是超網(wǎng)絡(luò)，它根據(jù)指定文本生成線性分類器的權(quán)重。

參考：https://arxiv.org/pdf/2103.00020

本文轉(zhuǎn)載自 ??沐白AI筆記??，作者：楊沐白

標(biāo)簽

已于2025-1-7 13:45:22修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

一文詳解視覺Transformer模型壓縮和加速策略(量化/低秩近似/蒸餾/剪枝)

angel ? 4973瀏覽 ? 0回復(fù)
一文詳解大語言模型的流行架構(gòu)與訓(xùn)練技術(shù)

angel ? 3674瀏覽 ? 0回復(fù)
「多模態(tài)大模型」解讀 | 突破單一文本模態(tài)局限

Baihai_IDP ? 2890瀏覽 ? 0回復(fù)
大模型高效微調(diào)Prompt Tuning論文解讀

AIRoobt ? 4456瀏覽 ? 0回復(fù)
一文讀懂大模型協(xié)作策略：Merge、Ensemble、Cooperate！

PaperAgent ? 4306瀏覽 ? 0回復(fù)
一文講清什么是 AI Agent（智能體）？

wsp_ping ? 4826瀏覽 ? 0回復(fù)
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 3768瀏覽 ? 0回復(fù)
一文讀懂OpenGVLab帶來的最新視覺預(yù)訓(xùn)練框架

魯班模錘1 ? 2000瀏覽 ? 0回復(fù)
一文梳理大語言模型編程框架

AIGC最前線 ? 2134瀏覽 ? 0回復(fù)
超越CLIP，視覺大模型訓(xùn)練新范式？

kede96 ? 1967瀏覽 ? 0回復(fù)
一文讀懂GraphRAG大模型知識(shí)圖譜

數(shù)字化助推器 ? 3567瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 3238瀏覽 ? 0回復(fù)
一文搞懂AI大模型的四個(gè)核心技術(shù)

數(shù)字化助推器 ? 2575瀏覽 ? 0回復(fù)
一文說清楚"知識(shí)蒸餾"（讓“小模型”也能擁有“大智慧”）

AI取經(jīng)路 ? 1.6w瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
一文說清楚分布式思維狀態(tài)：由事件驅(qū)動(dòng)的多智能體系統(tǒng)

51CTO內(nèi)容精選 ? 1764瀏覽 ? 0回復(fù)
大模型系列：一文帶你梳理Large Language Model發(fā)展歷程

海因斯DK ? 1715瀏覽 ? 0回復(fù)
大模型系列：一文匯總16個(gè)深度語言模型代表工作

海因斯DK ? 959瀏覽 ? 0回復(fù)
【一文了解】大模型的思維鏈技術(shù)（CoT）

碼農(nóng)隨心筆記 ? 230瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！ 7天前發(fā)布
Deepseek新論文！如何讓AI自己學(xué)會(huì)更公平地打分？ 2025-04-11 00:26:06發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：為什么有了大模型還需要用Embedding模型？

下一篇：選擇哪個(gè)Batchsize對(duì)模型效果最好？

社區(qū)精華內(nèi)容

目錄

<sub id="4138z"><input id="4138z"></input></sub>

<cite id="4138z"><track id="4138z"></track></cite>

<style id="4138z"></style>