自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="qykxl"><font id="qykxl"></font></ruby>

<sub id="qykxl"></sub>

<blockquote id="qykxl"><i id="qykxl"><video id="qykxl"></video></i></blockquote>

<sub id="qykxl"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

模態(tài)編碼器 | 超強(qiáng)開源CLIP模型OpenCLIP

作者：Goldma 2025-04-08 04:20:00

人工智能開源

作為 CLIP 模型的開源實(shí)現(xiàn)，在更大的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，具有更多的模型參數(shù)，并且提供了更多的模型架構(gòu)選擇，總結(jié)出對比圖像語言模型的縮放定律，為多模態(tài)領(lǐng)域的研究和開發(fā)提供了重要資源。

來自LAION、UC伯克利、HuggingFace等的工作，這篇工作的研究動(dòng)機(jī)也很簡單，CLIP 模型在多模態(tài)領(lǐng)域展現(xiàn)出了巨大潛力，但原始 CLIP 模型未完全開源，限制了其更廣泛的應(yīng)用和深入研究。OpenCLIP 旨在通過開源的方式，讓更多開發(fā)者能夠無門檻地利用這一先進(jìn)模型，推動(dòng)多模態(tài)技術(shù)在各個(gè)領(lǐng)域的應(yīng)用和發(fā)展。

模型架構(gòu)和原始CLIP無異，下面簡單介紹這篇工作中的一些研究規(guī)律和實(shí)驗(yàn)結(jié)果。

01、方法介紹

這篇工作最大的貢獻(xiàn)是CLIP中擴(kuò)展規(guī)律研究：通過訓(xùn)練包含數(shù)十億圖像文本對的數(shù)據(jù)集上的CLIP模型，識別出多個(gè)下游任務(wù)（如零樣本分類、檢索、線性探測和端到端微調(diào)）中的冪律擴(kuò)展規(guī)律。

冪律關(guān)系：在兩個(gè)任務(wù)中，模型性能隨計(jì)算量的增加都遵循冪律關(guān)系。這意味著性能的提升并不是線性的，而是隨著計(jì)算量的增加而逐漸減緩。
數(shù)據(jù)量的影響：增加數(shù)據(jù)量對性能提升有顯著影響。特別是在數(shù)據(jù)量較小的情況下，增加數(shù)據(jù)量可以顯著提高性能。
模型規(guī)模的影響：更大的模型通常能夠從更多的數(shù)據(jù)中受益，表現(xiàn)出更好的性能。然而，當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后，模型規(guī)模的增加對性能提升的效果會逐漸減弱。
任務(wù)差異：在零樣本分類任務(wù)中，OpenAI的CLIP模型表現(xiàn)更好；而在零樣本檢索任務(wù)中，OpenCLIP模型表現(xiàn)更優(yōu)。這表明不同的任務(wù)可能對模型和數(shù)據(jù)有不同的需求。

02、模型訓(xùn)練

模型規(guī)模：選擇了幾種不同規(guī)模的CLIP架構(gòu)，包括ViT-B/32、ViT-B/16、ViT-L/14、ViT-H/14和ViT-g/14作為視覺編碼器。
數(shù)據(jù)規(guī)模：使用了LAION-80M（LAION-400M的子集）、LAION-400M和LAION-2B三個(gè)不同的數(shù)據(jù)集。
訓(xùn)練樣本數(shù)量：訓(xùn)練過程中使用的樣本數(shù)量分別為30億、130億和340億。

03、實(shí)驗(yàn)結(jié)果

零樣本遷移和魯棒性

模型規(guī)模的影響：隨著模型規(guī)模的增加，零樣本分類性能持續(xù)提升。下圖顯示了不同模型規(guī)模下的零樣本分類準(zhǔn)確率，可以看到，模型規(guī)模越大，準(zhǔn)確率越高。

隨著模型規(guī)模和數(shù)據(jù)量的增加，模型在這些魯棒性基準(zhǔn)數(shù)據(jù)集上的性能也有所提升，尤其是在復(fù)雜的噪聲和擾動(dòng)條件下。

數(shù)據(jù)量的影響：增加訓(xùn)練數(shù)據(jù)量也能顯著提高零樣本分類性能。表16展示了不同數(shù)據(jù)量下的VTAB零樣本分類結(jié)果，可以看出，使用更大的數(shù)據(jù)集（如LAION-2B）可以顯著提升模型在多個(gè)任務(wù)上的表現(xiàn)。

圖像檢索

模型規(guī)模的影響：隨著模型規(guī)模的增加，圖像檢索性能持續(xù)提升。下圖顯示了不同模型規(guī)模下的圖像檢索性能，可以看到，模型規(guī)模越大，檢索效果越好。

數(shù)據(jù)量的影響：增加訓(xùn)練數(shù)據(jù)量也能顯著提高圖像檢索性能。下表展示了不同數(shù)據(jù)量下的MS-COCO和Flickr30K圖像檢索結(jié)果，可以看出，使用更大的數(shù)據(jù)集（如LAION-2B）可以顯著提升模型的檢索性能。

linear probing

模型規(guī)模的影響：隨著模型規(guī)模的增加，線性探測的性能持續(xù)提升。圖2和圖3展示了不同模型規(guī)模下的線性探測結(jié)果，可以看到，模型規(guī)模越大，線性探測的準(zhǔn)確率越高。

數(shù)據(jù)量的影響：增加訓(xùn)練數(shù)據(jù)量也能顯著提高線性探測性能。表5展示了不同數(shù)據(jù)量下的線性探測結(jié)果，可以看出，使用更大的數(shù)據(jù)集（如LAION-2B）可以顯著提升模型的線性探測性能。

微調(diào)

使用預(yù)訓(xùn)練的CLIP模型作為初始化，然后在ImageNet數(shù)據(jù)集上進(jìn)行端到端微調(diào)

模型規(guī)模的影響：隨著模型規(guī)模的增加，端到端微調(diào)的性能持續(xù)提升。下圖展示了不同模型規(guī)模下的端到端微調(diào)結(jié)果，可以看到，模型規(guī)模越大，微調(diào)后的準(zhǔn)確率越高。

數(shù)據(jù)量的影響：增加訓(xùn)練數(shù)據(jù)量也能顯著提高端到端微調(diào)性能。使用更大的數(shù)據(jù)集（如LAION-2B）可以顯著提升模型的微調(diào)性能。

04、總結(jié)

作為 CLIP 模型的開源實(shí)現(xiàn)，在更大的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，具有更多的模型參數(shù)，并且提供了更多的模型架構(gòu)選擇，總結(jié)出對比圖像語言模型的縮放定律，為多模態(tài)領(lǐng)域的研究和開發(fā)提供了重要資源。其基于 Transformer 架構(gòu)和對比學(xué)習(xí)方法，讓模型能夠有效學(xué)習(xí)圖像與文本之間的關(guān)聯(lián)，推動(dòng)了多模態(tài)技術(shù)的發(fā)展。

責(zé)任編輯：龐桂玉來源：小白學(xué)AI算法

模態(tài)編碼器開源 CLIP模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="zroy6"><track id="zroy6"></track></legend>

<sub id="zroy6"></sub>

<legend id="zroy6"></legend>
<cite id="zroy6"><track id="zroy6"></track></cite>

<sub id="zroy6"></sub>