自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)AI核心技術(shù):CLIP與SigLIP技術(shù)原理與應(yīng)用進(jìn)展

人工智能
CLIP和SigLIP代表了多模態(tài)人工智能研究的重要里程碑,使計算機(jī)系統(tǒng)能夠以前所未有的方式理解和關(guān)聯(lián)視覺與文本信息。

近年來,人工智能領(lǐng)域在多模態(tài)表示學(xué)習(xí)方面取得了顯著進(jìn)展,這類模型通過統(tǒng)一框架理解并整合不同數(shù)據(jù)類型間的語義信息,特別是圖像與文本之間的關(guān)聯(lián)性。在此領(lǐng)域具有里程碑意義的模型包括OpenAI提出的CLIP(Contrastive Language-Image Pre-training,對比語言-圖像預(yù)訓(xùn)練)和Google研發(fā)的SigLIP(Sigmoid Loss for Language-Image Pre-training,用于語言-圖像預(yù)訓(xùn)練的Sigmoid損失)。這些模型重新定義了計算機(jī)視覺與自然語言處理的交互范式,實現(xiàn)了從圖像分類到零樣本學(xué)習(xí)等多種高級應(yīng)用能力。本文將從技術(shù)層面分析CLIP和SigLIP的架構(gòu)設(shè)計、訓(xùn)練方法及其主要差異,并探討它們在多模態(tài)大型語言模型中的應(yīng)用價值。

圖片

CLIP:對比語言-圖像預(yù)訓(xùn)練(2021)

CLIP由OpenAI于2021年發(fā)布,是一個開創(chuàng)性的多模態(tài)模型,其核心創(chuàng)新在于學(xué)習(xí)在統(tǒng)一嵌入空間中對齊圖像和文本表示。與傳統(tǒng)依賴特定任務(wù)標(biāo)注數(shù)據(jù)集的監(jiān)督學(xué)習(xí)方法不同,CLIP采用對比學(xué)習(xí)目標(biāo),使模型能夠在無需任務(wù)特定微調(diào)的情況下泛化到廣泛的下游應(yīng)用場景。

圖片

CLIP架構(gòu)

CLIP由兩個主要組件構(gòu)成:

圖像編碼器:一個視覺特征提取模型,通常采用Vision Transformer (ViT)或ResNet等卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),將圖像轉(zhuǎn)換為固定維度的向量表示。

文本編碼器:一個基于Transformer的語言模型(結(jié)構(gòu)類似于BERT或GPT),將文本描述編碼為與圖像嵌入相同維度的向量表示。

這兩個編碼器經(jīng)過精心設(shè)計,將圖像和文本映射到同一潛在語義空間,在該空間中,語義相關(guān)的配對(例如,一張狗的圖片和描述"一張狗的照片")在向量空間中的距離較近,而不相關(guān)的配對則相距較遠(yuǎn)。

CLIP訓(xùn)練目標(biāo)

CLIP在從互聯(lián)網(wǎng)收集的大規(guī)模圖像-文本對數(shù)據(jù)集(約4億對)上進(jìn)行預(yù)訓(xùn)練。其訓(xùn)練過程采用了受InfoNCE(Noise Contrastive Estimation,噪聲對比估計)啟發(fā)的對比損失函數(shù)。對于一個包含N個圖像-文本對的批次:

  • 系統(tǒng)計算所有N × N組合的圖像和文本嵌入之間的余弦相似度。
  • 優(yōu)化目標(biāo)是最大化N個正確(匹配)對之間的相似度,同時最小化N2 - N個不正確(非匹配)對之間的相似度。
  • 這一目標(biāo)通過優(yōu)化相似度分?jǐn)?shù)上的對稱交叉熵?fù)p失來實現(xiàn)。

從數(shù)學(xué)角度,對于一個批次中的圖像嵌入{I?,I?,...,I__N}和文本嵌入{T?,T?,...,T__N},圖像到文本方向的損失函數(shù)表示為:

圖片

模型同時計算圖像到文本和文本到圖像兩個方向的損失,最終的總損失是這兩者的平均值。其中,τ是控制分布軟度的溫度參數(shù)。這種對稱公式設(shè)計確保兩種模態(tài)(圖像和文本)得到聯(lián)合優(yōu)化,從而有效對齊它們的表示空間。

CLIP零樣本能力

CLIP的核心優(yōu)勢在于其卓越的零樣本學(xué)習(xí)能力。在預(yù)訓(xùn)練完成后,CLIP可以通過構(gòu)建文本提示(例如,"一張[類別]的照片")并比較輸入圖像嵌入與各可能類別的文本嵌入來執(zhí)行圖像分類等任務(wù),而無需任何特定任務(wù)的訓(xùn)練數(shù)據(jù)。

圖片

圖片

零樣本CLIP模型相較于標(biāo)準(zhǔn)ImageNet模型表現(xiàn)出更強(qiáng)的分布偏移魯棒性。(左圖)理想的魯棒模型(虛線)應(yīng)在ImageNet分布和其他自然圖像分布上表現(xiàn)一致。零樣本CLIP模型將這種"魯棒性差距"最多縮小了75%。圖中展示的是在logit變換值上的線性擬合結(jié)果,附帶自助法估計的95%置信區(qū)間。(右圖)可視化展示了香蕉類別的分布偏移情況,該類別在7個自然分布偏移數(shù)據(jù)集中的5個中共同存在。圖中比較了性能最佳的零樣本CLIP模型ViT-L/14@336px與在ImageNet驗證集上具有相同性能水平的ResNet-101。

SigLIP:用于語言-圖像預(yù)訓(xùn)練的Sigmoid損失(2023)

SigLIP由Google Research團(tuán)隊開發(fā),在CLIP建立的基礎(chǔ)架構(gòu)上引入了訓(xùn)練目標(biāo)的關(guān)鍵性創(chuàng)新。與CLIP使用基于softmax的對比損失不同,SigLIP采用了成對的sigmoid損失函數(shù),這一改進(jìn)簡化了訓(xùn)練流程并提高了計算效率和模型性能,尤其是在處理超大規(guī)模數(shù)據(jù)集時表現(xiàn)更為突出。

圖片

SigLIP架構(gòu)

SigLIP保持了與CLIP相似的雙編碼器架構(gòu)設(shè)計:

  • 圖像編碼器:通常采用Vision Transformer或其他先進(jìn)的視覺骨干網(wǎng)絡(luò)。
  • 文本編碼器:基于transformer架構(gòu)的語言模型。

這種架構(gòu)設(shè)計在很大程度上獨立于特定編碼器的選擇,為在不同應(yīng)用場景中進(jìn)行擴(kuò)展或適應(yīng)提供了靈活性。

SigLIP訓(xùn)練目標(biāo)

SigLIP與CLIP的核心區(qū)別在于用基于sigmoid的損失函數(shù)替代了對比損失機(jī)制。對于一個包含N個圖像-文本對的批次:

  • 每一對(I?, T?)被視為一個正樣本,目標(biāo)標(biāo)簽為1。
  • 所有其他組合(I?, T?),其中i ≠ j,被視為負(fù)樣本,目標(biāo)標(biāo)簽為0。

模型計算每個可能對的余弦相似度I? ? T?,并應(yīng)用sigmoid函數(shù)將這些相似度分?jǐn)?shù)轉(zhuǎn)換為表示給定圖像-文本對匹配概率的值。然后,損失函數(shù)被定義為預(yù)測概率與相應(yīng)目標(biāo)標(biāo)簽之間的二元交叉熵,其數(shù)學(xué)表達(dá)式為:

圖片

這種成對公式化方法消除了在整個批次范圍內(nèi)進(jìn)行歸一化的需求,這是CLIP基于softmax的對比損失所必需的。通過這種改進(jìn),SigLIP簡化了計算過程并增強(qiáng)了訓(xùn)練穩(wěn)定性,特別是在擴(kuò)展到更大批量大小的場景中。

SigLIP的優(yōu)勢

SigLIP相較于CLIP具有以下幾個關(guān)鍵優(yōu)勢:

  • 計算效率:sigmoid損失解耦了樣本對之間的損失計算,與CLIP的批次范圍歸一化相比,實現(xiàn)了更高度的并行性并減少了內(nèi)存開銷。
  • 魯棒性:SigLIP在具有挑戰(zhàn)性的數(shù)據(jù)集上展現(xiàn)出更優(yōu)的性能表現(xiàn),這可能源于其能夠更有效地處理噪聲數(shù)據(jù)或不平衡分布。
  • 可擴(kuò)展性:簡化的損失函數(shù)設(shè)計使模型能夠在更大規(guī)模數(shù)據(jù)集上進(jìn)行有效訓(xùn)練,如Google內(nèi)部擁有的數(shù)十億圖像-文本對語料庫。

CLIP和SigLIP之間的主要區(qū)別

圖片

雖然CLIP為多模態(tài)表示學(xué)習(xí)奠定了基礎(chǔ)框架,但SigLIP通過優(yōu)化損失函數(shù)提高了效率和可擴(kuò)展性,使其尤其適合于工業(yè)級應(yīng)用場景。兩者各有所長,在不同應(yīng)用環(huán)境中可以根據(jù)實際需求選擇合適的模型。

多模態(tài)大型語言模型(MLLMs)

CLIP和SigLIP的出現(xiàn)對多模態(tài)大型語言模型(MLLMs)的發(fā)展產(chǎn)生了深遠(yuǎn)影響,這類模型將視覺感知與語言理解能力整合到統(tǒng)一的計算框架中?,F(xiàn)代MLLMs充分利用CLIP和SigLIP預(yù)訓(xùn)練的圖像-文本對齊能力,實現(xiàn)了視覺問答(VQA)、圖像描述生成和多模態(tài)推理等復(fù)雜任務(wù)。下文將探討CLIP和SigLIP如何在LLaVA等代表性MLLMs中得到應(yīng)用。

LLaVA:語言和視覺助手(2023)

LLaVA(Large Language and Vision Assistant,大型語言和視覺助手)由加州大學(xué)伯克利分校和微軟研究院合作開發(fā),是一個基于CLIP視覺編碼器的典型MLLM實例。LLaVA將CLIP的視覺編碼器(通常是Vision Transformer)與大型語言模型(如LLaMA或Vicuna)結(jié)合,構(gòu)建了一個能夠同時處理圖像和文本輸入的統(tǒng)一系統(tǒng)。

圖片

該架構(gòu)的工作機(jī)制可概括為:

  • 視覺信息處理:CLIP的預(yù)訓(xùn)練圖像編碼器從輸入圖像中提取高維視覺特征表示。
  • 模態(tài)轉(zhuǎn)換層:基于線性變換或多層感知機(jī)的投影層將CLIP視覺特征映射到語言模型的表示空間,確保模態(tài)間的語義兼容性。
  • 多模態(tài)融合:視覺特征表示與文本標(biāo)記嵌入進(jìn)行連接或交錯處理,使語言模型能夠?qū)煞N輸入信息進(jìn)行聯(lián)合推理。
  • 任務(wù)適配:LLaVA在視覺指令遵循數(shù)據(jù)集(如各類視覺問答或圖像描述任務(wù))上進(jìn)行微調(diào),使融合模型能夠適應(yīng)特定的下游應(yīng)用需求。

通過充分利用CLIP的零樣本泛化能力,LLaVA能夠以最小化的特定任務(wù)微調(diào)泛化到未見過的視覺-語言任務(wù),這使其非常適合需要解釋圖像內(nèi)容的交互式對話系統(tǒng)。

其他具有代表性的MLLMs

CLIP和SigLIP的表示學(xué)習(xí)范式也被整合到其他多種前沿MLLMs中,顯著增強(qiáng)了它們的多模態(tài)處理能力:

  • BLIP-2(Bootstrap Language-Image Pre-training):由Salesforce Research團(tuán)隊開發(fā),BLIP-2采用CLIP的視覺編碼器提取圖像特征,隨后將這些特征輸入到輕量級查詢轉(zhuǎn)換器(Q-Former)中,最終由OPT或Flan-T5等大型語言模型進(jìn)行處理。這種模塊化設(shè)計方法減少了計算資源需求,同時在視覺問答和圖像-文本檢索等任務(wù)上保持了強(qiáng)大的性能。
  • Flamingo:由DeepMind研發(fā),F(xiàn)lamingo利用CLIP的視覺編碼器處理輸入序列中的多個圖像,并將提取的視覺特征與預(yù)訓(xùn)練的Chinchilla等大型語言模型集成。Flamingo架構(gòu)的特色在于引入了"Perceiver Resampler"模塊來壓縮視覺特征表示,使系統(tǒng)能夠有效處理包含文本和長視覺序列的混合輸入。
  • Google基于SigLIP的模型:雖然具體實現(xiàn)細(xì)節(jié)可能存在差異,但SigLIP的計算效率和魯棒性使其自然地適用于Google的多模態(tài)模型系列,如Gemini。SigLIP的成對sigmoid損失機(jī)制使這些模型能夠在超大規(guī)模數(shù)據(jù)集上進(jìn)行高效訓(xùn)練,提升了圖像引導(dǎo)對話和視覺內(nèi)容理解等任務(wù)的性能表現(xiàn)。

圖片

CLIP和SigLIP在MLLMs中的技術(shù)優(yōu)勢

CLIP和SigLIP為MLLMs提供了以下核心技術(shù)優(yōu)勢:

  • 預(yù)訓(xùn)練語義對齊:CLIP和SigLIP通過大規(guī)模預(yù)訓(xùn)練提供了已對齊的圖像-文本表示空間,為MLLMs提供了堅實的基礎(chǔ),減少了下游任務(wù)中對大量標(biāo)注數(shù)據(jù)的依賴。
  • 架構(gòu)兼容性:這些模型基于編碼器的設(shè)計原理使其能夠與各種大型語言模型架構(gòu)無縫集成,為研究人員提供了靈活的實驗環(huán)境。
  • 計算可擴(kuò)展性:特別是SigLIP的高效損失函數(shù)設(shè)計,對于需要處理海量多模態(tài)數(shù)據(jù)的MLLMs具有顯著價值,而CLIP的零樣本能力則增強(qiáng)了模型的任務(wù)適應(yīng)性。

挑戰(zhàn)和考慮因素

盡管具有諸多優(yōu)勢,將CLIP和SigLIP整合到MLLMs框架中仍面臨一系列技術(shù)挑戰(zhàn)。CLIP的固定維度嵌入空間可能限制模型進(jìn)行細(xì)粒度視覺推理的能力,通常需要額外的投影層或特定任務(wù)微調(diào)來克服這一局限。同樣,SigLIP雖然在可擴(kuò)展性方面表現(xiàn)出色,但在小規(guī)模訓(xùn)練設(shè)置中可能會犧牲CLIP所具備的部分零樣本泛化能力。此外,兩種模型都不可避免地繼承了來自互聯(lián)網(wǎng)抓取訓(xùn)練數(shù)據(jù)中存在的社會偏見,這些偏見可能會傳播到MLLM的輸出結(jié)果中,因此需要實施嚴(yán)謹(jǐn)?shù)脑u估方法和偏見緩解策略。

結(jié)論

CLIP和SigLIP代表了多模態(tài)人工智能研究的重要里程碑,使計算機(jī)系統(tǒng)能夠以前所未有的方式理解和關(guān)聯(lián)視覺與文本信息。CLIP開創(chuàng)的對比學(xué)習(xí)范式為零樣本視覺理解開辟了新途徑,而SigLIP的sigmoid損失機(jī)制則提供了計算效率和可擴(kuò)展性方面的重要改進(jìn)。這兩種模型共同強(qiáng)調(diào)了視覺-語言聯(lián)合建模的技術(shù)價值,為人工智能領(lǐng)域的未來創(chuàng)新奠定了理論和實踐基礎(chǔ)。對于研究人員和工程實踐者而言,這些模型為探索視覺與語言交互的深層機(jī)制提供了堅實的技術(shù)平臺,推動了多模態(tài)智能系統(tǒng)在各應(yīng)用領(lǐng)域的持續(xù)進(jìn)步。

CLIP和SigLIP的技術(shù)創(chuàng)新不僅拓展了多模態(tài)表示學(xué)習(xí)的理論邊界,還為不同數(shù)據(jù)模態(tài)間的語義融合提供了有效方法論。隨著這些基礎(chǔ)模型的持續(xù)演進(jìn),它們的應(yīng)用領(lǐng)域必將進(jìn)一步擴(kuò)大,在醫(yī)療診斷輔助、智能教育系統(tǒng)、交互式娛樂等眾多垂直領(lǐng)域釋放新的技術(shù)潛力。多模態(tài)人工智能的發(fā)展歷程方興未艾,CLIP和SigLIP所代表的技術(shù)突破僅是人類向構(gòu)建真正理解和交互世界的智能系統(tǒng)邁出的重要一步。

責(zé)任編輯:龐桂玉 來源: DeepHub IMBA
相關(guān)推薦

2024-03-08 10:50:44

Spring技術(shù)應(yīng)用程序

2009-06-26 16:01:39

EJB組織開發(fā)EJB容器EJB

2018-07-10 15:46:57

機(jī)器翻譯語言翻譯

2025-04-25 08:05:00

IP地址CIDRVLSM

2018-03-21 11:05:26

Spark大數(shù)據(jù)應(yīng)用程序

2020-01-15 10:29:29

區(qū)塊鏈架構(gòu)模型

2010-09-02 10:56:37

IOS軟件備份

2025-04-07 05:30:00

2009-09-03 21:05:31

2023-08-14 07:20:10

2022-05-07 14:31:46

物聯(lián)網(wǎng)

2020-05-14 18:04:20

Spring BootSaaS平臺

2019-08-16 10:16:45

2019-10-09 16:23:40

物聯(lián)網(wǎng)技術(shù)云計算

2024-10-10 08:26:30

2025-01-02 08:36:25

多模態(tài)RAG深度學(xué)習(xí)自然語言處理

2017-11-27 13:00:19

京東

2017-03-08 10:06:11

Java技術(shù)點注解

2023-06-14 08:49:22

PodKubernetes

2016-11-15 14:33:05

Flink大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號