自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CLIP視覺感知還能怎么卷?模型架構(gòu)改造與識別機制再升級

人工智能 智能汽車
為了進一步提升CLIP模型在處理復雜任務時的效能與精度,眾多研究團隊致力于對傳統(tǒng)的CLIP模型進行多維度、深層次的改進,旨在增強其特定領(lǐng)域的能力

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

近年來,隨著計算機視覺與自然語言處理技術(shù)的飛速發(fā)展,CLIP(Contrastive Language-Image Pre-training)模型作為一種強大的跨模態(tài)預訓練模型,其應用與研究領(lǐng)域不斷拓展。為了進一步提升CLIP模型在處理復雜任務時的效能與精度,眾多研究團隊致力于對傳統(tǒng)的CLIP模型進行多維度、深層次的改進,旨在增強其特定領(lǐng)域的能力,比如增強CLIP在少樣本分類任務上的泛化能力、細化CLIP的視覺識別區(qū)域、強化CLIP對圖像內(nèi)容的關(guān)注而非對圖像非內(nèi)容特征的關(guān)注、優(yōu)化圖像-文本跨模態(tài)對齊等能力。

在具體實施上,這些改進大多聚焦于CLIP的視覺編碼器和文本編碼器的改造。例如,通過對編碼器的注意力池化層進行參數(shù)微調(diào),可以使其更加適應特定任務的需求;引入多模態(tài)通道則可以增強模型在處理跨模態(tài)信息時的靈活性和魯棒性;改造最終回歸層則可以直接優(yōu)化模型的輸出性能;而改進輸入數(shù)據(jù)的方式,如為模型提供偽標簽或預先增強圖像、文本數(shù)據(jù),則可以從源頭上提升模型的學習效率和效果。這些改造包括但不限于以下幾個方面:

  • 編碼器改造:對CLIP的視覺和文本編碼器進行結(jié)構(gòu)調(diào)整或參數(shù)優(yōu)化,以提高特征提取的能力。
  • 注意力機制優(yōu)化:通過微調(diào)注意力池層的參數(shù)或引入新的注意力模式,增強CLIP對關(guān)鍵視覺信息的捕捉。
  • 多模態(tài)通道融合:在CLIP中引入多模態(tài)融合技術(shù),如使用交叉注意力機制,以加強圖像和文本之間的信息交流。
  • 回歸層調(diào)整:改造CLIP的最終回歸層,以更好地適應不同任務的需求,如分類、檢測或分割。
  • 輸入數(shù)據(jù)改進:為CLIP輸入經(jīng)過預處理或增強的數(shù)據(jù),提供偽標簽以指導學習,或通過數(shù)據(jù)增強提高模型的魯棒性。
  • 正則化技術(shù):應用各種正則化技術(shù),如Dropout、權(quán)重衰減等,以防止模型過擬合,并提高其泛化能力。
  • 損失函數(shù)設計:設計新穎的損失函數(shù),以更好地反映任務特性,促進模型在特定方向上的性能提升。

本文精心梳理了數(shù)篇前沿研究,這些研究聚焦于如何通過創(chuàng)新策略改進傳統(tǒng)的CLIP模型,以顯著增強其處理復雜任務的能力。從優(yōu)化少樣本分類的泛化性到細化視覺識別精度,再到深化圖像內(nèi)容與文本之間的跨模態(tài)對齊,每一篇都為我們揭示了CLIP模型潛力的新邊界。接下來就讓我們一起看看CLIP模型還能如何被進一步強化與拓展吧!

使用語義感知微調(diào)增強 Few-shot CLIP

https://arxiv.org/abs/2311.04464

關(guān)鍵詞:CLIP的視覺編碼器注意力池層參數(shù)微調(diào)

文章總結(jié)

文章提出了一種名為Semantic-Aware FinE-tuning (SAFE)的新方法,旨在通過微調(diào)CLIP模型的視覺編碼器中的特定部分來增強其在 Few-shot場景下的表現(xiàn)。文章首先指出,在少樣本(few-shot)微調(diào)過程中,直接采用預訓練的CLIP模型可能導致災難性遺忘和過擬合。此外,預訓練的參數(shù)可能并不完全適合所有下游任務。CLIP的視覺編碼器包含一個獨特的注意力池層,該層對密集特征圖執(zhí)行空間加權(quán)求和。由于密集特征圖中包含了豐富的語義信息,文章認為應該根據(jù)下游任務的具體需求來調(diào)整這些特征的權(quán)重。為了解決上述問題,文章提出了SAFE方法。這一方法在訓練過程中微調(diào)注意力池層的參數(shù),目的是讓模型能夠?qū)W⒂趯Ξ斍叭蝿崭鼮橹匾恼Z義特征。例如,在寵物分類任務中,模型應更多地關(guān)注耳朵和眼睛,而不是車輛分類任務中可能更關(guān)注的側(cè)鏡。在推理階段,SAFE采用了一種殘差混合技術(shù),結(jié)合了經(jīng)過微調(diào)的注意力池層和原始注意力池層的特征。這樣做可以整合來自少樣本的特定知識和預訓練模型的先驗知識。SAFE方法不僅獨立有效,還可以與現(xiàn)有的適配器方法(如SAFE-A)兼容,進一步提升CLIP在少樣本分類任務中的表現(xiàn)。文章通過在11個基準數(shù)據(jù)集上的廣泛實驗,證明了SAFE和SAFE-A方法在1-shot和4-shot設置下均顯著優(yōu)于現(xiàn)有最佳方法。

圖片

模型解析

該文章改進CLIP在少樣本分類任務上的泛化能力的關(guān)鍵在于微調(diào)了CLIP視覺編碼器中的注意力池層的參數(shù),使其更加適用于當前任務,并且整合了微調(diào)后的和原始注意力池層。傳統(tǒng)的CLIP模型的視覺編碼器主要包含以下幾類層:視覺特征提取層(包括卷積層、激活層、歸一化層、殘差連接)、注意力池層(這是CLIP特有的層,它使用多頭注意力機制來對密集特征圖進行空間加權(quán)求和,生成能夠捕捉圖像全局上下文信息的特征表示)、池化層(用于降低特征的空間維度,從而減少參數(shù)數(shù)量和計算量,同時使特征檢測更加魯棒)、全連接層(在卷積神經(jīng)網(wǎng)絡的末端,用于將學習到的特征映射到最終的輸出,例如類別概率)。文章對注意力池層進行的參數(shù)微調(diào)是基于CLIP在池化層之前的密集特征的有意義的語義屬性,從而促使模型根據(jù)特定的下游任務關(guān)注不同的語義信息。

具體來說,CLIP獨特的注意力池層利用了Transformer的多頭注意力機制。注意池層內(nèi)部的操作如下:通過線性層Linearq將全局平均特征F映射到query q,通過線性層Lineark和Linearv將每個空間位置的密集特征F映射到key-value對。然后,注意池層通過縮放后的點積注意(dot-product attention)得到輸入的密集特征的空間加權(quán)和,再輸入線性層Linearc。注意池層的輸出是整個圖像的綜合表示,可以捕獲密集特征映射中的關(guān)鍵語義,用于視覺識別。簡而言之,注意池化層對密集特征中的各種空間語義賦予不同的權(quán)重,通過加權(quán)和的方法將特征池化。

圖片

另外在推理過程中,文章將微調(diào)后的注意池層與原始注意池層進行殘差混合,將預訓練得到的先驗知識與Few-shot知識結(jié)合起來,從而避免了在少樣本任務上微調(diào)可能導致的災難性遺忘問題。

Alpha-CLIP:關(guān)注你想重點關(guān)注的部分,看這篇就夠了

https://arxiv.org/abs/2312.03818

關(guān)鍵詞:在CLIP輸入中引入新通道

文章總結(jié)

對比語言-圖像預訓練 (CLIP) 在從不同任務的圖像中提取有價值的內(nèi)容信息方面發(fā)揮著至關(guān)重要的作用。它對齊文本和視覺模式來理解整個圖像,包括所有細節(jié),甚至是那些與特定任務無關(guān)的細節(jié)。然而,為了更精細地理解和控制圖像的編輯,關(guān)注特定的感興趣區(qū)域變得至關(guān)重要,這些區(qū)域可以被人類或感知模型指示為點、蒙版或框。為了滿足這些要求,我們引入了 Alpha-CLIP,這是 CLIP 的增強版本,帶有輔助 Alpha 通道,用于建議關(guān)注區(qū)域,并通過構(gòu)建的數(shù)百萬個 RGBA 區(qū)域文本對進行微調(diào)。Alpha-CLIP不僅保留了CLIP的視覺識別能力,而且能夠精確控制圖像內(nèi)容的重點。它在各種任務中都表現(xiàn)出了有效性,包括但不限于開放世界識別、多模態(tài)大型語言模型和條件 2D/3D 生成。它具有很大的潛力,可以作為圖像相關(guān)任務的多功能工具。

圖片

模型解析

文章介紹了一個名為Alpha-CLIP的模型,它是Contrastive Language-Image Pre-training (CLIP)的一個增強版本,主要改進在于增加了一個輔助的Alpha通道,用于指示模型應該關(guān)注圖像中的特定區(qū)域。以下是對Alpha-CLIP模型架構(gòu)的總結(jié):

  • Alpha通道引入:Alpha-CLIP在傳統(tǒng)的RGB圖像通道基礎上增加了一個Alpha通道,該通道作為一個蒙版(mask),可以用來指定圖像中的感興趣區(qū)域(Region of Interest, RoI)。Alpha通道的值范圍從0(完全透明,表示背景)到1(完全不透明,表示前景)。
  • 數(shù)據(jù)生成管道:為了訓練Alpha-CLIP,研究者設計了一個數(shù)據(jù)生成管道,利用現(xiàn)有的圖像和標注數(shù)據(jù),結(jié)合Segment Anything Model (SAM) 和多模態(tài)大型模型(如BLIP-2)生成了數(shù)百萬個RGBA區(qū)域文本對。Alpha-CLIP通過這些RGBA區(qū)域文本對進行微調(diào)。在微調(diào)過程中,保持CLIP文本編碼器固定,只訓練圖像編碼器,特別是新引入的Alpha卷積層,以及隨后的Transformer塊。
  • Alpha-CLIP的圖像編碼器在結(jié)構(gòu)上進行了細微的修改,以接受額外的Alpha通道輸入。在Vision Transformer (ViT) 結(jié)構(gòu)中,Alpha通道通過一個與RGB卷積層平行的Alpha卷積層進行處理。在訓練Alpha-CLIP時,采用了特定的數(shù)據(jù)采樣策略,以偶爾用原始圖像-文本對替換生成的RGBA-文本對,并設置Alpha通道為全1,以保持對全圖的識別能力。

總結(jié)來說,Alpha-CLIP通過對CLIP模型的擴展,引入了Alpha通道來指定圖像中的關(guān)注區(qū)域,并通過大量RGBA區(qū)域文本對的微調(diào),實現(xiàn)了對圖像特定內(nèi)容的精確控制和強調(diào),同時保持了CLIP的原有視覺識別能力。

圖片

CLIP-VG:基于Self-paced課程學習,使CLIP實現(xiàn)視覺定位

https://arxiv.org/abs/2305.08685

關(guān)鍵詞:改造CLIP最終回歸層來實現(xiàn)視覺定位,self-paced式端到端優(yōu)化

文章總結(jié)

視覺定位 (VG, Visual Grounding) 是視覺和語言領(lǐng)域的一個關(guān)鍵主題,它將由文字表達描述的特定區(qū)域定位在圖像中。為了減少對手動標記數(shù)據(jù)的依賴,已經(jīng)開發(fā)了無監(jiān)督視覺定位技術(shù),以使用偽標簽來定位區(qū)域。然而,現(xiàn)有無監(jiān)督方法的性能高度依賴于偽標簽的質(zhì)量,這些方法總是遇到多樣性有限的問題。為了利用視覺和語言預訓練模型來解決視覺定位問題,并合理利用偽標簽,我們提出了CLIP-VG,這是一種新方法,可以對帶有偽語言標簽的CLIP進行self-paced課程學習。我們提出了一種簡單而高效的端到端網(wǎng)絡架構(gòu),以實現(xiàn)CLIP到視覺定位的遷移學習。基于CLIP架構(gòu),進一步提出單源和多源self-paced課程算法,該算法可以逐步找到更可靠的偽標簽來學習最優(yōu)模型,從而實現(xiàn)偽語言標簽的可靠性和多樣性之間的平衡。在單源和多源場景下,該方法在RefCOCO/+/g數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于目前最先進的無監(jiān)督方法,改進幅度為6.78%至 10.67%和 11.39%至 14.87%分別。其結(jié)果甚至優(yōu)于現(xiàn)有的弱監(jiān)督視覺定位方法。此外,我們的方法在完全監(jiān)督的環(huán)境中也具有競爭力。

圖片

模型解析

  • CLIP-VG采用了一個簡單而高效的純Transformer編碼器架構(gòu),該架構(gòu)只需要調(diào)整少量參數(shù),以最小的訓練資源實現(xiàn)CLIP模型向視覺定位任務的遷移。為了防止災難性遺忘,并保持CLIP的泛化能力,CLIP的編碼器參數(shù)在訓練過程中被凍結(jié),只有與Transformer相關(guān)的少量參數(shù)被更新和優(yōu)化。最后使用回歸多層感知器(MLP)作為最終的回歸層,用于預測文本描述所指的視覺區(qū)域的邊界框(bounding box)。
  • 單源偽標簽是通過利用空間關(guān)系先驗知識和由檢測器提供的物體標簽(包括類別和屬性信息)合成的。多源偽標簽是利用了基于場景圖生成的方法來生成偽關(guān)系標簽,或使用基于圖像描述的方法來生成偽字幕標簽。在多源情況下,模型首先獨立地為每個偽標簽源學習一個初步的特定源視覺定位模型,然后根據(jù)每步的平均實體數(shù)量選擇偽標簽源,逐步從簡單到復雜。在MSA中,提出了源特定可靠性(Source-specific Reliability, SR)和跨源可靠性(Cross-source Reliability, CR)的概念,以利用來自不同源的偽標簽進行學習。
  • 提出了單源(Single-source Self-paced Adapting, SSA)和多源(Multi-source Self-paced Adapting, MSA)self-paced課程學習算法。這些算法逐步找到更可靠的偽標簽,以提高定位性能。模型包括一個評估實例級質(zhì)量的方案,通過學習一個初步的視覺定位模型作為可靠性測量器,使用特定的標簽源來計算樣本的可靠性,并構(gòu)建可靠性直方圖(Reliability Histogram, RH)?;谛薷牡亩M制搜索,設計了一個貪婪樣本選擇策略,以實現(xiàn)可靠性和多樣性之間的最佳平衡

總的來說,CLIP-VG模型通過self-paced課程學習的方式,有效地利用偽語言標簽來提升視覺定位任務的性能,同時保持了模型的高效性和泛化能力。

圖片

RWKV-CLIP:強大的視覺語言表征學習

https://arxiv.org/abs/2406.06973

關(guān)鍵詞:優(yōu)化CLIP視覺、文本編碼器

文章總結(jié)

對比語言-圖像預訓練 (CLIP) 通過使用從網(wǎng)站獲得的圖像-文本對擴展數(shù)據(jù)集,顯著提高了各種視覺-語言任務的性能。本文從數(shù)據(jù)和模型架構(gòu)的角度進一步探討了CLIP。為了解決雜噪聲數(shù)據(jù)的普遍存在問題并提高從互聯(lián)網(wǎng)抓取的大規(guī)模圖像文本數(shù)據(jù)的質(zhì)量,我們引入了一個多樣化的描述生成框架,該框架可以利用大型語言模型 (LLM) 從基于 Web 的文本、合成標題和檢測標簽中合成和提煉內(nèi)容。此外,我們提出了RWKV-CLIP,這是第一個由RWKV驅(qū)動的視覺語言表征學習模型,它將transformer的有效并行訓練與RNN的高效推理相結(jié)合。在各種模型尺度和預訓練數(shù)據(jù)集上的綜合實驗表明,RWKV-CLIP是一個強大而高效的視覺語言表征學習,它在幾個下游任務中實現(xiàn)了最先進的性能,包括線性探針、 零樣本分類和零樣本圖像-文本檢索。

模型解析

RWKV-CLIP由多個空間混合(Spatial Mixing)和通道混合(Channel Mixing)模塊堆疊而成,通過這些模塊實現(xiàn)對輸入圖像和文本的深入處理,從而優(yōu)化視覺、文本特征的融合。

  • 優(yōu)化特征融合:在空間混合階段,模型利用注意力機制進行全局的線性復雜度計算,強化特征在通道層級的交互。輸入數(shù)據(jù)通過四個并行線性層進行處理,以獲得多頭部的向量。利用雙向偏移量增強特征在通道層級的交互,例如使用Q-Lerp和B-Lerp進行圖像和文本的線性插值。在空間混合之后,模型通過通道混合模塊進一步細化特征表示。

圖片

  • 模型采用了RWKV單元,這是一種新型的RNN單元,旨在解決Transformer中的內(nèi)存瓶頸和二次方計算復雜度問題。RWKV單元通過高效的線性擴展保持了并行訓練和魯棒可擴展性。

為了提高大規(guī)模網(wǎng)絡圖像-文本數(shù)據(jù)的質(zhì)量,引入多樣化描述生成框架,利用大型語言模型(LLMs)合成和優(yōu)化來自網(wǎng)絡文本、合成字幕和檢測標簽的內(nèi)容。RWKV-CLIP通過改進的編碼器架構(gòu),實現(xiàn)了圖像和文本之間的更優(yōu)跨模態(tài)對齊。模型通過優(yōu)化數(shù)據(jù)和模型架構(gòu),增強了對噪聲數(shù)據(jù)的魯棒性,尤其是在處理大規(guī)模網(wǎng)絡數(shù)據(jù)時。

圖片

CLAP:如何將內(nèi)容與風格隔離開?增強提示對比學習來幫你

https://arxiv.org/abs/2311.16445

關(guān)鍵詞:改進CLIP編碼器

文章總結(jié)

對比視覺語言模型(如CLIP)因其學習特征出色的泛化能力,在多種下游任務中獲得了廣泛關(guān)注。然而,這些模型學習的特征往往融合了內(nèi)容和風格信息,這在一定程度上限制了其在分布變化下的泛化能力。為了克服這一局限性,文章采用因果生成視角來處理多模態(tài)數(shù)據(jù),并提出結(jié)合數(shù)據(jù)增強的對比學習方法,以從原始表示中分離出內(nèi)容特征。為實現(xiàn)這一目標,文章首先探索了圖像增強技術(shù),并開發(fā)了一種方法將其無縫集成到預訓練的CLIP類模型中,以提取純粹的內(nèi)容特征。更進一步地,作者認識到文本數(shù)據(jù)固有的語義豐富性和邏輯結(jié)構(gòu),探索了文本增強的使用,以從風格特征中分離出潛在內(nèi)容。這使得CLIP類模型的編碼器能夠?qū)W⒂跐撛诘膬?nèi)容信息,并通過預訓練的CLIP類模型優(yōu)化學習到的表示。通過在多個數(shù)據(jù)集上進行了廣泛的實驗,結(jié)果表明,在零樣本和少樣本分類任務上取得了顯著改進,同時對各種擾動的魯棒性也得到了增強。這些結(jié)果凸顯了文章所提方法在優(yōu)化視覺語言表示和推動多模態(tài)學習領(lǐng)域最新進展方面的有效性。

模型解析

文章提出了一種名為CLAP(Contrastive Learning with Augmented Prompts)的新方法,旨在通過對比學習和數(shù)據(jù)增強來分離視覺-語言模型中的內(nèi)容和風格特征。

  • 文章采用了因果生成模型來理解多模態(tài)數(shù)據(jù)(圖像和文本)。在這個模型中,圖像和文本數(shù)據(jù)被認為是通過不同的生成過程由共享的潛在空間中的潛在變量產(chǎn)生的。這個空間被分為兩部分:一部分對應于內(nèi)容變量 c ,另一部分對應于風格變量 s 。內(nèi)容變量 c 被假設為決定樣本標簽 y 的因素。
  • 為了分離內(nèi)容和風格信息,文章探索了圖像增強技術(shù)。通過在潛在風格變量上應用軟干預(soft interventions),可以生成增強的圖像,其中內(nèi)容信息保持不變而風格信息發(fā)生變化。作者開發(fā)了一種方法將圖像增強技術(shù)集成到預訓練的CLIP模型中。這是通過設計一個解耦網(wǎng)絡(disentangled network)來實現(xiàn)的,該網(wǎng)絡使用對比損失(contrastive loss)和圖像增強來微調(diào)預訓練的CLIP模型,從而提取內(nèi)容特征。
  • 鑒于文本數(shù)據(jù)的語義豐富性和邏輯結(jié)構(gòu),文章進一步探索了文本增強。通過文本增強,可以在不改變內(nèi)容的情況下改變風格因素,這有助于分離出潛在的內(nèi)容。例如,將文本從“a photo of a dog”變換為“a sketch of a dog”在語言模態(tài)中是直接的,而在圖像數(shù)據(jù)中實現(xiàn)類似的變換則具有挑戰(zhàn)性。接著,文章提出了對比學習與增強提示CLAP方法,它使用預訓練的文本編碼器和文本增強來訓練解耦網(wǎng)絡。然后,將訓練好的解耦網(wǎng)絡轉(zhuǎn)移到CLIP模型的圖像編碼器上,以提取內(nèi)容表示。

總結(jié)來說,CLAP通過結(jié)合因果生成模型、圖像和文本增強技術(shù),以及對比學習,有效地從CLIP類模型中分離并提取了內(nèi)容特征,從而提高了模型在多模態(tài)學習中的性能和魯棒性。

圖片圖片

關(guān)注你的近鄰:免訓練的開放詞匯語義分割

https://arxiv.org/abs/2404.08181

關(guān)鍵詞:通過在CLIP的視覺Transformer的自注意力中強制執(zhí)行補丁定位實現(xiàn)密集預測

文章總結(jié)

盡管深度學習在密集視覺識別問題(如語義分割)上取得了顯著進展,但傳統(tǒng)方法仍受到固定類別集的限制。與此同時,諸如CLIP(對比語言-圖像預訓練)之類的視覺-語言基礎模型在眾多零樣本圖像級任務中展示了非凡的有效性,這得益于其強大的泛化能力。最近,一些研究工作探討了將這些模型應用于開放詞匯集語義分割(Open-Vocabulary Semantic Segmentation, OVSS)。然而,現(xiàn)有方法往往依賴于不切實際的監(jiān)督式預訓練或需要訪問額外的預訓練網(wǎng)絡。本研究為無需訓練的OVSS提出了一種強大的基線方法,稱為鄰域感知CLIP(Neighbour-Aware CLIP, NACLIP),這是一種針對此情景量身定制的CLIP簡單適配方法。本文的方法在CLIP的視覺Transformer的自注意力中強制執(zhí)行補丁定位,盡管這對于密集預測任務至關(guān)重要,但在OVSS文獻中卻被忽視了。通過融入有利于分割的設計選擇,我們的方法在不需要額外數(shù)據(jù)、輔助預訓練網(wǎng)絡或廣泛超參數(shù)調(diào)優(yōu)的情況下,顯著提高了性能,使其在現(xiàn)實世界應用中具有高度的實用性。我們在8個流行的語義分割基準上進行了實驗,并在大多數(shù)情況下取得了最先進的性能。

模型解析

  • 傳統(tǒng)CLIP模型在自注意力模塊中學習到的是空間不變性的特征,這對于圖像級別的任務(如分類)是有益的,但對于密集預測任務(如語義分割)則不夠。NACLIP通過引入空間一致性,改進了自注意力機制,使得模型能夠更好地捕捉局部空間信息。
  • NACLIP強制執(zhí)行補?。╬atch)在CLIP自注意力中的定位,這是通過修改自注意力模塊來實現(xiàn)的,具體如下:(1)引入空間一致性:通過將高斯核(Gaussian kernel)添加到自注意力模塊的注意力圖中,增強了對每個補丁鄰域的關(guān)注。(2)修改相似性度量:NACLIP使用基于鍵(key)向量的點積來計算相似度,而不是傳統(tǒng)的基于查詢(query)和鍵(key)的點積。
  • 在NACLIP中,移除了CLIP模型中的[CLS]標記,因為在密集預測任務中,該標記對于提取有用的分割信息并不成功。此外,NACLIP簡化了CLIP的視覺Transformer的最終編碼器塊,移除了最終編碼器塊的前饋網(wǎng)絡(feed-forward network),因為其參數(shù)是為圖像級別任務而非密集預測任務訓練的。

通過這些改進,NACLIP能夠更好地適應OVSS任務,特別是在沒有額外訓練數(shù)據(jù)或預訓練網(wǎng)絡的情況下,提高了模型對新類別的泛化能力。

圖片

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-08-14 09:40:00

模型架構(gòu)

2024-12-13 15:53:58

VLM小型視覺語言模型LLM

2023-12-13 13:04:55

CLIPRGB模型

2024-01-19 16:56:04

軟件測試

2024-03-08 09:46:53

2025-04-08 03:00:00

2021-11-03 09:48:08

智能自動駕駛汽車

2012-03-19 15:54:15

郵箱

2025-04-25 11:55:46

WebSSL視覺問答圖像模型

2024-04-01 13:18:15

App架構(gòu)服務端

2022-10-31 08:47:21

人臉識別按鍵鍵盤

2024-12-06 07:17:07

2009-07-05 22:03:50

FTTBFTTH光纖

2023-09-14 18:33:50

2023-05-06 10:02:37

深度學習算法

2023-09-08 11:55:19

雷達視覺

2023-03-14 09:40:33

自動駕駛

2018-05-31 11:23:23

2023-11-29 18:56:43

圖像搜索FAISS
點贊
收藏

51CTO技術(shù)棧公眾號