自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模態(tài)編碼器 | EVA改進之EVA-02

人工智能
在預訓練過程中,作者選擇了使用一個具有10億參數(shù)的大型CLIP模型(EVA-CLIP)作為教師模型,以生成目標視覺特征。這一選擇基于一個假設:更大的教師模型能夠提供更魯棒和可遷移的目標表示,從而幫助學生模型(EVA-02)學習到更強的視覺表示。

來自智源曹越團隊在EVA的優(yōu)化改進方面的工作EVA-02,項目地址:https://github.com/baaivision/EVA

研究動機如下:在CV領(lǐng)域,訓練、調(diào)優(yōu)和評估非常大的視覺模型需要大量的計算資源,限制了許多研究人員和開發(fā)者的參與。因此,本研究主要目的是提供一種高效且性能強大的預訓練方法,不僅能夠在多種下游任務中展現(xiàn)出色的遷移學習能力,而且還能顯著減少參數(shù)數(shù)量和計算成本。

01、模型架構(gòu)

圖片

EVA-02的基礎(chǔ)是一個改進版的純Transformer架構(gòu),該架構(gòu)在原始ViT的基礎(chǔ)上進行了若干重要的修改,以更好地適應大規(guī)模預訓練任務的需求。這些修改包括norm,參數(shù)初始化,F(xiàn)FN,位置編碼方式,如下表所示:

  • 多頭自注意力(MHSA)層:使用MHSA層來捕獲圖像中的全局空間信息。然后相比于相對位置編碼(Relative Position Encoding, RP)引入了旋轉(zhuǎn)位置編碼(Rotary Position Embedding, RoPE),以增強模型對位置信息的理解。
  • 位置感知前饋網(wǎng)絡(FFN):引入了SwiGLU機制,替代傳統(tǒng)的GELU激活函數(shù),以增強模型的表達能力。
  • 歸一化方案:對于較大的EVA-02模型(如B和L),采用了sub-LN(子層歸一化)作為默認的歸一化方案,去掉了內(nèi)部注意力層的層歸一化(Layer Normalization, LN)。對于較小的模型(如Ti和S),則繼續(xù)使用標準的預歸一化配置。
  • 權(quán)重初始化:所有TrV(Transformer Vision)塊中的權(quán)重都使用Xavier正態(tài)分布初始化,其中MHSA和FFN的權(quán)重矩陣是從特定的標準差采樣的高斯分布中抽取的。

圖片

02、模型訓練

在預訓練過程中,作者選擇了使用一個具有10億參數(shù)的大型CLIP模型(EVA-CLIP)作為教師模型,以生成目標視覺特征。這一選擇基于一個假設:更大的教師模型能夠提供更魯棒和可遷移的目標表示,從而幫助學生模型(EVA-02)學習到更強的視覺表示。

預訓練數(shù)據(jù)

  • 小型模型(EVA-02-Ti, EVA-02-S, EVA-02-B):使用ImageNet-21K數(shù)據(jù)集進行預訓練,該數(shù)據(jù)集包含1420萬張圖像。
  • 大型模型(EVA-02-L):使用合并的數(shù)據(jù)集進行預訓練,該數(shù)據(jù)集包括ImageNet-21K、CC12M、CC3M、COCO、ADE20K、Object365和OpenImages,總共有3800萬張圖像。

預訓練過程

  1. 數(shù)據(jù)預處理:輸入圖像被劃分為固定大小的patch。隨機選擇40%的patch并用[MASK]標記替換,形成掩碼圖像。使用塊狀掩碼策略,即一次遮蓋多個相鄰的patch,以模擬自然界的遮擋情況。
  2. 目標表示:使用EVA-CLIP視覺編碼器提取目標視覺特征,目標特征經(jīng)過歸一化處理,并通過一個線性層投影到與EVA-02模型輸出相同的空間維度。
  3. 損失函數(shù):使用負余弦相似度作為損失函數(shù),衡量模型預測的特征與目標特征之間的相似度。損失函數(shù)定義為:圖片,其中,圖片是模型預測的特征,y是目標特征。

預訓練結(jié)果

大型教師模型(如EVA-CLIP)生成的目標表示更為復雜和精細。這使得學生模型在短時間內(nèi)難以完全理解和學習這些復雜的表示。因此,學生模型在快速預訓練過程中可能無法充分吸收教師模型的知識,導致性能下降。為了驗證這一假設,作者延長了預訓練的時間,將預訓練周期從300個epoch增加到1600個epoch。結(jié)果顯示,隨著預訓練時間的增加,學生模型的性能顯著提升,相對于使用小型教師模型的基線方法,取得了1.3個百分點的提升。另外結(jié)構(gòu)上的改進也會使得模型在較短的預訓練時間內(nèi)也能獲得一定的性能提升。

圖片

圖片

圖片

另外,通過調(diào)整模型大小、圖像分辨率以及通過中間微調(diào)注入標簽可以進一步提高性能,僅使用304M參數(shù)的EVA-02就可以在IN-1K上達到90.0的top-1精度。

圖片


03、實驗結(jié)果

相比于EVA,EVA-02的性能提升如下:

圖片

圖像分類

EVA-02在ImageNet-1K驗證集上取得了90.0%的微調(diào)Top-1準確率,顯著優(yōu)于其教師模型(1011M參數(shù))和其他現(xiàn)有方法。

圖片

圖片

圖片

對比圖像-文本預訓練(CLIP)

EVA-02-CLIP在ImageNet-1K上的零樣本Top-1準確率達到了80.4%,顯著優(yōu)于之前的最佳開源CLIP模型(參數(shù)量約為六分之一,訓練數(shù)據(jù)量也為六分之一)。

表9進一步證明了該方法在26個額外的zero-shot分類基準上的有效性和穩(wěn)健性。并且EVA-02 -CLIP-L模型,只有1/2的模型大小和1/5的圖像-文本對,比OpenCLIP-H實現(xiàn)了1.2點的提升。

圖片

圖片

11中表明EVA-02 -CLIP在zero-shot視頻識別基準測試中也相當有效。

圖片

圖片

目標檢測與實例分割

圖片

圖片

語義分割

圖片

04、總結(jié)

蒸餾方向的論文,基本都是為了讓一個小的student網(wǎng)絡在不損失太多性能的前提下,學習到大的teacher網(wǎng)絡的特征。

而在大模型時代,EVA探索了student網(wǎng)絡能達到的規(guī)模上限,并且在測試集上效果略微超過了teacher網(wǎng)絡。伴隨著EVA-01的成功,EVA-02做了更精細的調(diào)整,并且為了變得“可用”,參數(shù)量做了大量的縮減,而性能相比EVA-01有明顯的提升。

為什么EVA蒸餾后的網(wǎng)絡會比teacher網(wǎng)絡有更好的效果呢?個人感覺是CLIP確實足夠強大,而且EVA中student網(wǎng)絡的MIM訓練方式足夠的好。具體而言CLIP在4億的圖文對上做了預訓練,輸出的圖像特征和語言的特征做了對齊,是一種高維的語義信息,而VIT作為一個backbone,更利于提取到低維的結(jié)構(gòu)特征,并且MIM的方式迫使VIT學習遮擋不變的特征,最終的特征具有了很好的魯棒性。

責任編輯:龐桂玉 來源: 小白學AI算法
相關(guān)推薦

2025-04-07 05:30:00

2025-04-08 03:00:00

2025-04-07 04:30:00

2025-04-09 02:10:00

模態(tài)編碼器SigLIP多模態(tài)

2025-04-07 03:30:00

2025-04-10 06:30:00

2025-04-10 11:52:55

2025-04-08 04:20:00

2025-04-11 00:16:00

模態(tài)編碼器MAECLIP

2009-03-16 19:22:26

HPSSD虛擬化

2009-03-11 12:41:20

HP虛擬化存儲

2025-02-28 10:15:00

3D模型編碼器

2023-10-07 09:29:09

2021-03-22 10:52:13

人工智能深度學習自編碼器

2021-03-29 11:37:50

人工智能深度學習

2021-11-02 20:44:47

數(shù)字化

2010-03-01 15:55:00

Fedora Eva

2012-04-01 16:40:45

編碼器

2012-04-10 16:55:22

PowerSmart編碼器
點贊
收藏

51CTO技術(shù)棧公眾號