自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模態(tài)編碼器 | FLIP:通過圖像掩碼加速CLIP訓(xùn)練

人工智能
看完MAE,很自然的一個想法就是將MAE用到CLIP里的圖像編碼器上,F(xiàn)LIP實現(xiàn)了這個想法,通過在訓(xùn)練過程中對圖像進行隨機掩碼(masking),顯著提升了訓(xùn)練效率。

來聊聊Meta AI團隊(何愷明組)提出的一個高效的CLIP加速訓(xùn)練方法——FLIP??赐闙AE,很自然的一個想法就是將MAE用到CLIP里的圖像編碼器上,F(xiàn)LIP實現(xiàn)了這個想法,通過在訓(xùn)練過程中對圖像進行隨機掩碼(masking),顯著提升了訓(xùn)練效率。

動機也很簡單,CLIP訓(xùn)練成本高,耗費大量時間和資源,高效省時的訓(xùn)練方法則成為研究重點。

簡單看下FLIP結(jié)果,只需要mask掉部分圖像,就可以將CLIP的訓(xùn)練過程加速2~3倍,而且可以實現(xiàn)更好的性能:

圖片


01、方法介紹

圖片

與CLIP相比,F(xiàn)LIP最關(guān)鍵的改進就是借鑒了MAE(Masked Autoencoders)的思想,在訓(xùn)練過程中對圖像進行隨機mask。這意味著圖像編碼器(image encoder)只需要處理未被mask的部分圖像塊(patches)。具體實現(xiàn)上的差異:

  • 圖像編碼器(Image Encoder): FLIP的圖像編碼器與原始的ViT(Vision Transformer)架構(gòu)類似,但在patch embedding后沒有采用額外的LayerNorm,并且使用全局平均池化(global average pooling)來提取最終的全局特征,而CLIP則使用class token的特征。
  • 文本編碼器(Text Encoder): FLIP使用非自回歸的Transformer,而CLIP則使用自回歸的Transformer(帶有因果注意力掩碼)。此外,F(xiàn)LIP使用長度為32的WordPiece tokenizer,而CLIP使用長度為77的BytePairEncoding tokenizer。

對圖像進行掩碼處理,主要有以下幾個顯著的優(yōu)勢:

  1. 加速訓(xùn)練: 由于圖像編碼器只需要處理部分圖像塊,大大降低了計算量,從而在相同的訓(xùn)練時間內(nèi)可以處理更多的圖像-文本對,提高了訓(xùn)練效率。
  2. 節(jié)省顯存: 遮擋部分圖像可以顯著減少圖像編碼器的顯存占用(例如,遮擋50%的圖像,顯存消耗就降低50%)。這使得在有限的硬件資源下可以使用更大的batch size進行訓(xùn)練,而對比學(xué)習(xí)通常需要較大的batch size才能取得更好的效果。
  3. 可能的正則化效果: 雖然圖像掩碼會導(dǎo)致部分信息丟失,但這可能反而起到一種正則化的作用,有助于模型更好地泛化,避免過擬合。

02、實驗結(jié)果

與OpenCLIP對比

與OpenCLIP的對比結(jié)果清晰地展示了FLIP的效率提升。在訓(xùn)練相同epochs(32 epochs)的情況下:

  • 使用50%掩碼的FLIP可以將訓(xùn)練速度提升2倍,同時在ImageNet1K上的zero-shot準(zhǔn)確率提高0.9%。
  • 使用75%掩碼的FLIP可以將訓(xùn)練速度提升2.9倍,準(zhǔn)確率提高0.6%。

需要注意的是,如果不進行unmasking tuning(即在訓(xùn)練后期少量使用無掩碼圖像進行微調(diào)),F(xiàn)LIP的性能會有所下降,尤其是75%掩碼的情況,其性能甚至略遜于CLIP。這表明訓(xùn)練和測試過程中圖像分布的差異(distribution gap)仍然會對性能產(chǎn)生一定影響。

圖片

不同模型和數(shù)據(jù)集上的表現(xiàn)

論文基于ViT-L/16、ViT-B/16、ViT-L/14以及ViT-H/14等不同模型進行了實驗,并在ImageNet1K上進行了評估。結(jié)果表明,F(xiàn)LIP(50%掩碼)在zero-shot性能上優(yōu)于同樣基于LAION-400M數(shù)據(jù)集復(fù)現(xiàn)的CLIP以及開源的OpenCLIP(除了B/16模型),但略遜于OpenAI的CLIP。在linear probe和fine-tune實驗中也觀察到了類似的趨勢。這很可能歸因于預(yù)訓(xùn)練數(shù)據(jù)集的差異(WIT-400M vs LAION-400M)。

圖片

在其他圖像數(shù)據(jù)集上的對比結(jié)果也顯示,F(xiàn)LIP明顯優(yōu)于基于LAION-400M復(fù)現(xiàn)的CLIP和OpenCLIP,但在部分數(shù)據(jù)集上略遜于OpenAI的CLIP,這再次印證了預(yù)訓(xùn)練數(shù)據(jù)集的重要性。

論文還進一步在zero-shot圖像-文本檢索、zero-shot魯棒性、圖像描述(image captioning)以及視覺問答(visual question answering)等任務(wù)上進行了對比實驗。結(jié)果表明,F(xiàn)LIP在這些任務(wù)中均表現(xiàn)出良好的性能,僅在zero-shot魯棒性方面略遜于OpenAI的CLIP(這同樣可能是由于訓(xùn)練數(shù)據(jù)集的差異)。

圖片

消融實驗

為了深入理解FLIP中各個設(shè)計選擇的影響,論文進行了一系列消融實驗,這些實驗基于ViT-L/16模型在LAION-400M數(shù)據(jù)集上訓(xùn)練6.4個epochs。

圖片

  • (a) 不同掩碼比例(mask ratio): 實驗表明,隨著掩碼比例的增加,batch size增大,F(xiàn)LOPs和訓(xùn)練時長均下降。50%的掩碼比例在速度和性能之間取得了最佳平衡,而75%的掩碼比例則由于信息丟失過多而導(dǎo)致性能下降。
  • (b) Batch size的影響: 實驗證實,更大的batch size可以帶來更好的性能,這突顯了圖像掩碼帶來的額外優(yōu)勢。
  • (c) 文本掩碼(text masking): 實驗表明,對文本進行掩碼會導(dǎo)致性能下降。這可能是因為圖像信息通常是冗余的,而文本信息密度更高。此外,由于文本編碼器的計算量相對較小,因此文本掩碼并不是一個有效的優(yōu)化手段。
  • (d) 推理階段的掩碼: 實驗對比了在推理階段使用掩碼圖像和非掩碼圖像的性能差異。
  • (e) Unmasking tuning的影響: 正如前面提到的,由于訓(xùn)練和測試數(shù)據(jù)分布的差異,如果沒有unmasking tuning,模型性能會受到影響。
  • (f) 添加MAE的重建損失: 實驗表明,添加MAE的重建損失并不能帶來性能提升。

Scaling性能

由于FLIP顯著加速了CLIP的訓(xùn)練,論文還進行了大規(guī)模的scaling實驗,包括:

  • 模型Scaling(Model scaling): 使用ViT-H代替ViT-L,將模型參數(shù)增加了一倍。
  • 數(shù)據(jù)Scaling(Data scaling): 將預(yù)訓(xùn)練數(shù)據(jù)集從LAION-400M擴展到更大的LAION-2B數(shù)據(jù)集(固定訓(xùn)練過程中采樣的樣本總量)。
  • 訓(xùn)練計劃Scaling(Schedule scaling): 增加訓(xùn)練過程中采樣的樣本量(從12.8B到25.6B,即訓(xùn)練epochs從32增加到64)。

實驗結(jié)果表明:增大模型規(guī)??梢詭矸€(wěn)定的性能提升。使用更大的訓(xùn)練數(shù)據(jù)集在后期可以帶來額外的性能提升。僅增加采樣數(shù)據(jù)量(在相同的LAION-400M數(shù)據(jù)集上增加epochs)并不能顯著提升性能。


圖片

通過組合scaling實驗,特別是model+data scaling的組合,可以在各個任務(wù)上取得較好的性能。而model+data+schedule的聯(lián)合scaling在ImageNet1K數(shù)據(jù)集上取得了最高的zero-shot性能,達到78.1%,與目前OpenCLIP開源的最佳模型(同樣基于ViT-H和LAION-2B,采樣32B數(shù)據(jù)量,性能為78.0%)相當(dāng)。但得益于圖像掩碼,F(xiàn)LIP的訓(xùn)練速度比后者快2.5倍。

03、總結(jié)

FLIP增大模型尺寸繼續(xù)漲點;FLIP增大數(shù)據(jù)規(guī)模繼續(xù)漲點;FLIP增大訓(xùn)練時長幾乎沒什么漲點。

FLIP給出資源受限情況下的視覺語言訓(xùn)練新范式,也給出模型訓(xùn)練中數(shù)據(jù)規(guī)模和模式尺寸的通用Trick。摘要最后一句提到“We hope that our work will foster future research on scaling vision-language learning.”。預(yù)計會成vision-language learning的一個通用Trick,是對的MAE一次推廣。

責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-04-07 03:30:00

2025-04-07 05:30:00

2025-04-08 03:00:00

2025-04-10 06:30:00

2025-04-10 11:52:55

2025-04-08 04:20:00

2025-04-09 02:10:00

模態(tài)編碼器SigLIP多模態(tài)

2025-04-07 04:30:00

2025-04-11 02:00:00

模態(tài)編碼器ALIGN視覺語言模型

2025-04-07 06:30:00

2022-07-28 12:18:40

視覺語言模型

2025-02-28 10:15:00

3D模型編碼器

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2024-12-18 14:50:00

AI訓(xùn)練數(shù)據(jù)

2023-10-07 09:29:09

2021-02-20 20:57:16

深度學(xué)習(xí)編程人工智能

2021-03-22 10:52:13

人工智能深度學(xué)習(xí)自編碼器

2021-03-29 11:37:50

人工智能深度學(xué)習(xí)

2021-11-02 20:44:47

數(shù)字化

2023-01-03 13:06:38

模型訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號