模態(tài)編碼器 | CLIP技術(shù)改進(jìn)之EVA-CLIP
上一篇看了EVA,趁熱打鐵,今天來(lái)看EVA-CLIP,同樣是智源曹越團(tuán)隊(duì)的工作,主要研究主題是結(jié)合EVA改進(jìn)CLIP。
研究動(dòng)機(jī):訓(xùn)練CLIP模型面臨計(jì)算成本高和訓(xùn)練不穩(wěn)定等挑戰(zhàn),尤其是在擴(kuò)大模型規(guī)模時(shí)。因此,這項(xiàng)工作的研究動(dòng)機(jī)是提供一種高效且有效的解決方案,以促進(jìn)更大規(guī)模CLIP模型的訓(xùn)練和發(fā)展。
01、方法介紹
簡(jiǎn)單介紹下EVA-CLIP與CLIP相比做了哪些改進(jìn):
- 初始化:為了改善特征表示并加速CLIP模型的收斂,采用預(yù)訓(xùn)練的EVA模型來(lái)初始化EVA-CLIP的圖像編碼器。具體來(lái)說(shuō),預(yù)訓(xùn)練的EVA模型已經(jīng)在大規(guī)模圖像數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,能夠提供高質(zhì)量的視覺(jué)特征表示。通過(guò)使用這些預(yù)訓(xùn)練的權(quán)重來(lái)初始化CLIP模型的圖像編碼器,可以顯著提高模型的初始性能,并加快訓(xùn)練過(guò)程。
- 優(yōu)化器:訓(xùn)練大規(guī)模CLIP模型通常需要非常大的批量大小,這會(huì)帶來(lái)高昂的計(jì)算成本和訓(xùn)練不穩(wěn)定的問(wèn)題。為此選擇使用LAMB(Layer-wise Adaptive Moments optimizer for Batch training)優(yōu)化器進(jìn)行EVA-CLIP模型的訓(xùn)練。LAMB優(yōu)化器專(zhuān)為大批量訓(xùn)練設(shè)計(jì),其自適應(yīng)的元素級(jí)更新和層級(jí)學(xué)習(xí)率提高了訓(xùn)練效率并加速了收斂速度。
- 掩碼策略:利用隨機(jī)掩碼策略FLIP技術(shù)提高訓(xùn)練CLIP模型的時(shí)間效率。具體來(lái)說(shuō),在訓(xùn)練期間隨機(jī)掩碼50%的圖像標(biāo)記,顯著降低了時(shí)間復(fù)雜度,同時(shí)允許在不增加額外內(nèi)存成本的情況下將批量大小增加2倍。
- 內(nèi)存和訓(xùn)練加速:使用DeepSpeed優(yōu)化庫(kù)、ZeRO階段1優(yōu)化器、梯度檢查點(diǎn)和Flash Attention技術(shù)來(lái)節(jié)省內(nèi)存并加速訓(xùn)練過(guò)程。
訓(xùn)練數(shù)據(jù)集
為了訓(xùn)練EVA-CLIP模型,構(gòu)建了一個(gè)名為Merged-2B的數(shù)據(jù)集,該數(shù)據(jù)集由以下部分組成:
- LAION-2B數(shù)據(jù)集:包含16億個(gè)樣本,這些樣本來(lái)自互聯(lián)網(wǎng)上的大量圖像和文本對(duì)。
- COYO-700M數(shù)據(jù)集:包含4億個(gè)樣本,這些樣本經(jīng)過(guò)清洗和過(guò)濾,質(zhì)量較高。
通過(guò)合并這兩個(gè)數(shù)據(jù)集,得到了一個(gè)包含20億樣本的大型訓(xùn)練數(shù)據(jù)集,這為模型提供了豐富的訓(xùn)練材料。
02、實(shí)驗(yàn)結(jié)果
系統(tǒng)級(jí)比較
表1展示了EVA-CLIP在ImageNet變體和ObjectNet上的零樣本top-1準(zhǔn)確率。EVA-02-CLIP-E/14+在所有6個(gè)基準(zhǔn)測(cè)試中平均準(zhǔn)確率達(dá)到80.9%,性能下降最?。ㄅcImageNet-1K top-1準(zhǔn)確率的差距僅為1.1%)
表2進(jìn)一步展示了EVA-CLIP在27個(gè)零樣本圖像分類(lèi)基準(zhǔn)上的效果。EVA-02-CLIP-E/14+在所有27個(gè)基準(zhǔn)上平均準(zhǔn)確率達(dá)到77.5%。
表3顯示了EVA-CLIP在UCF-101和Kinetics-400、600、700視頻識(shí)別基準(zhǔn)上的效果。EVA-CLIP在這些基準(zhǔn)上也表現(xiàn)出色
表4報(bào)告了EVA-CLIP在Flickr30K和COCO數(shù)據(jù)集上的零樣本圖像和文本檢索結(jié)果。EVA-CLIP在基礎(chǔ)和大型模型尺寸上均優(yōu)于競(jìng)爭(zhēng)對(duì)手
消融實(shí)驗(yàn)
表5展示了EVA-CLIP設(shè)計(jì)的消融研究,包括EVA初始化、LAMB優(yōu)化器和50%圖像標(biāo)記掩碼的效果
表6展示了實(shí)現(xiàn)EVA-CLIP所需的內(nèi)存和時(shí)間成本。結(jié)果顯示,掩碼50%的圖像標(biāo)記可以加速訓(xùn)練時(shí)間2倍,使用Flash Attention可以減少額外15%的訓(xùn)練時(shí)間
03、總結(jié)
實(shí)驗(yàn)部分展示了EVA-CLIP在多個(gè)基準(zhǔn)測(cè)試中的卓越性能,并通過(guò)消融研究驗(yàn)證了其設(shè)計(jì)的有效性。EVA-CLIP不僅在性能上取得了優(yōu)異的結(jié)果,還在訓(xùn)練效率和資源利用上展現(xiàn)了顯著的優(yōu)勢(shì)。這些實(shí)驗(yàn)結(jié)果進(jìn)一步證明了EVA-CLIP方法在大規(guī)模CLIP訓(xùn)練中的可行性和優(yōu)越性。
CLIP是開(kāi)創(chuàng)性的工作,奠定了基礎(chǔ),EVA-CLIP通過(guò)改進(jìn)架構(gòu)和訓(xùn)練策略提升了性能,在當(dāng)前多模態(tài)大模型中,也常被用來(lái)作為視覺(jué)編碼器,對(duì)跨模態(tài)的發(fā)展有較大意義。