模態(tài)編碼器 | EVA探索掩碼視覺表征學(xué)習(xí)的極限
今天來看一篇經(jīng)典的視覺表征學(xué)習(xí)的方法EVA,來自智源研究院發(fā)表在2023年CVPR的一篇工作。
項目地址:https://github.com/baaivision/EVA
研究動機(jī):自然語言處理(NLP)領(lǐng)域通過擴(kuò)展預(yù)訓(xùn)練語言模型(PLMs)取得了革命性的成功,作者希望將這種成功從語言領(lǐng)域轉(zhuǎn)移到視覺領(lǐng)域,即擴(kuò)展一個視覺中心的基礎(chǔ)模型,以便于視覺和多模態(tài)下游任務(wù)。
另外,視覺模型預(yù)訓(xùn)練和擴(kuò)展的方法主要依賴于監(jiān)督或弱監(jiān)督訓(xùn)練,需要數(shù)百萬個(通常是不可公開訪問的)標(biāo)注數(shù)據(jù)。作者指出,自然圖像是原始且信息稀疏的,理想的視覺預(yù)訓(xùn)練任務(wù)需要抽象出低級幾何結(jié)構(gòu)信息和高級語義信息,而像素級恢復(fù)任務(wù)很難捕獲這些信息。因此提出EVA。
CLIP 模型輸入為完整的圖像,而 EVA 模型的輸入為有遮蓋的圖像,訓(xùn)練過程是讓 EVA 模型掩碼部分的輸出去重構(gòu) CLIP 模型對應(yīng)位置的輸出,從而以簡單高效的方式讓 EVA 模型同時擁有了最強(qiáng)語義學(xué)習(xí) CLIP 的能力和最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí) MIM 的能力。
01、MIM任務(wù)
為了找到一個合適的MIM預(yù)訓(xùn)練任務(wù),本文對比了兩種方法:
(i) 恢復(fù)被掩蓋的標(biāo)記化語義視覺特征,(ii) 從強(qiáng)大的預(yù)訓(xùn)練表示中進(jìn)行特征蒸餾。這兩種方法都利用了預(yù)訓(xùn)練的圖像-文本對齊視覺特征,即CLIP視覺特征。
EVA分別驗證了MIM中的tokenize和Feature Distillation中的蒸餾方式都不是必要的。不用toeknize和蒸餾的效果對比如下圖所示,圖a和b中第一行都是clip作為teacher模型在下游任務(wù)上fintune的效果,最后一行都是EVA模型的效果。區(qū)別在于圖a的二三行使用了tokenize的方式訓(xùn)練了300和1600epoch,但效果都不如沒有使用tokenize訓(xùn)練800epoch的EVA,證明了tokenize的方式并不必要;圖b中二三行使用Feature Distillation的蒸餾方式訓(xùn)練了300和800epoch,驗證了蒸餾時間變長,并沒有帶來更大的收益,并且也不如同樣訓(xùn)練800epoch的EVA,證明了Feature Distillation的蒸餾方式不是必要的。
最后得出結(jié)論:
- 選擇MIM任務(wù):選擇了直接回歸被掩碼的CLIP視覺特征作為MIM預(yù)訓(xùn)練任務(wù),因為它能夠同時從圖像-文本對比學(xué)習(xí)的高級語義抽象和掩碼圖像建模中的幾何與結(jié)構(gòu)的良好捕捉中受益。
- 預(yù)訓(xùn)練任務(wù)的優(yōu)勢:這種預(yù)訓(xùn)練任務(wù)能夠覆蓋大多數(shù)視覺感知任務(wù)所需的信息,并且在大規(guī)模參數(shù)和未標(biāo)記數(shù)據(jù)上具有良好的擴(kuò)展性。
02、模型訓(xùn)練
架構(gòu)配置(Architecture):EVA是基于Vision Transformer(ViT)的模型,具有10億參數(shù)。其架構(gòu)設(shè)計參考了ViT巨型模型和BEiT-3的視覺編碼器。在預(yù)訓(xùn)練階段,EVA沒有使用相對位置嵌入和層縮放技術(shù)。
預(yù)訓(xùn)練目標(biāo)(Pre-training Objective)
- 掩碼圖像建模(MIM):EVA通過預(yù)測被掩蓋的圖像-文本對齊的視覺特征來進(jìn)行預(yù)訓(xùn)練,這些特征是基于可見圖像塊的條件。這種方法結(jié)合了圖像-文本對比學(xué)習(xí)的高級語義抽象和掩碼圖像建模中的幾何結(jié)構(gòu)信息。
- 輸入掩碼:輸入圖像塊被[MASK]標(biāo)記覆蓋,采用塊級掩碼,掩碼比率為40%。
- 目標(biāo)特征:在EVA模型的預(yù)訓(xùn)練中,這些從OpenAI CLIP-L/14模型提取的特征被用作目標(biāo)特征。EVA模型通過預(yù)測被掩蓋(masked out)的圖像部分對應(yīng)的CLIP特征來進(jìn)行訓(xùn)練。這意味著EVA模型的輸入包括可見的圖像塊和被掩蓋的圖像塊,而它的目標(biāo)是預(yù)測那些被掩蓋塊的CLIP特征。
- 特征處理:EVA的輸出特征首先被標(biāo)準(zhǔn)化,然后通過一個線性層投影到與CLIP特征相同的維度。使用負(fù)余弦相似度作為損失函數(shù)。
預(yù)訓(xùn)練數(shù)據(jù)(Pre-training Data):預(yù)訓(xùn)練EVA使用的數(shù)據(jù)集包括ImageNet-21K、CC12M、CC3M、Object365、COCO和ADE,總共約有2960萬張圖像的。
網(wǎng)絡(luò)的整體架構(gòu)比較簡單,確實相對于MIM是非常簡潔的結(jié)構(gòu):
- 輸入: 一張圖像,經(jīng)過兩次增廣,分別作為teacher和student的輸入
- tracher: 一個訓(xùn)練好的網(wǎng)絡(luò),可以是CLIP或者DINO
- student: 隨機(jī)初始化的VIT模型或者swin transformer
- loss: 訓(xùn)練目標(biāo)是讓計算teacher網(wǎng)絡(luò)輸出的特征和strudent網(wǎng)絡(luò)經(jīng)過projector head后的特征的L1 loss。期望讓student網(wǎng)絡(luò)的特征和teacher網(wǎng)絡(luò)的特征相似
論文的整體思路很簡單,當(dāng)然里面也有很多消融實驗讓蒸餾的效果盡可能好。例如和對比學(xué)習(xí)的方法中一樣,student模型的輸出增加了projector head;為了更好的對比不同teacher模型指導(dǎo)蒸餾的差異,將teacher輸出的特征做了whitening處理將所有teacher模型的特征歸一化到同一量級;VIT中采用相對位置編碼,而不是原始的絕對位置編碼。
03、實驗結(jié)果
圖像分類
圖像分類上的結(jié)果如上圖所示,最上面三行灰色的部分,模型參數(shù)量都在10億以上,效果也是最好的,但使用了大量私有的數(shù)據(jù)集做訓(xùn)練。下面的結(jié)果除了BEIT外基本都在14M的IN-21K數(shù)據(jù)集上訓(xùn)練,但EVA在相同數(shù)據(jù)規(guī)模的情況下,參數(shù)量是最大的,且效果也是最好的。
不同數(shù)據(jù)集上的魯棒性
視頻動作識別
目標(biāo)檢測和實例分割
語義分割
對比語言-圖像預(yù)訓(xùn)練
實驗設(shè)置:使用預(yù)訓(xùn)練的EVA模型作為視覺編碼器,并初始化一個語言編碼器,例如OpenAI CLIP-L模型。采用對比學(xué)習(xí)來訓(xùn)練模型,使用大量的圖像-文本對來提供正負(fù)樣本。
通過對比語言-圖像預(yù)訓(xùn)練,EVA模型在零樣本分類任務(wù)上表現(xiàn)出色,這表明模型能夠捕捉到豐富的視覺和語言特征,并有效地將它們關(guān)聯(lián)起來。這種方法增強(qiáng)了EVA模型的多模態(tài)能力,使其不僅在純視覺任務(wù)上表現(xiàn)出色,而且在涉及語言和視覺結(jié)合的任務(wù)上也具有強(qiáng)大的性能。
EVA-CLIP性能
EVA-CLIP模型在所有三個評估指標(biāo)上都超過了之前的最佳模型,表明EVA-CLIP模型在自監(jiān)督學(xué)習(xí)(SSL)領(lǐng)域具有顯著的性能優(yōu)勢,特別是在微調(diào)和線性探測設(shè)置中,EVA-CLIP模型展現(xiàn)了其強(qiáng)大的遷移學(xué)習(xí)能力和適應(yīng)性。
04、總結(jié)
很有意思的一篇文章,最近也了解了部分蒸餾學(xué)習(xí)的內(nèi)容。蒸餾方向的論文,基本都是為了讓一個小的student網(wǎng)絡(luò)在不損失太多性能的前提下,學(xué)習(xí)到大的teacher網(wǎng)絡(luò)的特征。 而在大模型時代,EVA探索了student網(wǎng)絡(luò)能達(dá)到的規(guī)模上限,并且在測試集上效果略微超過了teacher網(wǎng)絡(luò)。 為什么EVA蒸餾后的網(wǎng)絡(luò)會比teacher網(wǎng)絡(luò)有更好的效果呢?個人感覺是CLIP確實足夠強(qiáng)大,而且EVA中student網(wǎng)絡(luò)的MIM訓(xùn)練方式足夠的好。具體而言CLIP在4億的圖文對上做了預(yù)訓(xùn)練,輸出的圖像特征和語言的特征做了對齊,是一種高維的語義信息,而VIT作為一個backbone,更利于提取到低維的結(jié)構(gòu)特征,并且MIM的方式迫使VIT學(xué)習(xí)遮擋不變的特征,最終的特征具有了很好的魯棒性。
對于EVA和EVA-CLIP,
- EVA:主要是一個視覺表示學(xué)習(xí)模型,專注于通過掩碼圖像建模(MIM)任務(wù)來學(xué)習(xí)強(qiáng)大的視覺特征。EVA的目標(biāo)是生成能夠有效捕捉圖像內(nèi)容的視覺表示,通過MIM任務(wù)學(xué)習(xí)到的視覺特征可以用于各種下游視覺任務(wù),如圖像分類、目標(biāo)檢測和語義分割。
- EVA-CLIP:是一個視覺-語言模型,旨在通過聯(lián)合訓(xùn)練圖像和文本數(shù)據(jù)來學(xué)習(xí)圖像和文本之間的對齊關(guān)系。EVA-CLIP不僅學(xué)習(xí)圖像特征,還學(xué)習(xí)這些特征與相應(yīng)文本描述之間的關(guān)聯(lián),從而支持跨模態(tài)任務(wù),如零樣本圖像分類、圖像-文本檢索以及支撐多模態(tài)任務(wù)。