10億參數(shù)、多項(xiàng)SOTA,智源開(kāi)源視覺(jué)基礎(chǔ)模型EVA
- 論文地址:https://arxiv.org/abs/2211.07636
- 代碼地址:https://github.com/baaivision/EVA
作為一種視覺(jué)預(yù)訓(xùn)練方法,掩碼圖像建模(Masked Image Modeling,簡(jiǎn)稱(chēng) MIM)近期得到了蓬勃發(fā)展,自從 BEiT 開(kāi)始,一系列新方法諸如 SimMIM、MAE、MVP 等被陸續(xù)設(shè)計(jì)出,這個(gè)領(lǐng)域也受到了很大關(guān)注。然而,在十億參數(shù)量級(jí)別的視覺(jué)預(yù)訓(xùn)練模型中,最具競(jìng)爭(zhēng)力的模型例如 ViT-g、SwinV2、CoCa 等仍然嚴(yán)重依賴(lài)有監(jiān)督或弱監(jiān)督訓(xùn)練,以及不可公開(kāi)訪(fǎng)問(wèn)的數(shù)億級(jí)有標(biāo)簽數(shù)據(jù)。
理想的視覺(jué)預(yù)訓(xùn)練應(yīng)當(dāng)只需簡(jiǎn)單的操作:譬如抓好語(yǔ)義學(xué)習(xí)和幾何結(jié)構(gòu)學(xué)習(xí)這兩個(gè)關(guān)鍵點(diǎn),基本可以搞定絕大部分的視覺(jué)任務(wù)。
智源曹越團(tuán)隊(duì)最新開(kāi)源的視覺(jué)預(yù)訓(xùn)練模型 EVA,將最強(qiáng)語(yǔ)義學(xué)習(xí)(CLIP)與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)(MIM)結(jié)合,僅需使用標(biāo)準(zhǔn)的 ViT 模型,并將其規(guī)模擴(kuò)大到十億參數(shù)(1-Billion)進(jìn)行訓(xùn)練,即可得到當(dāng)前最強(qiáng)大的十億級(jí)視覺(jué)基礎(chǔ)模型 EVA。
具體而言,EVA 的訓(xùn)練方法與 MVP、MILLAN 類(lèi)似,即通過(guò)重構(gòu) CLIP 特征來(lái)進(jìn)行掩碼圖像建模(masked image modeling)。如下圖所示,CLIP 模型輸入為完整的圖像,而 EVA 模型的輸入為有遮蓋的圖像,訓(xùn)練過(guò)程是讓 EVA 模型遮蓋部分的輸出去重構(gòu) CLIP 模型對(duì)應(yīng)位置的輸出,從而以簡(jiǎn)單高效的方式讓 EVA 模型同時(shí)擁有了最強(qiáng)語(yǔ)義學(xué)習(xí) CLIP 的能力和最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí) MIM 的能力。不同于之前的方法,EVA 證明了這種訓(xùn)練方式可以幫助模型將參數(shù)擴(kuò)展到十億量級(jí),并且在這個(gè)參數(shù)量級(jí)下在廣泛下游任務(wù)中取得出色的性能。
總結(jié)而言,EVA 具有以下特點(diǎn):
1. 高效
EVA 僅使用開(kāi)源的純圖像數(shù)據(jù)即可進(jìn)行掩碼預(yù)測(cè)任務(wù),不需要預(yù)訓(xùn)練階段重新學(xué)習(xí)語(yǔ)義以及不需要巨量的成對(duì)有標(biāo)注數(shù)據(jù)。相比而言,主流標(biāo)桿性模型(ViT-g、SwinV2、CoCa 等)仍依賴(lài)于冗長(zhǎng)的有監(jiān)督或弱監(jiān)督訓(xùn)練,以及不可公開(kāi)訪(fǎng)問(wèn)的數(shù)億級(jí)有標(biāo)簽數(shù)據(jù)。
2. 簡(jiǎn)單
EVA 無(wú)需特殊設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。使用簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)—標(biāo)準(zhǔn)的 ViT-g,而無(wú)需額外特殊設(shè)計(jì)的算子,使得其非常容易的遷移到廣泛的下游任務(wù),并且可以和其他模態(tài)共享。
實(shí)驗(yàn)
目前,EVA 在主流任務(wù)評(píng)測(cè)中的表現(xiàn)都可圈可點(diǎn):
1. 多項(xiàng)重要視覺(jué)感知任務(wù)取得 state-of-the-art 性能
ImageNet 圖像分類(lèi)中取得 89.7% 的 top-1 準(zhǔn)確率;Kinetics-700 視頻動(dòng)作識(shí)別取得 82.9% 的 top-1 準(zhǔn)確率;COCO 目標(biāo)檢測(cè)取得 64.7 mAP、實(shí)例分割取得 55.5 mAP;LVIS 的實(shí)例分割取得 55.0 mAP;語(yǔ)義分割的 COCO-stuff 取得 53.4 mIoU、ADE-20K 取得 62.3 mIoU。
2. 參數(shù)量變引發(fā)性能質(zhì)變:在 LVIS 上性能極強(qiáng);可以穩(wěn)定并加速 CLIP 訓(xùn)練,產(chǎn)生當(dāng)前最強(qiáng)的開(kāi)源 CLIP 模型。
首先,在 LVIS(超過(guò)一千類(lèi))實(shí)例分割任務(wù)上表現(xiàn)和 COCO(80 類(lèi))相仿,比之前的 SOTA 方法 MAE 高出 5.8 個(gè)點(diǎn);第二,使用 EVA 作為 CLIP 訓(xùn)練的初始化,其性能遠(yuǎn)超隨機(jī)初始化的 CLIP 訓(xùn)練,如下圖所示,在十億參數(shù)量級(jí)下,和 Open CLIP 官方使用完全一樣的訓(xùn)練方式下,在幾乎所有的零樣本基準(zhǔn)下均有顯著的性能提升,除此之外,EVA 可以極大地穩(wěn)定巨型 CLIP 的訓(xùn)練和優(yōu)化過(guò)程,訓(xùn)練過(guò)程僅需使用 FP16 混合精度,綜合來(lái)看,EVA 幫助訓(xùn)練得到當(dāng)前最強(qiáng)且最大的開(kāi)源 CLIP 模型,已經(jīng)有團(tuán)隊(duì)在嘗試使用其幫助 AIGC 模型的生成質(zhì)量。
圈重點(diǎn):EVA 全家桶開(kāi)源!
十億參數(shù)的預(yù)訓(xùn)練模型,下游 ImageNet 圖像分類(lèi)、Kinetics 視頻動(dòng)作識(shí)別、COCO 和 LVIS 目標(biāo)檢測(cè)和分割、ADE20K 語(yǔ)義分割、以及最強(qiáng) CLIP 模型,全部開(kāi)源!
歡迎感興趣的小伙伴前去使用!