模態(tài)編碼器 | 最強CLIP模型EVA-CLIP-18B
來自智源王鑫龍團隊的工作,將EVA-CLIP模型參數(shù)擴展至18B,簡單看下結(jié)果,EVA-CLIP-18B性能遠超其他模型。
項目地址:https://github.com/baaivision/EVA
這篇工作的研究動機旨在解決當前多模態(tài)模型發(fā)展中的兩個關鍵問題。首先,隨著大型語言模型(LLMs)參數(shù)量的增長至千億級別,與其配套的視覺基礎模型卻未能同步擴展,這種不對等限制了多模態(tài)應用的整體效能。其次,現(xiàn)有的頂級CLIP模型雖然在特定任務中表現(xiàn)出色,但它們依賴難以獲取的大規(guī)模內(nèi)部數(shù)據(jù)集進行訓練,并且在零樣本學習等挑戰(zhàn)性任務上的表現(xiàn)還有待提高。
01、方法介紹
這篇論文最大的核心貢獻是提出了一種“弱到強”(weak-to-strong)的視覺模型縮放方法,通過逐步增大的模型規(guī)模來持續(xù)提升視覺模型的性能。這種方法的核心思想是從一個較小的初始模型開始,逐步訓練更大的模型,從而實現(xiàn)性能的穩(wěn)步提升。
簡單來說,從一個大的EVA視覺模型開始,它從一個小的EVA-CLIP模型中提取知識,然后這個小模型作為視覺編碼器初始化,以穩(wěn)定和加速更大EVA-CLIP模型的訓練。之后,閉環(huán)擴展循環(huán)繼續(xù)進行,從中提取出更大的EVA模型。在整個模型擴展周期中,訓練數(shù)據(jù)集保持相對固定,以展示特定于模型規(guī)模擴展的有效性。
- 初始模型的選擇
小模型作為教師:選擇了一個較小的EVA-CLIP模型(EVA-02-CLIP-E/14+)作為教師模型。這個小模型經(jīng)過預訓練,能夠生成高質(zhì)量的圖像-文本對齊特征。
大模型作為學生:使用一個較大的EVA模型(EVA-18B)作為學生模型,通過知識蒸餾(knowledge distillation)從教師模型中學習。 - 訓練過程
大模型(EVA-18B)通過重建小模型(EVA-02-CLIP-E/14+)生成的掩碼圖像-文本對齊特征來進行訓練。這種訓練方式有助于大模型學習到小模型中的關鍵特征,同時避免過擬合。小模型生成的特征用于初始化大模型的視覺編碼器,這有助于穩(wěn)定和加速大模型的訓練過程。
隨后,利用EVA模型作為EVA-CLIP預訓練的視覺編碼器初始化,使用圖像-文本對比學習目標訓練。 - 循環(huán)縮放
在訓練完一個較大規(guī)模的模型后,可以將其用作下一個更大模型的教師模型,繼續(xù)進行知識蒸餾。這一過程形成了一個閉環(huán)的縮放循環(huán),逐步提升模型的性能。 - 數(shù)據(jù)集
EVA-CLIP-18B基于公開可用的數(shù)據(jù)集LAION-2B和COYO-700M進行訓練,這些數(shù)據(jù)集的規(guī)模遠小于其他最先進CLIP模型所使用的內(nèi)部數(shù)據(jù)集(如DFN-5B和WebLI-10B)。
02、實驗結(jié)果
零樣本圖像分類
EVA-CLIP在所有27個零樣本圖像分類基準測試中表現(xiàn)出色。EVA-CLIP-18B在所有27個基準測試中平均達到了80.7%的top-1準確率。這些結(jié)果顯著優(yōu)于之前最佳的開源DFN5B-CLIP-H/14+(提高了+1.5%),以及現(xiàn)有的最大CLIP模型InternVL-C(提高了+2.7%)。
零樣本圖像-文本檢索
EVA-CLIP-18B在所有檢索基準測試中平均召回率為87.8%,顯著優(yōu)于其他模型
零樣本視頻分類
魯棒性
通過擴展EVA-CLIP顯著增強了視覺表示的魯棒性。EVA-CLIP在ImageNet變體(包括對抗性樣本)之間的性能下降最小
Linear Probing
ImageNet-1K上的線性探測(Linear Probing)是一種評估預訓練模型特征提取能力的方法。這個任務的目的是測試一個模型在沒有經(jīng)過特定任務微調(diào)(fine-tuning)的情況下,直接在一個新的數(shù)據(jù)集上的表現(xiàn)。
通過在相同的測試集上進行線性探測,可以比較不同預訓練模型的性能,了解哪個模型能更好地捕捉到對后續(xù)任務有用的特征。
3D表示
消融
視頻數(shù)據(jù):消融研究表明,將視頻數(shù)據(jù)納入訓練可以顯著提高模型在視頻分類任務上的性能,這表明視頻數(shù)據(jù)為模型提供了額外的信息,有助于改善其對動作和事件的理解。
圖像分辨率:提高圖像分辨率可以提升模型的零樣本性能,因為更高分辨率的圖像提供了更多的細節(jié)信息,有助于模型更好地學習和泛化。
03、總結(jié)
很有意思的一篇文章,雖然文章很短,但是從弱到強的視覺模型縮放思想,對模型進行漸進式擴展,這種方式不僅模型訓練穩(wěn)定并且性能也在持續(xù)提高,非常巧妙一個訓練方法。在大模型時代,可能非常值得實驗。