多階段對比學(xué)習(xí)+多專家CLIP實(shí)現(xiàn)細(xì)粒度多模態(tài)表征學(xué)習(xí)
今天給大家介紹一篇港中文、上海AI Lab等機(jī)構(gòu)聯(lián)合發(fā)表的CLIP優(yōu)化工作,構(gòu)建了基于多專家網(wǎng)絡(luò)的MoE模型,實(shí)現(xiàn)更細(xì)粒度的視覺表征器訓(xùn)練,提升下游多模態(tài)大模型
論文標(biāo)題:CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING
下載地址:??https://arxiv.org/pdf/2409.19291v2??
1.背景
基于CLIP的圖文對比學(xué)習(xí)預(yù)訓(xùn)練是構(gòu)建多模態(tài)大模型的一個核心基礎(chǔ)模塊。通過圖片和文本的對比學(xué)習(xí)過程,訓(xùn)練圖片和文本的Encoder,能夠?qū)R圖片和文本這兩個模態(tài)的表征。
然而,很多工作都發(fā)現(xiàn),CLIP訓(xùn)練的Encoder,提取的更多是粗粒度的圖像信息,例如CLIP的表征會存在語義不同、內(nèi)容相似的圖像被分到同一個類別中。這種比較弱的視覺Encoder會影響下游任務(wù)的效果。
為了解決上述問題,本文構(gòu)建了一種基于多專家網(wǎng)絡(luò)的CLIP模型,不同專家從不同維度提取視覺表征,提升視覺編碼器能力。并且整個過程只需要基于已有的checkpoint進(jìn)行finetune,不用從0訓(xùn)練CLIP模型。
2.建模方法
CLIP-MoE的核心建模方法可以分成3個部分:多階段對比學(xué)習(xí)、多專家網(wǎng)絡(luò)、訓(xùn)練方式。
多階段對比學(xué)習(xí)是港中文在Avoiding feature suppression in contrastive learning: Learning what has not been learned before中提出的CLIP訓(xùn)練方法。進(jìn)行多輪的CLIP訓(xùn)練,每輪訓(xùn)練后,根據(jù)表征進(jìn)行聚類,下一輪的對比學(xué)習(xí)在每個聚類類簇內(nèi)進(jìn)行訓(xùn)練。通過多輪訓(xùn)練,得到一系列的CLIP模型。這種建模方法可以理解為,比如最開始對比學(xué)習(xí)學(xué)到了根據(jù)顏色進(jìn)行表征對齊,在聚類后,顏色相同的聚類到了一起,第二階段就可以學(xué)到顏色以外的其他信息進(jìn)行表征區(qū)分。通過這種方式實(shí)現(xiàn)不同維度的表征學(xué)習(xí)。
本文也利用多階段對比學(xué)習(xí)的思路,基于一個預(yù)訓(xùn)練的CLIP模型,將參數(shù)固定,只對Transformer中的FFN層進(jìn)行finetune。通過多階段對比學(xué)習(xí),生成多組FFN參數(shù)。
基于上述不同階段的FFN參數(shù),可以構(gòu)建多專家網(wǎng)絡(luò)。通過門控網(wǎng)絡(luò),設(shè)定樣本通過各個FFN的概率,各個FFN的輸出結(jié)果進(jìn)行加權(quán)求和。并且在損失函數(shù)中引入復(fù)雜均衡loss,防止MoE被少數(shù)專家主導(dǎo)的情況。
在訓(xùn)練方式上,包含2個階段。第一階段,在多階段對比學(xué)習(xí)過程中,基于預(yù)訓(xùn)練CLIP,模型參數(shù)freeze,只對FFN層進(jìn)行finetune。在第二階段,凍結(jié)所有參數(shù),只對多專家網(wǎng)絡(luò)中的路由部分進(jìn)行finetune。
3.實(shí)驗(yàn)結(jié)果
通過實(shí)驗(yàn)結(jié)果來看,本文的CLIP預(yù)訓(xùn)練方法在零樣本學(xué)習(xí)場景的圖文檢索、圖像分類等任務(wù)上取得了顯著的效果提升。
文中也通過case分析了這種CLIP-MoE結(jié)構(gòu)對于細(xì)粒度圖文匹配的有效性。CLIP-MoE能夠更加關(guān)注圖像中的細(xì)節(jié)信息,做出和文本更準(zhǔn)確的匹配。
本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise
