CLIP被淘汰了?LeCun謝賽寧新作,多模態(tài)訓(xùn)練無(wú)需語(yǔ)言監(jiān)督更強(qiáng)!
最近AI圈最火的模型非GPT-4o莫屬,各種風(fēng)格圖片持續(xù)火爆全網(wǎng)。
如此強(qiáng)悍的圖片生成能力,得益于GPT-4o本身是一個(gè)原生多模態(tài)模型。
從最新發(fā)布的LLM來(lái)看,多模態(tài)已經(jīng)成為絕對(duì)的主流。
在多模態(tài)領(lǐng)域,視覺(jué)表征學(xué)習(xí)正沿著兩條采用不同訓(xùn)練方法的路徑發(fā)展。
其中語(yǔ)言監(jiān)督方法,如對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練(CLIP),利用成對(duì)的圖像-文本數(shù)據(jù)來(lái)學(xué)習(xí)富含語(yǔ)言語(yǔ)義的表示。
自監(jiān)督學(xué)習(xí)(SSL)方法則僅從圖像中學(xué)習(xí),不依賴語(yǔ)言。
在剛剛發(fā)布的一項(xiàng)研究中,楊立昆、謝賽寧等研究人員探討了一個(gè)基本問(wèn)題:語(yǔ)言監(jiān)督對(duì)于多模態(tài)建模的視覺(jué)表征預(yù)訓(xùn)練是否必須?
論文地址:https://arxiv.org/pdf/2504.01017
研究團(tuán)隊(duì)表示,他們并非試圖取代語(yǔ)言監(jiān)督方法,而是希望理解視覺(jué)自監(jiān)督方法在多模態(tài)應(yīng)用上的內(nèi)在能力和局限性。
盡管SSL模型在傳統(tǒng)視覺(jué)任務(wù)(如分類和分割)上表現(xiàn)優(yōu)于語(yǔ)言監(jiān)督模型,但在最近的多模態(tài)大語(yǔ)言模型(MLLMs)中,它們的應(yīng)用卻較少。
部分原因是這兩種方法在視覺(jué)問(wèn)答(VQA)任務(wù)中的性能差距(圖1),特別是在光學(xué)字符識(shí)別(OCR)和圖表解讀任務(wù)中。
除了方法上的差異,兩者在數(shù)據(jù)規(guī)模和分布上也存在不同(圖1)。
CLIP模型通常在網(wǎng)絡(luò)上收集的數(shù)十億級(jí)圖像-文本對(duì)上進(jìn)行訓(xùn)練,而SSL方法則使用百萬(wàn)級(jí)數(shù)據(jù)集,如ImageNet,或具有類似ImageNet分布的數(shù)億規(guī)模數(shù)據(jù)。
圖1結(jié)果表明,通過(guò)適當(dāng)擴(kuò)展模型和數(shù)據(jù)規(guī)模,視覺(jué)SSL能夠在所有評(píng)估領(lǐng)域(甚至包括OCR和圖表任務(wù))中匹配語(yǔ)言監(jiān)督模型的性能
作為本文共同一作的David Fan興奮的表示,他們的研究表明,即便在OCR/Chart VQA上,視覺(jué)SSL也能具有競(jìng)爭(zhēng)力!
正如他們新推出的完全在網(wǎng)頁(yè)圖像上訓(xùn)練、沒(méi)有任何語(yǔ)言監(jiān)督的Web-SSL模型系列(1B-7B參數(shù))所展示的。
為了進(jìn)行公平比較,研究團(tuán)隊(duì)在數(shù)十億級(jí)規(guī)模網(wǎng)絡(luò)數(shù)據(jù)上訓(xùn)練SSL模型,與最先進(jìn)的CLIP模型相同。
在評(píng)估方面,主要使用VQA作為框架,采用了Cambrian-1提出的評(píng)估套件,該套件評(píng)估了16個(gè)任務(wù),涵蓋4個(gè)不同的VQA類別:通用、知識(shí)、OCR和圖表、以及Vision-Centric。
研究團(tuán)隊(duì)使用上述設(shè)置訓(xùn)練了一系列參數(shù)從1B到7B的視覺(jué)SSL模型Web-SSL,以便在相同設(shè)置下與CLIP進(jìn)行直接且受控的比較。
通過(guò)實(shí)證研究,研究團(tuán)隊(duì)得出了以下幾點(diǎn)見(jiàn)解:
- 視覺(jué)SSL在廣泛的VQA任務(wù)中能夠達(dá)到甚至超越語(yǔ)言監(jiān)督方法進(jìn)行視覺(jué)預(yù)訓(xùn)練,甚至在與語(yǔ)言相關(guān)的任務(wù)(如OCR和圖表理解)上也是如此(圖3)。
- 視覺(jué)SSL在模型容量(圖3)和數(shù)據(jù)規(guī)模(圖4)上的擴(kuò)展性良好,表明SSL具有巨大的開(kāi)發(fā)潛力。
- 視覺(jué)SSL在提升VQA性能的同時(shí),仍能保持在分類和分割等傳統(tǒng)視覺(jué)任務(wù)上的競(jìng)爭(zhēng)力。
- 在包含更多文本的圖像上進(jìn)行訓(xùn)練尤其能有效提升OCR和圖表任務(wù)的性能。探索數(shù)據(jù)構(gòu)成是一個(gè)有前景的方向。
研究人員計(jì)劃開(kāi)源Web-SSL視覺(jué)模型,希望激勵(lì)更廣泛的社區(qū)在多模態(tài)時(shí)代充分釋放視覺(jué)SSL的潛力。
視覺(jué)SSL 1.0到2.0
研究人員介紹了本文的實(shí)驗(yàn)設(shè)置。相比之前的研究,他們做了以下擴(kuò)展:
(1) 把數(shù)據(jù)集規(guī)模擴(kuò)展到十億級(jí)別;
(2) 把模型參數(shù)規(guī)模擴(kuò)展到超過(guò)1B;
(3) 除了用經(jīng)典的視覺(jué)基準(zhǔn)測(cè)試(比如ImageNet-1k和ADE20k)來(lái)評(píng)估模型外,還加入了開(kāi)放式的VQA任務(wù)。
這些變化能在大規(guī)模上研究視覺(jué)SSL,觀察到之前小規(guī)模實(shí)驗(yàn)看不到的規(guī)模效應(yīng)趨勢(shì)
擴(kuò)展視覺(jué)SSL
研究團(tuán)隊(duì)探討了視覺(jué)SSL模型在模型規(guī)模和數(shù)據(jù)規(guī)模上的擴(kuò)展表現(xiàn),這些模型只用MC-2B的圖片數(shù)據(jù)來(lái)訓(xùn)練。
- 擴(kuò)展模型規(guī)模:研究團(tuán)隊(duì)把模型規(guī)模從10億參數(shù)增加到70億參數(shù),同時(shí)保持訓(xùn)練數(shù)據(jù)固定為20億張MC-2B圖片。他們用現(xiàn)成的訓(xùn)練代碼和方法配方,不因模型大小不同而調(diào)整配方,以控制其他變量的影響。
- 擴(kuò)展看到的數(shù)據(jù)量:研究團(tuán)隊(duì)把焦點(diǎn)轉(zhuǎn)向固定模型規(guī)模下增加總數(shù)據(jù)量,分析訓(xùn)練時(shí)看到的圖片數(shù)量從10億增加到80億時(shí),性能如何變化。
擴(kuò)展模型規(guī)模
擴(kuò)展模型規(guī)模的目的有兩個(gè):一是找出在這種新數(shù)據(jù)模式下視覺(jué)SSL的性能上限,二是看看大模型會(huì)不會(huì)表現(xiàn)出一些獨(dú)特的行為。
為此,研究團(tuán)隊(duì)用20億張無(wú)標(biāo)簽的MC-2B圖片(224×224分辨率)預(yù)訓(xùn)練了DINOv2 ViT模型,參數(shù)從10億到70億不等。沒(méi)有用高分辨率適配,以便能和CLIP公平比較。
研究團(tuán)隊(duì)把這些模型稱為Web-DINO。為了對(duì)比,他們還用同樣數(shù)據(jù)訓(xùn)練了相同規(guī)模的CLIP模型。
他們用VQA評(píng)估每個(gè)模型,結(jié)果展示在圖3中。
研究團(tuán)隊(duì)表示,據(jù)他們所知,這是首次僅用視覺(jué)自監(jiān)督訓(xùn)練的視覺(jué)編碼器,在VQA上達(dá)到與語(yǔ)言監(jiān)督編碼器相當(dāng)?shù)男阅堋踔猎趥鹘y(tǒng)上高度依賴文字的OCR & 圖表類別上也是如此。
Web-DINO在平均VQA、OCR & 圖表、以及Vision-Centric VQA上的表現(xiàn),隨著模型規(guī)模增加幾乎呈對(duì)數(shù)線性提升,但在通用和知識(shí)類VQA的提升幅度較小。
相比之下,CLIP在所有VQA類別的表現(xiàn)到30億參數(shù)后基本飽和。
這說(shuō)明,小規(guī)模CLIP模型可能更擅長(zhǎng)利用數(shù)據(jù),但這種優(yōu)勢(shì)在大規(guī)模CLIP模型上基本消失。
Web-DINO隨著模型規(guī)模增加持續(xù)提升,也表明視覺(jué)SSL能從更大的模型規(guī)模中獲益,超過(guò)70億參數(shù)的擴(kuò)展是個(gè)有前景的方向。
在具體類別上,隨著模型規(guī)模增加,DINO在Vision-Centric VQA上越來(lái)越超過(guò)CLIP,在OCR & 圖表和平均VQA上也基本追平差距(圖3)。
到了50億參數(shù)及以上,DINO的平均VQA表現(xiàn)甚至超過(guò)CLIP,盡管它只用圖片訓(xùn)練,沒(méi)有語(yǔ)言監(jiān)督。
這表明,僅用視覺(jué)訓(xùn)練的模型在CLIP分布的圖片上也能發(fā)展出強(qiáng)大的視覺(jué)特征,媲美語(yǔ)言監(jiān)督的視覺(jué)編碼器。
Web-DINO模型在所有類別上都展現(xiàn)出新的「擴(kuò)展行為」,尤其在OCR & 圖表和Vision-Centric領(lǐng)域,CLIP模型的擴(kuò)展收益有限,性能在中等規(guī)模時(shí)就飽和了
擴(kuò)展所見(jiàn)數(shù)據(jù)量
研究團(tuán)隊(duì)研究了增加看到的數(shù)據(jù)量會(huì)怎樣影響性能,在MC-2B的10億到80億張圖片上訓(xùn)練Web-DINO ViT-7B模型。
如圖4所示,通用和知識(shí)類VQA性能隨著看到的數(shù)據(jù)量增加逐步提升,分別在40億和20億張時(shí)飽和。
Vision-Centric VQA 性能從10億到20億張時(shí)提升明顯,超過(guò)20億張后飽和。
相比之下,OCR & 圖表是唯一隨著數(shù)據(jù)量增加持續(xù)提升的類別。
這說(shuō)明,模型看到更多數(shù)據(jù)后,學(xué)到的表征越來(lái)越適合文字相關(guān)任務(wù),同時(shí)其他能力也沒(méi)明顯下降。
另外,和同規(guī)模的CLIP模型(ViT-7B)相比,Web-DINO在相同數(shù)據(jù)量下的平均VQA表現(xiàn)始終更強(qiáng)(圖 4)。
尤其在看到80億張樣本后,Web-DINO在OCR & 圖表VQA任務(wù)上追平了CLIP的表現(xiàn)差距。
這進(jìn)一步證明,視覺(jué)SSL模型可能比語(yǔ)言監(jiān)督模型有更好的擴(kuò)展?jié)摿Α?/span>
隨著訓(xùn)練數(shù)據(jù)從10億增至80億張圖片,Web-DINO-7B在OCR和圖表任務(wù)中持續(xù)提升,而通用和視覺(jué)任務(wù)在20億張后收益遞減。總體上,Web-DINO在平均性能上穩(wěn)步提高,并始終優(yōu)于同規(guī)模的CLIP模型
Web-SSL系列模型
研究團(tuán)隊(duì)在表3里展示了他們的視覺(jué)編碼器跟經(jīng)典視覺(jué)編碼器對(duì)比所取得的最佳結(jié)果,涉及VQA和經(jīng)典視覺(jué)任務(wù)。
Web-DINO在VQA和經(jīng)典視覺(jué)任務(wù)上都能超越現(xiàn)成的MetaCLIP。
即便數(shù)據(jù)量比SigLIP和SigLIP2少5倍,也沒(méi)語(yǔ)言監(jiān)督,Web-DINO在VQA上的表現(xiàn)還是能跟它們打平手。
總體來(lái)看,Web-DINO在傳統(tǒng)視覺(jué)基準(zhǔn)測(cè)試中碾壓了所有現(xiàn)成的語(yǔ)言監(jiān)督CLIP模型。
雖然研究人員最好的Web-DINO模型有70億參數(shù),但結(jié)果表明,CLIP模型在中等規(guī)模的模型和數(shù)據(jù)量后就飽和了,而視覺(jué)SSL的性能隨著模型和數(shù)據(jù)規(guī)模的增加會(huì)逐步提升。
Web-DINO在所有VQA類別中也超過(guò)了現(xiàn)成的視覺(jué)SSL方法,包括DINOv2,在傳統(tǒng)視覺(jué)基準(zhǔn)上也很有競(jìng)爭(zhēng)力。
Web-DINO ViT-7B在沒(méi)有語(yǔ)言監(jiān)督的情況下,在VQA任務(wù)上與CLIP模型表現(xiàn)相當(dāng),在傳統(tǒng)視覺(jué)任務(wù)上超過(guò)了它們
研究人員還額外對(duì)Web-DINO微調(diào)了2萬(wàn)步,分別測(cè)試了378和518分辨率,以便跟更高分辨率的現(xiàn)成SigLIP和DINO版本對(duì)比。
從224到378再到518分辨率,Web-DINO在平均VQA表現(xiàn)上穩(wěn)步提升,尤其在OCR和圖表任務(wù)上有明顯進(jìn)步。
經(jīng)典視覺(jué)任務(wù)的表現(xiàn)隨著分辨率提高略有提升。在384分辨率下,Web-DINO稍微落后于SigLIP;到了518分辨率,差距基本被抹平。
結(jié)果表明,Web-DINO可能還能從進(jìn)一步的高分辨率適配中獲益。
作者介紹
David Fan
David Fan是Meta FAIR的高級(jí)研究工程師,研究方向是自監(jiān)督學(xué)習(xí)和視頻表征。
曾在亞馬遜Prime Video擔(dān)任應(yīng)用科學(xué)家,從事視頻理解和多模態(tài)表征學(xué)習(xí)的研究,重點(diǎn)關(guān)注自監(jiān)督方法。
此前,他在普林斯頓大學(xué)以優(yōu)異成績(jī)(Magna Cum Laude)獲得計(jì)算機(jī)科學(xué)理學(xué)工程學(xué)士學(xué)位,導(dǎo)師是Jia Deng教授。
Shengbang Tong
Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士生,導(dǎo)師是Yann LeCun教授和謝賽寧教授。研究興趣是世界模型、無(wú)監(jiān)督/自監(jiān)督學(xué)習(xí)、生成模型和多模態(tài)模型。
此前,他在加州大學(xué)伯克利分校主修計(jì)算機(jī)科學(xué)、應(yīng)用數(shù)學(xué)(榮譽(yù))和統(tǒng)計(jì)學(xué)(榮譽(yù))。并曾是伯克利人工智能實(shí)驗(yàn)室(BAIR)的研究員,導(dǎo)師是馬毅教授和Jacob Steinhardt教授。