1億圖文對!格靈深瞳開源RealSyn數據集,CLIP多任務性能刷新SOTA
新的億級大規(guī)模圖文對數據集來了,CLIP達成新SOTA!
格靈深瞳最新發(fā)布的高質量數據集RealSyn,不僅規(guī)模大——包含1億組圖文對,而且每張圖片都同時關聯多個真實和合成文本。
所有的圖像和句子都基于冗余進行了嚴格過濾,在確保數據質量的同時,引入基于簇的語義平衡采樣策略,構建了可滿足多樣工作需求的三種規(guī)模大小的數據集:15M、30M、100M。
這下CLIP終于可以大展身手了!
RealSyn所展現的超強擴展性,以及在視覺語言表征學習中極為優(yōu)越的表現,讓模型性能在多任務中達到了新的SOTA。
目前,該數據集已全面開源,可點擊文末鏈接一鍵獲取~
以下是RealSyn的更多相關細節(jié)。
相關工作
大規(guī)模預訓練數據集
近年來,多個從互聯網收集的大規(guī)模圖像-文本數據集陸續(xù)發(fā)布。
YFCC100M數據集提供了自 Flickr 2004 年創(chuàng)立至2014年初期照片和視頻記錄及分享演變的全面概覽。由于下載失敗和非英語標題,DeCLIP重新處理 YFCC15M 數據集并提出了一個新版本。此外,LAION400M數據集包含從 Common Crawl 收集的4億個圖像-文本對并被廣泛的應用到視覺-語言預訓練。
最近還推出了幾個大規(guī)模圖文交錯文檔數據集。OBELICS數據集使用全面的過濾策略,包括1.41億個網頁、3.53億張相關圖片和從 Common Crawl 提取的1150億文本標記。
然而,由于數據格式的限制和訓練效率的低下,圖文交錯文檔目前不適用于視覺語言對比表示學習。
視覺語言預訓練
作為視覺語言預訓練領域的開創(chuàng)性工作,CLIP因其強大的零樣本識別能力和卓越的遷移學習表現而受到廣泛關注。受 CLIP 啟發(fā),近年來誕生了大量視覺-語言預訓練研究。
SLIP通過結合自監(jiān)督學習與 CLIP 預訓練提高性能。DeCLIP通過整合跨模態(tài)的多視角監(jiān)督和來自相似對的最近鄰監(jiān)督,提高了預訓練效率。為了減輕噪聲數據的影響,ALIP引入了一種動態(tài)樣本權重分配的門控機制。
盡管這些方法取得了顯著的進展,但它們主要依賴于從互聯網上爬取的大規(guī)模圖像-文本對。最近的研究表明,隨著高質量圖像-文本數據集的擴展,CLIP的能力也在增強。因此迫切需要開發(fā)新的數據構建范式以進一步擴大高質量圖像-文本數據的規(guī)模。
合成標題
最近的研究表明,從網站獲得的圖像-文本對含有內在噪聲,這直接影響視覺-語言預訓練的有效性。
為提高現有數據集的質量,LaCLIP利用大型語言模型的上下文學習能力重寫與每張圖片相關的文本描述。CapsFusion使用大型語言模型精煉來自網絡的圖像-文本對和合成標題信息,提高多模態(tài)預訓練數據的質量。類似地,DreamLIP 使用預訓練的大型多模態(tài)模型為3000萬張圖片生成詳細描述。
然而,這些方法主要關注合成數據的增強,忽視了現實世界數據的重要性。此外,這些方法生成的合成標題的多樣性和分布本質上受到所用生成模型能力的限制。
RealSyn數據集
真實世界數據抽取
為了將圖文交錯文檔轉換為視覺-語言表示學習的形式,團隊建立了一個真實世界數據提取Pipeline以提取高質量的圖像和文本。
該流程包括三個步驟:數據提取、圖像過濾和句子過濾。
- 數據提取:
團隊使用來自OBELICS的1.18億個圖文交錯文檔作為主要數據源。所有圖像都被提取并存儲在專用的圖像數據庫中,句子則使用自然語言工具包(NLTK)進行分割,并存儲在單獨的句子數據庫中。這個過程共計從多模態(tài)文檔中抽取了3.36億張圖像和21.3億個句子。
- 圖像過濾:
在提取了3.36億張圖像后,團隊設計了一個兩階段的過濾過程,以提升數據質量并降低冗余。
首先,丟棄符合以下任一條件的圖像:
- 圖像短邊長度少于100像素。
- 寬高比超過3或低于1/3。
這一步去除了5100萬張低質量圖像。
接下來,參考CLIP-CID,使用EVA02-CLIP E/14-plus模型來提取圖像嵌入,并應用Union-Find算法來消除感知和語義上的冗余圖像。這一步去除了額外的8700萬張圖像,最終得到了一組精煉的1.98億張高質量圖像數據集。
- 句子過濾:
從圖文交錯文檔中提取了21.3億個句子后,研究人員基于質量、語義和冗余進行嚴格過濾。
首先,根據以下標準來過濾低質量句子:
- 包含表情符號或URL;
- 句子包含少于3個或多于81個單詞;
- 根據CAT,保留至少具有C1復雜度并包含動作的樣本。
這一階段將語料庫規(guī)模從21.3億減少到18.2億。
然后,對剩余的句子進行語義過濾,研究人員通過信息熵來排除掉語義信息較少的句子:
其中,表示句子中的單詞數,
表示句子
中的第
個單詞,
是整個語料庫中單詞
的概率。
基于人類認知原則和經驗,過濾掉得分低于0.3的句子。為了進一步通過消除困難或模糊的句子來完善語料庫,研究人員使用GTP2-large來計算每個句子的困惑度分數:
其中,表示句子中token數量,
表示給定前序tokens時第
個token的似然概率。
研究人員保留困惑度分數在30到200之間的句子。經過整體語義過濾后,語料庫縮減至11.6億個句子。在最后階段,類似于冗余圖像過濾,對句子進行了感知和語義去重。
這一過程最終得到了一個包含大量現實世界知識的精煉語料庫,共計8.4億個句子。
檢索和生成框架
在從文檔中提取高質量圖像和句子后,團隊提出了一個高效且可擴展的框架,用于為每個圖像檢索多個語義相關文本,并利用大型語言模型將檢索的真實文本與細粒度的視覺信息整合,生成合成文本。
框架的架構主要包括三個組件:文本語義聚類、層次化檢索和圖像語義增強生成。
- 文本語義聚類:
為了有效地為每個圖像檢索多個語義相關文本,首先使用EVA02-CLIP E/14-plus模型對所有句子進行編碼。受Unicom啟發(fā),研究人員利用標準的K-means算法離線將8.4億個文本通過高效特征量化劃分為200萬個簇。
- 層次化檢索:
考慮到直接從8.4億個句子中檢索語義文本的計算開銷過高(在8個A100 GPU上超過10,000小時),團隊設計了一種層次檢索方法來優(yōu)化計算效率。
首先執(zhí)行簇間檢索,找到每個圖像最相關的簇中心。然后,研究人員將共享相同簇中心的圖像分組,并執(zhí)行簇內檢索,以獲取多個語義相關句子。
這種方法能夠在40小時內使用8個A100 GPU完成對1.98億圖像和8.4億句子的檢索。
- 圖像語義增強生成:
盡管檢索到的真實文本表現出滿意的性能,但它們在捕捉細粒度視覺語義方面存在限制。為了解決這個問題,團隊引入了圖像語義增強生成模塊。
該模塊最初采用OFA模型為每張圖片生成一個簡潔的標題。然后,團隊集成了開放集圖片標簽模型RAM++,該模型提取對象檢測標簽??紤]到RAM++僅支持4000個標簽,研究人員通過加入額外的4000個來自真實世界句子的標簽,將這個集合擴展到8000個標簽。
參考CapsFusion,團隊利用ChatGPT4 Turbo將檢索到的真實文本與簡潔標題和圖片標簽合并,構建一個 10 萬條指令的數據集。隨后,使用LLaMA Factory對 LLaMA3-8B模型進行微調,并部署vLLM進行大規(guī)模推理。
最終,將1.18億多模態(tài)交錯文檔轉換為1.98億圖文對,其中每張圖片都與多個檢索到的真實文本和合成文本相關聯。
語義均衡采樣
為了進一步提升數據集的質量和多樣性,團隊在1.98億圖文對中進行語義均衡采樣。具體來說,使用EVA02-CLIP E/14-plus來編碼并計算圖像和合成文本之間的余弦相似性。
為了減少在預訓練期間因OCR相關或不匹配對的影響,研究人員過濾掉余弦相似度高于0.61或低于0.51的2970萬對數據。受到MetaCLIP的啟發(fā),還引入了一種簡單但高效的基于簇的語義平衡采樣策略,并將剩余的 1.683億對中的圖像嵌入聚類到100萬個中心。
為了增強數據集的語義多樣性,團隊從超過這些閾值的簇中隨機選擇20,35和180個樣本,同時保留較小簇中的所有樣本。這種方法最終構建了 RealSyn15M、RealSyn30M和RealSyn100M數據集。
實驗
實現細節(jié)
團隊最初從OBELICS收集了1.18億個交錯的圖像-文本文檔作為主要數據源。并使用和
來生成簡潔的標題和語義標簽。
為了驗證數據集的性能,他們受LaCLIP的啟發(fā),預訓練標準CLIP,監(jiān)督文本隨機從三個檢索到的真實文本和一個合成文本中選擇。
在預訓練期間,采用AdamW作為優(yōu)化器,學習率為1e-3,權重衰減為0.2。參數和
分別設為0.9和0.98。輸入圖像尺寸為224×224,輸入文本序列長度為77。溫度參數??初始化為0.07。研究人員在8×A100(80G)GPU上訓練32個周期,batch大小為4096。
為了驗證RealSyn數據集的有效性,團隊將RealSyn與之前的數據集在不同模型和數據規(guī)模上進行比較,將RealSyn15M與DeCLIP過濾的YFCC15M進行比較。遵循ALIP的方法,還與LAION15M、LAION30M和LAION100M(從LAION400M隨機選取的子集)進行比較。
主要結果
- 線性探測:
在下表中,展示了ViT-B/32模型在20個下游數據集中的線性探測性能。
當在1500萬規(guī)模上預訓練時,RealSyn15M在20個數據集中的16個中超過了YFCC15M,平均性能提高了6.9%。
此外,RealSyn15M在20個數據集中的18個中表現優(yōu)于LAION15M,平均改進了 1.6%。當數據集擴展到3000萬和1億時,RealSyn分別在LAION上實現了平均1.3%和1.4%的性能提升。
這些結果證明了RealSyn數據集在視覺-語言表示學習中的有效性。
- 零樣本遷移:
團隊使用與SLIP相同的提示模板,評估了ViT-B/32模型在20個分類基準測試中的零樣本遷移性能。如表所示,RealSyn15M在20個數據集中的18個上超過了YFCC15M,平均性能提高了14.3%。
與LAION15M相比,RealSyn15M在20個數據集中的18個上表現優(yōu)異,平均改進了 5.2%。當數據集規(guī)模擴大到3000萬和1億時,RealSyn分別比LAION實現了平均3.5%和2.3%的性能提升,凸顯了其效率和可擴展性。
- 零樣本圖文檢索:
在表中,展示了ViT-B/32模型在不同規(guī)模數據集上預訓練后的零樣本圖文檢索性能。
RealSyn 在所有評估指標上均取得了優(yōu)異的結果。具體而言,RealSyn15M在Flickr30K上將召回率提高了35.8%&26%,在MSCOCO上提高了22.5%&12.6%。RealSyn30M在Flickr30K上將召回率提高了16.4%&11.6%,在MSCOCO上提高了12.3%&7.4%。
這種在跨模態(tài)檢索性能上的顯著提升表明,RealSyn數據集通過利用真實和合成文本有效地改善了視覺-語言表示學習,從而實現了健壯的表示和增強的跨模態(tài)對齊。
- 零樣本魯棒性:
在下表中,展示了零樣本魯棒性性能。結果顯示,RealSyn顯著提升了視覺-語言預訓練模型的魯棒性。
具體而言,與LAION相比,RealSyn分別在15M、30M萬和100M的數據集上平均性能提高了4.3%、4.2%和2.8%。
這一顯著的性能提升主要源自于使用檢索到的真實文本,這些文本不受生成模型限制,并且與YFCC和LAION相比具有更優(yōu)越的概念多樣性,從而大幅增強了模型的魯棒性。
- 通過MLLM進行圖像描述:
圖中展示了使用不同數據集(LAION與RealSyn)訓練的LLaVA-1.5在圖像描述性能上的表現。
最初,團隊首先使用LLaVA-1.5的初始558k數據集將視覺特征映射到文本特征空間。然后,他們從LAION和RealSyn開發(fā)了一個圖像描述數據集進行指令調優(yōu)。具體來說,從每個數據集隨機選擇100萬樣本,并進行了兩個周期的訓練。
由此可見,RealSyn在COCO2017和Flickr30k基準測試的所有評估指標上均顯著優(yōu)于LAION。這一顯著的性能提升證實了RealSyn數據集的更高質量和更好的圖像-文本對齊。
分析
統(tǒng)計分析
- 基于主題的評估:
參考MMC4的方法,團隊在隨機抽取的100萬圖像-真實文本對上運行了LDA,涵蓋30個主題。
下圖中展示了六個主題的比例和示例:動物、食物、飛機、花卉、汽車和地標。值得注意的是,數據集中與“花卉”和“汽車”主題相關的樣本極少,分別僅占總數的0.4%和0.9%。
這種樣本的稀缺限制了模型充分學習這些概念的能力,從而在Flower和Car數據集的線性探針和零樣本遷移評估中影響了其性能。
- 豐富性評估:
圖中展示了來自YFCC15、LAION、RealSyn-R1(檢索到的最相關真實文本)和 RealSyn-S1(基于RealSyn-R1的語義增強合成文本)的1500萬樣本的圖文相似性和文本令牌分布。
與從互聯網收集的數據集相比,即使在移除OCR數據之后,RealSyn仍展示出穩(wěn)健的相似性指標。此外,檢索到的真實文本和合成文本都包含更多的詞匯量,這可以提供更豐富的文本環(huán)境,從而增強視覺-語言表示學習。
- 多樣性評估:
RealSyn是基于現實世界中交錯的圖文文件構建的,包含了廣泛的多樣性信息。遵循之前的研究,團隊隨機選擇了20萬樣本來計算標題中獨特實體的數量,以評估不同數據集的數據多樣性。
如圖所示,檢索到的真實文本和圖像語義增強的合成文本均展示了更高數量的不同實體。這種多樣性豐富了數據集,有助于模型獲得全面的知識,并提升了性能和魯棒性。
- 數據縮放分析:
團隊從RealSyn數據集推導出數據縮放定律,證明了其在樣本規(guī)模上的可擴展性。具體來說,他們使用提議的數據集進行一系列視覺-語言預訓練,數據集規(guī)模從12M到60M不等,并且將每個性能指標擬合于對數函數的倒數,其中訓練樣本數為百萬。
基于這些初步實驗的擬合結果,將每個性能規(guī)模定律外推至100M樣本,并使用RealSyn100M數據集驗證其預測的規(guī)模趨勢,如圖所示。
值得注意的是,如方程中所示的系數所指示的那樣,這些性能規(guī)律也可能表明通過團隊提出的視覺-語言預訓練范式以及多模態(tài)交錯文檔,ViT-B/32可能達到的模型能力的上限:
- 模型縮放分析:
為了進一步探索模型擴展能力,研究人員在圖中展示了三種模型的下游任務性能。值得注意的是,與LAION相比,RealSyn在線性探測、零樣本遷移和魯棒性的性能曲線上顯示出更陡峭的斜率,這表明其具有更優(yōu)越的模型擴展能力。
消融實驗
- 語義平衡采樣的消融研究:
為了展示所提出的語義平衡采樣方法的有效性,團隊將其與隨機采樣進行比較。如表所示,概念平衡采樣在線性探測、零樣本遷移和魯棒性中分別提高了0.7%、1.1% 和1.0%的性能。
此外,團隊通過將1500萬樣本聚類到100萬個中心,使用不同的采樣方法可視化數據分布。如圖所示,來自語義平衡采樣的分布更為平滑,有助于學習長尾概念。
- 擴展到純圖像:
研究人員發(fā)現本文所提出數據構建范式除了應用到圖文交錯文檔以外還可以直接用于純圖像,為此他們在ImageNet上進行實驗。
首先從本文構建的句子數據庫中為每個ImageNet圖像檢索語義相關的真實文本,并生成圖像語義增強的合成文本。然后,隨機從檢索到的真實文本和合成文本中選擇一個文本作為監(jiān)督信號來對ResNet50進行預訓練。
與SimCLR在相同條件下進行比較分析顯示,使用團隊構建的數據,在12個數據集上的線性探測平均性能提高了2.1%。
- 真實文本和合成文本消融實驗:
團隊進行了消融實驗來評估真實文本和合成文本數量變化對CLIP-B/32模型性能的影響。
如表所示,真實文本量從一增加到三,模型性能得到提升,這歸功于集成了廣泛的現實世界知識的文本增強。然而,將這一數量從三增加到五時,由于信息飽和和噪聲引入,性能略有下降。相反,合成文本的數量從一增加到五,性能逐漸下降,反映了噪聲引入的增加。
值得注意的是,僅使用真實文本進行訓練可以顯著提升性能,與使用LAION15M數據集的69.8%相比,達到了71.2%的準確率,突顯了現實世界知識在推進視覺-語言表征學習中的重要作用。
論文鏈接:https://arxiv.org/pdf/2502.12513
代碼鏈接:https://github.com/deepglint/RealSyn
項目鏈接:https://garygutc.github.io/RealSyn/
數據集鏈接:https://huggingface.co/datasets/Kaichengalex/RealSyn100M