模態(tài)編碼器 | ALIGN,通過大規(guī)模嘈雜數(shù)據(jù)集訓(xùn)練的視覺語言模型
簡單看一下Google早期的一篇工作ALIGN,發(fā)表在2021 ICML上。
研究動機(jī):傳統(tǒng)的視覺語言表示學(xué)習(xí)通常在手動標(biāo)注的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,需要大量的預(yù)先處理和成本。ALIGN利用網(wǎng)絡(luò)上摘取的HTML頁面和alt-text標(biāo)簽,構(gòu)建了一個18億對圖像-文本的嘈雜數(shù)據(jù)集,從而在不需要昂貴的數(shù)據(jù)過濾的情況下,實(shí)現(xiàn)高效的學(xué)習(xí)。
01 、數(shù)據(jù)集構(gòu)建
這項(xiàng)工作的重點(diǎn)是遵循構(gòu)建Conceptual Captions數(shù)據(jù)集的方法,創(chuàng)建了一個更大規(guī)模的圖像-文本數(shù)據(jù)集(18億的圖像文本對)。Conceptual Captions數(shù)據(jù)集進(jìn)行了大量的數(shù)據(jù)過濾和后處理工作,與其相比,ALIGN 數(shù)據(jù)集采用了更簡單的頻率過濾方法,從而保留了更多噪聲數(shù)據(jù)。
ALIGN 數(shù)據(jù)集過濾
基于圖像的過濾:移除色情圖像;保留短邊大于200像素且寬高比小于3的圖像;丟棄與超過1000個alt-texts關(guān)聯(lián)的圖像;移除測試集中的重復(fù)或近似重復(fù)的圖像。
基于文本的過濾:排除被多于10個圖像共享的alt-texts,這些通常與圖像內(nèi)容無關(guān);丟棄包含罕見詞匯(在原始數(shù)據(jù)集中100百萬最頻繁的單字和雙字之外)的alt-texts;移除過短(少于3個單字)或過長(超過20個單字)的alt-texts。
Conceptual Captions數(shù)據(jù)集構(gòu)建步驟
- 數(shù)據(jù)來源:
Web 數(shù)據(jù)爬取:數(shù)據(jù)集的圖像和標(biāo)題主要來源于互聯(lián)網(wǎng)上的圖片,特別是帶有alt
標(biāo)簽的圖像。alt
標(biāo)簽通常用于描述圖像內(nèi)容,以便在圖像無法加載時(shí)提供替代文本。
Common Crawl:具體來說,數(shù)據(jù)集使用了 Common Crawl 的網(wǎng)頁抓取數(shù)據(jù),這是一個開放的、大規(guī)模的網(wǎng)頁抓取數(shù)據(jù)庫。 - 初步篩選:
圖像質(zhì)量檢查:移除質(zhì)量較差的圖像,例如尺寸過小(短邊小于 200 像素)、長寬比過大(大于 3)的圖像。
重復(fù)圖像移除:移除重復(fù)或近似重復(fù)的圖像,以避免數(shù)據(jù)冗余。 - 標(biāo)題質(zhì)量檢查:
長度篩選:移除過短或過長的標(biāo)題,確保標(biāo)題具有一定的描述性。
語言檢查:確保標(biāo)題是英文的,并且語法和拼寫正確。
內(nèi)容相關(guān)性:通過自然語言處理技術(shù)檢查標(biāo)題與圖像內(nèi)容的相關(guān)性,移除不相關(guān)的標(biāo)題。 - 人工審核:
質(zhì)量控制:通過人工審核進(jìn)一步確保圖像和標(biāo)題的質(zhì)量,移除不適當(dāng)或無關(guān)的內(nèi)容。
多樣性增強(qiáng):人工審核還可以幫助增加數(shù)據(jù)集的多樣性,確保覆蓋各種主題和場景。 - 最終清洗:
去噪:通過一系列自動和手動的方法進(jìn)一步去除噪聲數(shù)據(jù),確保數(shù)據(jù)集的高質(zhì)量。
平衡:調(diào)整數(shù)據(jù)集中的類別分布,使其更加平衡,避免某些類別的過度代表。
02、模型架構(gòu)
雙編碼器架構(gòu):模型由兩個編碼器組成,一個是圖像編碼器,另一個是文本編碼器。這兩個編碼器通過一個對比損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練,以對齊圖像和文本的表示。
- 圖像編碼器:使用EfficientNet作為基礎(chǔ)模型,通過全局池化層提取特征(不訓(xùn)練分類頭中的1x1卷積層)。
- 文本編碼器:使用BERT作為基礎(chǔ)模型,通過[CLS]標(biāo)記的嵌入來獲取文本的表示。詞匯表是通過訓(xùn)練數(shù)據(jù)生成的100k詞片(wordpieces)。
- 維度對齊:在BERT編碼器的輸出上添加一個全連接層,以匹配圖像編碼器的輸出維度。
對比損失函數(shù):模型使用歸一化的softmax損失函數(shù)進(jìn)行優(yōu)化。在訓(xùn)練過程中,匹配的圖像-文本對被視為正樣本,而同一個批次中隨機(jī)配對的圖像-文本對被視為負(fù)樣本。
03、實(shí)驗(yàn)結(jié)果
Crisscrossed Captions (CxC) 數(shù)據(jù)集用于評估模型在跨模態(tài)檢索任務(wù)中的表現(xiàn),特別是圖像到文本 (image-to-text) 和文本到圖像 (text-to-image) 檢索。ALIGN 在多個跨模態(tài)檢索任務(wù)中表現(xiàn)出色。
STS 任務(wù)的目標(biāo)是測量兩個文本片段之間的語義相似度。這個任務(wù)通常用于評估模型在理解文本語義方面的表現(xiàn)。
SIS 任務(wù)的目標(biāo)是測量兩張圖片之間的語義相似度。這個任務(wù)用于評估模型在理解圖像內(nèi)容方面的表現(xiàn)。
SITS 任務(wù)的目標(biāo)是測量一張圖片和一段文本之間的語義相似度。這個任務(wù)用于評估模型在理解和匹配不同模態(tài)(圖像和文本)之間的語義關(guān)系方面的能力。
Spearman 相關(guān)系數(shù)用于衡量兩個變量之間的單調(diào)關(guān)系,這里用來評估模型在不同任務(wù)上的表現(xiàn)一致性。
ALIGN 在所有子任務(wù)上的平均得分最高,尤其是 SITS 任務(wù)上,比前一個最佳模型提高了 5.7%。然而,ALIGN 在 STS 和 SIS 任務(wù)上的表現(xiàn)不如 VSE++ 和 DEI2T,這可能是因?yàn)?ALIGN 的訓(xùn)練目標(biāo)主要集中在跨模態(tài)匹配上,而不是同模態(tài)匹配。
在零樣本分類任務(wù)中,ALIGN 表現(xiàn)穩(wěn)健,在傳統(tǒng)的圖像分類任務(wù)中,ALIGN 達(dá)到了與現(xiàn)有最佳模型相當(dāng)甚至更好的性能,同時(shí)在計(jì)算效率上更具優(yōu)勢。
VTAB 是一個包含 19 個任務(wù)的多任務(wù)基準(zhǔn),用于評估模型在各種視覺任務(wù)上的泛化能力。ALIGN 在多任務(wù)基準(zhǔn) VTAB 上表現(xiàn)優(yōu)秀,顯示出其在多種視覺任務(wù)上的強(qiáng)大泛化能力。
在細(xì)粒度分類任務(wù)中,ALIGN 雖然在某些任務(wù)上略遜于最先進(jìn)的模型,但總體表現(xiàn)仍然非常出色。
04、總結(jié)
google一貫作風(fēng),大力出奇跡。證明了帶有Noise data的數(shù)據(jù)只要規(guī)模夠大,也是可以促進(jìn)模型的學(xué)習(xí)。