蘋果超強(qiáng)視覺預(yù)訓(xùn)練模型助力下游任務(wù)拿SOTA?。ǚ诸?、檢測、分割、深度估計(jì)) 精華
文章鏈接:??https://arxiv.org/pdf/2405.08911??
CLIP 模型在zero-shot分類和檢索任務(wù)中表現(xiàn)非常出色。但最近的研究表明,CLIP 中學(xué)習(xí)到的表示并不適用于目標(biāo)檢測、語義分割或深度估計(jì)等密集預(yù)測任務(wù)。為了緩解 CLIP 在下游任務(wù)中表現(xiàn)不佳的問題,最近引入了多階段訓(xùn)練方法。
在這項(xiàng)工作中,發(fā)現(xiàn)簡單地提高圖文數(shù)據(jù)集中描述的質(zhì)量可以改善 CLIP 的視覺表示質(zhì)量,從而顯著提升其在下游密集預(yù)測視覺任務(wù)中的表現(xiàn)。事實(shí)上,使用高質(zhì)量描述進(jìn)行 CLIP 預(yù)訓(xùn)練可以超越最近的監(jiān)督、自監(jiān)督和弱監(jiān)督預(yù)訓(xùn)練方法。
本文展示了當(dāng)使用 ViT-B/16 作為圖像編碼器的 CLIP 模型在經(jīng)過良好對齊的圖文對進(jìn)行訓(xùn)練時(shí),在語義分割和深度估計(jì)任務(wù)上分別比最新的 Masked Image Modeling (MIM) 預(yù)訓(xùn)練方法(如 Masked Autoencoder (MAE))高出 12.1% 的 mIoU 和低 11.5% 的 RMSE。發(fā)現(xiàn)移動(dòng)端架構(gòu)也顯著受益于 CLIP 預(yù)訓(xùn)練。最近的一種移動(dòng)端視覺架構(gòu) MCi2 通過 CLIP 預(yù)訓(xùn)練在語義分割任務(wù)上的表現(xiàn)與在 ImageNet-22k 上預(yù)訓(xùn)練的 Swin-L 相當(dāng),而其模型尺寸小了 6.1 倍。此外,還展示了提高描述質(zhì)量在進(jìn)行密集預(yù)測任務(wù)微調(diào)時(shí)提高了 10 倍的數(shù)據(jù)效率。
介紹
在計(jì)算機(jī)視覺領(lǐng)域,先在大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練然后在目標(biāo)任務(wù)上進(jìn)行微調(diào)是一個(gè)常見的范式。在過去十年里,一種常見的預(yù)訓(xùn)練策略是在 ImageNet 上進(jìn)行有監(jiān)督的預(yù)訓(xùn)練。最近,諸如對比語言-圖像預(yù)訓(xùn)練(CLIP)、BEiT和 DINO等在大規(guī)模數(shù)據(jù)集上訓(xùn)練的模型顯示出能夠?qū)W習(xí)到通用且高度可遷移的視覺表示。這些預(yù)訓(xùn)練模型隨后被用作初始化,并在各種下游任務(wù)(如目標(biāo)檢測、語義分割和深度估計(jì))中進(jìn)行微調(diào)。
盡管存在多種預(yù)訓(xùn)練方法,但沒有一種方法能夠?qū)λ邢掠稳蝿?wù)表現(xiàn)最佳。此前,CLIP 預(yù)訓(xùn)練在密集預(yù)測任務(wù)(如目標(biāo)檢測和深度估計(jì))上的表現(xiàn)相比 MIM 預(yù)訓(xùn)練方法(例如 MAE)和自監(jiān)督學(xué)習(xí)(SSL)方法(例如 DINO)不盡如人意。在這項(xiàng)工作中,我們實(shí)證研究了以下研究問題:相比 MIM,CLIP 是否在本質(zhì)上是一個(gè)不適合密集預(yù)測任務(wù)的預(yù)訓(xùn)練選擇?
在 CLIP 預(yù)訓(xùn)練中,學(xué)習(xí)了一個(gè)圖像編碼器和一個(gè)文本編碼器,以對齊來自(圖像,文本)對的embedding。通過網(wǎng)絡(luò)爬蟲收集的大規(guī)模(圖像,文本)數(shù)據(jù)通常是噪聲較大的:文本和圖像內(nèi)容可能不太匹配。Cherti 等人表明,預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模顯著影響 CLIP 圖像和文本編碼器學(xué)習(xí)到的表示質(zhì)量。在這項(xiàng)工作中,展示了描述(文本模態(tài))的質(zhì)量顯著影響視覺表示(圖像模態(tài))的質(zhì)量。我們發(fā)現(xiàn),通過對齊的描述訓(xùn)練的 CLIP 圖像編碼器特征不僅在語義區(qū)分任務(wù)中遷移良好,還在密集預(yù)測視覺任務(wù)中帶來了顯著的性能提升。
CLIP 預(yù)訓(xùn)練在移動(dòng)架構(gòu)上效果很好。大多數(shù)移動(dòng)架構(gòu),如[23, 29, 45, 46],要么是CNN-Transformer混合設(shè)計(jì),要么是純卷積設(shè)計(jì)。像MAE這樣的預(yù)訓(xùn)練方法是為Transformers量身定制的,不能直接應(yīng)用于移動(dòng)端架構(gòu)。CLIP在DataCompDR上的預(yù)訓(xùn)練提高了移動(dòng)架構(gòu)在密集預(yù)測任務(wù)(如目標(biāo)檢測和語義分割)上的性能。后面將發(fā)布微調(diào)代碼及所有checkpoints。
本工作的主要貢獻(xiàn)如下:
- 通過系統(tǒng)實(shí)驗(yàn),證明了CLIP能夠?qū)W習(xí)適用于密集預(yù)測任務(wù)的視覺特征,前提是預(yù)訓(xùn)練數(shù)據(jù)集中的圖文對是對齊的。
- 詳細(xì)比較了CLIP和MAE的預(yù)訓(xùn)練策略。展示了在不同的訓(xùn)練計(jì)劃下,若數(shù)據(jù)集包含高質(zhì)量的描述,CLIP預(yù)訓(xùn)練可以超過MAE。
- 詳細(xì)分析了CLIP預(yù)訓(xùn)練在密集預(yù)測任務(wù)中的數(shù)據(jù)擴(kuò)展趨勢。展示了提高描述質(zhì)量能夠提升數(shù)據(jù)效率。
- 證明了CLIP預(yù)訓(xùn)練即使在移動(dòng)架構(gòu)上也有顯著益處,在檢測、分割和深度估計(jì)等視覺任務(wù)上實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確率-延遲權(quán)衡。
背景
在計(jì)算機(jī)視覺中學(xué)習(xí)可遷移表示是一項(xiàng)活躍的研究領(lǐng)域。一個(gè)常見的范式是先進(jìn)行預(yù)訓(xùn)練,然后在下游任務(wù)(如檢測、分割、深度估計(jì)等)上進(jìn)行微調(diào)。有監(jiān)督的預(yù)訓(xùn)練被廣泛使用,其中模型在大規(guī)模標(biāo)注數(shù)據(jù)集上進(jìn)行訓(xùn)練。但大規(guī)模獲取準(zhǔn)確標(biāo)簽是一項(xiàng)挑戰(zhàn),而且大多數(shù)大規(guī)模標(biāo)注數(shù)據(jù)集(如 JFT)是私有的。
最近,自監(jiān)督預(yù)訓(xùn)練取得了顯著進(jìn)展。大多數(shù)這些方法不需要準(zhǔn)確標(biāo)注的數(shù)據(jù)集,而是使用預(yù)訓(xùn)練策略,例如實(shí)例對比學(xué)習(xí)、拼圖解謎、聯(lián)合embedding或mask區(qū)域重建。特別是,MAE顯示出能夠?qū)W習(xí)高度可遷移的表示。但 MAE 存在局限性——Singh 等人表明,較小的圖像編碼器如 ViT-B/16 無法從數(shù)據(jù)集擴(kuò)展中受益。在[43]中,MAE 之后進(jìn)行弱監(jiān)督預(yù)訓(xùn)練的第二階段,以在下游任務(wù)上獲得進(jìn)一步的顯著改進(jìn)。
CLIP
CLIP 是一種圖像-文本模型,將圖像和文本映射到一個(gè)聯(lián)合embedding空間中。CLIP 由圖像和文本編碼器組成,訓(xùn)練數(shù)據(jù)集是大規(guī)模的配對圖像-文本樣本,以使得相似的圖像和文本被映射得更近,而不同的樣本被映射得更遠(yuǎn)。給定一批個(gè)圖像-文本對,用,表示 CLIP 模型的圖像和文本的維embedding。令表示embedding向量v和embedding矩陣 U之間的相似度,經(jīng)過溫度參數(shù)的 Softmax 歸一化。
CLIP 損失由圖像到文本的損失和文本到圖像的損失組成,其中圖像到文本的部分定義如下:
其中,CE 表示交叉熵?fù)p失, 是一個(gè)在第i個(gè)坐標(biāo)上為 1,其他地方為 0 的b維一熱向量。類似地,文本到圖像的損失是通過交換文本和圖像embedding來定義的。
數(shù)據(jù)質(zhì)量對 CLIP 的重要性
CLIP 在下游分類任務(wù)中展示了顯著的zero-shot能力,而無需在特定任務(wù)數(shù)據(jù)上進(jìn)行微調(diào)。在 CLIP中,一個(gè)多模態(tài)模型使用來自網(wǎng)絡(luò)的圖像及其噪聲文本標(biāo)注進(jìn)行訓(xùn)練。最近,數(shù)據(jù)集規(guī)模顯著擴(kuò)大,CLIP 預(yù)訓(xùn)練在zero-shot圖像分類和檢索性能上顯示出顯著的改進(jìn)。
Fang 等人表明,CLIP 預(yù)訓(xùn)練數(shù)據(jù)分布的質(zhì)量和多樣性可以解釋其新興的zero-shot能力?;谶@一觀察,Gadre 等人提出了 DataComp 基準(zhǔn),用于尋找最佳的 CLIP 訓(xùn)練集,并提出了 DataComp-1B(BestPool 過濾),使用公共數(shù)據(jù)集顯著改進(jìn)了 CLIP 訓(xùn)練,與之前的數(shù)據(jù)集 LAION-2B相比。最近,Vasu 等人引入了 DataCompDR,除了其他信息,還在大規(guī)模的 DataComp-1B 中添加了合成描述,這些描述更干凈且對齊良好。
此前,尚未研究過規(guī)模和質(zhì)量對 CLIP 預(yù)訓(xùn)練在下游密集預(yù)測任務(wù)中的影響。Nguyen 等人研究了改進(jìn)描述以提高圖像檢索和圖像描述生成的性能。Wei 等人觀察到 CLIP 預(yù)訓(xùn)練在密集預(yù)測任務(wù)上表現(xiàn)不如其他預(yù)訓(xùn)練方法,并建議增加一個(gè)微調(diào)步驟以改進(jìn) CLIP 圖像編碼器。文獻(xiàn)[49]中的結(jié)果僅限于早期在相對較小的數(shù)據(jù)集上訓(xùn)練的 CLIP 模型。相比之下,我們發(fā)現(xiàn),使用更大規(guī)模的 DataComp進(jìn)行 CLIP 預(yù)訓(xùn)練,與其他預(yù)訓(xùn)練方法相比具有高度競爭力。在這項(xiàng)工作中,展示了在改進(jìn)描述質(zhì)量的數(shù)據(jù)集(如 DataCompDR)上訓(xùn)練的 CLIP 模型顯著提高了下游密集預(yù)測任務(wù)的視覺表示質(zhì)量。
分析
使用合成描述的 CLIP
雖然 DataComp 使用過濾啟發(fā)式方法來獲得高質(zhì)量的描述,但最近的方法已經(jīng)使用大型視覺基礎(chǔ)模型和語言模型生成高質(zhì)量的合成描述。與來自網(wǎng)絡(luò)的噪聲文本相比,這些描述通常與相應(yīng)圖像更好地對齊且質(zhì)量更高。我們比較了最近 MobileCLIP、LaCLIP 和 VeCLIP工作中,使用真實(shí)描述和合成高質(zhì)量描述預(yù)訓(xùn)練的 CLIP 模型的微調(diào)性能。LaCLIP 主要使用大語言模型(LLMs)重寫描述,VeCLIP 使用 LLaVA 模型和一個(gè) LLM 為他們的數(shù)據(jù)集(稱為 VeCap)生成描述。
MobileCLIP 使用 CoCa 模型為 DataComp數(shù)據(jù)集生成描述,從而形成 DataCompDR。VeCap 和 DataCompDR 通過使用視覺語言基礎(chǔ)模型生成視覺豐富的描述,而 LaCLIP 僅依賴于 LLM 重述現(xiàn)有的描述。從表2可以看出,改進(jìn)描述質(zhì)量導(dǎo)致圖像編碼器在密集預(yù)測任務(wù)中具有更好的遷移能力。我們還發(fā)現(xiàn),使用視覺豐富描述預(yù)訓(xùn)練的 CLIP 模型在密集預(yù)測任務(wù)中表現(xiàn)更好。
CLIP 與 MAE
為了公平比較這兩種流行的方法,在 DataComp 和 DataCompDR數(shù)據(jù)集上訓(xùn)練了一個(gè) CLIP 模型,并在兩個(gè)預(yù)訓(xùn)練方法之間匹配所見樣本數(shù)量(即全局批量大小 × 總迭代次數(shù))。在下表3中,對于 2.05B 個(gè)所見樣本,我們觀察到在目標(biāo)檢測任務(wù)中 MAE 比 CLIP 高出 0.9 mAP,但在 DataCompDR 上預(yù)訓(xùn)練的 CLIP 在分割任務(wù)中比 MAE 高出 3.6 mIoU,在深度估計(jì)任務(wù)中 RMSE 低 4.4%。
當(dāng) MAE 預(yù)訓(xùn)練擴(kuò)展到包含 3B 個(gè)獨(dú)特圖像和 28K 類別的 IG-3B 數(shù)據(jù)集時(shí),我們在檢測和分割任務(wù)中沒有看到任何改進(jìn)。而 CLIP 預(yù)訓(xùn)練在目標(biāo)檢測任務(wù)中超過了 MAE,并在分割任務(wù)中進(jìn)一步提高了 4.4 mIoU。在這個(gè)規(guī)模上,MAE 僅在深度估計(jì)任務(wù)中表現(xiàn)優(yōu)于 CLIP 預(yù)訓(xùn)練。當(dāng)在與 MAWS相似的規(guī)模上在 DataCompDR 上訓(xùn)練更長時(shí)間的 CLIP 模型時(shí),它在所有下游密集預(yù)測任務(wù)中都超過了 MAE 和 MAWS。
數(shù)據(jù)擴(kuò)展
為了理解擴(kuò)展數(shù)據(jù)集規(guī)模的效果,在 DataComp 和 DataCompDR 上訓(xùn)練 CLIP 模型,子集范圍從 1.28M 到全部 1.28B 樣本,并在下圖2中比較它們的微調(diào)性能。對于所有實(shí)驗(yàn),預(yù)訓(xùn)練 20k 次迭代,全局批量大小為 65k(相當(dāng)于在 1.28B 上訓(xùn)練一個(gè)周期)。使用第4節(jié)中描述的設(shè)置,微調(diào)圖像編碼器以進(jìn)行下游任務(wù)。從下圖2中,發(fā)現(xiàn)改進(jìn)描述質(zhì)量在微調(diào)密集預(yù)測任務(wù)時(shí)提高了數(shù)據(jù)效率。在 MS COCO 上,預(yù)訓(xùn)練在 DataCompDR 的 12.8M 子集上的 CLIP 模型獲得了 44.2 的 mAP,略低于在 DataComp 的 128M 子集上預(yù)訓(xùn)練獲得的 44.6 mAP(用于目標(biāo)檢測任務(wù))。CLIP 模型可以在 DataCompDR 的 10倍小的子集上進(jìn)行預(yù)訓(xùn)練,以獲得與在 DataComp 的較大子集上預(yù)訓(xùn)練相似的性能。
表示分析
為了理解描述質(zhì)量的影響,繪制了整個(gè) ImageNet-1K 驗(yàn)證集上的平均注意力距離。這有助于我們理解信息流,因?yàn)樗糠址从沉嗣總€(gè)注意力頭的感受野大小。按照[49]中的描述,[CLS] token 被忽略在平均計(jì)算中。從下圖3中,我們注意到每個(gè)頭的平均注意力距離有差異,特別是對于在 DataComp 和 DataCompDR 上訓(xùn)練的描述更干凈和更對齊的模型。
對于在包含噪聲描述的 ALIGN 數(shù)據(jù)集上訓(xùn)練的 CLIP 模型,注意到注意力距離的多樣性較少,特別是在較深層次。這直觀上表明,最后幾層可能存在冗余,模型的容量可能未被充分利用,如[52]所述。當(dāng)在 DataCompDR 中引入更對齊的描述時(shí),注意到注意力頭趨向于更局部,同時(shí)保持層內(nèi)的多樣性。正如[31, 49]中觀察到的那樣,局部注意力對密集預(yù)測任務(wù)更有利。因此,在描述噪聲較少且與圖像更對齊的數(shù)據(jù)集上訓(xùn)練的 CLIP 模型在密集預(yù)測任務(wù)中表現(xiàn)更好。
實(shí)驗(yàn)
本文評估了 CLIP 模型的視覺編碼器在四個(gè)下游任務(wù)中的性能:圖像分類、實(shí)例分割、語義分割和深度估計(jì)。主要關(guān)注所有任務(wù)的端到端微調(diào)性能。
CLIP 預(yù)訓(xùn)練。遵循 [28, 47] 中的方法,在 DataComp 和 DataCompDR 上訓(xùn)練 CLIP 模型。對真實(shí)描述和合成描述最小化 CLIP 的對比損失,如 [28, 47] 中常見的方法。選擇 DataComp 和 DataCompDR 進(jìn)行實(shí)驗(yàn)是因?yàn)樗鼈兊囊?guī)模,即 12.8 億圖文對。其他公開可用的數(shù)據(jù)集如 [16, 28] 僅包含 2 到 4 億圖文對。詳細(xì)的超參數(shù)列表將在補(bǔ)充材料中提供。對于移動(dòng)架構(gòu),直接使用 [47] 中在 DataCompDR 上預(yù)訓(xùn)練的 CLIP 模型。
圖像分類。在 ImageNet-1K 數(shù)據(jù)集上微調(diào)視覺編碼器 100 個(gè)周期,遵循 [31, 49] 中的設(shè)置。關(guān)于具體設(shè)置的更多細(xì)節(jié)將在補(bǔ)充材料中提供。在表4中,我們將監(jiān)督基線(灰色)與最近的自監(jiān)督和弱監(jiān)督方法進(jìn)行了比較。從下表4可以明顯看出,在具有大規(guī)模高質(zhì)量描述的數(shù)據(jù)集上進(jìn)行 CLIP 預(yù)訓(xùn)練的效果優(yōu)于最近的最先進(jìn)預(yù)訓(xùn)練方法和在較大噪聲描述數(shù)據(jù)集上訓(xùn)練的其他 CLIP 模型。
目標(biāo)檢測和實(shí)例分割。報(bào)告了在 MS-COCO數(shù)據(jù)集上使用 MaskRCNN 頭和 Cascade-MaskRCNN 頭進(jìn)行實(shí)例分割的所有模型的性能。模型使用 MMDetection 庫 進(jìn)行訓(xùn)練。MaskRCNN 模型使用 1× 計(jì)劃進(jìn)行訓(xùn)練,采用單尺度測試,如 [49] 中描述。Cascade-MaskRCNN 模型使用 3× 計(jì)劃進(jìn)行訓(xùn)練,采用單尺度測試。遵循 [31, 49] 中描述的微調(diào)設(shè)置,更多細(xì)節(jié)在補(bǔ)充材料中提供。從下表5和表6中可以看出,ViT B/16 在 DataComp 和 DataCompDR 上進(jìn)行 CLIP 預(yù)訓(xùn)練的效果優(yōu)于最近的最先進(jìn)預(yù)訓(xùn)練方法。
語義分割。使用 UperNet頭并遵循 [31] 中描述的設(shè)置。模型使用 MMSegmentation 庫進(jìn)行訓(xùn)練。對于移動(dòng)端模型,使用 SemanticFPN頭并按照 [45] 中描述的設(shè)置進(jìn)行訓(xùn)練。更多細(xì)節(jié)將在補(bǔ)充材料中提供。從下表7中可以看出,CLIP 預(yù)訓(xùn)練顯著有利于分割任務(wù)。事實(shí)上,在噪聲 ALIGN數(shù)據(jù)集上訓(xùn)練的 CLIP 也優(yōu)于 MAWS。當(dāng)在 DataCompDR 上進(jìn)行預(yù)訓(xùn)練時(shí),我們觀察到 mIoU 有顯著的 3.5(6.9%)的提升。
深度估計(jì)。在 NYUv2 數(shù)據(jù)集上報(bào)告了均方根誤差(RMSE)。使用 [49, 52] 中描述的相同設(shè)置,更多細(xì)節(jié)將在補(bǔ)充材料中提供。從下表8中可以看出,DataCompDR 上預(yù)訓(xùn)練的 ViT-B/16 優(yōu)于最近的最先進(jìn)預(yù)訓(xùn)練方法和多階段預(yù)訓(xùn)練方法,如 [43, 49]。
LIP 預(yù)訓(xùn)練對移動(dòng)架構(gòu)的影響
前面分析了在 DataCompDR 上進(jìn)行 CLIP 預(yù)訓(xùn)練對較大架構(gòu)(即 ViT-B/16)的影響。本節(jié)分析 CLIP 預(yù)訓(xùn)練對移動(dòng)架構(gòu)的好處。具體來說,微調(diào)了最近開源的 MobileCLIP 圖像編碼器。將廣泛使用的 ImageNet-1K 上的監(jiān)督預(yù)訓(xùn)練與 DataCompDR 上的 CLIP 預(yù)訓(xùn)練進(jìn)行了比較。
從下表9可以看出,CLIP 在 DataCompDR 上進(jìn)行預(yù)訓(xùn)練使最小架構(gòu)的 mIoU 提高了 3.3。MCi2 模型獲得了 52.2 的 mIoU,類似于更大架構(gòu)如 Swin-L 和 ViT-Adapter-B模型。
在下表10中,觀察到最小模型的邊界框 mAP 提高了 2.4,mask mAP 提高了 1.5。MCi2 模型獲得了 49.5 的邊界框 mAP,這與較大架構(gòu)如 ViT-Adapter-L相當(dāng),甚至優(yōu)于較新的專用架構(gòu)如 InternImage-B。
結(jié)論
這項(xiàng)工作中,分析了 CLIP 預(yù)訓(xùn)練對下游密集預(yù)測任務(wù)的性能影響。發(fā)現(xiàn)預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模和描述的質(zhì)量有顯著的區(qū)別。系統(tǒng)地與 MAE(一個(gè)流行的視覺Transformer自監(jiān)督預(yù)訓(xùn)練方法)進(jìn)行了比較。與之前的工作相比,表明 CLIP 預(yù)訓(xùn)練在與 MAE 競爭時(shí)非常有競爭力,甚至在規(guī)模上超過 MAE 和最近的 MAWS 預(yù)訓(xùn)練方法。表明在具有良好質(zhì)量描述的數(shù)據(jù)集上進(jìn)行大規(guī)模 CLIP 預(yù)訓(xùn)練會產(chǎn)生一個(gè)圖像編碼器,它能夠?qū)W習(xí)到高度可遷移的表示。此外還表明,CLIP 預(yù)訓(xùn)練對較小的架構(gòu)也有好處。
本文轉(zhuǎn)自 AI生成未來,作者:Apple
