離視覺大一統(tǒng)更近一步:分割一切之后,Meta又開源一組多用途大模型
在開源了「分割一切」的 SAM 模型后,Meta 在「視覺基礎(chǔ)模型」的路上越走越遠(yuǎn)。
這次,他們開源的是一組名叫 DINOv2 的模型。這些模型能產(chǎn)生高性能的視覺表征,無(wú)需微調(diào)就能用于分類、分割、圖像檢索、深度估計(jì)等下游任務(wù)。
這組模型具有如下特征:
- 使用自監(jiān)督的方式進(jìn)行訓(xùn)練,而不需要大量的標(biāo)記數(shù)據(jù);
- 可以用作幾乎所有 CV 任務(wù)的骨干,不需要微調(diào),如圖像分類、分割、圖像檢索和深度估計(jì);
- 直接從圖像中學(xué)習(xí)特征,而不依賴文本描述,這可以使模型更好地理解局部信息;
- 可以從任何圖像集合中學(xué)習(xí);
- DINOv2 的預(yù)訓(xùn)練版本已經(jīng)可用,并可以在一系列任務(wù)上媲美 CLIP 和 OpenCLIP。
- 論文鏈接:https://arxiv.org/pdf/2304.07193.pdf
- 項(xiàng)目鏈接:https://dinov2.metademolab.com/
論文概覽
學(xué)習(xí)非特定任務(wù)的預(yù)訓(xùn)練表示已成為自然語(yǔ)言處理的標(biāo)準(zhǔn)。大家可以「按原樣」使用這些功能(無(wú)需微調(diào)),并且它們?cè)谙掠稳蝿?wù)上的表現(xiàn)明顯優(yōu)于特定任務(wù)模型的性能。這一成功得益于使用輔助目標(biāo)對(duì)大量原始文本進(jìn)行預(yù)訓(xùn)練,例如語(yǔ)言建模或詞向量,這些不需要監(jiān)督。
隨著 NLP 領(lǐng)域發(fā)生這種范式轉(zhuǎn)變,預(yù)計(jì)類似的「基礎(chǔ)」模型將出現(xiàn)在計(jì)算機(jī)視覺中。這些模型應(yīng)該生成在任何任務(wù)上「開箱即用」的視覺特征,無(wú)論是在圖像級(jí)別(例如圖像分類)還是像素級(jí)別(例如分割)。
這些基礎(chǔ)模型有很大希望可以集中在文本引導(dǎo)(text-guided)的預(yù)訓(xùn)練上,即使用一種文本監(jiān)督的形式來(lái)指導(dǎo)特征的訓(xùn)練。這種形式的文本引導(dǎo)預(yù)訓(xùn)練限制了可以保留的有關(guān)圖像的信息,因?yàn)闃?biāo)題僅近似于圖像中的豐富信息,并且更精細(xì)、復(fù)雜的像素級(jí)信息可能無(wú)法通過(guò)此監(jiān)督被發(fā)現(xiàn)。此外,這些圖像編碼器需要已經(jīng)對(duì)齊好的文本 - 圖像語(yǔ)料庫(kù),不能提供其文本對(duì)應(yīng)物的靈活性,也就是說(shuō)不能僅從原始數(shù)據(jù)中學(xué)習(xí)。
文本引導(dǎo)預(yù)訓(xùn)練的替代方法是自監(jiān)督學(xué)習(xí),其中特征僅從圖像中學(xué)習(xí)。這些方法在概念上更接近語(yǔ)言建模等前置任務(wù),并且可以在圖像和像素級(jí)別捕獲信息。然而,盡管它們有可能去學(xué)習(xí)通用特征,但自監(jiān)督學(xué)習(xí)的大部分效果提升都是在小型精編數(shù)據(jù)集 ImageNet1k 的預(yù)訓(xùn)練背景下取得的。一些研究人員已經(jīng)嘗試將這些方法擴(kuò)展到 ImageNet-1k 之外的一些努力,但他們專注于未經(jīng)篩選的數(shù)據(jù)集,這通常會(huì)導(dǎo)致性能質(zhì)量顯著下降。這是由于缺乏對(duì)數(shù)據(jù)質(zhì)量和多樣性的控制,而數(shù)據(jù)質(zhì)量和多樣性對(duì)于產(chǎn)生良好的結(jié)果至關(guān)重要。
在這項(xiàng)工作中,研究者探討了如果在大量精編數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,自監(jiān)督學(xué)習(xí)是否有可能去學(xué)習(xí)通用的視覺特征。它們重新審視了現(xiàn)有的在圖像和 patch 級(jí)別學(xué)習(xí)特征的判別性自監(jiān)督方法,例如 iBOT,并在更大數(shù)據(jù)集下重新考慮他們的一些設(shè)計(jì)選擇。研究者的大多數(shù)技術(shù)貢獻(xiàn)都是為了在擴(kuò)展模型和數(shù)據(jù)大小時(shí)穩(wěn)定和加速判別性自監(jiān)督學(xué)習(xí)而量身定制的。這些改進(jìn)使他們方法的速度提升到了類似的判別性自監(jiān)督方法的 2 倍左右,需要的內(nèi)存減少到了后者的 1/3,使他們能夠利用更長(zhǎng)的訓(xùn)練和更大的 batch size。
關(guān)于預(yù)訓(xùn)練數(shù)據(jù),他們構(gòu)建了一個(gè)自動(dòng) pipeline ,用于從大量未經(jīng)篩選的圖像集合中過(guò)濾和重新平衡數(shù)據(jù)集。這個(gè)靈感來(lái)自 NLP 中使用的 pipeline ,其中使用數(shù)據(jù)相似性而不是外部元數(shù)據(jù),并且不需要手動(dòng)注釋。在處理圖像時(shí)的一個(gè)主要困難是重新平衡概念并且要避免在一些主導(dǎo)模式下出現(xiàn)過(guò)擬合。在這項(xiàng)工作中,樸素聚類方法可以很好地解決此問(wèn)題,研究人員們收集了一個(gè)由 142M 圖像組成的小而多樣化的語(yǔ)料庫(kù)來(lái)驗(yàn)證他們的方法。
最后,研究者們提供了各種預(yù)訓(xùn)練的視覺模型,稱為 DINOv2,在他們的數(shù)據(jù)上使用不同的視覺 Transformer(ViT)架構(gòu)進(jìn)行訓(xùn)練。他們發(fā)布了所有模型和代碼,以在任何數(shù)據(jù)上重新訓(xùn)練 DINOv2。在擴(kuò)展時(shí),他們?cè)趫D像和像素級(jí)別的各種計(jì)算機(jī)視覺基準(zhǔn)測(cè)試上驗(yàn)證了 DINOv2 的質(zhì)量,如圖 2 所示。最后研究者們得出結(jié)論,單獨(dú)的自監(jiān)督預(yù)訓(xùn)練是學(xué)習(xí)可遷移凍結(jié)特征的良好候選者,可媲美最好的公開可用的弱監(jiān)督模型。
數(shù)據(jù)處理
研究者通過(guò)從大量未篩選的數(shù)據(jù)中檢索與多個(gè)精編數(shù)據(jù)集中的圖像接近的圖像來(lái)組裝他們的精編 LVD-142M 數(shù)據(jù)集。他們?cè)谡撐闹薪榻B了數(shù)據(jù)管道中的主要組成部分,包括精選 / 未篩選的數(shù)據(jù)源、圖像重復(fù)數(shù)據(jù)刪除步驟和檢索系統(tǒng)。整條 pipeline 不需要任何元數(shù)據(jù)或文本,直接處理圖像,如圖 3 所示。請(qǐng)讀者參閱附錄 A,了解有關(guān)模型方法的更多詳細(xì)信息。
圖 3:數(shù)據(jù)處理的 pipeline 概述。來(lái)自精編和非精編的數(shù)據(jù)源的圖像首先被映射到嵌入。然后,非精編的圖像在與標(biāo)準(zhǔn)圖像匹配之前對(duì)重復(fù)數(shù)據(jù)刪除。由此產(chǎn)生的組合通過(guò)自監(jiān)督檢索系統(tǒng)進(jìn)一步豐富擴(kuò)充了初始數(shù)據(jù)集。
判別性自監(jiān)督預(yù)訓(xùn)練
研究人員通過(guò)一種判別性的自監(jiān)督方法學(xué)習(xí)他們的特征,該方法可以看作是 DINO 和 iBOT 損失的結(jié)合,并以 SwAV 為中心。他們還添加了一個(gè)正則化器來(lái)傳播特征和一個(gè)簡(jiǎn)短的高分辨率訓(xùn)練階段。
高效實(shí)現(xiàn)
他們考慮了幾項(xiàng)改進(jìn),以在更大范圍內(nèi)訓(xùn)練模型。使用 PyTorch 2.0 在 A100 GPU 上訓(xùn)練模型,該代碼也可與用于特征提取的預(yù)訓(xùn)練模型一起使用。模型的詳細(xì)信息在附錄表 17 中。在相同的硬件下,與 iBOT 實(shí)現(xiàn)相比,DINOv2 代碼僅使用 1/3 的內(nèi)存,運(yùn)行速度提高到了前者的 2 倍。
實(shí)驗(yàn)結(jié)果
在本節(jié)中,研究者將介紹新模型在許多圖像理解任務(wù)上的實(shí)證評(píng)估。他們?cè)u(píng)估了全局和局部圖像表示,包括類別和實(shí)例級(jí)識(shí)別、語(yǔ)義分割、單目深度預(yù)測(cè)和動(dòng)作識(shí)別。
ImageNet 分類
其他圖像和視頻分類基準(zhǔn)
實(shí)例識(shí)別
密集識(shí)別任務(wù)
定性結(jié)果