DeepMind:誰說卷積網(wǎng)絡(luò)不如ViT?
深度學(xué)習(xí)的早期成功可歸功于卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)的發(fā)展。近十年來,ConvNets 主導(dǎo)了計(jì)算機(jī)視覺基準(zhǔn)測(cè)試。然而近年來,它們?cè)絹碓蕉嗟乇?ViTs(Vision Transformers)所取代。
很多人認(rèn)為,ConvNets 在小型或中等規(guī)模的數(shù)據(jù)集上表現(xiàn)良好,但在那種比較大的網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集上卻無法與 ViTs 相競(jìng)爭(zhēng)。
與此同時(shí),CV 社區(qū)已經(jīng)從評(píng)估隨機(jī)初始化網(wǎng)絡(luò)在特定數(shù)據(jù)集 (如 ImageNet) 上的性能轉(zhuǎn)變?yōu)樵u(píng)估從網(wǎng)絡(luò)收集的大型通用數(shù)據(jù)集上預(yù)訓(xùn)練的網(wǎng)絡(luò)的性能。這就提出了一個(gè)重要的問題:在類似的計(jì)算預(yù)算下,Vision Transformers 是否優(yōu)于預(yù)先訓(xùn)練的 ConvNets 架構(gòu)?
本文,來自 Google DeepMind 的研究者對(duì)這一問題進(jìn)行了探究,他們通過在不同尺度的 JFT-4B 數(shù)據(jù)集(用于訓(xùn)練基礎(chǔ)模型的大型標(biāo)簽圖像數(shù)據(jù)集)上對(duì)多種 NFNet 模型進(jìn)行預(yù)訓(xùn)練,從而獲得了類似于 ViTs 在 ImageNet 上的性能。
論文地址:https://arxiv.org/pdf/2310.16764.pdf
本文考慮的預(yù)訓(xùn)練計(jì)算預(yù)算在 0.4k 到 110k TPU-v4 核計(jì)算小時(shí)之間,并通過增加 NFNet 模型家族的深度和寬度來訓(xùn)練一系列網(wǎng)絡(luò)。本文觀察到這一現(xiàn)象,即 held out 損失與計(jì)算預(yù)算之間存在 log-log 擴(kuò)展率(scaling law)。
例如,本文將在 JFT-4B 上預(yù)訓(xùn)練的 NFNet 從 0.4k 擴(kuò)展到 110k TPU-v4 核小時(shí)(core hours)。經(jīng)過微調(diào)后,最大的模型達(dá)到了 90.4% 的 ImageNet Top-1,在類似的計(jì)算預(yù)算下與預(yù)訓(xùn)練的 ViT 相競(jìng)爭(zhēng)。
可以說,本文通過評(píng)估按比例擴(kuò)大的 NFNets,挑戰(zhàn)了 ConvNets 在大規(guī)模數(shù)據(jù)集上表現(xiàn)不如 ViTs 的觀點(diǎn)。此外,在足夠的數(shù)據(jù)和計(jì)算條件下,ConvNets 仍然具有競(jìng)爭(zhēng)力,模型設(shè)計(jì)和資源比架構(gòu)更重要。
看到這項(xiàng)研究后,圖靈獎(jiǎng)得主 Yann LeCun 表示:「計(jì)算是你所需要的,在給定的計(jì)算量下,ViT 和 ConvNets 相媲美。盡管 ViTs 在計(jì)算機(jī)視覺方面的成功令人印象深刻,但在我看來,沒有強(qiáng)有力的證據(jù)表明,在公平評(píng)估時(shí),預(yù)訓(xùn)練的 ViT 優(yōu)于預(yù)訓(xùn)練的 ConvNets。」
不過有網(wǎng)友評(píng)論 LeCun,他認(rèn)為 ViT 在多模態(tài)模型中的使用可能仍然使它在研究中具有優(yōu)勢(shì)。
來自 Google DeepMind 的研究者表示:ConvNets 永遠(yuǎn)不會(huì)消失。
接下來我們看看論文具體內(nèi)容。
預(yù)訓(xùn)練的 NFNets 遵循擴(kuò)展定律
本文在 JFT-4B 上訓(xùn)練了一系列不同深度和寬度的 NFNet 模型。
如下圖 2 所示,驗(yàn)證損失與訓(xùn)練模型的計(jì)算預(yù)算呈線性關(guān)系,這與使用 Transformer 進(jìn)行語言建模(Brown et al., 2020; Hoffmann et al., 2022)時(shí)觀察到的雙對(duì)數(shù)(log-log)擴(kuò)展定律相匹配。最佳模型大小和最佳 epoch 預(yù)算(實(shí)現(xiàn)最低驗(yàn)證損失)都會(huì)隨著計(jì)算預(yù)算的增加而增加。
下圖 3 繪制了 3 個(gè)模型在一系列 epoch 預(yù)算中觀察到的最佳學(xué)習(xí)率(最大限度地減少驗(yàn)證損失)。研究團(tuán)隊(duì)發(fā)現(xiàn)對(duì)于較低的 epoch 預(yù)算,NFNet 系列模型都顯示出類似的最佳學(xué)習(xí)率 ?? ≈ 1.6。然而,隨著 epoch 預(yù)算的增加,最優(yōu)學(xué)習(xí)率會(huì)下降,并且對(duì)于大型模型,最優(yōu)學(xué)習(xí)率下降得更快。研究團(tuán)隊(duì)表示可以假設(shè)最優(yōu)學(xué)習(xí)率隨著模型大小和 epoch 預(yù)算的增加而緩慢且單調(diào)地下降,從而在 2 次試驗(yàn)內(nèi)有效地調(diào)整學(xué)習(xí)率。
值得注意的是,圖 2 中一些預(yù)訓(xùn)練模型的表現(xiàn)不如預(yù)期。研究團(tuán)隊(duì)認(rèn)為出現(xiàn)這種情況是因?yàn)槿绻?xùn)練運(yùn)行被搶占 / 重新啟動(dòng),那么數(shù)據(jù)加載 pipeline 不能保證每個(gè)訓(xùn)練樣本在每個(gè) epoch 都會(huì)采樣一次,如果訓(xùn)練運(yùn)行多次重新啟動(dòng),則可能導(dǎo)致某些訓(xùn)練樣本采樣次數(shù)不足。
NFNet vs ViT
該研究在 ImageNet 上的實(shí)驗(yàn)表明:經(jīng)過微調(diào)的 NFNet 與 Vision Transformer 性能相當(dāng)。
具體來說,該研究在 ImageNet 上微調(diào)了預(yù)訓(xùn)練 NFNet,并繪制了預(yù)訓(xùn)練計(jì)算與 Top-1 error 關(guān)系圖,如上述圖 1 所示。
隨著計(jì)算預(yù)算的增加,ImageNet Top-1 準(zhǔn)確性不斷提高。其中最昂貴的預(yù)訓(xùn)練模型是預(yù)訓(xùn)練 8 個(gè) epoch 的 NFNet-F7+,ImageNet Top-1 準(zhǔn)確率達(dá)到了 90.3%,需要大約 110k TPU-v4 核小時(shí)進(jìn)行預(yù)訓(xùn)練和 1.6k TPU-v4 核小時(shí)進(jìn)行微調(diào)。此外,如果在微調(diào)期間額外引入重復(fù)增強(qiáng)(repeated augmentation),那么可以實(shí)現(xiàn) 90.4% 的 Top-1 準(zhǔn)確率。NFNet 從大規(guī)模預(yù)訓(xùn)練中受益匪淺。
盡管 NFNet 和 ViT 兩種模型架構(gòu)之間存在顯著差異,但預(yù)訓(xùn)練 NFNet 與預(yù)訓(xùn)練 ViT 性能相當(dāng)。例如,在 JFT-3B 上預(yù)訓(xùn)練 210k TPU-v3 核小時(shí)后,ViT-g/14 在 ImageNet 上實(shí)現(xiàn)了 90.2% 的 Top-1 準(zhǔn)確率,在 JFT-3B 上預(yù)訓(xùn)練超過 500k TPU-v3 核小時(shí)后,ViT-G/14 實(shí)現(xiàn)了 90.45% 的 Top-1 準(zhǔn)確率。
本文評(píng)估了這些模型在 TPU-v4 上的預(yù)訓(xùn)練速度,并估計(jì) ViT-g/14 需要 120k TPU-v4 核小時(shí)來預(yù)訓(xùn)練,而 ViTG/14 則需要 280k TPU-v4 核小時(shí)數(shù),SoViT-400m/14 將需要 130k TPU-v4 核小時(shí)數(shù)。本文使用這些估計(jì)來比較圖 1 中 ViT 和 NFNet 的預(yù)訓(xùn)練效率。研究注意到,NFNet 針對(duì) TPU-v4 進(jìn)行了優(yōu)化,在其他設(shè)備上評(píng)估時(shí)表現(xiàn)較差。
最后,本文注意到,預(yù)訓(xùn)練的 checkpoints 在 JFT-4B 上實(shí)現(xiàn)了最低的驗(yàn)證損失,然而微調(diào)后并不總能在 ImageNet 上實(shí)現(xiàn)最高的 Top-1 準(zhǔn)確率。特別是,本文發(fā)現(xiàn),在固定的預(yù)訓(xùn)練計(jì)算預(yù)算下,微調(diào)機(jī)制始終傾向于稍大的模型和稍小的 epoch 預(yù)算。直觀上來說,更大的模型具有更大的容量,因此能夠更好地適應(yīng)新任務(wù)。在某些情況下,稍大的學(xué)習(xí)率(在預(yù)訓(xùn)練期間)在微調(diào)后也能獲得更好的性能。