ConvNet與Transformer誰更強?Meta評測4個領(lǐng)先視覺模型,LeCun轉(zhuǎn)贊
如何根據(jù)特定需求選擇視覺模型?
ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指標(biāo)上如何相互比較?
來自MABZUAI和Meta的研究人員發(fā)表的最新研究,在「非標(biāo)準(zhǔn)」指標(biāo)上全面比較了常見的視覺模型。
論文地址:https://arxiv.org/pdf/2311.09215.pdf
就連LeCun稱贊道,非常酷的研究,比較了相似大小的ConvNext和VIT架構(gòu),無論是在監(jiān)督模式下訓(xùn)練,還是使用CLIP方法進(jìn)行訓(xùn)練,并在各種屬性上進(jìn)行了比較。
超越ImageNet準(zhǔn)確性
計算機視覺模型格局,變得越來越多樣復(fù)雜。
從早期的ConvNets到Vision Transformers的演進(jìn),可用模型的種類在不斷擴展。
類似地,訓(xùn)練范式已經(jīng)從ImageNet上的監(jiān)督訓(xùn)練,發(fā)展到自監(jiān)督學(xué)習(xí)、像CLIP這樣的圖像文本對訓(xùn)練。
在標(biāo)志著進(jìn)步的同時,這種選擇的爆炸式增長給從業(yè)者帶來了重大挑戰(zhàn):如何選擇適合自己的目標(biāo)模型?
一直以來,ImageNet準(zhǔn)確率一直是評估模型性能的主要指標(biāo)。自從引發(fā)深度學(xué)習(xí)革命以來,它已經(jīng)推動了人工智能領(lǐng)域顯著的進(jìn)步。
不過,它卻無法衡量因不同架構(gòu)、訓(xùn)練范式和數(shù)據(jù)而產(chǎn)生的細(xì)微差別的模型。
如果僅根據(jù)ImageNet的準(zhǔn)確度來判斷,具有不同屬性的模型可能看起來很相似(圖 1)。隨著模型開始過度擬合ImageNet的特性,精度達(dá)到飽和,這種局限性就會變得更加明顯。
為了彌補差距,研究人員對ImageNet準(zhǔn)確性之外的模型行為進(jìn)行了深入探索。
為了研究架構(gòu)和訓(xùn)練目標(biāo)對模型性能的影響,具體比較了Vision Transformer (ViT)和ConvNeXt。這兩種現(xiàn)代架構(gòu)的ImageNet-1K驗證精度和計算要求相當(dāng)。
此外,研究對比了以DeiT3-Base/16和ConvNeXt-Base為代表的監(jiān)督模型,以及OpenCLIP基于CLIP模型的視覺編碼器。
結(jié)果分析
研究人員的分析旨在,研究無需進(jìn)一步訓(xùn)練或微調(diào)即可評估的模型行為。
這種方法對于計算資源有限的從業(yè)人員尤為重要,因為他們通常依賴于預(yù)訓(xùn)練模型。
具體分析中,雖然作者認(rèn)識到對象檢測等下游任務(wù)的價值,但重點是那些能以最小的計算需求提供洞察力的特性,以及反映對真實世界應(yīng)用非常重要的行為的特性。
模型錯誤
ImageNet-X是一個對ImageNet-1K進(jìn)行了擴展的數(shù)據(jù)集,其中包含16個變化因素的詳細(xì)人工標(biāo)注,從而能夠深入分析圖像分類中的模型錯誤。
它采用錯誤率(越低越好)來量化模型在特定因素上,相對于整體準(zhǔn)確性的表現(xiàn),從而對模型錯誤進(jìn)行細(xì)致入微的分析。ImageNet-X 的結(jié)果表明:
1. 相對于其ImageNet準(zhǔn)確性,CLIP模型比受監(jiān)督的模型犯的錯誤更少。
2. 所有模型都主要受到遮擋等復(fù)雜因素的影響。
3. 紋理是所有模型中最具挑戰(zhàn)性的因素。
形狀/紋理偏差
形狀/紋理偏差會檢驗?zāi)P?,是否依賴于紋理快捷方式,而不是高級形狀提示。
這種偏向可以通過結(jié)合不同類別的形狀和紋理的提示沖突圖像來研究。
這種方法有助于了解與紋理相比,模型的決策在多大程度上是基于形狀的。
研究人員對提示沖突數(shù)據(jù)集上的形狀-紋理偏差進(jìn)行了評估,發(fā)現(xiàn)CLIP模型的紋理偏差小于監(jiān)督模型,而ViT模型的形狀偏差高于ConvNets。
模型校準(zhǔn)
校準(zhǔn)可量化模型的預(yù)測置信度與其實際準(zhǔn)確度是否一致。
這可以通過預(yù)期校準(zhǔn)誤差 (ECE) 等指標(biāo),以及可靠性圖和置信度直方圖等可視化工具進(jìn)行評估。
研究人員在ImageNet-1K和ImageNet-R上對校準(zhǔn)進(jìn)行了評估,將預(yù)測分為15個等級。在實驗中,觀察到以下幾點:
- CLIP模型置信度高,而監(jiān)督模型則略顯不足。
- 有監(jiān)督的ConvNeXt比有監(jiān)督的ViT校準(zhǔn)得更好。
健壯性和可移植性
模型的健壯性和可移植性,是適應(yīng)數(shù)據(jù)分布變化和新任務(wù)的關(guān)鍵。
研究人員使用不同的ImageNet變體評估了穩(wěn)健性,發(fā)現(xiàn)雖然ViT和ConvNeXt模型具有類似的平均性能,但除了ImageNet-R和ImageNet-Sketch之外,監(jiān)督模型在穩(wěn)健性方面通常優(yōu)于CLIP。
在可移植性方面,使用VTAB基準(zhǔn)測試對19個數(shù)據(jù)集進(jìn)行評估,監(jiān)督ConvNeXt優(yōu)于ViT,幾乎與CLIP模型的性能相當(dāng)。
合成數(shù)據(jù)
像PUG-ImageNet這樣的合成數(shù)據(jù)集,可以精確控制相機角度和紋理等因素,成為一種很有前途的研究途徑,因此研究人員根據(jù)合成數(shù)據(jù)分析模型的性能。
PUG-ImageNet包含逼真的ImageNet圖像,這些圖像具有照明等因素的系統(tǒng)變化,性能以絕對最高準(zhǔn)確率來衡量。
研究人員提供了PUG-ImageNet中不同因素的結(jié)果,發(fā)現(xiàn)ConvNeXt在幾乎所有因素上都優(yōu)于ViT。
這表明ConvNeXt在合成數(shù)據(jù)上優(yōu)于ViT,而CLIP模型的差距較小,因為CLIP模型的準(zhǔn)確率低于監(jiān)督模型,這可能與原始ImageNet的準(zhǔn)確率較低有關(guān)。
特征不變性
特征不變性是指模型能夠產(chǎn)生一致的表征,不受輸入轉(zhuǎn)換的影響,從而保留語義,如縮放或移動。
這一特性使模型能夠在不同但語義相似的輸入中很好地泛化。
研究人員的方法包括,調(diào)整圖像大小以實現(xiàn)比例不變性,移動裁剪以實現(xiàn)位置不變性,以及使用內(nèi)插位置嵌入調(diào)整ViT模型的分辨率。
在有監(jiān)督的訓(xùn)練中,ConvNeXt的表現(xiàn)優(yōu)于ViT。
總體而言,模型對尺度/分辨率變換的魯棒性高于對移動的魯棒性。對于需要對縮放、位移和分辨率具有較高魯棒性的應(yīng)用,研究結(jié)果表明有監(jiān)督的ConvNeXt可能是最佳選擇。
研究人員發(fā)現(xiàn),每種模型都有自己獨特的優(yōu)勢。
這表明模型的選擇應(yīng)該取決于目標(biāo)用例,因為標(biāo)準(zhǔn)的性能指標(biāo)可能會忽略關(guān)鍵任務(wù)特定的細(xì)微差別。
此外,許多現(xiàn)有的基準(zhǔn)是從ImageNet派生出來的,這對評估有偏見。開發(fā)具有不同數(shù)據(jù)分布的新基準(zhǔn),對于在更具現(xiàn)實代表性的背景下評估模型至關(guān)重要。
ConvNet vs Transformer
- 在許多基準(zhǔn)測試中,有監(jiān)督的ConvNeXt比有監(jiān)督的VIT具有更好的性能:它更好地校準(zhǔn),對數(shù)據(jù)轉(zhuǎn)換不變,表現(xiàn)出更好的可轉(zhuǎn)移性和健壯性。
- 在合成數(shù)據(jù)上,ConvNeXt的表現(xiàn)優(yōu)于ViT。
- ViT有較高的形狀偏向。
Supervised vs CLIP
- 盡管CLIP模型在可轉(zhuǎn)移性方面更好,但監(jiān)督的ConvNeXt在這項任務(wù)上表現(xiàn)出了競爭力。這展示了有監(jiān)督的模型的潛力。
- 監(jiān)督模型更擅長穩(wěn)健性基準(zhǔn),這可能是因為這些模型是ImageNet的變體。
- CLIP模型具有較高的形狀偏差,與其ImageNet精度相比,分類錯誤較少。