自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ConvNet與Transformer誰更強?Meta評測4個領(lǐng)先視覺模型,LeCun轉(zhuǎn)贊

人工智能 新聞
當(dāng)前的視覺模型哪個更好?Meta團(tuán)隊最新一波研究來了。

如何根據(jù)特定需求選擇視覺模型?

ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指標(biāo)上如何相互比較?

來自MABZUAI和Meta的研究人員發(fā)表的最新研究,在「非標(biāo)準(zhǔn)」指標(biāo)上全面比較了常見的視覺模型。

圖片

論文地址:https://arxiv.org/pdf/2311.09215.pdf

就連LeCun稱贊道,非常酷的研究,比較了相似大小的ConvNext和VIT架構(gòu),無論是在監(jiān)督模式下訓(xùn)練,還是使用CLIP方法進(jìn)行訓(xùn)練,并在各種屬性上進(jìn)行了比較。

圖片

超越ImageNet準(zhǔn)確性

計算機視覺模型格局,變得越來越多樣復(fù)雜。

從早期的ConvNets到Vision Transformers的演進(jìn),可用模型的種類在不斷擴展。

類似地,訓(xùn)練范式已經(jīng)從ImageNet上的監(jiān)督訓(xùn)練,發(fā)展到自監(jiān)督學(xué)習(xí)、像CLIP這樣的圖像文本對訓(xùn)練。

在標(biāo)志著進(jìn)步的同時,這種選擇的爆炸式增長給從業(yè)者帶來了重大挑戰(zhàn):如何選擇適合自己的目標(biāo)模型?

一直以來,ImageNet準(zhǔn)確率一直是評估模型性能的主要指標(biāo)。自從引發(fā)深度學(xué)習(xí)革命以來,它已經(jīng)推動了人工智能領(lǐng)域顯著的進(jìn)步。

不過,它卻無法衡量因不同架構(gòu)、訓(xùn)練范式和數(shù)據(jù)而產(chǎn)生的細(xì)微差別的模型。

如果僅根據(jù)ImageNet的準(zhǔn)確度來判斷,具有不同屬性的模型可能看起來很相似(圖 1)。隨著模型開始過度擬合ImageNet的特性,精度達(dá)到飽和,這種局限性就會變得更加明顯。

圖片

為了彌補差距,研究人員對ImageNet準(zhǔn)確性之外的模型行為進(jìn)行了深入探索。

為了研究架構(gòu)和訓(xùn)練目標(biāo)對模型性能的影響,具體比較了Vision Transformer (ViT)和ConvNeXt。這兩種現(xiàn)代架構(gòu)的ImageNet-1K驗證精度和計算要求相當(dāng)。

此外,研究對比了以DeiT3-Base/16和ConvNeXt-Base為代表的監(jiān)督模型,以及OpenCLIP基于CLIP模型的視覺編碼器。

圖片

結(jié)果分析

研究人員的分析旨在,研究無需進(jìn)一步訓(xùn)練或微調(diào)即可評估的模型行為。

這種方法對于計算資源有限的從業(yè)人員尤為重要,因為他們通常依賴于預(yù)訓(xùn)練模型。

具體分析中,雖然作者認(rèn)識到對象檢測等下游任務(wù)的價值,但重點是那些能以最小的計算需求提供洞察力的特性,以及反映對真實世界應(yīng)用非常重要的行為的特性。

模型錯誤

ImageNet-X是一個對ImageNet-1K進(jìn)行了擴展的數(shù)據(jù)集,其中包含16個變化因素的詳細(xì)人工標(biāo)注,從而能夠深入分析圖像分類中的模型錯誤。

它采用錯誤率(越低越好)來量化模型在特定因素上,相對于整體準(zhǔn)確性的表現(xiàn),從而對模型錯誤進(jìn)行細(xì)致入微的分析。ImageNet-X 的結(jié)果表明:

1. 相對于其ImageNet準(zhǔn)確性,CLIP模型比受監(jiān)督的模型犯的錯誤更少。

2. 所有模型都主要受到遮擋等復(fù)雜因素的影響。

3. 紋理是所有模型中最具挑戰(zhàn)性的因素。

圖片

圖片

形狀/紋理偏差

形狀/紋理偏差會檢驗?zāi)P?,是否依賴于紋理快捷方式,而不是高級形狀提示。

這種偏向可以通過結(jié)合不同類別的形狀和紋理的提示沖突圖像來研究。

這種方法有助于了解與紋理相比,模型的決策在多大程度上是基于形狀的。

研究人員對提示沖突數(shù)據(jù)集上的形狀-紋理偏差進(jìn)行了評估,發(fā)現(xiàn)CLIP模型的紋理偏差小于監(jiān)督模型,而ViT模型的形狀偏差高于ConvNets。

圖片

模型校準(zhǔn)

校準(zhǔn)可量化模型的預(yù)測置信度與其實際準(zhǔn)確度是否一致。

這可以通過預(yù)期校準(zhǔn)誤差 (ECE) 等指標(biāo),以及可靠性圖和置信度直方圖等可視化工具進(jìn)行評估。

研究人員在ImageNet-1K和ImageNet-R上對校準(zhǔn)進(jìn)行了評估,將預(yù)測分為15個等級。在實驗中,觀察到以下幾點:

- CLIP模型置信度高,而監(jiān)督模型則略顯不足。

- 有監(jiān)督的ConvNeXt比有監(jiān)督的ViT校準(zhǔn)得更好。

圖片

健壯性和可移植性

模型的健壯性和可移植性,是適應(yīng)數(shù)據(jù)分布變化和新任務(wù)的關(guān)鍵。

研究人員使用不同的ImageNet變體評估了穩(wěn)健性,發(fā)現(xiàn)雖然ViT和ConvNeXt模型具有類似的平均性能,但除了ImageNet-R和ImageNet-Sketch之外,監(jiān)督模型在穩(wěn)健性方面通常優(yōu)于CLIP。

在可移植性方面,使用VTAB基準(zhǔn)測試對19個數(shù)據(jù)集進(jìn)行評估,監(jiān)督ConvNeXt優(yōu)于ViT,幾乎與CLIP模型的性能相當(dāng)。

圖片

合成數(shù)據(jù)

像PUG-ImageNet這樣的合成數(shù)據(jù)集,可以精確控制相機角度和紋理等因素,成為一種很有前途的研究途徑,因此研究人員根據(jù)合成數(shù)據(jù)分析模型的性能。

PUG-ImageNet包含逼真的ImageNet圖像,這些圖像具有照明等因素的系統(tǒng)變化,性能以絕對最高準(zhǔn)確率來衡量。

研究人員提供了PUG-ImageNet中不同因素的結(jié)果,發(fā)現(xiàn)ConvNeXt在幾乎所有因素上都優(yōu)于ViT。

這表明ConvNeXt在合成數(shù)據(jù)上優(yōu)于ViT,而CLIP模型的差距較小,因為CLIP模型的準(zhǔn)確率低于監(jiān)督模型,這可能與原始ImageNet的準(zhǔn)確率較低有關(guān)。

圖片

特征不變性

特征不變性是指模型能夠產(chǎn)生一致的表征,不受輸入轉(zhuǎn)換的影響,從而保留語義,如縮放或移動。

這一特性使模型能夠在不同但語義相似的輸入中很好地泛化。

研究人員的方法包括,調(diào)整圖像大小以實現(xiàn)比例不變性,移動裁剪以實現(xiàn)位置不變性,以及使用內(nèi)插位置嵌入調(diào)整ViT模型的分辨率。

在有監(jiān)督的訓(xùn)練中,ConvNeXt的表現(xiàn)優(yōu)于ViT。

總體而言,模型對尺度/分辨率變換的魯棒性高于對移動的魯棒性。對于需要對縮放、位移和分辨率具有較高魯棒性的應(yīng)用,研究結(jié)果表明有監(jiān)督的ConvNeXt可能是最佳選擇。

圖片

研究人員發(fā)現(xiàn),每種模型都有自己獨特的優(yōu)勢。

這表明模型的選擇應(yīng)該取決于目標(biāo)用例,因為標(biāo)準(zhǔn)的性能指標(biāo)可能會忽略關(guān)鍵任務(wù)特定的細(xì)微差別。

此外,許多現(xiàn)有的基準(zhǔn)是從ImageNet派生出來的,這對評估有偏見。開發(fā)具有不同數(shù)據(jù)分布的新基準(zhǔn),對于在更具現(xiàn)實代表性的背景下評估模型至關(guān)重要。

ConvNet vs Transformer

- 在許多基準(zhǔn)測試中,有監(jiān)督的ConvNeXt比有監(jiān)督的VIT具有更好的性能:它更好地校準(zhǔn),對數(shù)據(jù)轉(zhuǎn)換不變,表現(xiàn)出更好的可轉(zhuǎn)移性和健壯性。

- 在合成數(shù)據(jù)上,ConvNeXt的表現(xiàn)優(yōu)于ViT。

- ViT有較高的形狀偏向。

Supervised vs CLIP

- 盡管CLIP模型在可轉(zhuǎn)移性方面更好,但監(jiān)督的ConvNeXt在這項任務(wù)上表現(xiàn)出了競爭力。這展示了有監(jiān)督的模型的潛力。

- 監(jiān)督模型更擅長穩(wěn)健性基準(zhǔn),這可能是因為這些模型是ImageNet的變體。

- CLIP模型具有較高的形狀偏差,與其ImageNet精度相比,分類錯誤較少。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-23 13:45:15

GPT-4RLHF性能

2023-01-02 13:33:25

2021-09-18 15:35:00

模型人工智能深度學(xué)習(xí)

2024-06-26 13:21:50

2023-12-20 13:34:56

2023-05-30 13:57:52

模型速度

2024-11-08 14:10:00

模型視頻生成

2024-07-19 11:50:28

2010-01-22 11:23:06

C++程序

2020-10-05 22:00:59

深度學(xué)習(xí)編程人工智能

2022-02-15 15:38:02

人工智能機器學(xué)習(xí)Meta

2023-12-06 09:37:55

模型視覺

2016-11-02 09:20:01

SparkHadoop MapR大數(shù)據(jù)

2023-05-16 07:35:29

2024-06-18 09:43:26

2023-03-13 15:42:00

模型芯片

2024-02-26 08:25:00

模型訓(xùn)練

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2023-02-21 16:28:12

Transforme模型

2022-06-20 09:00:00

深度學(xué)習(xí)人工智能研究
點贊
收藏

51CTO技術(shù)棧公眾號