自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="6ijal"><acronym id="6ijal"></acronym></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ConvNet與Transformer誰更強？Meta評測4個領(lǐng)先視覺模型，LeCun轉(zhuǎn)贊

作者：新智元 2024-01-18 13:38:00

人工智能新聞

當(dāng)前的視覺模型哪個更好？Meta團(tuán)隊最新一波研究來了。

如何根據(jù)特定需求選擇視覺模型？

ConvNet/ViT、supervised/CLIP模型，在ImageNet之外的指標(biāo)上如何相互比較？

來自MABZUAI和Meta的研究人員發(fā)表的最新研究，在「非標(biāo)準(zhǔn)」指標(biāo)上全面比較了常見的視覺模型。

論文地址：https://arxiv.org/pdf/2311.09215.pdf

就連LeCun稱贊道，非常酷的研究，比較了相似大小的ConvNext和VIT架構(gòu)，無論是在監(jiān)督模式下訓(xùn)練，還是使用CLIP方法進(jìn)行訓(xùn)練，并在各種屬性上進(jìn)行了比較。

超越ImageNet準(zhǔn)確性

計算機視覺模型格局，變得越來越多樣復(fù)雜。

從早期的ConvNets到Vision Transformers的演進(jìn)，可用模型的種類在不斷擴展。

類似地，訓(xùn)練范式已經(jīng)從ImageNet上的監(jiān)督訓(xùn)練，發(fā)展到自監(jiān)督學(xué)習(xí)、像CLIP這樣的圖像文本對訓(xùn)練。

在標(biāo)志著進(jìn)步的同時，這種選擇的爆炸式增長給從業(yè)者帶來了重大挑戰(zhàn)：如何選擇適合自己的目標(biāo)模型？

一直以來，ImageNet準(zhǔn)確率一直是評估模型性能的主要指標(biāo)。自從引發(fā)深度學(xué)習(xí)革命以來，它已經(jīng)推動了人工智能領(lǐng)域顯著的進(jìn)步。

不過，它卻無法衡量因不同架構(gòu)、訓(xùn)練范式和數(shù)據(jù)而產(chǎn)生的細(xì)微差別的模型。

如果僅根據(jù)ImageNet的準(zhǔn)確度來判斷，具有不同屬性的模型可能看起來很相似（圖 1）。隨著模型開始過度擬合ImageNet的特性，精度達(dá)到飽和，這種局限性就會變得更加明顯。

為了彌補差距，研究人員對ImageNet準(zhǔn)確性之外的模型行為進(jìn)行了深入探索。

為了研究架構(gòu)和訓(xùn)練目標(biāo)對模型性能的影響，具體比較了Vision Transformer (ViT)和ConvNeXt。這兩種現(xiàn)代架構(gòu)的ImageNet-1K驗證精度和計算要求相當(dāng)。

此外，研究對比了以DeiT3-Base/16和ConvNeXt-Base為代表的監(jiān)督模型，以及OpenCLIP基于CLIP模型的視覺編碼器。

結(jié)果分析

研究人員的分析旨在，研究無需進(jìn)一步訓(xùn)練或微調(diào)即可評估的模型行為。

這種方法對于計算資源有限的從業(yè)人員尤為重要，因為他們通常依賴于預(yù)訓(xùn)練模型。

具體分析中，雖然作者認(rèn)識到對象檢測等下游任務(wù)的價值，但重點是那些能以最小的計算需求提供洞察力的特性，以及反映對真實世界應(yīng)用非常重要的行為的特性。

模型錯誤

ImageNet-X是一個對ImageNet-1K進(jìn)行了擴展的數(shù)據(jù)集，其中包含16個變化因素的詳細(xì)人工標(biāo)注，從而能夠深入分析圖像分類中的模型錯誤。

它采用錯誤率（越低越好）來量化模型在特定因素上，相對于整體準(zhǔn)確性的表現(xiàn)，從而對模型錯誤進(jìn)行細(xì)致入微的分析。ImageNet-X 的結(jié)果表明：

1. 相對于其ImageNet準(zhǔn)確性，CLIP模型比受監(jiān)督的模型犯的錯誤更少。

2. 所有模型都主要受到遮擋等復(fù)雜因素的影響。

3. 紋理是所有模型中最具挑戰(zhàn)性的因素。

形狀/紋理偏差

形狀/紋理偏差會檢驗?zāi)Ｐ?，是否依賴于紋理快捷方式，而不是高級形狀提示。

這種偏向可以通過結(jié)合不同類別的形狀和紋理的提示沖突圖像來研究。

這種方法有助于了解與紋理相比，模型的決策在多大程度上是基于形狀的。

研究人員對提示沖突數(shù)據(jù)集上的形狀-紋理偏差進(jìn)行了評估，發(fā)現(xiàn)CLIP模型的紋理偏差小于監(jiān)督模型，而ViT模型的形狀偏差高于ConvNets。

模型校準(zhǔn)

校準(zhǔn)可量化模型的預(yù)測置信度與其實際準(zhǔn)確度是否一致。

這可以通過預(yù)期校準(zhǔn)誤差 (ECE) 等指標(biāo)，以及可靠性圖和置信度直方圖等可視化工具進(jìn)行評估。

研究人員在ImageNet-1K和ImageNet-R上對校準(zhǔn)進(jìn)行了評估，將預(yù)測分為15個等級。在實驗中，觀察到以下幾點：

- CLIP模型置信度高，而監(jiān)督模型則略顯不足。

- 有監(jiān)督的ConvNeXt比有監(jiān)督的ViT校準(zhǔn)得更好。

健壯性和可移植性

模型的健壯性和可移植性，是適應(yīng)數(shù)據(jù)分布變化和新任務(wù)的關(guān)鍵。

研究人員使用不同的ImageNet變體評估了穩(wěn)健性，發(fā)現(xiàn)雖然ViT和ConvNeXt模型具有類似的平均性能，但除了ImageNet-R和ImageNet-Sketch之外，監(jiān)督模型在穩(wěn)健性方面通常優(yōu)于CLIP。

在可移植性方面，使用VTAB基準(zhǔn)測試對19個數(shù)據(jù)集進(jìn)行評估，監(jiān)督ConvNeXt優(yōu)于ViT，幾乎與CLIP模型的性能相當(dāng)。

合成數(shù)據(jù)

像PUG-ImageNet這樣的合成數(shù)據(jù)集，可以精確控制相機角度和紋理等因素，成為一種很有前途的研究途徑，因此研究人員根據(jù)合成數(shù)據(jù)分析模型的性能。

PUG-ImageNet包含逼真的ImageNet圖像，這些圖像具有照明等因素的系統(tǒng)變化，性能以絕對最高準(zhǔn)確率來衡量。

研究人員提供了PUG-ImageNet中不同因素的結(jié)果，發(fā)現(xiàn)ConvNeXt在幾乎所有因素上都優(yōu)于ViT。

這表明ConvNeXt在合成數(shù)據(jù)上優(yōu)于ViT，而CLIP模型的差距較小，因為CLIP模型的準(zhǔn)確率低于監(jiān)督模型，這可能與原始ImageNet的準(zhǔn)確率較低有關(guān)。

特征不變性

特征不變性是指模型能夠產(chǎn)生一致的表征，不受輸入轉(zhuǎn)換的影響，從而保留語義，如縮放或移動。

這一特性使模型能夠在不同但語義相似的輸入中很好地泛化。

研究人員的方法包括，調(diào)整圖像大小以實現(xiàn)比例不變性，移動裁剪以實現(xiàn)位置不變性，以及使用內(nèi)插位置嵌入調(diào)整ViT模型的分辨率。

在有監(jiān)督的訓(xùn)練中，ConvNeXt的表現(xiàn)優(yōu)于ViT。

總體而言，模型對尺度/分辨率變換的魯棒性高于對移動的魯棒性。對于需要對縮放、位移和分辨率具有較高魯棒性的應(yīng)用，研究結(jié)果表明有監(jiān)督的ConvNeXt可能是最佳選擇。

研究人員發(fā)現(xiàn)，每種模型都有自己獨特的優(yōu)勢。

這表明模型的選擇應(yīng)該取決于目標(biāo)用例，因為標(biāo)準(zhǔn)的性能指標(biāo)可能會忽略關(guān)鍵任務(wù)特定的細(xì)微差別。

此外，許多現(xiàn)有的基準(zhǔn)是從ImageNet派生出來的，這對評估有偏見。開發(fā)具有不同數(shù)據(jù)分布的新基準(zhǔn)，對于在更具現(xiàn)實代表性的背景下評估模型至關(guān)重要。

ConvNet vs Transformer

- 在許多基準(zhǔn)測試中，有監(jiān)督的ConvNeXt比有監(jiān)督的VIT具有更好的性能：它更好地校準(zhǔn)，對數(shù)據(jù)轉(zhuǎn)換不變，表現(xiàn)出更好的可轉(zhuǎn)移性和健壯性。

- 在合成數(shù)據(jù)上，ConvNeXt的表現(xiàn)優(yōu)于ViT。

- ViT有較高的形狀偏向。

Supervised vs CLIP

- 盡管CLIP模型在可轉(zhuǎn)移性方面更好，但監(jiān)督的ConvNeXt在這項任務(wù)上表現(xiàn)出了競爭力。這展示了有監(jiān)督的模型的潛力。

- 監(jiān)督模型更擅長穩(wěn)健性基準(zhǔn)，這可能是因為這些模型是ImageNet的變體。

- CLIP模型具有較高的形狀偏差，與其ImageNet精度相比，分類錯誤較少。

責(zé)任編輯：張燕妮來源：新智元

AI 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="uk1pa"></u>

<p id="uk1pa"><table id="uk1pa"><b id="uk1pa"></b></table></p>