自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="29pg5"><input id="29pg5"></input></sup>

<style id="29pg5"></style>

^{<thead id="29pg5"></thead>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

作者：夢晨 2022-01-17 09:19:12

新聞人工智能

隨著投身視覺Transformer研究的學(xué)者越來越多，三大任務(wù)榜單皆被Transformer或兩種架構(gòu)結(jié)合的模型占據(jù)頭部。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

過去一年，Transformer頻頻跨界視覺領(lǐng)域，大有搶CNN飯碗之勢。

先是圖像分類上被谷歌ViT突破，后來目標(biāo)檢測和圖像分割又被微軟Swin Transformer拿下。

隨著投身視覺Transformer研究的學(xué)者越來越多，三大任務(wù)榜單皆被Transformer或兩種架構(gòu)結(jié)合的模型占據(jù)頭部。

但就在此時，一篇《2020年代的卷積網(wǎng)絡(luò)》橫空出世，帶來全新純卷積模型ConvNeXt，一下又熱鬧起來——

全世界CV圈再次掀起模型架構(gòu)之爭，LeCun等一眾頂級學(xué)者都下場評論的那種。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

論文指出，ConvNeXt性能反超同等規(guī)模的Swin Transformer，在ImageNet-1k上超過后者0.7%。

COCO、ADE20K上，ConvNeXt也做到同等規(guī)模更好或相當(dāng)水平。

面對這篇由Facebook與UC伯克利聯(lián)手打造的論文，深度學(xué)習(xí)三巨頭之一的LeCun直言：

卷積模型與視覺Transformer間的爭論愈演愈烈了！

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

GitHub上，ConvNeXt連續(xù)多天排在趨勢榜第一。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

在國內(nèi)，如此垂直的學(xué)術(shù)問題甚至一度登上知乎全站熱榜。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

在國外，不少高校學(xué)者和谷歌、Arm等大廠工程師都來參與討論，甚至捕捉到一些經(jīng)典論文作者——

ViT作者、EfficientNet系列作者都來展示自己的最新研究成果，想要一比高下。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

△ViT論文二作補(bǔ)充了改進(jìn)訓(xùn)練方法后的結(jié)果

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

△EfficientNet系列作者補(bǔ)充了最新v2版本結(jié)果

再說回LeCun，這次他還真不是來給自家成果站臺的，而是提出模型架構(gòu)之間相互借鑒是未來的方向。

你以為我接下來要說“Conv is all you need”了嗎？不是！

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

原來LeCun自己最喜歡的架構(gòu)類似DETR，第一層是卷積，后面與更多Transformer風(fēng)格的層相結(jié)合。

雖然這次的ConvNeXt不是他說的這種，但也從Transformer身上借鑒了大量技巧，LeCun覺得其成功之處就在于此。

這次論文的通訊作者謝賽寧也對這些討論作出了回應(yīng)。

他說這并不是一篇想要比拼精度刷榜單的論文，更多的是想探索卷積模型的設(shè)計空間。

在設(shè)計過程中他們團(tuán)隊非?？酥?，盡量保持了模型的簡潔。

在我看來，所有模型架構(gòu)都應(yīng)該是朋友，只有過度復(fù)雜才是共同的敵人（如果你認(rèn)同奧卡姆剃刀原則的話）。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

到底誰是最強(qiáng)架構(gòu)拋開不談，參與討論的一眾大佬們對這篇論文本身都有一個共同感受：

圖表精美，結(jié)構(gòu)清晰，實(shí)驗充分，值得一讀！

特別是其中有一張精美插圖，可以說是全文的精華，也是作者自己提供的“一圖看懂”。

圖中清晰呈現(xiàn)了一步步把ResNet-50從78.8%精度提升到82.0%的全步驟，及所用到的方法。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

下面就先來介紹一下這篇論文，了解一下ConvNeXt所用的方法和來龍去脈。

之后再來看架構(gòu)之爭，相信會有不一樣的視角～

給CNN披上Transformer的皮

先看摘要，其中有關(guān)鍵的一句話闡明了這篇論文的研究初衷。

……本文旨在重新審視CNN的設(shè)計空間，用現(xiàn)代方法在ResNet基礎(chǔ)上做優(yōu)化，測試純卷積模型的性能極限……

團(tuán)隊認(rèn)為雖然Transformer在視覺上大獲成功，但全局注意力機(jī)制的復(fù)雜度是與輸入圖像尺寸的平方呈正比的。

對ImageNet圖像分類任務(wù)的224×224、384×384分辨率來說還算可以接受，需要高分辨率圖像的實(shí)際應(yīng)用場景下就不太理想。

Swin Transformer靠重新引入卷積網(wǎng)絡(luò)中的滑動窗口等諸多特性彌補(bǔ)了這個問題，但也讓Transformer變得更像CNN了。

Swin Transformer的成功讓他們重新認(rèn)識到卷積的重要性。

據(jù)此，這篇論文的研究思路便是：

如果讓卷積模型也借鑒Transformer架構(gòu)中的各種方法，但始終不引入注意力模塊，能取得什么效果？

論文最后所呈現(xiàn)出來的，是把標(biāo)準(zhǔn)ResNet一步步改造得更像Transformer的路線圖。

也就是上面提到的那張廣受好評的圖。

條形圖中，有顏色的部分代表Swint-T與ResNet-50在各種條件下的模型精度比較。

灰色部分是更大規(guī)模的Swin-B與ResNet-200之間的比較，帶陰影的地方說明這個方法最后未被采用。

為了公平對比，模型的計算量在整個過程中也大致保持與Swin Transformer同水平。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

研究團(tuán)隊把改動之處總結(jié)成五個部分：

宏觀設(shè)計、引入ResNeXt、反轉(zhuǎn)瓶頸層、增大卷積核、微觀設(shè)計

不過在詳細(xì)解釋每個部分之前，先要介紹一下訓(xùn)練方法上的改進(jìn)。

0、訓(xùn)練方法

視覺Transformer不僅帶來一套新的模塊和架構(gòu)設(shè)計，也采用了與傳統(tǒng)CNN不同的訓(xùn)練方法。

論文中采用的是與DeiT和Swin Transformer相似的訓(xùn)練方法。

先把epoch從ResNet的90增加到300，同時改用AdamW優(yōu)化器。

數(shù)據(jù)增強(qiáng)方面引入了Mixup、Cutmix、RandAugment和Random Erasing。

正則化方面使用了隨機(jī)深度（Stochastic Depth）和標(biāo)簽平滑（Label Smoothing）。

采用這些方法后，torchvision版ResNet-50的性能提升了2.7%，從76.1%升到78.8%。

（使用ImageNet-1k上224x244分辨率圖像訓(xùn)練的top 1精度，下同）

這一結(jié)果證明，傳統(tǒng)卷積模型與視覺Transformer之間的性能差異也有一部分來自訓(xùn)練方法。

接下來進(jìn)入對模型本身5大項改動的詳細(xì)介紹。

1、宏觀設(shè)計

這部分主要有兩項改動，參考的也是Swin Transformer。

首先是block數(shù)量的比例分配，原版ResNet-50的4個階段中是按（3, 4, 6, 3）分配。

Swin Transformer借鑒了多階段的，每個階段輸出不同分辨率的y思想，但比例改成了1：1：3：1。

ConvNeXt跟隨這個比例按（3，3，9，3）分配，結(jié)果是模型精度提高了0.6%，到達(dá)79.4%。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

不過根據(jù)此前Facebook團(tuán)隊的兩項研究，團(tuán)隊認(rèn)為更優(yōu)的比例也可能存在，有待繼續(xù)探索。

這部分的第二項改動是在stem層。

傳統(tǒng)ResNet-50的做法是一個步長為2的7x7的卷積加上最大池化，相當(dāng)于對輸入圖像做了4倍的下采樣。

從ViT開始會先把輸入圖像切成一個個patch，對每個patch的操作不再重疊。

Swin Transformer的patch尺寸是4x4，所以ConvNeXt也設(shè)置成步長為4的4x4非重疊卷積。

這項改動給模型精度再度帶來0.1%的提升，現(xiàn)在到了79.5%。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

2、引入ResNeXt

ResNeXt是本篇論文通訊作者謝賽寧在Facebook何愷明組實(shí)習(xí)時的一作論文，發(fā)表在CVPR 2017。

與原版ResNet相比，ResNeXt在精度與計算量之間的權(quán)衡做得更好，所以ConvNeXt打算把這個優(yōu)點(diǎn)繼承過來。

ResNeXt的核心思想是分組卷積，同時為彌補(bǔ)模型容量上的損失增加了網(wǎng)絡(luò)寬度。

這一次的ConvNeXt直接讓分組數(shù)與輸入通道數(shù)相等，設(shè)為96。

這樣每個卷積核處理一個通道，只在空間維度上做信息混合，獲得與自注意力機(jī)制類似的效果。

這項改動把模型精度再提高1%，來到80.5%。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

3、反轉(zhuǎn)瓶頸層

這種方法在MobileNetV2中首次提出，隨后也在更多輕量化CNN模型中流行開來。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

有意思的是，Transformer中采用了相似的設(shè)計，所以ConvNeXt也做了嘗試。

這樣反轉(zhuǎn)以后，雖然depthwise卷積層的FLOPs增加了，但下采樣殘差塊作用下，整個網(wǎng)絡(luò)的FLOPs反而減少。

模型精度也稍稍提高了0.1%，來到80.6%。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

另外在以ResNet-200為基礎(chǔ)的更大模型中，提升效果也更明顯，從81.9%漲到82.6%。

4、增大卷積核

從VGG開始，3x3卷積核成為黃金標(biāo)準(zhǔn)，小卷積核在硬件中也得到了充分地適配。

Swin Transformer引入了類似卷積核的局部窗口機(jī)制，但大小至少有7x7。

據(jù)此，ConvNeXt打算再次對不同卷積核大小的效果重新做探索。

但是，反轉(zhuǎn)瓶頸層之后放大了卷積層的維度，直接增大卷積核會讓參數(shù)量顯著增加。

所以在這之前，還要再做一步操作，在反轉(zhuǎn)瓶頸層的基礎(chǔ)上把depthwise卷積層提前（b到c）。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

這一步操作暫時將模型精度下降到了79.9%。

之后對卷積核大小的試驗從3x3到11x11都有嘗試，在7x7時模型精度重回80.6%。

再往上增加效果則不明顯，在ResNet-200上同樣如此，最后卷積核大小就定在7x7。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

5、微觀設(shè)計

接下來是層一級上的微觀設(shè)計，重點(diǎn)放在了激活函數(shù)和歸一化上。

激活函數(shù)上，卷積模型主要使用的是簡單高效的ReLU。

GELU比ReLU更平滑，被BERT、GPT-3等NLP模型以及ViT采用。

在ConvNeXt的探索中，使用GELU沒有給模型精度帶來提高，但也是一種可行方案。

激活函數(shù)的數(shù)量上，每個Tranformer塊中僅MLP塊中存在激活函數(shù)。

而CNN的普遍做法是每個卷積層后面都附加一個激活函數(shù)。

ConvNeXt嘗試只保留了兩個1x1層之間的GELU激活函數(shù)，與Transformer做法保持一致。

這種方法讓模型精度漲了0.7%，終于達(dá)到81.3% ，與Swin-T同一水平。

歸一化層的數(shù)量同樣做了減少，精度再漲0.1%至81.4%，超過了Swin-T。

下一步是用LN(層歸一化)替換BN(批次歸一化)，這在原版ResNet中會讓精度下降。

但有了上面各種改動做基礎(chǔ)，ConvNeXt上這個操作讓模型精度漲了0.1%，現(xiàn)在達(dá)到81.5%。

最后一步是分離下采樣層。

在ResNet上，下采樣由殘差塊執(zhí)行，Swin Transformer則是使用了單獨(dú)的下采樣層。

ConvNeXt也嘗試了類似的策略，使用步長為2的2x2卷積執(zhí)行下采樣操作。

結(jié)果卻造成了訓(xùn)練不穩(wěn)定。

好在后來找到解決辦法，在每個下采樣層前面、stem前面和最后的全局平均池化前面都加上LN。

以上所有改動匯總起來，ConvNeXt單個塊的結(jié)構(gòu)終于定型。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

最終得到的ConvNeXt-T小模型，精度達(dá)到82.0%，優(yōu)于Swin-T的81.3%。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

更大模型的對比上ConvNeXt也略高，但優(yōu)勢縮小。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

比較有意思的是，團(tuán)隊總結(jié)道：

所有這些方法里，沒有一項是這篇論文獨(dú)創(chuàng)的，它們分布在過去十年間的多項研究里。

ConvNeXt只是把這些方法都集中到一起研究，最終卻發(fā)現(xiàn)了能在ImageNet-1k上勝過Transformer的純卷積模型。

從FLOPs、參數(shù)量、吞吐量和內(nèi)存使用量上看，每種規(guī)模的ConvNeXt都和Swin Transformer保持大致相當(dāng)。

ConvNeXt的優(yōu)勢還在于，不需要增加額外的移動窗口注意力、相對位置偏置等特殊結(jié)構(gòu)。

保持了模型的簡潔性，也意味著更容易部署。

最終，團(tuán)隊希望通過這篇論文挑戰(zhàn)一些已被廣泛接受和默認(rèn)的觀點(diǎn)。

也是為了促使研究者們重新思考卷積在計算機(jī)視覺中的重要性。

對于ConvNeXt重新掀起的這場視覺模型架構(gòu)之爭，有更多來自學(xué)界和工業(yè)界的人提出了不同觀點(diǎn)。

回到架構(gòu)之爭

UC伯克利教授馬毅表示，對這種表面上的比拼不太認(rèn)同。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

結(jié)合他的下一條微博，馬毅教授更希望大家多去關(guān)注理論基礎(chǔ)。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

知乎上有一位匿名網(wǎng)友提出，這篇文章對工業(yè)界來說價值更大。

此前Transformer效果雖好，但實(shí)踐上很難部署，大家一直期待著看到卷積方法的最終實(shí)力。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

其實(shí)這也正是ConvNeXt這項研究的初衷。

從論文作者謝賽寧對另一處討論的回復(fù)中可以看出，研究團(tuán)隊認(rèn)為ImageNet結(jié)果并不是重點(diǎn)。

他們更想強(qiáng)調(diào)和讓大家關(guān)注的是卷積模型在目標(biāo)檢測等下游任務(wù)中的表現(xiàn)。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

對于下游任務(wù)，ConvNeXt在COCO和ADE20K上做了驗證，與SwinTransformer比也有相當(dāng)或更好的表現(xiàn)。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

后續(xù)討論中還發(fā)生一件趣事。

有人提問LeCun，你們部門不應(yīng)該隨著公司改名叫Meta了么，怎么論文署名還是FAIR？

LeCun開了個小玩笑，說這代表Fundamental AI Research（基礎(chǔ)AI研究）

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

也是很幽默了～

作者團(tuán)隊

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

前面已提到的謝賽寧是FAIR研究員，本科就讀于上海交通大學(xué)ACM班，博士畢業(yè)于UC圣迭戈分校。

謝賽寧讀博士時曾在FAIR實(shí)習(xí)，期間與何愷明合作完成ResNeXt，是該論文一作。

不久前廣受關(guān)注的何愷明一作論文MAE他也有參與。

本篇ConvNeXt他是通訊作者，巧合的是，這次的一作也是博士期間來實(shí)習(xí)的。

魔改ResNet反超Transformer再掀架構(gòu)之爭！作者說“沒一處創(chuàng)新”

一作劉壯，博士就讀于UC伯克利，清華姚班畢業(yè)生。

DenseNet作者，曾獲CVPR 2017最佳論文獎。

論文地址
https://arxiv.org/abs/2201.03545

Github地址：
https://github.com/facebookresearch/ConvNeXt

責(zé)任編輯：張燕妮來源：量子位

Transformer 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="purop"></style>

<s id="purop"></s>