自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

新聞 人工智能
隨著投身視覺Transformer研究的學(xué)者越來越多,三大任務(wù)榜單皆被Transformer或兩種架構(gòu)結(jié)合的模型占據(jù)頭部。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

 過去一年,Transformer頻頻跨界視覺領(lǐng)域,大有搶CNN飯碗之勢。

先是圖像分類上被谷歌ViT突破,后來目標(biāo)檢測和圖像分割又被微軟Swin Transformer拿下。

隨著投身視覺Transformer研究的學(xué)者越來越多,三大任務(wù)榜單皆被Transformer或兩種架構(gòu)結(jié)合的模型占據(jù)頭部。

但就在此時,一篇《2020年代的卷積網(wǎng)絡(luò)》橫空出世,帶來全新純卷積模型ConvNeXt,一下又熱鬧起來——

全世界CV圈再次掀起模型架構(gòu)之爭,LeCun等一眾頂級學(xué)者都下場評論的那種。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

論文指出,ConvNeXt性能反超同等規(guī)模的Swin Transformer,在ImageNet-1k上超過后者0.7%。

COCO、ADE20K上,ConvNeXt也做到同等規(guī)模更好或相當(dāng)水平。

面對這篇由Facebook與UC伯克利聯(lián)手打造的論文,深度學(xué)習(xí)三巨頭之一的LeCun直言:

卷積模型與視覺Transformer間的爭論愈演愈烈了!

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

GitHub上,ConvNeXt連續(xù)多天排在趨勢榜第一。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

在國內(nèi),如此垂直的學(xué)術(shù)問題甚至一度登上知乎全站熱榜。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

在國外,不少高校學(xué)者和谷歌、Arm等大廠工程師都來參與討論,甚至捕捉到一些經(jīng)典論文作者——

ViT作者EfficientNet系列作者都來展示自己的最新研究成果,想要一比高下。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

△ViT論文二作補(bǔ)充了改進(jìn)訓(xùn)練方法后的結(jié)果

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

△EfficientNet系列作者補(bǔ)充了最新v2版本結(jié)果

再說回LeCun,這次他還真不是來給自家成果站臺的,而是提出模型架構(gòu)之間相互借鑒是未來的方向。

你以為我接下來要說“Conv is all you need”了嗎?不是!

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

原來LeCun自己最喜歡的架構(gòu)類似DETR,第一層是卷積,后面與更多Transformer風(fēng)格的層相結(jié)合。

雖然這次的ConvNeXt不是他說的這種,但也從Transformer身上借鑒了大量技巧,LeCun覺得其成功之處就在于此。

這次論文的通訊作者謝賽寧也對這些討論作出了回應(yīng)。

他說這并不是一篇想要比拼精度刷榜單的論文,更多的是想探索卷積模型的設(shè)計空間。

在設(shè)計過程中他們團(tuán)隊非??酥?,盡量保持了模型的簡潔。

在我看來,所有模型架構(gòu)都應(yīng)該是朋友,只有過度復(fù)雜才是共同的敵人(如果你認(rèn)同奧卡姆剃刀原則的話)。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

到底誰是最強(qiáng)架構(gòu)拋開不談,參與討論的一眾大佬們對這篇論文本身都有一個共同感受:

圖表精美,結(jié)構(gòu)清晰,實(shí)驗充分,值得一讀!

特別是其中有一張精美插圖,可以說是全文的精華,也是作者自己提供的“一圖看懂”。

圖中清晰呈現(xiàn)了一步步把ResNet-50從78.8%精度提升到82.0%的全步驟,及所用到的方法。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

下面就先來介紹一下這篇論文,了解一下ConvNeXt所用的方法和來龍去脈。

之后再來看架構(gòu)之爭,相信會有不一樣的視角~

給CNN披上Transformer的皮

先看摘要,其中有關(guān)鍵的一句話闡明了這篇論文的研究初衷。

……本文旨在重新審視CNN的設(shè)計空間,用現(xiàn)代方法在ResNet基礎(chǔ)上做優(yōu)化,測試純卷積模型的性能極限……

團(tuán)隊認(rèn)為雖然Transformer在視覺上大獲成功,但全局注意力機(jī)制的復(fù)雜度是與輸入圖像尺寸的平方呈正比的。

對ImageNet圖像分類任務(wù)的224×224、384×384分辨率來說還算可以接受,需要高分辨率圖像的實(shí)際應(yīng)用場景下就不太理想。

Swin Transformer靠重新引入卷積網(wǎng)絡(luò)中的滑動窗口等諸多特性彌補(bǔ)了這個問題,但也讓Transformer變得更像CNN了。

Swin Transformer的成功讓他們重新認(rèn)識到卷積的重要性。

據(jù)此,這篇論文的研究思路便是:

如果讓卷積模型也借鑒Transformer架構(gòu)中的各種方法,但始終不引入注意力模塊,能取得什么效果?

論文最后所呈現(xiàn)出來的,是把標(biāo)準(zhǔn)ResNet一步步改造得更像Transformer的路線圖。

也就是上面提到的那張廣受好評的圖。

條形圖中,有顏色的部分代表Swint-T與ResNet-50在各種條件下的模型精度比較。

灰色部分是更大規(guī)模的Swin-B與ResNet-200之間的比較,帶陰影的地方說明這個方法最后未被采用。

為了公平對比,模型的計算量在整個過程中也大致保持與Swin Transformer同水平。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

研究團(tuán)隊把改動之處總結(jié)成五個部分:

宏觀設(shè)計、引入ResNeXt、反轉(zhuǎn)瓶頸層、增大卷積核、微觀設(shè)計

不過在詳細(xì)解釋每個部分之前,先要介紹一下訓(xùn)練方法上的改進(jìn)。

0、訓(xùn)練方法

視覺Transformer不僅帶來一套新的模塊和架構(gòu)設(shè)計,也采用了與傳統(tǒng)CNN不同的訓(xùn)練方法。

論文中采用的是與DeiT和Swin Transformer相似的訓(xùn)練方法。

先把epoch從ResNet的90增加到300,同時改用AdamW優(yōu)化器

數(shù)據(jù)增強(qiáng)方面引入了Mixup、Cutmix、RandAugment和Random Erasing。

正則化方面使用了隨機(jī)深度(Stochastic Depth)和標(biāo)簽平滑(Label Smoothing)。

采用這些方法后,torchvision版ResNet-50的性能提升了2.7%,從76.1%升到78.8%。

(使用ImageNet-1k上224x244分辨率圖像訓(xùn)練的top 1精度,下同)

這一結(jié)果證明,傳統(tǒng)卷積模型與視覺Transformer之間的性能差異也有一部分來自訓(xùn)練方法。

接下來進(jìn)入對模型本身5大項改動的詳細(xì)介紹。

1、宏觀設(shè)計

這部分主要有兩項改動,參考的也是Swin Transformer。

首先是block數(shù)量的比例分配,原版ResNet-50的4個階段中是按(3, 4, 6, 3)分配。

Swin Transformer借鑒了多階段的,每個階段輸出不同分辨率的y思想,但比例改成了1:1:3:1。

ConvNeXt跟隨這個比例按(3,3,9,3)分配,結(jié)果是模型精度提高了0.6%,到達(dá)79.4%。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

不過根據(jù)此前Facebook團(tuán)隊的兩項研究,團(tuán)隊認(rèn)為更優(yōu)的比例也可能存在,有待繼續(xù)探索。

這部分的第二項改動是在stem層。

傳統(tǒng)ResNet-50的做法是一個步長為2的7x7的卷積加上最大池化,相當(dāng)于對輸入圖像做了4倍的下采樣。

從ViT開始會先把輸入圖像切成一個個patch,對每個patch的操作不再重疊。

Swin Transformer的patch尺寸是4x4,所以ConvNeXt也設(shè)置成步長為4的4x4非重疊卷積。

這項改動給模型精度再度帶來0.1%的提升,現(xiàn)在到了79.5%。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

2、引入ResNeXt

ResNeXt是本篇論文通訊作者謝賽寧在Facebook何愷明組實(shí)習(xí)時的一作論文,發(fā)表在CVPR 2017。

與原版ResNet相比,ResNeXt在精度與計算量之間的權(quán)衡做得更好,所以ConvNeXt打算把這個優(yōu)點(diǎn)繼承過來。

ResNeXt的核心思想是分組卷積,同時為彌補(bǔ)模型容量上的損失增加了網(wǎng)絡(luò)寬度。

這一次的ConvNeXt直接讓分組數(shù)與輸入通道數(shù)相等,設(shè)為96。

這樣每個卷積核處理一個通道,只在空間維度上做信息混合,獲得與自注意力機(jī)制類似的效果。

這項改動把模型精度再提高1%,來到80.5%。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

3、反轉(zhuǎn)瓶頸層

這種方法在MobileNetV2中首次提出,隨后也在更多輕量化CNN模型中流行開來。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

有意思的是,Transformer中采用了相似的設(shè)計,所以ConvNeXt也做了嘗試。

這樣反轉(zhuǎn)以后,雖然depthwise卷積層的FLOPs增加了,但下采樣殘差塊作用下,整個網(wǎng)絡(luò)的FLOPs反而減少。

模型精度也稍稍提高了0.1%,來到80.6%。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

另外在以ResNet-200為基礎(chǔ)的更大模型中,提升效果也更明顯,從81.9%漲到82.6%。

4、增大卷積核

VGG開始,3x3卷積核成為黃金標(biāo)準(zhǔn),小卷積核在硬件中也得到了充分地適配。

Swin Transformer引入了類似卷積核的局部窗口機(jī)制,但大小至少有7x7。

據(jù)此,ConvNeXt打算再次對不同卷積核大小的效果重新做探索。

但是,反轉(zhuǎn)瓶頸層之后放大了卷積層的維度,直接增大卷積核會讓參數(shù)量顯著增加。

所以在這之前,還要再做一步操作,在反轉(zhuǎn)瓶頸層的基礎(chǔ)上把depthwise卷積層提前(b到c)。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

這一步操作暫時將模型精度下降到了79.9%。

之后對卷積核大小的試驗從3x3到11x11都有嘗試,在7x7時模型精度重回80.6%。

再往上增加效果則不明顯,在ResNet-200上同樣如此,最后卷積核大小就定在7x7。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

5、微觀設(shè)計

接下來是層一級上的微觀設(shè)計,重點(diǎn)放在了激活函數(shù)和歸一化上。

激活函數(shù)上,卷積模型主要使用的是簡單高效的ReLU。

GELU比ReLU更平滑,被BERT、GPT-3等NLP模型以及ViT采用。

在ConvNeXt的探索中,使用GELU沒有給模型精度帶來提高,但也是一種可行方案。

激活函數(shù)的數(shù)量上,每個Tranformer塊中僅MLP塊中存在激活函數(shù)。

而CNN的普遍做法是每個卷積層后面都附加一個激活函數(shù)。

ConvNeXt嘗試只保留了兩個1x1層之間的GELU激活函數(shù),與Transformer做法保持一致。

這種方法讓模型精度漲了0.7%,終于達(dá)到81.3% ,與Swin-T同一水平。

歸一化層的數(shù)量同樣做了減少,精度再漲0.1%至81.4%,超過了Swin-T。

下一步是用LN(層歸一化)替換BN(批次歸一化),這在原版ResNet中會讓精度下降。

但有了上面各種改動做基礎(chǔ),ConvNeXt上這個操作讓模型精度漲了0.1%,現(xiàn)在達(dá)到81.5%。

最后一步是分離下采樣層。

在ResNet上,下采樣由殘差塊執(zhí)行,Swin Transformer則是使用了單獨(dú)的下采樣層。

ConvNeXt也嘗試了類似的策略,使用步長為2的2x2卷積執(zhí)行下采樣操作。

結(jié)果卻造成了訓(xùn)練不穩(wěn)定。

好在后來找到解決辦法,在每個下采樣層前面、stem前面和最后的全局平均池化前面都加上LN。

以上所有改動匯總起來,ConvNeXt單個塊的結(jié)構(gòu)終于定型。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

最終得到的ConvNeXt-T小模型,精度達(dá)到82.0%,優(yōu)于Swin-T的81.3%。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

更大模型的對比上ConvNeXt也略高,但優(yōu)勢縮小。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

比較有意思的是,團(tuán)隊總結(jié)道:

所有這些方法里,沒有一項是這篇論文獨(dú)創(chuàng)的,它們分布在過去十年間的多項研究里。

ConvNeXt只是把這些方法都集中到一起研究,最終卻發(fā)現(xiàn)了能在ImageNet-1k上勝過Transformer的純卷積模型。

從FLOPs、參數(shù)量、吞吐量和內(nèi)存使用量上看,每種規(guī)模的ConvNeXt都和Swin Transformer保持大致相當(dāng)。

ConvNeXt的優(yōu)勢還在于,不需要增加額外的移動窗口注意力、相對位置偏置等特殊結(jié)構(gòu)。

保持了模型的簡潔性,也意味著更容易部署。

最終,團(tuán)隊希望通過這篇論文挑戰(zhàn)一些已被廣泛接受和默認(rèn)的觀點(diǎn)。

也是為了促使研究者們重新思考卷積在計算機(jī)視覺中的重要性

對于ConvNeXt重新掀起的這場視覺模型架構(gòu)之爭,有更多來自學(xué)界和工業(yè)界的人提出了不同觀點(diǎn)。

回到架構(gòu)之爭

UC伯克利教授馬毅表示,對這種表面上的比拼不太認(rèn)同。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

結(jié)合他的下一條微博,馬毅教授更希望大家多去關(guān)注理論基礎(chǔ)。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

知乎上有一位匿名網(wǎng)友提出,這篇文章對工業(yè)界來說價值更大。

此前Transformer效果雖好,但實(shí)踐上很難部署,大家一直期待著看到卷積方法的最終實(shí)力。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

其實(shí)這也正是ConvNeXt這項研究的初衷。

從論文作者謝賽寧對另一處討論的回復(fù)中可以看出,研究團(tuán)隊認(rèn)為ImageNet結(jié)果并不是重點(diǎn)。

他們更想強(qiáng)調(diào)和讓大家關(guān)注的是卷積模型在目標(biāo)檢測等下游任務(wù)中的表現(xiàn)。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

對于下游任務(wù),ConvNeXt在COCO和ADE20K上做了驗證,與SwinTransformer比也有相當(dāng)或更好的表現(xiàn)。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

后續(xù)討論中還發(fā)生一件趣事。

有人提問LeCun,你們部門不應(yīng)該隨著公司改名叫Meta了么,怎么論文署名還是FAIR?

LeCun開了個小玩笑,說這代表Fundamental AI Research(基礎(chǔ)AI研究)

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

也是很幽默了~

作者團(tuán)隊

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

前面已提到的謝賽寧是FAIR研究員,本科就讀于上海交通大學(xué)ACM班,博士畢業(yè)于UC圣迭戈分校。

謝賽寧讀博士時曾在FAIR實(shí)習(xí),期間與何愷明合作完成ResNeXt,是該論文一作。

不久前廣受關(guān)注的何愷明一作論文MAE他也有參與。

本篇ConvNeXt他是通訊作者,巧合的是,這次的一作也是博士期間來實(shí)習(xí)的。

魔改ResNet反超Transformer再掀架構(gòu)之爭!作者說“沒一處創(chuàng)新”

一作劉壯,博士就讀于UC伯克利,清華姚班畢業(yè)生。

DenseNet作者,曾獲CVPR 2017最佳論文獎。

論文地址
https://arxiv.org/abs/2201.03545

Github地址:
https://github.com/facebookresearch/ConvNeXt

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-04-15 07:50:00

AI架構(gòu)

2025-02-13 00:34:22

Spring對象系統(tǒng)

2021-12-13 17:53:19

谷歌Transformer技術(shù)

2009-06-06 09:07:05

微軟蓋茨莊園

2011-08-05 09:14:50

Apple云計算

2009-07-01 17:07:51

2015-09-16 15:06:44

2009-04-24 19:57:17

AMDNehalemintel

2019-10-09 13:39:39

Python編程語言異常錯誤

2016-11-24 10:01:14

混合云云計算公有云

2011-08-25 22:16:31

惠普PC業(yè)務(wù)暗戰(zhàn)

2018-08-06 12:10:57

SparkRPC Server代碼

2016-08-25 22:38:04

云計算公有云混合云

2023-12-29 08:02:17

大模型人工智能AI

2024-07-09 13:29:37

新架構(gòu)RNNFPS

2023-12-28 10:37:16

散彈式更新管理

2014-08-21 14:49:32

MIUI 6

2017-05-11 08:46:35

全閃存數(shù)據(jù)中心容量

2019-10-12 17:27:00

OpenStack云計算開源

2024-08-09 08:25:32

Spring流程注解
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號