自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="3ci49"></bdo>

<ol id="3ci49"></ol>

<blockquote id="3ci49"></blockquote><table id="3ci49"></table>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

國科大提出CNN和Transformer雙體基網(wǎng)模型準(zhǔn)確率高達(dá)84.1%

作者：佚名 2021-08-10 16:01:18

新聞人工智能

Transformer和CNN在處理視覺表征方面都有著各自的優(yōu)勢以及一些不可避免的問題。因此，國科大、鵬城實(shí)驗(yàn)室和華為研究人員首次將二者進(jìn)行了融合并提出全新的Conformer模型。

Transformer和CNN在處理視覺表征方面都有著各自的優(yōu)勢以及一些不可避免的問題。因此，國科大、鵬城實(shí)驗(yàn)室和華為研究人員首次將二者進(jìn)行了融合并提出全新的Conformer模型，其可以在不顯著增加計(jì)算量的前提下顯著提升了基網(wǎng)表征能力。論文已被ICCV 2021接收。

卷積運(yùn)算善于提取局部特征，卻不具備提取全局表征的能力。

為了感受圖像全局信息，CNN必須依靠堆疊卷積層，采用池化操作來擴(kuò)大感受野。

Visual Transformer的提出則打破了CNN在視覺表征方面的壟斷。

得益于自注意力機(jī)制，Visual Transformer (ViT、Deit)具備了全局、動態(tài)感受野的能力，在圖像識別任務(wù)上取得了更好的結(jié)果。

但是受限于計(jì)算復(fù)雜度，Transformer需要減小輸入分辨率、增大下采樣步長，這造成切分patch階段損失圖像細(xì)節(jié)信息。

因此，中國科學(xué)院大學(xué)聯(lián)合鵬城實(shí)驗(yàn)室和華為提出了Conformer基網(wǎng)模型，將Transformer與CNN進(jìn)行了融合。

Conformer模型可以在不顯著增加計(jì)算量的前提下顯著提升了基網(wǎng)表征能力。目前，論文已被ICCV 2021接收。

國科大提出首個CNN和Transformer雙體基網(wǎng)模型準(zhǔn)確率高達(dá)84.1%

論文地址：https://arxiv.org/abs/2105.03889

項(xiàng)目地址：https://github.com/pengzhiliang/Conformer

此外，Conformer中含有并行的CNN分支和Transformer分支，通過特征耦合模塊融合局部與全局特征，目的在于不損失圖像細(xì)節(jié)的同時捕捉圖像全局信息。

國科大提出首個CNN和Transformer雙體基網(wǎng)模型準(zhǔn)確率高達(dá)84.1%

特征圖可視化

對一張背景相對復(fù)雜的圖片的特征進(jìn)行可視化，以此來說明Conformer捕捉局部和全局信息的能力：

淺層Transformer(DeiT)特征圖（c列）相比于ResNet（a列）丟失很多細(xì)節(jié)信息，而Conformer的Transformer分支特征圖（d列）更好保留了局部特征；
從深層的特征圖來看，DeiT特征圖（g列）相比于ResNet（e列）會保留全局的特征信息，但是噪聲會更大一點(diǎn)；
得益于Transformer分支提供的全局特征，Conformer的CNN分支特征圖（f列）會保留更加完整的特征（相比于e列）；
Transformer分支特征圖（h列）相比于DeiT（g列）則是保留了更多細(xì)節(jié)信息，且抑制了噪聲。

網(wǎng)絡(luò)結(jié)構(gòu)

Conformer是一個并行雙體網(wǎng)結(jié)構(gòu)，其中CNN分支采用了ResNet結(jié)構(gòu)，Transformer分支則是采用了ViT結(jié)構(gòu)。

國科大提出首個CNN和Transformer雙體基網(wǎng)模型準(zhǔn)確率高達(dá)84.1%

網(wǎng)絡(luò)結(jié)構(gòu)圖

（c）展示了Conformer的縮略圖：一個標(biāo)準(zhǔn)的ResNet stem結(jié)構(gòu)，兩條并行分支，兩個分類器。

（b）展示了每個block中Trans和Conv的連接關(guān)系：以2個bottleneck為例，經(jīng)過第一個bottleneck 3x3卷積后的局部特征經(jīng)過特征耦合模塊（FCU）傳給Transformer block。

Transformer block將此局部特征與前一個Trans block的全局特征相加通過當(dāng)前的trans block，運(yùn)算結(jié)束后再將結(jié)果通過FCU模塊反傳給Conv block。

Conv block的最后一個bottleneck將其與經(jīng)過1x1卷積后的局部特征相加，一起輸入3x3卷積。

之所以將Transformer block夾在兩個3x3卷積之間的原因有兩個：

bottleneck中3x3卷積的channel比較少，使得FCU的fc層參數(shù)不會很大；
3x3卷積具有很強(qiáng)的位置先驗(yàn)信息，保證去掉位置編碼后的性能。

實(shí)驗(yàn)結(jié)果

Conformer網(wǎng)絡(luò)在ImageNet上做了分類實(shí)驗(yàn)，并做為預(yù)訓(xùn)練模型在MSCOCO上做了目標(biāo)檢測和實(shí)例分割實(shí)驗(yàn)。

國科大提出首個CNN和Transformer雙體基網(wǎng)模型準(zhǔn)確率高達(dá)84.1%

分類準(zhǔn)確率對比

參數(shù)量為37.7M，計(jì)算量為10.6GFlops的Conformer-S超過了參數(shù)量為86.6M，計(jì)算量為17.6GFlops的DeiT-B 約1.6%的準(zhǔn)確率。

當(dāng)Conformer-S增大參數(shù)量到83.3M，準(zhǔn)確率則是達(dá)到84.1%。

國科大提出首個CNN和Transformer雙體基網(wǎng)模型準(zhǔn)確率高達(dá)84.1%

不同基網(wǎng)在分類速度和準(zhǔn)確率上的對比：

國科大提出首個CNN和Transformer雙體基網(wǎng)模型準(zhǔn)確率高達(dá)84.1%

目標(biāo)檢測和實(shí)例分割結(jié)果的對比

運(yùn)行幀率為：

國科大提出首個CNN和Transformer雙體基網(wǎng)模型準(zhǔn)確率高達(dá)84.1%

目標(biāo)檢測和實(shí)例分割幀率對比

在使用FPN+Faster Mask R-CNN框架時，Conformer-S/32在幀率/參數(shù)/計(jì)算量可比的情況下，目標(biāo)檢測精度超過Faster RCNN 3.7%，實(shí)例分割超過Mask R-CNN 3.6%。

分析總結(jié)

Conformer是第一個并行的CNN和Transformer混合網(wǎng)絡(luò)，通過提出的特征耦合模塊FCU在每個階段的局部特征和全局特征都會進(jìn)行交互，使得Conformer兼具兩者的優(yōu)勢。

在分類上，能夠以更小的參數(shù)和計(jì)算量取得更高的準(zhǔn)確率，在目標(biāo)和實(shí)例分割上也能一致地取得大幅度的提升。

目前Conformer只是在ImageNet1K數(shù)據(jù)集合上訓(xùn)練，其結(jié)合更大預(yù)訓(xùn)練數(shù)據(jù)（如ImageNet21K）集合以后將成為一種很有潛力的基網(wǎng)結(jié)構(gòu)。

作者介紹

彭智亮、黃瑋，中國科學(xué)院大學(xué)在讀碩士生

顧善植，鵬城實(shí)驗(yàn)室工程師

王耀威，鵬城實(shí)驗(yàn)室研究員

謝凌曦，華為公司研究員

焦建彬、葉齊祥，中國科學(xué)院大學(xué)教授

責(zé)任編輯：張燕妮來源：新智元

模型人工智能深度學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="e230e"></sub><kbd id="e230e"></kbd>

<blockquote id="e230e"></blockquote>