自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vmqak"></sub>

<legend id="vmqak"><track id="vmqak"><dfn id="vmqak"></dfn></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DECO: 純卷積Query-Based檢測(cè)器超越DETR！

作者：派派星 2024-03-19 11:52:28

人工智能智能汽車(chē)

本文旨在研究是否能夠構(gòu)建一種基于查詢(xún)的端到端目標(biāo)檢測(cè)框架，而不采用復(fù)雜的Transformer架構(gòu)。提出了一種名為Detection ConvNet（DECO）的新型檢測(cè)框架，包括主干網(wǎng)絡(luò)和卷積編碼器-解碼器結(jié)構(gòu)。通過(guò)精心設(shè)計(jì)DECO編碼器和引入一種新穎的機(jī)制，使DECO解碼器能夠通過(guò)卷積層實(shí)現(xiàn)目標(biāo)查詢(xún)和圖像特征之間的交互。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

標(biāo)題：DECO: Query-Based End-to-End Object Detection with ConvNets

論文：https://arxiv.org/pdf/2312.13735.pdf

源碼：https://github.com/xinghaochen/DECO

原文：https://zhuanlan.zhihu.com/p/686011746@王云鶴

引言

Detection Transformer（DETR）推出之后，迅速引發(fā)了目標(biāo)檢測(cè)領(lǐng)域的一股熱潮，很多的后續(xù)工作也從精度和速度方面對(duì)原始的 DETR 進(jìn)行了改進(jìn)。然而，Transformer 是否真的大一統(tǒng)視覺(jué)領(lǐng)域呢，至少?gòu)?ConvNeXt 和 RepLKNet 等工作表明，CNN 結(jié)構(gòu)在視覺(jué)領(lǐng)域還是有很大的潛力的。

我們這個(gè)工作探究的就是如何利用純卷積的架構(gòu)，來(lái)得到一個(gè)性能能打的類(lèi) DETR 框架的檢測(cè)器。致敬 DETR，我們稱(chēng)我們的方法為DECO (Detection ConvNets)。采用 DETR 類(lèi)似的結(jié)構(gòu)設(shè)定，搭配不同的 Backbone，DECO 在 COCO 上取得了38.6%和40.8%的AP，在V100上取得了35 FPS和28 FPS的速度，取得比DETR更好的性能。搭配類(lèi)似RT-DETR的多尺度特征等模塊，DECO取得了47.8% AP和34 FPS的速度，總體性能跟很多DETR改進(jìn)方法比都有不錯(cuò)的優(yōu)勢(shì)。

方法

網(wǎng)絡(luò)架構(gòu)

DETR的主要特點(diǎn)是利用Transformer Encoder-Decoder的結(jié)構(gòu)，對(duì)一張輸入圖像，利用一組Query跟圖像特征進(jìn)行交互，可以直接輸出指定數(shù)量的檢測(cè)框，從而可以擺脫對(duì)NMS等后處理操作的依賴(lài)。我們提出的DECO總體架構(gòu)上跟DETR類(lèi)似，也包括了Backbone來(lái)進(jìn)行圖像特征提取，一個(gè)Encoder-Decoder的結(jié)構(gòu)跟Query進(jìn)行交互，最后輸出特定數(shù)量的檢測(cè)結(jié)果。唯一的不同在于，DECO的Encoder和Decoder是純卷積的結(jié)構(gòu)，因此DECO是一個(gè)由純卷積構(gòu)成的Query-Based端對(duì)端檢測(cè)器。

編碼器

DETR 的 Encoder 結(jié)構(gòu)替換相對(duì)比較直接，我們選擇使用4個(gè)ConvNeXt Block來(lái)構(gòu)成Encoder結(jié)構(gòu)。具體來(lái)說(shuō)，Encoder的每一層都是通過(guò)疊加一個(gè)7x7的深度卷積、一個(gè)LayerNorm層、一個(gè)1x1的卷積、一個(gè)GELU激活函數(shù)以及另一個(gè)1x1卷積來(lái)實(shí)現(xiàn)的。此外，在DETR中，因?yàn)門(mén)ransformer架構(gòu)對(duì)輸入具有排列不變性，所以每層編碼器的輸入都需要添加位置編碼，但是對(duì)于卷積組成的Encoder來(lái)說(shuō)，則無(wú)需添加任何位置編碼

解碼器

相比而言，Decoder的替換則復(fù)雜得多。Decoder的主要作用為對(duì)圖像特征和Query進(jìn)行充分的交互，使得Query可以充分感知到圖像特征信息，從而對(duì)圖像中的目標(biāo)進(jìn)行坐標(biāo)和類(lèi)別的預(yù)測(cè)。Decoder主要包括兩個(gè)輸入：Encoder的特征輸出和一組可學(xué)的查詢(xún)向量（Query）。我們把Decoder的主要結(jié)構(gòu)分為兩個(gè)模塊：自交互模塊（Self-Interaction Module, SIM）和交叉交互模塊（Cross-Interaction Module, CIM）。

這里，SIM模塊主要融合Query和上層Decoder層的輸出，這部分的結(jié)構(gòu)，可以利用若干個(gè)卷積層來(lái)組成，使用9x9 depthwise卷積和1x1卷積分別在空間維度和通道維度進(jìn)行信息交互，充分獲取所需的目標(biāo)信息以送到后面的CIM模塊進(jìn)行進(jìn)一步的目標(biāo)檢測(cè)特征提取。Query為一組隨機(jī)初始化的向量，該數(shù)量決定了檢測(cè)器最終輸出的檢測(cè)框數(shù)量，其具體的值可以隨實(shí)際需要進(jìn)行調(diào)節(jié)。對(duì)DECO來(lái)說(shuō)，因?yàn)樗械慕Y(jié)構(gòu)都是由卷積構(gòu)成的，因此我們把Query變成二維，比如100個(gè)Query，則可以變成10x10的維度。

CIM模塊的主要作用是讓圖像特征和Query進(jìn)行充分的交互，使得Query可以充分感知到圖像特征信息，從而對(duì)圖像中的目標(biāo)進(jìn)行坐標(biāo)和類(lèi)別的預(yù)測(cè)。對(duì)于Transformer結(jié)構(gòu)來(lái)說(shuō)，利用cross attention機(jī)制可以很方便實(shí)現(xiàn)這一目的，但對(duì)于卷積結(jié)構(gòu)來(lái)說(shuō)，如何讓兩個(gè)特征進(jìn)行充分交互，則是一個(gè)最大的難點(diǎn)。

要把大小不同的SIM輸出和encoder輸出全局特征進(jìn)行融合，必須先把兩者進(jìn)行空間對(duì)齊然后進(jìn)行融合，首先我們對(duì)SIM的輸出進(jìn)行最近鄰上采樣：

使得上采樣后的特征與Encoder輸出的全局特征有相同的尺寸，然后將上采樣后的特征和encoder輸出的全局特征進(jìn)行融合，然后進(jìn)入深度卷積進(jìn)行特征交互后加上殘差輸入：

最后將交互后的特征通過(guò)FNN進(jìn)行通道信息交互，之后pooling到目標(biāo)數(shù)量大小得到decoder的輸出embedding：

最后我們將得到的輸出embedding送入檢測(cè)頭，以進(jìn)行后續(xù)的分類(lèi)和回歸。

多尺度特征

跟原始的DETR一樣，上述框架得到的DECO有個(gè)共同的短板，即缺少多尺度特征，而這對(duì)于高精度目標(biāo)檢測(cè)來(lái)說(shuō)是影響很大的。Deformable DETR通過(guò)使用一個(gè)多尺度的可變形注意力模塊來(lái)整合不同尺度的特征，但這個(gè)方法是跟Attention算子強(qiáng)耦合的，因此沒(méi)法直接用在我們的DECO上。為了讓DECO也能處理多尺度特征，我們?cè)贒ecoder輸出的特征之后，采用了RT-DETR提出的一個(gè)跨尺度特征融合模塊。實(shí)際上，DETR誕生之后衍生了一系列的改進(jìn)方法，我們相信很多策略對(duì)于DECO來(lái)說(shuō)同樣是適用的，這也希望感興趣的人共同來(lái)探討。

實(shí)驗(yàn)

我們?cè)贑OCO上進(jìn)行了實(shí)驗(yàn)，在保持主要架構(gòu)不變的情況下將DECO和DETR進(jìn)行了比較，比如保持Query數(shù)量一致，保持Decoder層數(shù)不變等，僅將DETR中的Transformer結(jié)構(gòu)按上文所述換成我們的卷積結(jié)構(gòu)?？梢钥闯觯珼ECO取得了比DETR更好的精度和速度的Tradeoff。

我們也把搭配了多尺度特征后的DECO跟更多目標(biāo)檢測(cè)方法進(jìn)行了對(duì)比，其中包括了很多DETR的變體，從下圖中可以看到，DECO取得了很不錯(cuò)的效果，比很多以前的檢測(cè)器都取得了更好的性能。

文章中DECO的結(jié)構(gòu)進(jìn)行了很多的消融實(shí)驗(yàn)及可視化，包括在Decoder中選用的具體融合策略（相加、點(diǎn)乘、Concat），以及Query的維度怎么設(shè)置才有最優(yōu)的效果等，也有一些比較有趣的發(fā)現(xiàn)，更詳細(xì)的結(jié)果和討論請(qǐng)參看原文。

總結(jié)

本文旨在研究是否能夠構(gòu)建一種基于查詢(xún)的端到端目標(biāo)檢測(cè)框架，而不采用復(fù)雜的Transformer架構(gòu)。提出了一種名為Detection ConvNet（DECO）的新型檢測(cè)框架，包括主干網(wǎng)絡(luò)和卷積編碼器-解碼器結(jié)構(gòu)。通過(guò)精心設(shè)計(jì)DECO編碼器和引入一種新穎的機(jī)制，使DECO解碼器能夠通過(guò)卷積層實(shí)現(xiàn)目標(biāo)查詢(xún)和圖像特征之間的交互。在COCO基準(zhǔn)上與先前檢測(cè)器進(jìn)行了比較，盡管簡(jiǎn)單，DECO在檢測(cè)準(zhǔn)確度和運(yùn)行速度方面取得了競(jìng)爭(zhēng)性表現(xiàn)。具體來(lái)說(shuō)，使用ResNet-50和ConvNeXt-Tiny主干，DECO在COCO驗(yàn)證集上分別以35和28 FPS獲得了38.6%和40.8%的AP，優(yōu)于DET模型。希望DECO提供了設(shè)計(jì)目標(biāo)檢測(cè)框架的新視角。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

端到端框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)