自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="h6atu"></sub>

<style id="h6atu"></style>

^{<blockquote id="h6atu"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Graph-DETR3D: 在多視角3D目標(biāo)檢測中對重疊區(qū)域再思考

作者：黃浴 2022-12-13 10:17:05

人工智能新聞

本文通過密集的引導(dǎo)性實驗，量化了位于不同區(qū)域的目標(biāo)，并發(fā)現(xiàn)“截斷實例”（即每個圖像的邊界區(qū)域）是阻礙DETR3D性能的主要瓶頸。

arXiv論文“Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection“，22年6月，中科大、哈工大和商湯科技的工作。

從多個圖像視圖中檢測3-D目標(biāo)是視覺場景理解的一項基本而富有挑戰(zhàn)性的任務(wù)。由于其低成本和高效率，多視圖3-D目標(biāo)檢測顯示出了廣闊的應(yīng)用前景。然而，由于缺乏深度信息，通過3-D空間中的透視圖去精確檢測目標(biāo)，極其困難。最近，DETR3D引入一種新的3D-2D query范式，用于聚合多視圖圖像以進行3D目標(biāo)檢測，并實現(xiàn)了最先進的性能。

本文通過密集的引導(dǎo)性實驗，量化了位于不同區(qū)域的目標(biāo)，并發(fā)現(xiàn)“截斷實例”（即每個圖像的邊界區(qū)域）是阻礙DETR3D性能的主要瓶頸。盡管在重疊區(qū)域中合并來自兩個相鄰視圖的多個特征，但DETR3D仍然存在特征聚合不足的問題，因此錯過了充分提高檢測性能的機會。

為了解決這個問題，提出Graph-DETR3D，通過圖結(jié)構(gòu)學(xué)習(xí)（GSL）自動聚合多視圖圖像信息。在每個目標(biāo)查詢和2-D特征圖之間構(gòu)建一個動態(tài)3D圖，以增強目標(biāo)表示，尤其是在邊界區(qū)域。此外，Graph-DETR3D得益于一種新的深度不變（depth-invariant）多尺度訓(xùn)練策略，其通過同時縮放圖像大小和目標(biāo)深度來保持視覺深度的一致性。

Graph-DETR3D的不同在于兩點，如圖所示：（1）動態(tài)圖特征的聚合模塊；（2）深度不變的多尺度訓(xùn)練策略。它遵循DETR3D的基本結(jié)構(gòu)，由三個組件組成：圖像編碼器、transformer解碼器和目標(biāo)預(yù)測頭。給定一組圖像I={I1，I2，…，IK}（由N個周視攝像機捕捉），Graph-DETR3D旨在預(yù)測感興趣邊框的定位和類別。首先用圖像編碼器（包括ResNet和FPN）將這些圖像變成一組相對L個特征圖級的特征F。然后，構(gòu)建一個動態(tài)3-D圖，通過動態(tài)圖特征聚合（dynamic graph feature aggregation，DGFA）模塊廣泛聚合2-D信息，優(yōu)化目標(biāo)查詢的表示。最后，利用增強的目標(biāo)查詢輸出最終預(yù)測。

如圖顯示動態(tài)圖特征聚合（DFGA）過程：首先為每個目標(biāo)查詢構(gòu)造一個可學(xué)習(xí)的3-D圖，然后從2-D圖像平面采樣特征。最后，通過圖連接（graph connections）增強了目標(biāo)查詢的表示。這種相互連接的消息傳播（message propagation）方案支持對圖結(jié)構(gòu)構(gòu)造和特征增強的迭代細化方案。

多尺度訓(xùn)練是2D和3D目標(biāo)檢測任務(wù)中常用的數(shù)據(jù)增強策略，經(jīng)證明有效且推理成本低。然而，它很少出現(xiàn)在基于視覺的3-D檢測方法中?？紤]到不同輸入圖像大小可以提高模型的魯棒性，同時調(diào)整圖像大小和修改攝像機內(nèi)參來實現(xiàn)普通多尺度訓(xùn)練策略。

一個有趣的現(xiàn)象是，最終的性能急劇下降。通過仔細分析輸入數(shù)據(jù)，發(fā)現(xiàn)簡單地重新縮放圖像會導(dǎo)致透視-多義問題：當(dāng)目標(biāo)調(diào)整到較大/較小的比例時，其絕對屬性（即目標(biāo)的大小、到ego point的距離）不會改變。

作為一個具體示例，如圖顯示這個多義問題：盡管（a）和（b）中所選區(qū)域的絕對3D位置相同，但圖像像素的數(shù)量不同。深度預(yù)測網(wǎng)絡(luò)傾向于基于圖像的占用面積來估計深度。因此，圖中的這種訓(xùn)練模式可能會讓深度預(yù)測模型糊涂，并進一步惡化最終性能。

為此從像素透視重新計算深度。算法偽代碼如下：

如下是解碼操作：

重新計算的像素大小是：

假設(shè)尺度因子r = rx = ry，則簡化得到：

實驗結(jié)果如下：

注：DI = Depth-Invariant

責(zé)任編輯：張燕妮來源：知乎

技術(shù)目標(biāo)檢測

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="rulh6"><i id="rulh6"></i></blockquote>}