自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

稀疏檢測的神!SparseDet:特征聚合玩明白了,爆拉VoxelNeXt!

人工智能 智能汽車
今天為大家分享北京交通大學(xué)&清華&地平線等最新的工作SparseDet!大幅超越了VoxelNeXt,簡單來說四個字:又快又好。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

基于激光雷達的稀疏3D目標(biāo)檢測因其計算效率優(yōu)勢在自動駕駛應(yīng)用中起著至關(guān)重要的作用?,F(xiàn)有的方法要么使用單個中心體素的特征作為目標(biāo)代理,要么將前景點的聚合視為目標(biāo)agent。然而,前者缺乏聚合上下文信息的能力,導(dǎo)致目標(biāo)代理中的信息表達不足。后者依賴于多級流水線和輔助任務(wù),降低了推理速度。為了在充分聚合上下文信息的同時保持稀疏框架的效率,在這項工作中,我們提出了SparseDet,它將稀疏查詢設(shè)計為目標(biāo)代理。它引入了兩個關(guān)鍵模塊,即局部多尺度特征聚合(LMFA)模塊和全局特征聚合(GFA)模塊,旨在充分捕獲上下文信息,從而增強代理表示目標(biāo)的能力。其中LMFA子模塊通過坐標(biāo)變換和使用最近鄰關(guān)系來捕獲目標(biāo)級細節(jié)和局部上下文信息,實現(xiàn)稀疏關(guān)鍵體素在不同尺度上的特征融合,GFA子模塊使用self-att來選擇性地聚合整個場景中關(guān)鍵體素的特征,以捕獲場景級上下文信息。在nuScenes和KITTI上的實驗證明了我們方法的有效性。具體來說,在nuScene上,SparseDet以13.5 FPS的幀率超越VoxelNeXt 2.2% mAP,在KITTI上,它以17.9 FPS的幀率超越VoxelNelXt 1.12% AP3D。

圖片

為了在稀疏框架中有效地聚合上下文信息的同時實現(xiàn)高效的檢測,在這項研究中,我們提出了一種簡單有效的全稀疏3D目標(biāo)檢測框架SparseDet。SparseDet使用3D稀疏卷積網(wǎng)絡(luò)從點云中提取特征,并將其轉(zhuǎn)換為2D稀疏特征,以便通過檢測n頭進行進一步預(yù)測。如圖2(c)所示,SparseDet將稀疏查詢設(shè)計為目標(biāo)代理,允許靈活和選擇性地聚合點云以獲得場景中的目標(biāo)代理。與之前的稀疏聚合范式相比,首先,SparseDet將局部上下文信息的聚合擴展到多尺度特征空間,從而獲得更豐富的局部信息。此外,與僅關(guān)注聚合前景點特征的現(xiàn)有方法相比,SparseDet可以聚合每個實例的場景級上下文,以促進場景和實例特征之間的潛在協(xié)作。最后,SparseDet不需要任何額外的輔助任務(wù)。

圖片

相關(guān)工作回顧

LiDAR-based Dense Detectors

盡管點云數(shù)據(jù)與2D圖像數(shù)據(jù)相比表現(xiàn)出不同的稀疏特性,但3D目標(biāo)檢測器通常是通過參考2D檢測器來設(shè)計的。大多數(shù)工作都使用了2D dense檢測頭來解決3D檢測問題。這些方法通常被稱為基于激光雷達的dense detectors。

作為先驅(qū),VoxelNet將點云劃分為規(guī)則網(wǎng)格,并使用3D骨干網(wǎng)絡(luò)進行特征提取。然后,它應(yīng)用dense head進行預(yù)測?;赩oxelNet,SECOND實現(xiàn)了稀疏卷積和子流形卷積算子的高效計算,通過構(gòu)建哈希表來獲得快速的推理速度。然而,SECOND仍然需要dense的鳥瞰圖(BEV)特征圖和dense的檢測頭進行檢測。在SECOND的影響下,大多數(shù)后續(xù)網(wǎng)絡(luò)都遵循利用3D稀疏骨干與2D dense檢測頭相結(jié)合的范式。

盡管基于激光雷達的dense detectors在多個基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出了出色的性能,但它們對dense的鳥瞰圖(BEV)特征圖和dense的探測頭的依賴使其難以擴展到long-range檢測。這是因為dense BEV特征圖的計算成本隨著檢測距離的增加呈二次方增長。這一缺點嚴(yán)重限制了基于激光雷達的dense detectors在現(xiàn)實世界場景中的實際應(yīng)用。

LiDAR-based Sparse Detectors

目前,稀疏檢測器包括基于點的方法和基于部分體素的方法。基于點的方法使用點云中的關(guān)鍵點進行特征聚合和檢測。這些方法不需要在整個空間內(nèi)進行dense的采樣和計算,使其具有固有的稀疏檢測器。FSD和FSDV2是這一系列方法的代表。FSD通過對分割的前景點進行聚類來表示單個目標(biāo)。然后,它將PointNet提取的特征輸入檢測頭進行校準(zhǔn)和預(yù)測。在FSDv2中,實例聚類步驟被虛擬體素化模塊所取代,該模塊旨在消除手動構(gòu)建的實例級表示所引入的固有偏差。盡管充分聚合了前景信息,但對額外輔助任務(wù)和眾多超參數(shù)的依賴導(dǎo)致推理速度差。

在基于體素的稀疏方法中,VoxelNeXt引入了額外的下采樣層,將體素放置在目標(biāo)中心附近,隨后對關(guān)鍵體素進行特征擴散,將特征傳播到目標(biāo)中心。SAFDNet通過提出自適應(yīng)特征擴散策略來解決缺失中心特征的問題。盡管SAFDNet和VoxelNeXt取得了令人印象深刻的效率,但它們僅依賴單中心體素特征進行檢測,這大大削弱了目標(biāo)代理的信息表示能力,最終導(dǎo)致模型性能下降。如前所述,僅將中心體素特征視為目標(biāo)代理會導(dǎo)致圖2(a)所示的同一實例中的一些點云信息丟失。在這項工作中,我們使用稀疏查詢和注意力機制通過LMFA和GFA模塊獲取目標(biāo)代理,從而能夠動態(tài)捕獲不同粒度的上下文信息。這促進了場景級和實例級特征之間的協(xié)作,從而使模型能夠獲得更豐富、更準(zhǔn)確的目標(biāo)表示。

SPARSEDET詳解

圖片

在本節(jié)中,我們提出了一種簡單高效的基于激光雷達的稀疏檢測框架SparseDet。圖3展示了其結(jié)構(gòu),該結(jié)構(gòu)遵循完全稀疏網(wǎng)絡(luò)VoxelNeXt的流水線。但不同的是,為了充分聚合點云中的上下文信息以增強稀疏目標(biāo)代理的信息表達能力,我們設(shè)計了兩個子模塊,LMFA(局部多尺度特征聚合)模塊和GFA(全局特征聚合)模型。這兩個模塊旨在自適應(yīng)地聚合點云上的多級上下文信息,并使SparseDet能夠強烈增強目標(biāo)代理的信息表示能力,從而以較低的計算成本提高3D檢測的性能。

Local Multi-scale Feature Aggregation

大多數(shù)基于激光雷達的稀疏檢測方法利用中心體素特征作為檢測的目標(biāo)代理。雖然使用中心特征作為目標(biāo)代理可以提供準(zhǔn)確的位置信息,但單個中心體素特征不足以完全捕獲目標(biāo)的全部信息。這嚴(yán)重削弱了目標(biāo)代理的表達能力。因此,我們提出了LMFA模塊來彌補這些缺點。在LMFA模塊中,我們專注于學(xué)習(xí)目標(biāo)周圍的局部上下文信息,這有助于理解目標(biāo)目標(biāo)的形狀、大小和相對位置等細節(jié)。如圖4所示,我們通過K個最近鄰(KNN)位置關(guān)系動態(tài)聚合關(guān)鍵體素的鄰域信息,以增強其特征表示能力。然后,聚合的關(guān)鍵體素特征將用于初始化稀疏目標(biāo)查詢。值得注意的是,考慮到3D目標(biāo)尺度的分布差異,我們將LMFA擴展到多尺度空間。因此,LMFA主要由兩個步驟組成,稀疏關(guān)鍵體素選擇和不同尺度體素特征的融合。

圖片

1)稀疏關(guān)鍵體素選擇:首先,我們將點云體素化,并將其輸入到3D稀疏卷積骨干網(wǎng)絡(luò)中。參考VoxelNeXt,我們在3D稀疏骨干網(wǎng)絡(luò)中添加了兩個額外的下采樣層。這一步有兩個關(guān)鍵目的。首先,它通過額外的下采樣過程構(gòu)建多尺度特征空間,以促進LMFA模塊中的后續(xù)特征聚合。其次,通過額外的采樣和高度壓縮操作,我們可以將體素特征放置在空白的目標(biāo)中心,以更準(zhǔn)確地構(gòu)建鄰域關(guān)系。通過上述操作,原始稀疏3D卷積骨干從{Fs1、Fs2、Fs3、Fs4}轉(zhuǎn)換為{Fs1,F(xiàn)s2,F(xiàn)s3,F(xiàn)s4,F(xiàn)s5{Fs6},特征步長為{1,2,4,8,16,32}。然后,我們將Fs5和Fs6變換到Fs4的特征空間,并將Fs4、Fs5和Fs 6連接在一起以獲得FF融合。然后,我們對FFusion、Fs4、Fs5和Fs6進行高壓縮,以獲得。具體來說,遵循VoxelNeXt,我們替換地平面上的所有體素特征,并在相同的位置對其進行求和。

為了選擇關(guān)鍵體素,我們使用heatmap操作,該操作基于稀疏體素特征F2D預(yù)測Cls類的體素得分Score。我們將最靠近目標(biāo)中心的體素指定為陽性樣本,并使用Focal Loss進行監(jiān)督。這意味著得分較高的體素屬于前景的概率較高。隨后,我們將top-分數(shù)操作應(yīng)用于,以獲得Nkey稀疏體素候選。這里,被設(shè)置為默認值500。

2)不同尺度體素特征的融合:在本節(jié)中,我們構(gòu)建了一個K近鄰圖,以獲取不同尺度下稀疏候選體素的鄰域信息,從而獲得更全面的局部上下文,解決了稀疏特征信息表示能力不足的問題。

在稀疏關(guān)鍵體素選擇之后,我們得到了稀疏體素的特征,記為。相應(yīng)的坐標(biāo)位置索引被定義為Ikey,形狀為(,2),表示2D位置索引。我們首先將體素在S4尺度上的位置坐標(biāo)(表示為Is4)分別除以2和4,將其轉(zhuǎn)換為{S5,S6}的低分辨率體素空間。然后,我們將相應(yīng)的空間坐標(biāo)索引保存為Is5、Is6。給定Nkey稀疏體素在不同尺度空間中的位置坐標(biāo)信息,我們的目標(biāo)是為每個關(guān)鍵體素找到K個最近的體素。的值隨著縮放空間的變化而減半,這可以使用以下公式確定。

圖片

為了提高LMFA的效率,我們采用KD樹算法來獲得特定尺度Si下每個關(guān)鍵體素的鄰居的索引。環(huán)視的鄰域體素具有特征。然后,利用MLP來聚合相鄰體素特征的特征,這是通過以下公式實現(xiàn):

圖片

給定稀疏體素的編碼多尺度特征,一種樸素的融合方法是將多尺度特征連接起來形成一個特征。然而,我們觀察到,一些目標(biāo)檢測更多地依賴于來自特定尺度的信息,而不是來自所有尺度的信息。例如,低分辨率特征映射了關(guān)于小目標(biāo)的漆信息。因此,與小目標(biāo)相關(guān)的關(guān)鍵體素應(yīng)該更有效地僅從高分辨率特征圖中收集信息。

我們建議使用可學(xué)習(xí)的比例權(quán)重來自動選擇每個關(guān)鍵體素Fkey的比例,如下所示

圖片

通過這種比例選擇機制,與每個關(guān)鍵體素最相關(guān)的比例被柔和地選擇,而來自其他比例的視覺特征被抑制。然后,我們根據(jù)Fkey的位置索引將Fkey放入中,得到增強的。我們的自適應(yīng)融合的整個過程如圖5所示。

圖片

Global Feature Aggregation

LMFA模塊旨在通過使用最近鄰位置關(guān)系動態(tài)聚合關(guān)鍵體素的鄰域信息來學(xué)習(xí)目標(biāo)周圍的局部上下文信息。

盡管鄰域體素特征的融合增強了前景稀疏體素特征表達能力,但LMFA模塊在處理稀疏檢測場景時仍然存在局限性。1)對于大目標(biāo),使用單個聚合稀疏體素作為目標(biāo)檢測的代理仍然會丟失信息,因為目標(biāo)代理應(yīng)該包含整個目標(biāo)的信息,而不僅僅是局部區(qū)域的信息。2)LMFA忽略了整個場景和實例特征之間的潛在協(xié)作。例如,場景中的假陰性目標(biāo)可以通過與共享相似語義信息的實例交互來增強其特征,從而得到潛在的糾正。因此,我們提出了GFA(全局特征聚合)模塊,通過學(xué)習(xí)整個場景的全局結(jié)構(gòu)和語義信息,進一步解決了LMFA模塊的局限性。這使得SparseDet能夠以局部和全局的方式利用目標(biāo)的上下文信息來消除歧義,從而提高檢測精度。

圖片

實驗

圖片圖片

1)LMFA和GFA模塊的影響:本節(jié)討論了在基線detectorsVoxelNeXt上進行的消融實驗的結(jié)果,以評估SparseDet中每個組件的性能。表VI和表VII分別報告了KITTI和nuScenes 14子集的結(jié)果。表VI顯示了KITTI上AP3D和APBEV的初始AP評分,分別為78.44%和87.10%。如表六所示,LMFA和GFA模塊顯著提高了硬級KITTI任務(wù)的性能,AP3D和APBEV分別提高了4.27%和3.35%。所有的改進都沒有顯著增加模型的參數(shù)或降低推理速度。

如表七所示,當(dāng)使用LMFA模塊時,SparseDet實現(xiàn)了出色的性能提升,這表明有效地聚合上下文信息可以更好地增強稀疏特征的表示能力,從而提高稀疏3D目標(biāo)檢測器的性能。這促進了場景和實例特征之間的協(xié)作,從而產(chǎn)生了更豐富、更準(zhǔn)確的目標(biāo)表示。當(dāng)LMFA和GFA結(jié)合時,這種增強效果進一步增強,導(dǎo)致mAP改善2.4%,NDS改善1.3%??傊?,我們的消融實驗表明,SparseDet在具有挑戰(zhàn)性的數(shù)據(jù)集上有效地提高了基線的性能。研究結(jié)果強調(diào)了上下文信息聚合在稀疏檢測框架中的重要性,并為設(shè)計有效的聚合策略提供了寶貴的見解。

圖片

2)M數(shù)量的影響:選擇相鄰體素特征,以增強關(guān)鍵位置的特征表示,是LMFA模塊的關(guān)鍵組成部分。在本節(jié)中,我們將討論相鄰體素數(shù)量M的選擇及其相應(yīng)的有效性。因此,我們?yōu)槌瑓?shù)M(相鄰體素的數(shù)量)配置了不同的值,包括4、8、16和32。如表八所示,M值的變化對模型的性能沒有顯著影響。值得注意的是,當(dāng)M設(shè)置為8時,我們的SparseDet模型達到了最高的mAP,而將M設(shè)置為16則可獲得最佳的NDS性能。考慮到整體模型性能、推理時間、訓(xùn)練記憶和模型參數(shù),我們最終將M設(shè)置為8作為默認值。

3)Nkey數(shù)量的影響:如表IX所示,我們對nuScenes驗證數(shù)據(jù)集中LMFA模塊內(nèi)關(guān)鍵體素Nkey的數(shù)量進行了消融研究。我們在500、1000、1500和2000之間配置超參數(shù)Nkey的值。綜上所述,隨著Nkey值的增加,SparseDet的性能相應(yīng)有不同程度的提高。從表中可以看出,模型的性能對Nkey的變化沒有表現(xiàn)出很強的敏感性。雖然簡單地增加Nkey的值可以提高模型的性能,但這是以降低推理速度為代價的。在權(quán)衡了模型的準(zhǔn)確性和推理延遲后,我們最終選擇500作為Nkey的默認值。

圖片

4)數(shù)量的影響:如表X所示,我們對nuScenes驗證集GFA模塊中的超參數(shù)NK,V進行了消融研究。我們在6000、8000、10000和12000之間配置超參數(shù)的值。值得注意的是,當(dāng)?shù)闹翟O(shè)置為12000時,SparseDet的mAP和NDS得分最高,但推理速度最低。在權(quán)衡了模型的準(zhǔn)確性和推理延遲后,我們最終將NK,V設(shè)置為10000作為默認值。

5)模型在不同距離下的性能:與dense檢測器相比,稀疏檢測器的一個關(guān)鍵優(yōu)勢是它們能夠擴展模型的遠程檢測能力,而不會顯著增加推理延遲。因此,對遠距離目標(biāo)的穩(wěn)定檢測是評估稀疏檢測器性能的關(guān)鍵指標(biāo)。為了更好地了解我們的SparseDet在長距離下的卓越性能,我們在表XI和表XII中提供了不同距離范圍的性能指標(biāo)。具體來說,與VoxelNeXt相比,我們的指標(biāo)顯示出更顯著的改善,特別是在20-40m和40m-inf的距離范圍內(nèi)。例如,在KITTI 40m-inf下的3D檢測中,我們的SparseDet將AP3D提高了9.28%。在40m-inf的BEV檢測中,我們的SparseDet將APBEV提高了9.40%。在nuScenes數(shù)據(jù)集上,在40m-inf的檢測中,我們的SparseDet在mAP和NDS上分別提高了4.1%和3.6%。這些結(jié)果清楚地反映了我們的SparseDet模型在遠程檢測方面的優(yōu)勢。

圖片

在圖6中,與VoxelNeXt相比,我們以KITTI中汽車類0-70.4m的檢測范圍為例,說明了我們的SparseDet在遠程/遠距離目標(biāo)檢測方面的優(yōu)越性。根據(jù)該圖,我們的SparseDet有一個假陽性結(jié)果,但沒有遺漏實例。其中,VoxelNeXt存在遠距離目標(biāo)丟失的問題。這可以歸因于Our SparseDet充分利用了點云中的多尺度上下文語義信息,這對于稀疏點云中的遠程目標(biāo)至關(guān)重要,因為這些目標(biāo)通常因缺乏信息而較弱??傮w而言,我們的方法在遠程目標(biāo)檢測的精度方面有了顯著提高。

圖片

結(jié)論

在這項工作中,我們提出了SparseDet,這是一個簡單有效的全稀疏3D目標(biāo)檢測框架。具體來說,基于VoxelNeXt,我們設(shè)計了一個高效的稀疏檢測框架,更合理地使用實例級和場景級點云上下文信息。這顯著增強了目標(biāo)代理的表達能力,從而大大提高了稀疏檢測器的檢測性能。綜合實驗結(jié)果表明,與KITTI和nuScenes數(shù)據(jù)集上的基線相比,SparseDet顯著提高了性能。我們希望我們的工作能夠為自動駕駛的稀疏檢測器提供新的見解。

目前,稀疏3D檢測器的研究工作還不足以滿足多模態(tài)3D檢測等其他方向的需求。這使得3D稀疏框架的比較方法受到限制。然而,對于現(xiàn)實世界的應(yīng)用程序,模型的延遲非常重要。因此,對全稀疏快速detectors的研究需要更多的關(guān)注和重點。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-02-26 18:46:35

機器學(xué)習(xí)數(shù)據(jù)集算法

2022-04-28 13:58:41

Redis6客戶端服務(wù)端

2023-02-07 14:10:19

目標(biāo)檢測

2011-08-31 14:41:37

憤怒的小鳥小游戲android游戲

2013-06-09 13:24:00

程序員Bug

2021-07-26 05:00:16

算法DfsBfs

2015-08-31 15:08:08

智慧教育展

2020-11-12 07:49:18

MySQL

2022-12-31 08:17:02

2014-06-11 09:35:14

應(yīng)用匯

2019-12-31 09:37:28

物聯(lián)網(wǎng)物聯(lián)網(wǎng)安全IoT

2024-05-17 09:30:29

2021-09-26 15:58:05

MySQL SQL 語句數(shù)據(jù)庫

2022-05-01 22:09:27

數(shù)據(jù)模型大數(shù)據(jù)

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2022-03-27 20:32:28

Knative容器事件模型

2025-03-31 07:30:00

圖像生成AI模型

2023-09-08 18:57:42

MPPSMP節(jié)點
點贊
收藏

51CTO技術(shù)棧公眾號