自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

TimePillars:提升200米以上小目標(biāo)的檢測(cè)能力

人工智能 智能汽車
這篇論文主要討論了自動(dòng)駕駛中的一個(gè)關(guān)鍵挑戰(zhàn):如何準(zhǔn)確地創(chuàng)建周圍環(huán)境的三維表示。這對(duì)于自動(dòng)駕駛汽車的可靠性和安全性至關(guān)重要。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

基于LiDAR點(diǎn)云點(diǎn)3D Object Detection一直是一個(gè)很經(jīng)典的問題,學(xué)術(shù)界和工業(yè)界都提出了各種各樣的模型來提高精度、速度和魯棒性。但因?yàn)槭彝獾膹?fù)雜環(huán)境,所以室外點(diǎn)云的Object Detection的性能都還不是太好。而激光雷達(dá)點(diǎn)云本質(zhì)上比較稀疏,如何針對(duì)性得解決這一問題呢?論文給出了自己的答案:依照時(shí)序信息的聚合來完成信息的提取。

1. 論文信息

圖片

2. 引言

圖片

這篇論文主要討論了自動(dòng)駕駛中的一個(gè)關(guān)鍵挑戰(zhàn):如何準(zhǔn)確地創(chuàng)建周圍環(huán)境的三維表示。這對(duì)于自動(dòng)駕駛汽車的可靠性和安全性至關(guān)重要。特別是,自動(dòng)駕駛車輛需要能夠識(shí)別其周圍的物體,如車輛和行人,并準(zhǔn)確確定它們的位置、大小和方向。通常情況下,人們會(huì)使用深度神經(jīng)網(wǎng)絡(luò)處理激光雷達(dá)(LiDAR)數(shù)據(jù)來執(zhí)行此任務(wù)。

大部分現(xiàn)有文獻(xiàn)集中在單幀方法上,即一次使用一個(gè)傳感器掃描的數(shù)據(jù)。這種方法在經(jīng)典基準(zhǔn)測(cè)試中表現(xiàn)良好,這些測(cè)試的物體距離可達(dá)75米。然而,激光雷達(dá)點(diǎn)云本質(zhì)上是稀疏的,特別是在遠(yuǎn)距離范圍內(nèi)。因此,論文聲稱僅使用單個(gè)掃描進(jìn)行長(zhǎng)距離檢測(cè)(例如,達(dá)到200米)是不夠的。

為了解決這個(gè)問題,一種方法是使用點(diǎn)云聚合,即將一系列激光雷達(dá)掃描數(shù)據(jù)連續(xù)起來,從而獲得更密集的輸入。然而,這種方式在計(jì)算上代價(jià)高昂,并且無法充分利用在網(wǎng)絡(luò)內(nèi)部進(jìn)行聚合所帶來的優(yōu)勢(shì)。一個(gè)明顯的替代方案是使用遞歸方法,這些方法可以隨時(shí)間積累信息。

文章還提到,增加檢測(cè)范圍的其他技術(shù)包括使用先進(jìn)的操作,如稀疏卷積、注意力模塊和3D卷積。但是,這些方法通常忽略了目標(biāo)硬件的兼容性問題。部署和訓(xùn)練神經(jīng)網(wǎng)絡(luò)所用的硬件往往在支持的操作和延遲方面有顯著差異。例如,稀疏卷積或注意力這樣的操作通常不被現(xiàn)有的目標(biāo)硬件支持,比如Nvidia Orin DLA。此外,3D卷積等層由于實(shí)時(shí)延遲要求往往不可行。這就強(qiáng)調(diào)了使用簡(jiǎn)單操作,如2D卷積的必要性。

論文中提出了一個(gè)新型的時(shí)序遞歸模型,TimePillars,該模型尊重常見目標(biāo)硬件上支持的操作集,依賴于2D卷積,基于點(diǎn)柱(Pillar)輸入表示和一個(gè)卷積遞歸單元。通過單個(gè)卷積和輔助學(xué)習(xí)的幫助,對(duì)遞歸單元的隱藏狀態(tài)應(yīng)用了自我Motion Compensation。通過消融研究表明,使用輔助任務(wù)來確保這種操作的正確性是恰當(dāng)?shù)?。論文還研究了遞歸模塊在管道中的最佳位置,并清楚地表明,將其放置在網(wǎng)絡(luò)的骨干和檢測(cè)頭之間可以獲得最佳性能。在新發(fā)布的Zenseact開放數(shù)據(jù)集(ZOD)上,論文展示了TimePillars方法的有效性。與單幀和多幀點(diǎn)柱基線相比,TimePillars取得了顯著的評(píng)估性能提升,特別是在重要的自行車手和行人類別中,在遠(yuǎn)距離(長(zhǎng)達(dá)200米)的檢測(cè)上表現(xiàn)尤為突出。最后,TimePillars的延遲顯著低于多幀點(diǎn)柱,使其適合實(shí)時(shí)系統(tǒng)。

這篇論文的主要貢獻(xiàn)包括提出了一個(gè)新的時(shí)序遞歸模型TimePillars,用于解決3D激光雷達(dá)物體檢測(cè)任務(wù),同時(shí)尊重常見目標(biāo)硬件支持的操作集;展示了TimePillars在長(zhǎng)距離檢測(cè)上相比單幀和多幀點(diǎn)柱基線取得了顯著更好的性能;并且首次在新的Zenseact開放數(shù)據(jù)集上對(duì)3D激光雷達(dá)物體檢測(cè)模型進(jìn)行了基準(zhǔn)測(cè)試。不過,該論文的限制在于,它僅關(guān)注激光雷達(dá)數(shù)據(jù),沒有考慮其他傳感器輸入,并且其方法基于單一的最新基線。盡管如此,作者認(rèn)為他們的框架是通用的,即未來對(duì)基線的改進(jìn)將轉(zhuǎn)化為整體性能的提升。

3. 方法

圖片

3.1 Input preprocessing

在這篇論文的“輸入預(yù)處理”部分,作者采用了“柱化”(Pillarisation)技術(shù)來處理輸入的點(diǎn)云數(shù)據(jù)。這種方法不同于常規(guī)的體素化,它將點(diǎn)云分割成垂直的柱狀結(jié)構(gòu),僅在水平方向(x和y軸)上分割,而在垂直方向(z軸)上保持固定高度。這樣做可以保持網(wǎng)絡(luò)輸入尺寸的一致性,并允許使用2D卷積進(jìn)行有效處理。

然而,Pillarisation處理的一個(gè)問題是產(chǎn)生了許多空的柱子,導(dǎo)致數(shù)據(jù)非常稀疏。為解決這個(gè)問題,論文中提出了使用動(dòng)態(tài)體素化技術(shù)。這種技術(shù)避免了為每個(gè)柱子設(shè)置預(yù)定義點(diǎn)數(shù)的需求,從而不需要對(duì)每個(gè)柱子進(jìn)行截?cái)嗷蛱畛洳僮?。相反,整個(gè)點(diǎn)云數(shù)據(jù)被整體處理,以匹配到所需的總點(diǎn)數(shù),這里設(shè)置為20萬個(gè)點(diǎn)。這種預(yù)處理方法的好處是,它最大程度地減少了信息的損失,并且使得生成的數(shù)據(jù)表示更加穩(wěn)定和一致。

3.2 Model architecture

然后對(duì)于Model architecture,作者詳細(xì)介紹了一個(gè)由柱特征編碼器(Pillar Feature Encoder)、2D卷積神經(jīng)網(wǎng)絡(luò)(CNN)骨干和檢測(cè)頭組成的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

  1. Pillar Feature Encoder:這個(gè)部分將預(yù)處理后的輸入張量映射成鳥瞰視圖(BEV)偽圖像。使用動(dòng)態(tài)體素化后,簡(jiǎn)化的PointNet進(jìn)行了相應(yīng)的調(diào)整。輸入經(jīng)過1D卷積,批量歸一化和ReLU激活函數(shù)處理,得到一個(gè)形狀為  的張量,其中  代表通道數(shù)。在最終的散射最大化(scatter max)層之前,對(duì)通道應(yīng)用最大池化,形成形狀為  的潛在空間。由于初始張量被編碼為 ,在前面的層之后變成 ,因此去掉了最大池化操作。
  2. Backbone:采用原始柱狀論文中提出的2D CNN骨干架構(gòu),由于其深度效率比較優(yōu)越。使用三個(gè)下采樣塊(Conv2D-BN-ReLU)縮小潛在空間,并使用三個(gè)上采樣塊和轉(zhuǎn)置卷積將其恢復(fù),輸出形狀為 。
  3. Memory Unit:將系統(tǒng)的記憶建模為一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(RNN),具體采用卷積GRU(convGRU),這是Gated Recurrent Unit的卷積版本。卷積GRU的優(yōu)勢(shì)在于避免了梯度消失問題,并且在保持空間數(shù)據(jù)特性的同時(shí)提高了效率。與其他選擇,如LSTM相比,GRU由于門的數(shù)量更少,因此具有更少的可訓(xùn)練參數(shù),可以視為一種記憶正則化技術(shù)(降低隱藏狀態(tài)的復(fù)雜性)。通過合并類似性質(zhì)的操作,減少了所需卷積層的數(shù)量,從而使單元更高效。
  4. Detection Head:對(duì)SSD(Single Shot MultiBox Detector)進(jìn)行了簡(jiǎn)單的修改。保留了SSD的核心理念,即單次通過且無需區(qū)域提議,但取消了錨盒(anchor boxes)的使用。直接為網(wǎng)格中的每個(gè)單元格輸出預(yù)測(cè),雖然失去了單元格多對(duì)象檢測(cè)能力,但避免了繁瑣且常常不精確的錨盒參數(shù)調(diào)整,并簡(jiǎn)化了推理過程。線性層處理分類和定位(位置、大小和角度)回歸的各自輸出。只有大小使用激活函數(shù)(ReLU),以防止取負(fù)值。此外,不同于相關(guān)文獻(xiàn),論文通過獨(dú)立預(yù)測(cè)車輛行駛方向的正弦和余弦分量,并從中提取角度,避免了直接角度回歸的問題。
3.3 Feature Ego-Motion Compensation

在論文這一部分,作者討論了如何處理由卷積GRU輸出的隱藏狀態(tài)特征,這些特征是以前一幀的坐標(biāo)系表示的。如果直接存儲(chǔ)并用于計(jì)算下一個(gè)預(yù)測(cè),由于自我運(yùn)動(dòng)(ego-motion)會(huì)發(fā)生空間不匹配。

為了進(jìn)行轉(zhuǎn)換,可以應(yīng)用不同的技術(shù)。理想情況下,已經(jīng)校正的數(shù)據(jù)將被輸入網(wǎng)絡(luò),而不是在網(wǎng)絡(luò)內(nèi)部進(jìn)行轉(zhuǎn)換。然而,這不是論文提出的方法,因?yàn)樗枰谕评磉^程中的每一步重置隱藏狀態(tài),轉(zhuǎn)換之前的點(diǎn)云,并將它們傳播到整個(gè)網(wǎng)絡(luò)。這不僅效率低下,而且違背了使用RNN的目的。因此,在循環(huán)上下文中,補(bǔ)償需要在特征級(jí)別進(jìn)行。這使得假設(shè)的解決方案更高效,但也使問題變得更復(fù)雜。傳統(tǒng)的插值方法可以用來獲取變換坐標(biāo)系中的特征。

與此相反,論文中受到Chen等人工作的啟發(fā),提出使用卷積操作和輔助任務(wù)來執(zhí)行變換??紤]到前述工作的細(xì)節(jié)有限,論文提出了針對(duì)該問題的定制解決方案。

論文采取的方法是通過一個(gè)額外的卷積層,為網(wǎng)絡(luò)提供執(zhí)行特征轉(zhuǎn)換所需的信息。首先計(jì)算兩個(gè)連續(xù)幀之間的相對(duì)變換矩陣,即成功變換特征所需執(zhí)行的操作。然后,從中提取2D信息(旋轉(zhuǎn)和平移部分):




這種簡(jiǎn)化避免了主要矩陣常數(shù),并在2D(偽圖像)域中工作,將16個(gè)值簡(jiǎn)化為6個(gè)。然后將矩陣展平,并擴(kuò)展以匹配要補(bǔ)償?shù)碾[藏特征的形狀 。第一個(gè)維度表示需要轉(zhuǎn)換的幀數(shù)。這種表示使其適合于在隱藏特征的通道維度中串聯(lián)每個(gè)潛在柱子。

最后,隱藏狀態(tài)特征被輸入到一個(gè)2D卷積層中,該層適合變換過程。需要注意的一個(gè)關(guān)鍵方面是:卷積的執(zhí)行并不保證變換的進(jìn)行。通道串聯(lián)只是為網(wǎng)絡(luò)提供了關(guān)于如何可能執(zhí)行變換的額外信息。在這種情況下,使用輔助學(xué)習(xí)是合適的。在訓(xùn)練過程中,添加了一個(gè)額外的學(xué)習(xí)目標(biāo)(坐標(biāo)變換)與主要目標(biāo)(物體檢測(cè))并行。設(shè)計(jì)一個(gè)輔助任務(wù),其目的是在監(jiān)督下引導(dǎo)網(wǎng)絡(luò)通過變換過程,以確保補(bǔ)償?shù)恼_性輔助任務(wù)僅限于訓(xùn)練過程。一旦網(wǎng)絡(luò)學(xué)會(huì)了正確地變換特征,它就失去了適用性。因此,在推理時(shí)不考慮該任務(wù)。下一節(jié)中將進(jìn)一步實(shí)驗(yàn),對(duì)比其影響。

4. 實(shí)驗(yàn)

圖片

實(shí)驗(yàn)結(jié)果表明,TimePillars模型在處理Zenseact Open Dataset(ZOD)幀數(shù)據(jù)集時(shí)表現(xiàn)出色,特別是在處理長(zhǎng)達(dá)120米的范圍時(shí)。這些結(jié)果凸顯了TimePillars在不同運(yùn)動(dòng)轉(zhuǎn)換方法下的性能差異,并與其他方法進(jìn)行了比較。

在對(duì)比基準(zhǔn)模型PointPillars和多幀(MF)PointPillars后,可以看出TimePillars在多個(gè)關(guān)鍵性能指標(biāo)上取得了顯著提升。尤其是在NuScenes Detection Score(NDS)上,TimePillars展示了更高的綜合評(píng)分,反映了其在檢測(cè)性能和定位精度方面的優(yōu)勢(shì)。此外,TimePillars在平均轉(zhuǎn)換誤差(mATE)、平均尺度誤差(mASE)和平均方向誤差(mAOE)上也取得了更低的數(shù)值,表明其在定位準(zhǔn)確性和方向估計(jì)上更為精準(zhǔn)。特別值得注意的是,TimePillars在運(yùn)動(dòng)轉(zhuǎn)換方面的不同實(shí)現(xiàn)方法對(duì)性能有顯著影響。當(dāng)采用卷積基的運(yùn)動(dòng)轉(zhuǎn)換(Conv-based)時(shí),TimePillars在NDS、mATE、mASE和mAOE上的表現(xiàn)尤為突出,證明了這種方法在Motion Compensation和提高檢測(cè)精度方面的有效性。相比之下,使用插值方法的TimePillars雖然也優(yōu)于基準(zhǔn)模型,但在某些指標(biāo)上不如卷積方法。平均精度(mAP)的結(jié)果顯示,TimePillars在車輛、騎行者和行人類別的檢測(cè)上均表現(xiàn)良好,特別是在處理騎行者和行人這些更為挑戰(zhàn)性的類別時(shí),其性能提升更為顯著。從處理頻率(f (Hz))的角度來看,TimePillars雖然不如單幀PointPillars那樣快,但與多幀PointPillars相比,其處理速度更快,同時(shí)保持了較高的檢測(cè)性能。這表明TimePillars在保持實(shí)時(shí)處理的同時(shí),能夠有效地進(jìn)行長(zhǎng)距離檢測(cè)和Motion Compensation。也就是說TimePillars模型在長(zhǎng)距離檢測(cè)、Motion Compensation以及處理速度方面展現(xiàn)出顯著優(yōu)勢(shì),尤其是在處理多幀數(shù)據(jù)和采用卷積基運(yùn)動(dòng)轉(zhuǎn)換技術(shù)時(shí)。這些結(jié)果強(qiáng)調(diào)了TimePillars在自動(dòng)駕駛車輛的3D激光雷達(dá)物體檢測(cè)領(lǐng)域的應(yīng)用潛力。

圖片

上述實(shí)驗(yàn)結(jié)果表明,TimePillars模型在不同距離范圍內(nèi)的物體檢測(cè)性能上表現(xiàn)卓越,尤其是與基準(zhǔn)模型PointPillars相比。這些結(jié)果分為三個(gè)主要的檢測(cè)范圍:0至50米、50至100米和100米以上。

首先,NuScenes Detection Score(NDS)和平均精度(mAP)為整體性能指標(biāo)。TimePillars在這兩項(xiàng)指標(biāo)上均優(yōu)于PointPillars,顯示出整體上更高的檢測(cè)能力和定位精度。具體來說,TimePillars的NDS為0.723,遠(yuǎn)高于PointPillars的0.657;而在mAP方面,TimePillars也以0.570顯著超越了PointPillars的0.475。

圖片

在不同距離范圍內(nèi)的性能對(duì)比中,可以看到TimePillars在各個(gè)范圍內(nèi)均有更好的表現(xiàn)。對(duì)于車輛類別,TimePillars在0至50米、50至100米和100米以上的范圍內(nèi)的檢測(cè)精度分別為0.884、0.776和0.591,均高于PointPillars在相同范圍內(nèi)的性能。這表明TimePillars在車輛檢測(cè)方面,無論是近距離還是遠(yuǎn)距離,都具有更高的準(zhǔn)確性。在處理易受傷害的交通工具(如摩托車、輪椅、電動(dòng)滑板車等)時(shí),TimePillars同樣展現(xiàn)了更好的檢測(cè)性能。特別是在100米以上的范圍內(nèi),TimePillars的檢測(cè)精度為0.178,而PointPillars僅為0.036,顯示出在遠(yuǎn)距離檢測(cè)方面的顯著優(yōu)勢(shì)。對(duì)于行人檢測(cè),TimePillars也呈現(xiàn)出更好的性能,尤其是在50至100米的范圍內(nèi),其檢測(cè)精度達(dá)到了0.350,而PointPillars僅為0.211。即便在更遠(yuǎn)的距離(100米以上),TimePillars仍能實(shí)現(xiàn)一定程度的檢測(cè)(0.032的精度),而PointPillars在這一范圍內(nèi)的表現(xiàn)為零。

這些實(shí)驗(yàn)結(jié)果強(qiáng)調(diào)了TimePillars在處理不同距離范圍內(nèi)的物體檢測(cè)任務(wù)上的優(yōu)越性能。無論是在近距離還是在更具挑戰(zhàn)性的遠(yuǎn)距離范圍內(nèi),TimePillars均能提供更準(zhǔn)確和可靠的檢測(cè)結(jié)果,這對(duì)于自動(dòng)駕駛車輛的安全和效率至關(guān)重要。

5.  討論

圖片

首先,TimePillars模型的主要優(yōu)點(diǎn)在于其對(duì)長(zhǎng)距離物體檢測(cè)的有效性。通過采用動(dòng)態(tài)體素化和卷積GRU結(jié)構(gòu),模型能夠更好地處理稀疏的激光雷達(dá)數(shù)據(jù),尤其是在遠(yuǎn)距離物體檢測(cè)方面。這對(duì)于自動(dòng)駕駛車輛在復(fù)雜和變化的道路環(huán)境中的安全運(yùn)行至關(guān)重要。此外,模型在處理速度上也顯示出了較好的性能,這對(duì)于實(shí)時(shí)應(yīng)用是必不可少的。另一方面,TimePillars在Motion Compensation方面采用了基于卷積的方法,這是對(duì)傳統(tǒng)方法的一大改進(jìn)。這種方法在訓(xùn)練過程中通過輔助任務(wù)確保了轉(zhuǎn)換的正確性,提高了模型在處理運(yùn)動(dòng)對(duì)象時(shí)的精確度。

然而,論文的研究也存在一些局限。首先,雖然TimePillars在處理遠(yuǎn)距離物體檢測(cè)方面表現(xiàn)出色,但這種性能的提升可能以犧牲一定的處理速度為代價(jià)。雖然模型的速度仍適用于實(shí)時(shí)應(yīng)用,但與單幀方法相比,仍有所下降。此外,論文主要關(guān)注于LiDAR數(shù)據(jù),沒有考慮其他傳感器輸入,如相機(jī)或雷達(dá),這可能限制了模型在更復(fù)雜多傳感器環(huán)境中的應(yīng)用。

也就是說TimePillars在自動(dòng)駕駛車輛的3D激光雷達(dá)物體檢測(cè)方面展現(xiàn)出了顯著的優(yōu)勢(shì),特別是在長(zhǎng)距離檢測(cè)和Motion Compensation方面。盡管存在處理速度的輕微折衷和對(duì)多傳感器數(shù)據(jù)處理的局限性,TimePillars仍然代表了在這一領(lǐng)域中的一個(gè)重要進(jìn)步。

6. 結(jié)論

這項(xiàng)工作表明,考慮過去的傳感器數(shù)據(jù)比僅利用當(dāng)前的信息更為優(yōu)越。訪問先前的駕駛環(huán)境信息,可以應(yīng)對(duì)激光雷達(dá)點(diǎn)云的稀疏性質(zhì),并導(dǎo)致更準(zhǔn)確的預(yù)測(cè)。我們證明了遞歸網(wǎng)絡(luò)作為實(shí)現(xiàn)后者的手段是合適的。與通過大量處理創(chuàng)建更密集數(shù)據(jù)表示的點(diǎn)云聚合方法相比,賦予系統(tǒng)記憶力帶來了更加穩(wěn)健的解決方案。我們提出的方法,TimePillars,實(shí)現(xiàn)了解決遞歸問題的一種方式。僅通過在推理過程中增加三個(gè)額外的卷積層,我們證明了基本的網(wǎng)絡(luò)構(gòu)建模塊足以取得顯著成果,并保證了現(xiàn)有的效率和硬件集成規(guī)范得以滿足。據(jù)我們所知,這項(xiàng)工作為新引入的Zenseact開放數(shù)據(jù)集上的3D物體檢測(cè)任務(wù)提供了首個(gè)基準(zhǔn)結(jié)果。我們希望我們的工作能為未來更安全、更可持續(xù)的道路做出貢獻(xiàn)。

原文鏈接:https://mp.weixin.qq.com/s/94JQcvGXFWfjlDCT77gjlA

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-01-23 10:17:24

自動(dòng)駕駛安全

2024-06-13 11:53:40

2024-07-02 10:04:09

2021-10-08 09:46:42

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2024-07-17 10:30:00

2024-07-30 09:14:13

模型數(shù)據(jù)

2015-08-06 13:19:51

2015-09-16 10:47:32

2021-08-02 10:50:57

性能微服務(wù)數(shù)據(jù)

2014-05-06 11:48:29

2024-08-01 09:00:00

目標(biāo)檢測(cè)端到端

2012-03-27 11:30:01

Java算法

2020-10-23 13:46:45

ATT安全能力

2024-06-07 09:22:27

2009-03-09 11:13:42

2019-06-04 08:34:52

2011-04-19 10:45:44

路由算法

2009-12-22 15:28:45

ASP.NET AJA

2009-02-25 09:05:09

路由算法路由器

2021-06-14 08:10:06

網(wǎng)絡(luò)攻擊JBS網(wǎng)絡(luò)安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)