自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

3D世界的新視角:以O(shè)bject為中心的占用補全技術(shù)(港中文&小米)

人工智能 新聞
今天為大家分享港中文&小米最新的工作!以O(shè)bject為中心的占用補全技術(shù)。

寫在前面 && 筆者理解

傳統(tǒng)的感知主要采用3D對象邊界框(bboxes)來表征感知,但是這樣的表示其實是有局限性的,它無法捕捉物體形狀的精確細節(jié),特別是對于具有不規(guī)則幾何形狀的物體,因為它本質(zhì)上是一個包含物體的長方體。比如下圖1(a)所示,起重機被一個3D邊界框完美包圍。但是,其相對于駕駛室的長突出部分在3D邊界框內(nèi)產(chǎn)生了大量未占用的空間。而感知出來的結(jié)果是將3D邊界框所包圍的空間視為不可通行的。因此,在處理復(fù)雜和不規(guī)則形狀的物體時,邊界框在提供細粒度感知結(jié)果方面是不足夠的,這可能會影響后續(xù)任務(wù)的精度,如規(guī)劃和控制。

圖片

所以,占用空間是一個比較強有力的替代方法,如圖1(b)所示,占用表示將3D空間離散化為體積網(wǎng)格,其中每個體素被分類為被占用或空閑。與3D邊界框相比,這種表示更有效地捕捉不規(guī)則形狀,從而增強了精確規(guī)劃和控制。然而,從傳感器輸入實時生成場景級占用,無論是從視覺中心輸入還是激光雷達傳感器都非易事,前者是因為缺少深度感知,后者是因為每次激光雷達掃描的稀疏性(見圖2(b))。

圖片

因此,現(xiàn)有的方法利用神經(jīng)網(wǎng)絡(luò)以數(shù)據(jù)驅(qū)動的方式預(yù)測占用。由于計算限制,這些方法通常為大場景感知產(chǎn)生低分辨率占用網(wǎng)格或者需要大量的訓(xùn)練來實現(xiàn)隱式表示,這在實際使用中仍然是不夠的和效率低下的。另一種構(gòu)建占用網(wǎng)格的方法是直接體素化激光雷達點云。為了緩解稀疏性問題(圖2(b)),聚合多個激光雷達掃描對于背景是有效的。然而,對于前景物體,占用構(gòu)造變得具有挑戰(zhàn)性,因為它需要準(zhǔn)確的檢測和跟蹤來補償它們的潛在移動。在實時應(yīng)用中,3D檢測容易漂移,跟蹤算法可能會丟失或錯配物體,導(dǎo)致不準(zhǔn)確的軌跡。如圖2(d)所示,直接從不準(zhǔn)確的軌跡聚合點云會導(dǎo)致極其模糊的形狀表示。這些不準(zhǔn)確隨時間積累,逐漸降低了形狀表示的可靠性。

  • 論文鏈接:https://arxiv.org/pdf/2412.05154

基于這些觀察,作者做了本文的工作,主要貢獻總結(jié)如下:

  • 引入了以對象為中心的占用作為對象邊界框的補充,為物體的內(nèi)在幾何提供了更詳細的結(jié)構(gòu)描述。與其場景級對應(yīng)物不同,以對象為中心的占用專門關(guān)注前景物體,允許即使在大場景中也能實現(xiàn)更高的體素分辨率。
  • 為了促進以對象為中心的占用感知的發(fā)展,作者提出了一個新的以對象為中心的占用數(shù)據(jù)集,該數(shù)據(jù)集是使用自動化流水線從零開始構(gòu)建的。
  • 提出了一個魯棒的基于序列的占用完成網(wǎng)絡(luò)。通過使用注意力機制聚合歷史觀測的時間信息,該網(wǎng)絡(luò)有效地處理檢測漂移,并準(zhǔn)確預(yù)測完整的對象中心占用。
  • 采用了隱式形狀解碼器來生成動態(tài)大小的占用,并通過對選擇位置的查詢減少訓(xùn)練成本。在Waymo Open Dataset (WOD) 下的實驗表明,即使在嘈雜的檢測和跟蹤條件下,本文的方法也能展現(xiàn)出魯棒的性能,完成對象形狀。憑借隱式形狀描述符,作者展示了最先進的3D對象檢測器的性能也可以得到改善,特別是對于不完整或遠距離的物體。

相關(guān)工作

3D占用空間預(yù)測和形狀補全

3D語義占用預(yù)測(SOP)已成為以視覺為中心的自動駕駛中的關(guān)鍵任務(wù),其中算法主要使用RGB攝像頭感知環(huán)境。這些以視覺為中心的模型通常將周圍環(huán)境離散化為體積網(wǎng)格,并通過對單個/多視圖RGB圖像的適當(dāng)聚合來預(yù)測每個體素的占用狀態(tài)。對于被占用的體素,模型還會額外預(yù)測相應(yīng)的語義類別。另一個類似的任務(wù)是3D語義場景補全(SSC)。與只需要預(yù)測可見區(qū)域的占用的SOP不同,SSC還要求模型確定未見區(qū)域的占用狀態(tài)。值得注意的是,盡管SOP和SSC主要與以視覺為中心的方法相關(guān),但它們也適用于稀疏激光雷達或多模態(tài)輸入?,F(xiàn)有的SOP和SSC方法主要關(guān)注場景級占用,而作者的工作集中在對象級占用上,以更好地表示形狀。此外,對于作者設(shè)置,被占用體素的語義不是必需的,因為作者主要關(guān)注的是對象邊界框內(nèi)的幾何結(jié)構(gòu),其類別標(biāo)簽是已知的。與作者基于占用的方法不同,大多數(shù)形狀補全方法專注于對象的表面重建。然而,基于表面的表示不太適合自動駕駛感知,因為它們不直接支持諸如避碰等任務(wù)。

長序列做3D目標(biāo)檢測

對于單幀檢測器可以通過將幾個歷史幀的連接作為輸入,來獲得不錯的效果。盡管這種簡單的多幀策略顯示出明顯的改進,但隨著輸入幀數(shù)的增加,性能容易飽和。此外,隨著輸入幀數(shù)的增加,計算成本顯著增加,這對于實時應(yīng)用不理想。為了解決這個問題,有的工作采用了殘差點探測策略來移除多幀輸入中的冗余點,有的工作選擇了一種以對象為中心的方法,通過對軌跡提議進行時間聚合,允許處理更長的序列以降低計算成本。此外,還有一些工作通過利用整個對象軌跡的過去和未來信息,展示了人類級別的檢測性能。然而,它們僅限于離線應(yīng)用,因為它們需要訪問未來的幀。最近,MoDAR通過使用從長歷史子序列預(yù)測的未來軌跡點來增強激光雷達點云,從而改進檢測。與MoDAR相比,作者的方法能夠通過緊湊的隱式潛在嵌入聚合所有歷史信息。

隱式表示

隱式形狀表示就是用連續(xù)函數(shù)表示3D形狀。與傳統(tǒng)的顯式表示(例如,點云、網(wǎng)格、體積網(wǎng)格)相比,隱式表示可以在連續(xù)空間中描述形狀結(jié)構(gòu),并且更節(jié)省內(nèi)存。而不是手動設(shè)計隱式函數(shù),最近的一些工作提出從數(shù)據(jù)中學(xué)習(xí)隱式函數(shù)。具體來說,他們使用神經(jīng)網(wǎng)絡(luò)來近似隱式函數(shù),這可以通過數(shù)據(jù)驅(qū)動的方式進行訓(xùn)練。這些神經(jīng)函數(shù)通常以連續(xù)的3D坐標(biāo)作為輸入,并在查詢位置輸出相關(guān)的形狀屬性(例如,顏色、密度、有符號距離等)。作者的隱式形狀解碼器與DeepSDF比較相似。然而,作者不是預(yù)測查詢位置的有符號距離,而是預(yù)測其占用概率。

以O(shè)bject為中心的占用數(shù)據(jù)集

高質(zhì)量的數(shù)據(jù)集對于基于學(xué)習(xí)的方法至關(guān)重要。然而,現(xiàn)有的數(shù)據(jù)集由于坐標(biāo)系統(tǒng)不對齊和分辨率不足,無法滿足作者對對象中心占用感知的要求。所以作者根據(jù)現(xiàn)有的3D檢測數(shù)據(jù)集,用一套自己的pipiline,構(gòu)建對象中心占用注釋,生成了一個數(shù)據(jù)集。坐標(biāo)系的定義見圖3,,詳細構(gòu)建過程可以參考原文。

圖片

基于序列的占用補全網(wǎng)絡(luò)

圖片

通過隱式解碼生成動態(tài)尺寸占用空間

作者的網(wǎng)絡(luò)主要關(guān)注由對象提議定義的興趣區(qū)域(RoIs)。鑒于不同對象的大小不同,且同一對象的提議可能因檢測不準(zhǔn)確而異,從特征空間為每個動態(tài)大小的提議高效解碼占用體積是一個重大挑戰(zhàn)。傳統(tǒng)的場景級占用感知方法通常應(yīng)用密集卷積層來解碼占用體積。然而,這種策略在動態(tài)大小對象中心占用的背景下遇到了幾個限制。首先,由于作者需要跨時間戳的特征交互,不同提議的特征最好在同一大小。然而,從固定大小的特征圖解碼動態(tài)大小的體積對卷積來說并不簡單。其次,密集卷積操作對于高占用分辨率來說計算成本很高。另一種選擇是稀疏卷積,然而,它無法用正確的占用狀態(tài)填充未占用的體素。

雙分支 RoI 編碼

有了隱式形狀解碼器,下一步是獲得一個準(zhǔn)確表示RoI內(nèi)完整對象形狀的潛在嵌入。為了實現(xiàn)準(zhǔn)確的形狀補全和檢測,兩個信息源至關(guān)重要:

  • 每個RoI的部分幾何結(jié)構(gòu)
  • 對象隨時間的運動信息。

通過時間聚合增強特征

占用完成和檢測細化

給定最終潛在嵌入Z,作者可以通過在不同位置查詢隱式形狀解碼器D來預(yù)測每個提議的完整對象中心占用體積。在訓(xùn)練期間,作者從每個標(biāo)注的占用中隨機采樣固定數(shù)量的查詢位置和相應(yīng)的占用狀態(tài)。為確保占用預(yù)測不受偏差影響,作者采用平衡采樣策略,其中從被占用體素中采樣512個點,從空閑體素中采樣512個點。對于與真實邊界框(GT)匹配的RoI,作者使用RoI和邊界框之間的相對姿態(tài)將相應(yīng)的查詢集轉(zhuǎn)換到其坐標(biāo)系中。然后,這些位置查詢被發(fā)送到隱式解碼器D以計算占用損失。在推理期間,作者通過在RoI的所有體素中心查詢解碼器來為每個RoI生成密集的占用體積。由于Z現(xiàn)在編碼了完整對象形狀的信息,它為更好的檢測提供了更多的幾何信息。為了保留運動信息,作者還將Z與Zg全局RoI特征融合:

損失函數(shù)

實驗及結(jié)果

實現(xiàn)細節(jié)

為了生成網(wǎng)絡(luò)的輸入,作者首先使用FSD 和CenterPoint 作為基礎(chǔ)檢測器來生成對象提議。然后作者利用ImmortalTracker 將檢測結(jié)果關(guān)聯(lián)成對象軌跡提議。作者使用生成的對象軌跡提議以及GT軌跡作為訓(xùn)練序列。為了便于并行訓(xùn)練,作者在訓(xùn)練期間通過填充或剪切將每個軌跡規(guī)范為固定長度的32幀。為了加速收斂,作者在每個軌跡內(nèi)的所有時間戳計算損失,而不僅僅是最后一個。在推理期間,模型通過查看所有歷史框來輸出時間戳t的精煉框。

作者在Waymo Open Dataset (WOD)上進行評估。使用官方訓(xùn)練集,包括798個序列進行訓(xùn)練,以及202個序列進行評估。

形狀補全結(jié)果

與基線對比 由于對象中心占用是一個新任務(wù),據(jù)作者所知,沒有現(xiàn)成的基于學(xué)習(xí)的方法可以用于比較。所以,作者將其方法與直接在噪聲軌跡提議中累積和體素化歷史點云的基線進行比較。作者在三種類型的軌跡輸入上評估形狀補全性能:真實軌跡(GT),由CenterPoint(CP)生成的軌跡,以及由FSD生成的軌跡。如表1所示,形狀補全性能與輸入軌跡的質(zhì)量密切相關(guān),更好的軌跡導(dǎo)致更好的形狀補全。在所有情況下,作者的方法都優(yōu)于基線,即使是在輸入軌跡是無噪聲GT的情況下。這是因為該方法可以通過訓(xùn)練數(shù)據(jù)中學(xué)到的知識有效地完成對象形狀,即使在早期時間戳,而基線只有在更多視圖可見的后期時間戳才變得有效。

圖片

魯棒性 為了模擬不滿足檢測和跟蹤結(jié)果,作者對GT框提議添加了一些輕微的噪聲。從表1中作者可以發(fā)現(xiàn),基線性能顯著下降(>10% IoU),而作者的方法在這種情況下保持了穩(wěn)定的性能(<5% IoU),證明了其對這些噪聲和不準(zhǔn)確軌跡的強大魯棒性。

有真值bbox的結(jié)果 由于隱式形狀解碼器,作者的方法有潛力預(yù)測任何位置的占用狀態(tài)。為了證明這種能力,作者通過在GT框內(nèi)的所有體素中心查詢隱式解碼器來進行實驗。如表1所示,當(dāng)考慮RoI外的外推結(jié)果時,形狀補全性能得到了進一步提高(Ours-E),展示了作者隱式形狀表示的靈活性。

泛化能力 表1的最后一行展示了通過直接將作者訓(xùn)練好的模型應(yīng)用于FSDv2 生成的軌跡提議所獲得的占用補全結(jié)果。由于更好的檢測,即使沒有重新訓(xùn)練,作者的方法與CenterPoint相比仍然表現(xiàn)更好。然而,與使用FSD軌跡相比,它的表現(xiàn)略差,盡管FSDv2的檢測結(jié)果比FSD好。這表明顯著的檢測改進通常會導(dǎo)致更好的形狀補全(FSDv2與CenterPoint相比)。

目標(biāo)檢測結(jié)果

主要結(jié)果 表2展示了在WOD驗證集上的3D檢測結(jié)果。當(dāng)作者的方法應(yīng)用于CenterPoint 和FSD 生成的軌跡提議時,觀察到了顯著的改進。與之前的最先進方法MoDAR 相比,作者的方法在1幀CenterPoint上取得了更大的提升(例如,8.6%對3.2%的L1 AP改進)。將作者的方法應(yīng)用于更先進的檢測器,1幀F(xiàn)SD ,仍然可以獲得顯著的改進。這種增強與將MoDAR添加到類似性能的檢測器(即,3幀SWFormer )相比更為顯著。此外,通過將作者的方法應(yīng)用于7幀F(xiàn)SD,作者實現(xiàn)了新的在線檢測最先進結(jié)果,在L1和L2上分別達到了83.3% AP和75.7% APH。這表明作者的方法在對象檢測中有效地聚合了長序列信息,除了形狀補全。此外,作者的方法可以無縫集成到其他最先進的檢測器中,而無需在訓(xùn)練數(shù)據(jù)中重新訓(xùn)練它們各自的軌跡。

圖片

范圍細分 遠距離對象由于稀疏性更難以檢測。作者進一步分析了不同距離范圍的檢測性能。如表3所示,隨著距離的增加,作者對基線檢測器的改進變得更加顯著。這表明作者的方法通過形狀補全有效地解決了遠距離對象的稀疏性問題。

圖片

模型分析

在這一部分,作者評估了作者方法中不同設(shè)計選擇的性能,并分析了它們對形狀補全和檢測性能的影響。

圖片

占用任務(wù)幫助檢測任務(wù) 最后,作者評估了占用任務(wù)對檢測性能的影響。作者從完整模型中移除了OCC頭,并僅使用檢測損失重新訓(xùn)練。如表4最后一行所示,缺少占用解碼器會導(dǎo)致檢測性能顯著下降。這表明占用補全任務(wù)不僅明確豐富了對象形狀表示,而且還通過為潛在空間提供額外的幾何信息來增強檢測。

訓(xùn)練和測試的長度 表5顯示了序列長度對作者方法性能的影響。作者使用8幀和16幀軌跡重新訓(xùn)練作者的方法。如表5的前3行所示,使用更長的序列進行訓(xùn)練可以帶來更好的結(jié)果。然而,當(dāng)序列長度翻倍時,性能提升逐漸減少。為了在性能和計算成本之間取得平衡,作者將默認訓(xùn)練長度設(shè)置為32。

圖片

計算效率 表6顯示了所提出的形態(tài)解碼器的時間和GPU內(nèi)存成本。由于對象軌跡的長度不同,作者方法的運行時間也可能因不同的輸入而異。此外,解碼的對象中心占用的維度取決于檢測到的邊界框。為了公平測試運行時間,作者將輸入長度標(biāo)準(zhǔn)化為32,并將解碼查詢的數(shù)量設(shè)置為4096。如表6所示,形態(tài)解碼器僅引入了輕微的計算成本增加,展示了其效率。

圖片

總結(jié)和局限

局限

從技術(shù)角度講,作者的自動占用注釋依賴于剛體假設(shè),這可能不適用于可變形物體。因此,作者的實驗專注于車輛對象,因為它們是剛性的。盡管作者的方法可以應(yīng)用于其他可變形對象類別,但由于真實數(shù)據(jù)中的大量噪聲,對可變形物體的準(zhǔn)確評估無法得到保證。

總結(jié)

在這項工作中,作者引入了一個新任務(wù),以對象為中心的占用,它擴展了傳統(tǒng)的對象邊界框表示,以提供對對象形狀的更詳細描述。與場景級對應(yīng)物相比,對象中心占用通過關(guān)注前景對象,在大場景中實現(xiàn)了更高的體素分辨率。為了促進對象中心占用學(xué)習(xí),作者使用激光雷達數(shù)據(jù)和Waymo Open Dataset (WOD)中的框注釋構(gòu)建了一個對象中心占用數(shù)據(jù)集。進一步提出了一個基于序列的占用補全網(wǎng)絡(luò),該網(wǎng)絡(luò)從作者的數(shù)據(jù)集中學(xué)習(xí),以從不準(zhǔn)確的對象提議中補全對象形狀。該方法在WOD上的形狀補全和對象檢測任務(wù)上都取得了最先進的性能。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-09-30 09:35:55

圖像生成AI

2023-10-04 09:36:58

3D模型

2021-06-18 05:59:37

Css前端CSS 特效

2023-09-25 14:53:55

3D檢測

2017-07-11 15:00:04

前端CSS3D視角

2012-10-16 10:41:31

云計算應(yīng)用架構(gòu)

2019-11-29 09:30:37

Three.js3D前端

2022-09-14 09:23:51

Java3D引擎

2024-12-16 14:40:00

AI模型訓(xùn)練

2025-01-16 09:40:00

模型3D視頻

2024-05-16 09:24:17

3D技術(shù)

2018-09-21 09:15:47

蘋果 iOS技術(shù)

2023-12-01 10:37:20

自動駕駛3D

2012-12-24 08:48:25

iOSUnity3D

2012-04-24 15:07:49

HTML5

2015-09-10 13:28:51

暢享網(wǎng)

2012-07-30 09:48:32

設(shè)計管理

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2012-11-13 10:52:15

大數(shù)據(jù)3D可視化

2024-01-29 06:50:00

3D模型
點贊
收藏

51CTO技術(shù)棧公眾號