擴散一切?3DifFusionDet:擴散模型殺進LV融合3D目標檢測!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
筆者的個人理解
近年來,擴散模型在生成任務上非常成功,自然而然被擴展到目標檢測任務上,它將目標檢測建模為從噪聲框(noisy boxes)到目標框(object boxes)的去噪擴散過程。在訓練階段,目標框從真值框(ground-truth boxes)擴散到隨機分布,模型學習如何逆轉這種向真值標注框添加噪聲過程。在推理階段,模型以漸進的方式將一組隨機生成的目標框細化為輸出結果。與傳統目標檢測方法相比,傳統目標檢測依賴于一組固定的可學習查詢,3DifFusionDet不需要可學習的查詢就能進行目標檢測。
3DifFusionDet的主要思路
3DifFusionDet框架將3D目標檢測表示為從有噪聲的3D框到目標框的去噪擴散過程。在這個框架中,真值框以隨機分布擴散進行訓練,模型學習反向噪聲過程。在推理過程中,模型逐漸細化了一組隨機生成的框。在特征對齊策略下,漸進細化方法可以對激光雷達-Camera融合做出重要貢獻。迭代細化過程還可以通過將該框架應用于需要不同級別的精度和速度的各種檢測環(huán)境,從而顯示出極大的適應性。KITTI是一個真實交通目標識別的基準,在KITTI上進行了大量的實驗表明,與早期的檢測器相比,在KITTI能夠取得良好的性能。
3DifFusionDet主要貢獻如下:
- 將3D目標檢測表示為生成式去噪過程,并提出了 3DifFusionDet,這是第一個將diffusion模型應用于 3D目標檢測的研究。
- 研究了生成去噪過程框架下的最佳Camera-LiDAR 融合對齊策略,并提出了 2 個分支融合對齊策略以利用兩種模態(tài)提供的互補信息。
- 在 KITTI 基準測試上進行了大量的實驗。與現有精心設計的方法相比,3DifFusionDet 取得了有競爭力的結果,展示了diffusion模型在 3D目標檢測任務中的前景。
使用 LiDAR-Camera融合進行 3D 目標檢測
對于 3D 目標檢測,Camera和 LiDAR 是兩種互補的傳感器類型。LiDAR 傳感器專注于 3D 定位,并提供有關 3D 結構的豐富信息,而Camera則提供顏色信息,從中可以導出豐富的語義特征。為了通過融合來自攝像機和 LiDAR 的數據來準確檢測 3D 目標,人們做出了許多努力。最先進的方法主要基于 LiDAR 基于 3D 目標檢測器,并努力將圖像信息納入 LiDAR 檢測流程的各個階段,因為基于 LiDAR 的檢測方法的性能明顯優(yōu)于基于Camera的方法。由于基于激光雷達和基于Camera的檢測系統的復雜性,將兩種模式結合起來必然會增加計算成本和推理時間延遲。因此,有效融合多種模式信息的問題仍然存在。
擴散模型
擴散模型是一種生成模型,它通過引入噪聲來逐漸解構觀察到的數據,并通過反轉該過程來恢復原始數據。擴散模型和去噪分數匹配通過去噪擴散概率模型連接起來(Ho、Jain 和 Abbeel 2020a),該模型最近引發(fā)了人們對計算機視覺應用的興趣。已被多個領域應用,例如圖生成、語言理解、魯棒學習和時態(tài)數據建模等。
擴散模型在圖像生成和合成方面取得了巨大成功。一些先驅作品采用擴散模型進行圖像分割任務。與這些領域相比,它們在目標檢測方面的潛力尚未得到充分開發(fā)。以前使用擴散模型進行對象檢測的方法僅限于 2D 邊界框。與 2D 檢測相比,3D 檢測提供了更豐富的目標空間信息,可以實現準確的深度感知和體積理解,這對于自動駕駛等應用至關重要,在自動駕駛等應用中,識別周圍車輛的精確距離和方向是自動駕駛等應用的重要方面。
3DifFusionDet的網絡設計
圖 1 顯示了 3DifFusionDet 的整體架構。其接受多模式輸入,包括 RGB 圖像和點云。將整個模型分為特征提取和特征解碼部分,與 DiffusionDet相同,在每個迭代步驟中直接 應用于原始 3D 特征會很困難。特征提取部分僅運行一次,以從原始輸入 X 中提取深層特征表示,而特征解碼組件將此深層特征作為條件并訓練以逐步從噪聲框 中繪制框預測。
為了充分利用兩種模態(tài)提供的互補信息,將每種模態(tài)的編碼器和解碼器分開。此外,使用擴散模型分別生成噪聲框和,分別訓練圖像解碼器和點云解碼器以細化 2D 和 3D 特征。至于這兩個特征分支的連接,簡單地連接它們會導致信息剪切,從而導致性能下降。為此,引入了多頭交叉注意機制來深度對齊這些特征。這些對齊的特征被輸入到檢測頭以預測最終的真值,而不會產生噪聲。
對于點云編碼器,使用基于體素的方法進行提取,并采用基于稀疏的方法進行處理?;隗w素的方法將 LiDAR 點轉換為體素。與其他系列的點特征提取方法(例如基于點的方法)相比,這些方法將點云離散為等間距的 3D 網格,在盡可能保留原始 3D 形狀信息的同時減少內存需求?;谙∈栊缘奶幚矸椒ㄟM一步幫助網絡提高計算效率。這些好處平衡了擴散模型相對較高的計算要求。
與 2D 特征相比,3D 特征包含額外的維度,使得學習更具挑戰(zhàn)性??紤]到這一點,除了從原始模態(tài)提取特征之外,還添加了一條融合路徑,將提取的圖像特征添加為點編碼器的另一個輸入,促進信息交換并利用來自更多樣化來源的學習。采用PointFusion 策略,其中來自 LiDAR 傳感器的點被投影到圖像平面上。然后,圖像特征和對應點的串聯由 VoxelNet 架構聯合處理。
特征解碼器。提取的圖像特征和提取的點特征用作相應圖像和點解碼器的輸入。每個解碼器還結合了來自獨特創(chuàng)建的噪聲框 或 的輸入,除了相應的提取特征之外,還可以學習分別細化 2D 和 3D 特征。
圖像解碼器受到 Sparse RCNN的啟發(fā),接收來自 2D 提議框集合的輸入,以從圖像編碼器創(chuàng)建的特征圖中裁剪 RoI 特征。點解碼器接收來自 3D 提議框集合的輸入,以從圖像編碼器創(chuàng)建的特征圖中裁剪 RoI 特征。對于點解碼器,輸入是一組 3D 提議框,用于從點編碼器生成的特征圖中裁剪 3D RoI 特征。
交叉注意力模塊。在對兩個特征分支進行解碼之后,需要一種將它們組合起來的方法。一種直接的方法是通過連接這兩個功能分支來簡單地連接它們。這種方式顯得過于粗糙,可能會導致模型遭受信息剪切,導致性能下降。因此,引入了多頭交叉注意機制來深度對齊和細化這些特征,如圖 1 所示。具體來說,點解碼器的輸出被視為 k 和 v 的源,而圖像解碼器的輸出被投影到 q 上。
實驗結果
在 KITTI 3D 目標檢測基準上進行實驗。遵循用于測量檢測性能的標準 KITTI 評估協議 (IoU = 0.7),表 1 顯示了 3DifFusionDet 方法與 KITTI 驗證集上最先進的方法相比的平均精度 (mAP) 分數。報告了 的性能,遵循 [diffusionDet, difficileist] 并粗體顯示每個任務的兩個性能最佳的模型。
根據表 1,與基線相比,本文的方法顯示出顯著的性能改進。當 D = 4 時,它能夠以相對較短的推理時間超越大多數基線。通過進一步增加 D 使得 D = 8,考慮到更長的推理時間,在所有模型中實現了最佳性能。這種靈活性揭示了廣泛的潛在用途。
消融實驗 首先,展示了保持圖像 RoI 對齊分支和編碼器特征融合的必要性。要使用擴散模型從Camera和激光雷達設計 3D 目標檢測器,最直接的方法應該是直接應用生成的噪聲 3D 框作為融合 3D 特征的輸入。然而,這種方式可能會受到信息剪切的影響,從而導致性能下降,如表2所示。利用它,除了將點云RoIAlign放在編碼的3D特征下之外,我們還創(chuàng)建了第二個分支,使圖像RoIAlign 在編碼的 2D 特征下。顯著提高的性能表明可以更好地利用兩種模式提供的補充信息。
然后分析使用不同融合策略的影響:給定學習的 2D 和 3D 表示特征,如何更有效地組合。與 2D 特征相比,3D 特征包含一個額外的維度,這使得它們學習起來更具挑戰(zhàn)性。通過附加投影來自 LiDAR 傳感器的點,使用圖像特征和要聯合處理的對應點的串聯,添加從圖像特征到點特征的信息流路徑 VoxelNet 架構。表 3 顯示了其對檢測精度的好處。
需要融合的另一部分是解碼后兩個特征分支的連接。在這里,應用了多頭交叉注意機制來深度對齊和細化這些特征。除此之外,還研究了更直接的方法,例如使用串聯運算、求和運算、直接乘積運算以及使用多層感知器(MLP)。結果如表4所示。其中,交叉注意力機制表現出最好的性能,訓練和推理速度幾乎相同。
研究準確性和推理速度的權衡。通過比較 3D 檢測精度和每秒幀數 (FPS),展示了選擇不同提案框以及 D 的影響。提案框的數量從 100、300 中選擇,而 D 從 1, 4, 8 中選擇. 運行時間是在批量大小為 1 的單個 NVIDIA RTX A6000 GPU 上進行評估的。結果發(fā)現,將提案框的數量從 100 增加到 300 可顯著提高準確性增益,而延遲成本可以忽略不計 (1.3 FPS 與 1.2 FPS)。另一方面,更好的檢測精度會導致更長的推理時間。當將 D 從 1 更改為 8 時,3D 檢測精度從急?。‥asy:87.1 mAP 到 90.5 mAP)增加到相對緩慢(Easy:90.5 AP 到 91.3 mAP),而 FPS 不斷下降。
Case研究和未來的工作基于其獨特的屬性,本文討論了 3DifFusionDet 的潛在用途。一般來說,準確、魯棒和實時的推斷是目標檢測任務的三個要求。在自動駕駛汽車的感知領域,考慮到高速行駛的汽車由于慣性需要花費額外的時間和距離來減速或改變方向,因此感知模型對實時性要求特別敏感。更重要的是,為了保證舒適的乘坐體驗,汽車應該在安全的前提下,以最小的加速度絕對值盡可能平穩(wěn)地行駛。與其他同類自動駕駛汽車產品相比,其主要優(yōu)勢之一就是擁有更流暢的乘坐體驗。為此,無論是加速、減速還是轉彎,自動駕駛汽車都應該開始快速做出反應。汽車響應越快,為后續(xù)操作和調整贏得的空間就越大。這比首先獲得最精確的檢測到的目標的分類或位置更重要:當汽車開始響應時,仍然有時間和距離來調整其行為方式,可以利用這些時間和距離以更精確的方式做出進一步的推斷, 其結果隨后微調汽車的駕駛操作。
本文的 3DifFusionDet 自然滿足了需求。如表4所示,當推理步長較小時,模型可以快速做出推理,并得到大致較高準確度的結果。這種最初的感知足夠精確,足以讓自動駕駛汽車開始新的響應。隨著推理步驟的增長,會生成更準確的檢測目標,從而進一步微調其響應。這種漸進式檢測方式非常適合這項任務。此外,由于本文的模型可以在參考過程中改變提案框的數量,因此從小步驟獲得的先驗信息可以反過來用于優(yōu)化實時提案框的數量。如表 4 所示,不同先驗提案框下的性能有所不同。因此,開發(fā)這種自適應探測器是一項前景光明的工作。
除了自動駕駛汽車之外,本文的模型本質上匹配任何在連續(xù)反應空間中需要短推斷時間的現實場景,特別是在檢測器根據檢測結果移動的場景中。受益于擴散模型的性質,3DifFusionDet 可以快速找到幾乎準確的真實空間感興趣區(qū)域,觸發(fā)機器開始進行新的操作和自我優(yōu)化。接下來的更高精度的感知機進一步微調機器的操作。為了將模型部署到這些移動探測器中,一個懸而未決的問題是結合較大步驟的早期推斷和較小步驟的最新推斷之間的推斷信息的策略,這是另一個懸而未決的問題。
總結
本文介紹了 3DifFusionDet,這是一種具有強大 LiDAR 和Camera融合功能的新型 3D 目標檢測器。將 3D 目標檢測表述為生成式去噪過程,這是第一個將擴散模型應用于 3D 目標檢測的工作。這項工作在生成去噪過程框架的背景下研究了最有效的Camera激光雷達融合對準策略,并提出了融合對準策略以充分利用兩種模式提供的補充信息。與成熟的檢測器相比,3DifFusionDet 取得了良好的性能,展示了擴散模型在目標檢測任務中的廣闊前景。強大的學習結果和靈活的推理模式使其具有廣闊的潛在用途。
原文鏈接:https://mp.weixin.qq.com/s/0Fya4RYelNUU5OdAQp9DVA