RangePerception:Range View3D檢測新思路!
本文經自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
原標題:RangePerception: Taming LiDAR Range View for Efficient and Accurate 3D Object Detection
論文鏈接:https://openreview.net/pdf?id=9kFQEJSyCM
作者單位:上海人工智能實驗室 復旦大學
論文思路:
基于 LiDAR 的 3D 檢測方法目前使用鳥瞰圖 (BEV) 或 range view (RV) 作為主要基礎。前者依賴體素化和 3D 卷積,導致訓練和推理過程效率低下。相反,基于 RV 的方法由于其緊湊性和與 2D 卷積的兼容性而表現(xiàn)出更高的效率,但其性能仍然落后于基于 BEV 的方法。為了消除這種性能差距,同時保持基于 RV 的方法的效率,本研究提出了一種高效且準確的基于 RV 的 3D 目標檢測框架,稱為 RangePerception。通過細致的分析,本研究確定了阻礙現(xiàn)有基于 RV 的方法性能的兩個關鍵挑戰(zhàn):1)輸出中使用的 3D 世界坐標與輸入中使用的 2D range image 坐標之間存在自然域差距(natural domain gap),導致從 range images 中提取信息變得困難 ;2)原始 range image 存在視覺損壞問題(vision corruption issue),影響位于 range image 邊緣的目標的檢測精度。為了解決上述關鍵挑戰(zhàn),本文提出了兩種名為 Range Aware Kernel (RAK) 和 Vision Restoration Module (VRM) 的新穎算法,它們促進了 range image 表示和世界坐標 3D 檢測結果的信息流。在 RAK 和 VRM 的幫助下,在 Waymo Open Dataset 上,與之前最先進的基于 RV 的方法 RangeDet 相比,本文的 RangePerception 的平均 L1/L2 AP 提高了 3.25/4.18。RangePerception 首次作為基于 RV 的 3D 檢測方法,與著名的基于 BEV 的方法 CenterPoint 相比,其平均 AP 略高,并且 RangePerception 的推理速度是 CenterPoint 的 1.3 倍。
網絡設計:
本文展示了一種高效且準確的基于 RV 的 3D 檢測框架,稱為 RangePerception。為了克服上述關鍵挑戰(zhàn),提出了兩種名為 Range Aware Kernel (RAK) 和 Vision Restoration Module (VRM) 的新穎算法,并將其集成到 RangePerception 框架中,兩者都促進了 range image 表示和世界坐標 3D 檢測結果的信息流。在 RAK 和 VRM 的幫助下,本文的 RangePerception 在 WOD 上為 vehicle & pedestrian & cyclist 提供了 73.62、80.24 和 70.33 L1 3D AP,作為 range-view-based 3D 檢測方法,實現(xiàn)了最先進的性能。本文的貢獻如下。
RangePerception Framework. 本文介紹了一種新穎的高性能 3D 檢測框架,名為 RangePerception。RangePerception 是第一個基于 RV 的 3D 檢測器,在 WOD 上實現(xiàn)了 74.73/69.17 平均 L1/L2 AP,優(yōu)于之前最先進的基于 RV 的檢測器 RangeDet,后者的平均 L1/L2 AP 為 71.48/64.99,呈現(xiàn) 3.25/4.18 的改進。與廣泛使用的基于 BEV 的方法 CenterPoint [6] 相比,RangePerception 還表現(xiàn)出了稍微優(yōu)越的性能,后者的平均 L1/L2 AP 為 74.25/68.04。值得注意的是,RangePerception 的推理速度是 CenterPoint 的 1.3 倍,這證明其更適合自動駕駛車輛上的實時部署。
Range Aware Kernel. 作為 RangePerception 特征提取器的一部分, Range Aware Kernel (RAK) 是一種專為基于 RV 的網絡量身定制的開創(chuàng)性算法。RAK 將 range image 空間分解為多個子空間,并通過從每個子空間中獨立提取特征來克服空間錯位問題(Spatial Misalignment issue)。實驗結果表明,RAK 將平均 L1/L2 AP 提高了 5.75/5.99,而計算成本可以忽略不計。
Vision Restoration Module. 為了解決視覺損壞問題(Vision Corruption issue),本研究提出了 Vision Restoration Module(VRM)。VRM 通過恢復先前損壞的區(qū)域來擴展 backbone 網絡的感受野。VRM 對于車輛檢測特別有幫助,如實驗部分所示。
圖 2:RangePerception 框架采用 range image I 作為輸入并生成密集預測。為了改進表示學習,該框架在 Range Backbone 之前依次集成了 VRM 和 RAK 模塊。隨后,使用專門設計的 Redundancy Pruner 來消除深層特征中的冗余,從而減輕后續(xù) Region Proposal Network 和后處理層中的計算成本。
圖 1:(a-d) 頂部 LiDAR 信號的示例幀,分別以 RV 和 BEV 表示。(e) 空間錯位現(xiàn)象(Spatial Misalignment phenomena)。(f) 視覺損壞現(xiàn)象(Vision Corruption phenomena)。
圖 3:Range Aware Kernel 將 range image 空間分解為多個子空間,并通過從每個子空間提取獨立的特征來克服空間錯位問題(Spatial Misalignment issue)。
圖 5:Vision Restoration Module。通過預先定義恢復角 δ,VRM 構建了一個方位角 θ ∈ [?δ, 2π + δ] 的擴展球面空間。因此, range image I 兩側的視覺損壞問題都得到了解決,顯著簡化了從 I 邊緣提取特征的過程。
實驗結果:
總結:
本文介紹了 RangePerception,這是一種基于 RV 的 3D 檢測框架,可有效解決空間錯位(Spatial Misalignment)和視覺損壞(Vision Corruption)的挑戰(zhàn)。通過引入 RAK 和 VRM,RangePerception 在 WOD 上實現(xiàn)了卓越的檢測性能,展示了其高效、準確的實際部署潛力。
引用:
@inproceedings{
bai2023rangeperception,
title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection},
author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
url={https://openreview.net/forum?id=9kFQEJSyCM}
}
原文鏈接:https://mp.weixin.qq.com/s/EJCl5kLxhHaa7lh98g2I6w