從論文到代碼、從前沿研究到工業(yè)落地,全面了解BEV感知
BEV 感知到底是什么?自動(dòng)駕駛的學(xué)術(shù)界和工業(yè)界又都在關(guān)注 BEV 感知的什么內(nèi)容?本文將會(huì)為你揭曉答案。
在自動(dòng)駕駛領(lǐng)域中,讓感知模型學(xué)習(xí)強(qiáng)大的鳥(niǎo)瞰圖(BEV)表征是一種趨勢(shì),并且已經(jīng)引起了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。相比于之前自動(dòng)駕駛領(lǐng)域中的大多數(shù)基于在前視圖或透視圖中執(zhí)行檢測(cè)、分割、跟蹤等任務(wù)的模型,鳥(niǎo)瞰圖(BEV)表征能夠讓模型更好地識(shí)別被遮擋的車輛,并且有利于后續(xù)模塊(例如規(guī)劃、控制)的開(kāi)發(fā)和部署。
可以看出,BEV 感知研究對(duì)自動(dòng)駕駛領(lǐng)域具有巨大的潛在影響,值得學(xué)術(shù)界和產(chǎn)業(yè)界長(zhǎng)期關(guān)注并投入大量精力,那么 BEV 感知到底是什么?自動(dòng)駕駛的學(xué)術(shù)界和工業(yè)界大佬又都在關(guān)注 BEV 感知的什么內(nèi)容?本文將會(huì)通過(guò) BEVPerception Survey 為你揭曉答案。
BEVPerception Survey 是上海人工智能實(shí)驗(yàn)室自動(dòng)駕駛OpenDriveLab 團(tuán)隊(duì)與商湯研究院合作論文 《Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe》 的實(shí)用化工具呈現(xiàn)方式,分為基于 BEVPercption 的最新文獻(xiàn)研究和基于 PyTorch 的開(kāi)源 BEV 感知工具箱兩大板塊。
- 論文地址:https://arxiv.org/abs/2209.05324
- 項(xiàng)目地址:https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe
概要解讀、技術(shù)解讀
BEVPerception Survey 最新文獻(xiàn)綜述研究主要包含三個(gè)部分 ——BEV 相機(jī)、BEV 激光雷達(dá)和 BEV 融合。BEV 相機(jī)表示僅有視覺(jué)或以視覺(jué)為中心的算法,用于從多個(gè)周圍攝像機(jī)進(jìn)行三維目標(biāo)檢測(cè)或分割;BEV 激光雷達(dá)描述了點(diǎn)云輸入的檢測(cè)或分割任務(wù);BEV 融合描述了來(lái)自多個(gè)傳感器輸入的融合機(jī)制,例如攝像頭、激光雷達(dá)、全球?qū)Ш较到y(tǒng)、里程計(jì)、高清地圖、CAN 總線等。
BEV 感知工具箱是為基于 BEV 相機(jī)的 3D 對(duì)象檢測(cè)提供平臺(tái),并在 Waymo 數(shù)據(jù)集上提供實(shí)驗(yàn)平臺(tái),可以進(jìn)行手動(dòng)教程和小規(guī)模數(shù)據(jù)集的實(shí)驗(yàn)。
圖 1:BEVPerception Survey 框架
具體來(lái)說(shuō),BEV 相機(jī)表示用于從多個(gè)周圍相機(jī)進(jìn)行 3D 對(duì)象檢測(cè)或分割的算法;BEV 激光雷達(dá)表示用點(diǎn)云作為輸入來(lái)完成檢測(cè)或分割任務(wù);BEV 融合則是用多個(gè)傳感器的輸出作為輸入,例如攝像頭、LiDAR、GNSS、里程計(jì)、HD-Map、CAN-bus 等。
BEVPercption 文獻(xiàn)綜述研究
BEV 相機(jī)?
BEV 相機(jī)感知包括 2D 特征提取器、視圖變換和 3D 解碼器三部分。下圖展示了 BEV 相機(jī)感知流程圖,在視圖變換中,有兩種方式對(duì) 3D 信息進(jìn)行編碼 —— 一種是從 2D 特征預(yù)測(cè)深度信息;另一種是從 3D 空間中采樣 2D 特征。
圖 2:BEV 相機(jī)感知流程圖
對(duì)于 2D 特征提取器,2D 感知任務(wù)中存在大量可以在 3D 感知任務(wù)中借鑒的經(jīng)驗(yàn),比如主干預(yù)訓(xùn)練的形式。
視圖轉(zhuǎn)換模塊是與 2D 感知系統(tǒng)非常不同的一方面。如上圖所示,一般有兩種方式進(jìn)行視圖變換:一種是從 3D 空間到 2D 空間的變換,另一種是從 2D 空間到 3D 空間的變換,這兩種轉(zhuǎn)換方法要么是利用在 3D 空間中的物理先驗(yàn)知識(shí)或利用額外的 3D 信息監(jiān)督。值得注意的是并非所有 3D 感知方法都有視圖變換模塊,比如有些方法直接從 2D 空間中的特征檢測(cè) 3D 空間中的對(duì)象。
3D 解碼器接收 2D/3D 空間中的特征并輸出 3D 感知結(jié)果。大多數(shù) 3D 解碼器的設(shè)計(jì)來(lái)自基于 LiDAR 的感知模型。這些方法在 BEV 空間中執(zhí)行檢測(cè),但仍然有一些 3D 解碼器利用 2D 空間中的特征并直接回歸 3D 對(duì)象的定位。
BEV 激光雷達(dá)
BEV 激光雷達(dá)感知的普通流程主要是將兩個(gè)分支將點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為 BEV 表示。下圖為 BEV 激光雷達(dá)感知流程圖,上分支提取 3D 空間中的點(diǎn)云特征,提供更準(zhǔn)確的檢測(cè)結(jié)果。下分支提取 2D 空間中的 BEV 特征,提供更高效的網(wǎng)絡(luò)。除了基于點(diǎn)的方法能在原始點(diǎn)云上進(jìn)行處理外,基于體素的方法還將點(diǎn)體素化為離散網(wǎng)格,通過(guò)離散化連續(xù)的 3D 坐標(biāo)提供更高效的表示?;陔x散體素表示,3D 卷積或 3D 稀疏卷積可用于提取點(diǎn)云特征。
圖 3:BEV 激光雷達(dá)感知流程圖
BEV 融合
BEV 感知融合算法有 PV 感知和 BEV 感知兩種方式,適用于學(xué)術(shù)界和工業(yè)界。下圖展示了 PV 感知與 BEV 感知流程圖的對(duì)比,兩者的主要區(qū)別在于 2D 到 3D 的轉(zhuǎn)換和融合模塊。在 PV 感知流程圖中,不同算法的結(jié)果首先被轉(zhuǎn)換到 3D 空間中,然后使用一些先驗(yàn)知識(shí)或者手工設(shè)計(jì)的規(guī)則進(jìn)行融合。而在 BEV 感知流程圖中,PV 特征圖會(huì)被轉(zhuǎn)換到 BEV 視角下,然后進(jìn)行 BEV 空間下的融合從而得到最終的結(jié)果,因而能夠最大化保留原始特征信息,避免過(guò)多的手工設(shè)計(jì)。
圖 4:PV 感知(左)與 BEV 感知(右)流程圖
適用于 BEV 感知模型的數(shù)據(jù)集
針對(duì) BEV 感知任務(wù)存在很多的數(shù)據(jù)集。通常數(shù)據(jù)集由各種場(chǎng)景組成,并且每個(gè)場(chǎng)景在不同數(shù)據(jù)集中的長(zhǎng)度不同。下表總結(jié)了目前學(xué)界常用的數(shù)據(jù)集。我們可以從中看到 Waymo 數(shù)據(jù)集相比其他數(shù)據(jù)集有著更多樣的場(chǎng)景以及更豐富的 3D 檢測(cè)框的標(biāo)注。
表 1:BEV 感知數(shù)據(jù)集一覽
然而目前學(xué)界并沒(méi)有針對(duì) Waymo 開(kāi)發(fā)的 BEV 感知任務(wù)的軟件公開(kāi)。因此我們選擇基于 Waymo 數(shù)據(jù)集進(jìn)行開(kāi)發(fā),希望可以推動(dòng) BEV 感知任務(wù)在 Waymo 數(shù)據(jù)集上的發(fā)展。
Toolbox - BEV 感知工具箱
BEVFormer 是一種常用的 BEV 感知方法,它采用時(shí)空變換器將主干網(wǎng)絡(luò)從多視圖輸入提取的特征轉(zhuǎn)換為 BEV 特征,然后將 BEV 特征輸入檢測(cè)頭中得到最后的檢測(cè)結(jié)果。BEVFormer 有兩個(gè)特點(diǎn),它具有從 2D 圖像特征到 3D 特征的精確轉(zhuǎn)換,并可以把它提取的 BEV 特征適用于不同的檢測(cè)頭。我們通過(guò)一系列的方式進(jìn)一步提升了 BEVFormer 的視圖轉(zhuǎn)換質(zhì)量以及最終的檢測(cè)性能。
在憑借 BEVFormer++ 取得 CVPR 2022 Waymo Challenge 第一名后,我們推出了 Toolbox - BEV 感知工具箱,通過(guò)提供一整套易于上手的 Waymo Open Dataset 的數(shù)據(jù)處理工具,從而集成一系列能夠顯著提高模型性能的方法(包括但不限于數(shù)據(jù)增強(qiáng),檢測(cè)頭,損失函數(shù),模型集成等),并且能夠與領(lǐng)域內(nèi)廣泛使用的開(kāi)源框架,如 mmdetection3d 以及 detectron2 兼容。與基礎(chǔ)的 Waymo 數(shù)據(jù)集相比,BEV 感知工具箱將使用技巧加以優(yōu)化改進(jìn)以便不同類型研發(fā)人員使用。下圖展示的是基于 Waymo 數(shù)據(jù)集的 BEV 感知工具箱使用示例。
圖 5:基于 Waymo 數(shù)據(jù)集的 Toolbox 使用示例
總結(jié)
- BEVPerception Survey 總結(jié)了近年來(lái) BEV 感知技術(shù)研究的總體情況,包括高層次的理念闡述和更為深入的詳細(xì)討論。對(duì) BEV 感知相關(guān)文獻(xiàn)的綜合分析,涵蓋了深度估計(jì)、視圖變換、傳感器融合、域自適應(yīng)等核心問(wèn)題,并對(duì) BEV 感知在工業(yè)系統(tǒng)中的應(yīng)用進(jìn)行了較為深入的闡述。
- 除理論貢獻(xiàn)外,BEVPerception Survey 還提供了一套對(duì)于提高基于相機(jī)的 3D 鳥(niǎo)瞰圖(BEV)物體檢測(cè)性能十分實(shí)用的工具箱,包括一系列的訓(xùn)練數(shù)據(jù)增強(qiáng)策略、高效的編碼器設(shè)計(jì)、損失函數(shù)設(shè)計(jì)、測(cè)試數(shù)據(jù)增強(qiáng)和模型集成策略等,以及這些技巧在 Waymo 數(shù)據(jù)集上的實(shí)現(xiàn)。希望可以幫助更多的研究人員實(shí)現(xiàn) “隨用隨取”,為自動(dòng)駕駛行業(yè)研發(fā)人員提供更多的便利。
我們希望 BEVPerception Survey 不僅能幫助使用者方便地使用高性能的 BEV 感知模型,同時(shí)也能成為新手入門 BEV 感知模型的良好起點(diǎn)。我們著力于突破自動(dòng)駕駛領(lǐng)域的研發(fā)界限,期待與學(xué)界分享觀點(diǎn)并交流討論進(jìn)而不斷發(fā)掘自動(dòng)駕駛相關(guān)研究在現(xiàn)實(shí)世界中的應(yīng)用潛力。