自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

從論文到代碼、從前沿研究到工業(yè)落地，全面了解BEV感知

作者：機(jī)器之心 2023-02-14 15:07:57

人工智能新聞

BEV（Bird’s-eye-view）感知研究對(duì)自動(dòng)駕駛領(lǐng)域影響巨大，關(guān)于 BEV 你需要了解哪些內(nèi)容，本文通過(guò) BEVPerception Survey 為你揭曉答案。

BEV 感知到底是什么？自動(dòng)駕駛的學(xué)術(shù)界和工業(yè)界又都在關(guān)注 BEV 感知的什么內(nèi)容？本文將會(huì)為你揭曉答案。

在自動(dòng)駕駛領(lǐng)域中，讓感知模型學(xué)習(xí)強(qiáng)大的鳥(niǎo)瞰圖（BEV）表征是一種趨勢(shì)，并且已經(jīng)引起了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。相比于之前自動(dòng)駕駛領(lǐng)域中的大多數(shù)基于在前視圖或透視圖中執(zhí)行檢測(cè)、分割、跟蹤等任務(wù)的模型，鳥(niǎo)瞰圖（BEV）表征能夠讓模型更好地識(shí)別被遮擋的車輛，并且有利于后續(xù)模塊（例如規(guī)劃、控制）的開(kāi)發(fā)和部署。

可以看出，BEV 感知研究對(duì)自動(dòng)駕駛領(lǐng)域具有巨大的潛在影響，值得學(xué)術(shù)界和產(chǎn)業(yè)界長(zhǎng)期關(guān)注并投入大量精力，那么 BEV 感知到底是什么？自動(dòng)駕駛的學(xué)術(shù)界和工業(yè)界大佬又都在關(guān)注 BEV 感知的什么內(nèi)容？本文將會(huì)通過(guò) BEVPerception Survey 為你揭曉答案。

BEVPerception Survey 是上海人工智能實(shí)驗(yàn)室自動(dòng)駕駛OpenDriveLab 團(tuán)隊(duì)與商湯研究院合作論文《Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe》的實(shí)用化工具呈現(xiàn)方式，分為基于 BEVPercption 的最新文獻(xiàn)研究和基于 PyTorch 的開(kāi)源 BEV 感知工具箱兩大板塊。

論文地址：https://arxiv.org/abs/2209.05324
項(xiàng)目地址：https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe

概要解讀、技術(shù)解讀

BEVPerception Survey 最新文獻(xiàn)綜述研究主要包含三個(gè)部分 ——BEV 相機(jī)、BEV 激光雷達(dá)和 BEV 融合。BEV 相機(jī)表示僅有視覺(jué)或以視覺(jué)為中心的算法，用于從多個(gè)周圍攝像機(jī)進(jìn)行三維目標(biāo)檢測(cè)或分割；BEV 激光雷達(dá)描述了點(diǎn)云輸入的檢測(cè)或分割任務(wù)；BEV 融合描述了來(lái)自多個(gè)傳感器輸入的融合機(jī)制，例如攝像頭、激光雷達(dá)、全球?qū)Ш较到y(tǒng)、里程計(jì)、高清地圖、CAN 總線等。

BEV 感知工具箱是為基于 BEV 相機(jī)的 3D 對(duì)象檢測(cè)提供平臺(tái)，并在 Waymo 數(shù)據(jù)集上提供實(shí)驗(yàn)平臺(tái)，可以進(jìn)行手動(dòng)教程和小規(guī)模數(shù)據(jù)集的實(shí)驗(yàn)。

圖 1：BEVPerception Survey 框架

具體來(lái)說(shuō)，BEV 相機(jī)表示用于從多個(gè)周圍相機(jī)進(jìn)行 3D 對(duì)象檢測(cè)或分割的算法；BEV 激光雷達(dá)表示用點(diǎn)云作為輸入來(lái)完成檢測(cè)或分割任務(wù)；BEV 融合則是用多個(gè)傳感器的輸出作為輸入，例如攝像頭、LiDAR、GNSS、里程計(jì)、HD-Map、CAN-bus 等。

BEVPercption 文獻(xiàn)綜述研究

BEV 相機(jī)?

BEV 相機(jī)感知包括 2D 特征提取器、視圖變換和 3D 解碼器三部分。下圖展示了 BEV 相機(jī)感知流程圖，在視圖變換中，有兩種方式對(duì) 3D 信息進(jìn)行編碼 —— 一種是從 2D 特征預(yù)測(cè)深度信息；另一種是從 3D 空間中采樣 2D 特征。

圖 2：BEV 相機(jī)感知流程圖

對(duì)于 2D 特征提取器，2D 感知任務(wù)中存在大量可以在 3D 感知任務(wù)中借鑒的經(jīng)驗(yàn)，比如主干預(yù)訓(xùn)練的形式。

視圖轉(zhuǎn)換模塊是與 2D 感知系統(tǒng)非常不同的一方面。如上圖所示，一般有兩種方式進(jìn)行視圖變換：一種是從 3D 空間到 2D 空間的變換，另一種是從 2D 空間到 3D 空間的變換，這兩種轉(zhuǎn)換方法要么是利用在 3D 空間中的物理先驗(yàn)知識(shí)或利用額外的 3D 信息監(jiān)督。值得注意的是并非所有 3D 感知方法都有視圖變換模塊，比如有些方法直接從 2D 空間中的特征檢測(cè) 3D 空間中的對(duì)象。

3D 解碼器接收 2D/3D 空間中的特征并輸出 3D 感知結(jié)果。大多數(shù) 3D 解碼器的設(shè)計(jì)來(lái)自基于 LiDAR 的感知模型。這些方法在 BEV 空間中執(zhí)行檢測(cè)，但仍然有一些 3D 解碼器利用 2D 空間中的特征并直接回歸 3D 對(duì)象的定位。

BEV 激光雷達(dá)

BEV 激光雷達(dá)感知的普通流程主要是將兩個(gè)分支將點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為 BEV 表示。下圖為 BEV 激光雷達(dá)感知流程圖，上分支提取 3D 空間中的點(diǎn)云特征，提供更準(zhǔn)確的檢測(cè)結(jié)果。下分支提取 2D 空間中的 BEV 特征，提供更高效的網(wǎng)絡(luò)。除了基于點(diǎn)的方法能在原始點(diǎn)云上進(jìn)行處理外，基于體素的方法還將點(diǎn)體素化為離散網(wǎng)格，通過(guò)離散化連續(xù)的 3D 坐標(biāo)提供更高效的表示?；陔x散體素表示，3D 卷積或 3D 稀疏卷積可用于提取點(diǎn)云特征。

圖 3：BEV 激光雷達(dá)感知流程圖

BEV 融合

BEV 感知融合算法有 PV 感知和 BEV 感知兩種方式，適用于學(xué)術(shù)界和工業(yè)界。下圖展示了 PV 感知與 BEV 感知流程圖的對(duì)比，兩者的主要區(qū)別在于 2D 到 3D 的轉(zhuǎn)換和融合模塊。在 PV 感知流程圖中，不同算法的結(jié)果首先被轉(zhuǎn)換到 3D 空間中，然后使用一些先驗(yàn)知識(shí)或者手工設(shè)計(jì)的規(guī)則進(jìn)行融合。而在 BEV 感知流程圖中，PV 特征圖會(huì)被轉(zhuǎn)換到 BEV 視角下，然后進(jìn)行 BEV 空間下的融合從而得到最終的結(jié)果，因而能夠最大化保留原始特征信息，避免過(guò)多的手工設(shè)計(jì)。

圖 4：PV 感知（左）與 BEV 感知（右）流程圖

適用于 BEV 感知模型的數(shù)據(jù)集

針對(duì) BEV 感知任務(wù)存在很多的數(shù)據(jù)集。通常數(shù)據(jù)集由各種場(chǎng)景組成，并且每個(gè)場(chǎng)景在不同數(shù)據(jù)集中的長(zhǎng)度不同。下表總結(jié)了目前學(xué)界常用的數(shù)據(jù)集。我們可以從中看到 Waymo 數(shù)據(jù)集相比其他數(shù)據(jù)集有著更多樣的場(chǎng)景以及更豐富的 3D 檢測(cè)框的標(biāo)注。

表 1：BEV 感知數(shù)據(jù)集一覽

然而目前學(xué)界并沒(méi)有針對(duì) Waymo 開(kāi)發(fā)的 BEV 感知任務(wù)的軟件公開(kāi)。因此我們選擇基于 Waymo 數(shù)據(jù)集進(jìn)行開(kāi)發(fā)，希望可以推動(dòng) BEV 感知任務(wù)在 Waymo 數(shù)據(jù)集上的發(fā)展。

Toolbox - BEV 感知工具箱

BEVFormer 是一種常用的 BEV 感知方法，它采用時(shí)空變換器將主干網(wǎng)絡(luò)從多視圖輸入提取的特征轉(zhuǎn)換為 BEV 特征，然后將 BEV 特征輸入檢測(cè)頭中得到最后的檢測(cè)結(jié)果。BEVFormer 有兩個(gè)特點(diǎn)，它具有從 2D 圖像特征到 3D 特征的精確轉(zhuǎn)換，并可以把它提取的 BEV 特征適用于不同的檢測(cè)頭。我們通過(guò)一系列的方式進(jìn)一步提升了 BEVFormer 的視圖轉(zhuǎn)換質(zhì)量以及最終的檢測(cè)性能。

在憑借 BEVFormer++ 取得 CVPR 2022 Waymo Challenge 第一名后，我們推出了 Toolbox - BEV 感知工具箱，通過(guò)提供一整套易于上手的 Waymo Open Dataset 的數(shù)據(jù)處理工具，從而集成一系列能夠顯著提高模型性能的方法（包括但不限于數(shù)據(jù)增強(qiáng)，檢測(cè)頭，損失函數(shù)，模型集成等），并且能夠與領(lǐng)域內(nèi)廣泛使用的開(kāi)源框架，如 mmdetection3d 以及 detectron2 兼容。與基礎(chǔ)的 Waymo 數(shù)據(jù)集相比，BEV 感知工具箱將使用技巧加以優(yōu)化改進(jìn)以便不同類型研發(fā)人員使用。下圖展示的是基于 Waymo 數(shù)據(jù)集的 BEV 感知工具箱使用示例。

圖 5：基于 Waymo 數(shù)據(jù)集的 Toolbox 使用示例

總結(jié)

BEVPerception Survey 總結(jié)了近年來(lái) BEV 感知技術(shù)研究的總體情況，包括高層次的理念闡述和更為深入的詳細(xì)討論。對(duì) BEV 感知相關(guān)文獻(xiàn)的綜合分析，涵蓋了深度估計(jì)、視圖變換、傳感器融合、域自適應(yīng)等核心問(wèn)題，并對(duì) BEV 感知在工業(yè)系統(tǒng)中的應(yīng)用進(jìn)行了較為深入的闡述。
除理論貢獻(xiàn)外，BEVPerception Survey 還提供了一套對(duì)于提高基于相機(jī)的 3D 鳥(niǎo)瞰圖（BEV）物體檢測(cè)性能十分實(shí)用的工具箱，包括一系列的訓(xùn)練數(shù)據(jù)增強(qiáng)策略、高效的編碼器設(shè)計(jì)、損失函數(shù)設(shè)計(jì)、測(cè)試數(shù)據(jù)增強(qiáng)和模型集成策略等，以及這些技巧在 Waymo 數(shù)據(jù)集上的實(shí)現(xiàn)。希望可以幫助更多的研究人員實(shí)現(xiàn) “隨用隨取”，為自動(dòng)駕駛行業(yè)研發(fā)人員提供更多的便利。

我們希望 BEVPerception Survey 不僅能幫助使用者方便地使用高性能的 BEV 感知模型，同時(shí)也能成為新手入門 BEV 感知模型的良好起點(diǎn)。我們著力于突破自動(dòng)駕駛領(lǐng)域的研發(fā)界限，期待與學(xué)界分享觀點(diǎn)并交流討論進(jìn)而不斷發(fā)掘自動(dòng)駕駛相關(guān)研究在現(xiàn)實(shí)世界中的應(yīng)用潛力。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

自動(dòng)駕駛

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="ayd8k"></cite>

<blockquote id="ayd8k"></blockquote>