自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華最新!RoadBEV:BEV下的道路表面重建如何實現(xiàn)?

人工智能 新聞
本文首次在鳥瞰圖中重建了道路表面的高程。本文分別提出并分析了基于單目和雙目圖像的兩種模型,分別命名為RoadBEV-mono和RoadBEV-stereo。

本文經自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。

原標題:RoadBEV: Road Surface Reconstruction in Bird’s Eye View

論文鏈接:https://arxiv.org/pdf/2404.06605.pdf

代碼鏈接:https://github.com/ztsrxh/RoadBEV

作者單位:清華大學 加州大學伯克利分校

圖片

論文思路:

道路表面狀況,尤其是幾何輪廓,極大地影響自動駕駛車輛的駕駛性能?;谝曈X的在線道路重建有望提前捕獲道路信息?,F(xiàn)有的解決方案如單目深度估計和立體匹配的性能表現(xiàn)一般。最近的鳥瞰視角(BEV)感知技術為更可靠和精確的重建提供了巨大潛力。本文統(tǒng)一提出了兩種簡單而有效的BEV道路高程重建(road elevation reconstruction)模型,分別命名為RoadBEV-mono和RoadBEV-stereo,它們分別利用單目和立體圖像估計道路高程。前者直接基于從圖像視圖中查詢的體素特征擬合高程值,而后者有效地基于表示左右體素特征差異的BEV體積識別道路高程模式。深入的分析揭示了它們與透視視圖的一致性和差異。在真實世界數(shù)據(jù)集上的實驗驗證了模型的有效性和優(yōu)越性。RoadBEV-mono和RoadBEV-stereo的高程誤差分別為1.83厘米和0.56厘米?;趩文繄D像的BEV估計性能提高了50%。本文的模型對實際應用充滿希望,為基于視覺的BEV自動駕駛感知提供了寶貴的參考。

主要貢獻:

本文首次從理論和實驗兩個方面展示了鳥瞰視角下道路表面重建的必要性和優(yōu)越性。

對于單目和立體基礎方案,本文分別提出了兩個模型,分別命名為RoadBEV-mono和RoadBEV-stereo。本文詳細解釋了它們的機制。

本文全面測試和分析了所提出模型的性能,為未來的研究提供了寶貴的見解和展望。

網絡設計:

近年來,無人地面車輛(UGVs)的快速發(fā)展對車載感知系統(tǒng)提出了更高的要求。實時理解駕駛環(huán)境和條件對于準確的運動規(guī)劃和控制至關重要[1]-[3]。對于車輛來說,道路是與物理世界接觸的唯一媒介。道路表面狀況決定了許多車輛特性和駕駛性能[4]。如圖1(a)所示,道路的不平整性,如顛簸和坑洼,會加劇乘用車的乘坐體驗,這是直觀可感知的。實時道路表面狀況感知,特別是幾何高程(geometry elevation),極大地有助于提升乘坐舒適度[5],[6]。

與無人地面車輛(UGVs)中的其他感知任務如分割和檢測相比,道路表面重建(road surface reconstruction)(RSR)是一種新興技術,最近越來越受到關注。與現(xiàn)有的感知流程類似,RSR通常利用車載激光雷達(LiDAR)和攝像頭傳感器來保留道路表面信息。激光雷達直接掃描道路輪廓并派生出點云[7],[8]。車輛軌跡上的道路高程可以直接提取,無需復雜算法。然而,激光雷達傳感器成本較高,限制了它們在經濟型量產車輛上的應用。與車輛和行人等體積較大的交通物體不同,道路的不平整性通常幅度較小,因此點云的準確性至關重要。實時道路掃描上的運動補償和過濾是必需的,這進一步要求在厘米級別的高精度定位。

基于圖像的道路表面重建(RSR),作為一個三維視覺任務,在精度和分辨率方面比激光雷達(LiDAR)更有前景。它還保留了道路表面紋理,使得道路感知更加全面?;谝曈X的道路高程重建實際上是一個深度估計問題。對于單目相機,可以基于單張圖片實施單目深度估計,或者基于序列實施多視角立體(MVS)來直接估計深度[9]。對于雙目相機,雙目匹配回歸視差圖,這可以轉換為深度[10],[11]。給定相機參數(shù),就可以恢復相機坐標系中的道路點云。通過初步的后處理流程,最終獲得道路結構和高程信息。在真值(GT)標簽的指導下,可以實現(xiàn)高精度和可靠的RSR。

然而,圖像視角下的道路表面重建(RSR)存在固有的缺點。對于特定像素的深度估計實際上是沿著垂直于圖像平面方向尋找最優(yōu)箱體(optimal bins)(如圖1(b)中的橙色點所示)。深度方向與道路表面存在一定的角度偏差。道路輪廓特征的變化和趨勢與搜索方向上的變化和趨勢不一致。在深度視圖中關于道路高程變化的信息線索是稀疏的。此外,每個像素的深度搜索范圍是相同的,導致模型捕捉到的是全局幾何層次結構而不是局部表面結構。由于全局但粗糙的深度搜索,精細的道路高程信息被破壞。由于本文關注的是垂直方向上的高程,因此在深度方向上所做的努力被浪費了。在透視視圖中,遠距離的紋理細節(jié)丟失,這進一步為有效的深度回歸帶來了挑戰(zhàn),除非進一步引入先驗約束[12]。

從俯視圖(即鳥瞰圖,BEV)估計道路高程是一個自然的想法,因為高程本質上描述了垂直方向的振動。鳥瞰圖是一種有效的范式,用于以統(tǒng)一坐標表示多模態(tài)和多視圖數(shù)據(jù)[13],[14]。最近在三維目標檢測和分割任務上取得的 SOTA 性能是通過基于鳥瞰圖的方法實現(xiàn)的[15],這與透視視圖不同,后者通過在視圖轉換的圖像特征上引入估計頭部來進行。圖1展示了本文的動機。與在圖像視圖中關注全局結構不同,鳥瞰圖中的重建直接在垂直方向上的一個特定小范圍內識別道路特征。在鳥瞰圖中投影的道路特征密集地反映了結構和輪廓變化,有助于進行有效和精細化的搜索。透視效應的影響也被抑制,因為道路在垂直于觀察角度的平面上被統(tǒng)一表示?;邙B瞰圖特征的道路重建有望實現(xiàn)更高的性能。

本文重建了BEV下的道路表面,以解決上述識別出的問題。特別地,本文關注道路幾何,即高程(elevation)。為了利用單目和雙目圖像,并展示鳥瞰圖感知的廣泛可行性,本文提出了兩個子模型,分別命名為RoadBEV-mono和RoadBEV-stereo。遵循鳥瞰圖的范例,本文定義了覆蓋潛在道路起伏的感興趣體素。這些體素通過3D-2D投影查詢像素特征。對于RoadBEV-mono,本文在重塑的體素特征上引入了高程估計頭。RoadBEV-stereo的結構與圖像視圖中的雙目匹配保持一致?;谧笥殷w素特征,在鳥瞰圖中構建了一個4D代價體積,該體積通過3D卷積進行聚合。高程回歸被視為對預定義箱體的分類,以實現(xiàn)更高效的模型學習。本文在本文作者之前發(fā)布的真實世界數(shù)據(jù)集上驗證了這些模型,顯示出它們比傳統(tǒng)的單目深度估計和雙目匹配方法有著巨大的優(yōu)勢。

圖片

圖1. 本文的動機。(a)無論是單目還是雙目配置,本文在鳥瞰圖(BEV)中的重建方法都優(yōu)于圖像視圖中的方法。(b)在圖像視圖中進行深度估計時,搜索方向與道路高程方向存在偏差。在深度視圖中,道路輪廓特征是稀疏的??油莶蝗菀妆蛔R別。(c)在鳥瞰圖中,能夠精確捕捉到輪廓振動,例如坑洼、路邊臺階乃至車轍。垂直方向上的道路高程特征更加密集,也更容易識別。

圖2. 坐標示意及真值(GT)高程標簽的生成。(a)坐標(b)圖像視圖中的感興趣區(qū)域(ROI)(c)鳥瞰圖中的感興趣區(qū)域(ROI)(d)在網格中生成真值(GT)標簽

圖3. 道路圖像及真值(GT)高程圖的示例。

圖4. 圖像視圖中感興趣的特征體素。位于相同水平位置的堆疊體素的中心被投影到紅色線段上的像素點。

圖5. RoadBEV-mono的架構。本文利用3D到2D的投影來查詢像素特征。高程估計頭部使用2D卷積在重塑后的鳥瞰圖(BEV)特征上提取特征。

圖6. RoadBEV-mono的機制。體素以側視圖展示。

圖7. RoadBEV-stereo的架構。定義在左相機坐標系下的體素查詢左右特征圖的像素特征。本文通過左右體素特征之間的相減,在鳥瞰圖(BEV)中構建差異體積。然后,3D卷積對鳥瞰圖中的4D體積進行聚合。

圖8. RoadBEV-stereo的機制。

實驗結果:

圖9. (a) RoadBEV-mono和 (b) RoadBEV-stereo的訓練損失。

圖10. 在單目和雙目基礎上,與SOTA模型的距離方向上的高程誤差比較。

圖11. 由RoadBEV-mono重建的道路表面可視化。

圖12. 由RoadBEV-stereo重建的道路表面可視化。

總結:

本文首次在鳥瞰圖中重建了道路表面的高程。本文分別提出并分析了基于單目和雙目圖像的兩種模型,分別命名為RoadBEV-mono和RoadBEV-stereo。本文發(fā)現(xiàn),BEV中的單目估計和雙目匹配與透視視圖中的機制相同,通過縮小搜索范圍和直接在高程方向挖掘特征而得到改進。在真實世界數(shù)據(jù)集上的全面實驗驗證了所提出的BEV體積、估計頭和參數(shù)設置的可行性和優(yōu)越性。對于單目相機,在BEV中的重建性能比透視視圖提高了50%。同時,在BEV中,使用雙目相機的性能是單目的三倍。本文提供了關于模型的深入分析和指導。本文的開創(chuàng)性探索也為與BEV感知、3D重建和3D檢測相關的進一步研究和應用提供了寶貴的參考。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-07-31 10:10:00

BEV感知算法

2025-03-12 10:07:06

2010-11-16 09:49:22

Oracle重建索引

2010-11-16 09:18:39

oracle重建索引

2024-02-06 09:43:57

3D視覺

2011-06-14 10:05:31

三網融合國外

2023-12-27 08:28:54

自動駕駛模型

2016-11-18 09:55:12

軟件 產業(yè)

2023-10-08 09:27:11

數(shù)據(jù)檢測

2023-10-05 12:49:02

自動駕駛數(shù)據(jù)

2021-12-03 10:31:22

CIOIT董事會

2023-11-20 09:47:14

自動駕駛視覺

2024-07-26 09:22:36

2024-12-13 13:00:00

模型AI數(shù)據(jù)

2024-12-19 10:20:53

2024-01-10 17:25:00

AI數(shù)據(jù)

2010-09-06 09:21:01

私有云

2022-03-17 21:04:57

人工智能美團技術

2024-09-24 10:30:32

2021-09-01 10:13:50

芯片半導體技術
點贊
收藏

51CTO技術棧公眾號