自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么?NeRF還能提升BEV泛化性能!首個(gè)BEV跨域開源代碼并首次完成Sim2Real!

人工智能 智能汽車
本文提出了一種基于隱式渲染的BEV檢測(cè)框架,能夠解決未知域的物體檢測(cè)問題。該框架通隱式渲染來建立物體3D位置和單個(gè)視圖的透視位置關(guān)系,這可以用來糾正透視偏差。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&筆者的個(gè)人總結(jié)

鳥瞰圖(Bird eye's view, BEV)檢測(cè)是一種通過融合多個(gè)環(huán)視攝像頭來進(jìn)行檢測(cè)的方法。目前算法大部分算法都是在相同數(shù)據(jù)集訓(xùn)練并且評(píng)測(cè),這導(dǎo)致了這些算法過擬合于不變的相機(jī)內(nèi)參(相機(jī)類型)和外參(相機(jī)擺放方式)。本文提出了一種基于隱式渲染的BEV檢測(cè)框架,能夠解決未知域的物體檢測(cè)問題。該框架通隱式渲染來建立物體3D位置和單個(gè)視圖的透視位置關(guān)系,這可以用來糾正透視偏差。此方法在領(lǐng)域泛化(DG)和無監(jiān)督領(lǐng)域適應(yīng)(UDA)方面取得了顯著的性能提升。該方法首次嘗試了只用虛擬數(shù)據(jù)集上進(jìn)行訓(xùn)練在真實(shí)場(chǎng)景下進(jìn)行評(píng)測(cè)BEV檢測(cè),可以打破虛實(shí)之間的壁壘完成閉環(huán)測(cè)試。

  • 論文鏈接:https://arxiv.org/pdf/2310.11346.pdf
  • 代碼鏈接:https://github.com/EnVision-Research/Generalizable-BEV

圖片

BEV檢測(cè)域泛化問題背景

多相機(jī)檢測(cè)是指利用多臺(tái)攝像機(jī)對(duì)三維空間中的物體進(jìn)行檢測(cè)和定位的任務(wù)。通過結(jié)合來自不同視點(diǎn)的信息,多攝像頭3D目標(biāo)檢測(cè)可以提供更準(zhǔn)確和魯棒的目標(biāo)檢測(cè)結(jié)果,特別是在某些視點(diǎn)的目標(biāo)可能被遮擋或部分可見的情況下。近年來,鳥瞰圖檢測(cè)(Bird eye's view, BEV)方法在多相機(jī)檢測(cè)任務(wù)中得到了極大的關(guān)注。盡管這些方法在多相機(jī)信息融合方面具有優(yōu)勢(shì),但當(dāng)測(cè)試環(huán)境與訓(xùn)練環(huán)境存在顯著差異時(shí),這些方法的性能可能會(huì)嚴(yán)重下降。

目前BEV檢測(cè)算法大部分算法都是在相同數(shù)據(jù)集訓(xùn)練并且評(píng)測(cè),這導(dǎo)致了這些算法過擬合于不變的相機(jī)內(nèi)外參數(shù)和城市道路條件。然而在BEV檢測(cè)實(shí)際應(yīng)用中,常常要求算法要適配不同新車型和新攝像頭,這導(dǎo)致了這些算法的失效。所以,研究BEV檢測(cè)的泛化性研究非常重要。此外,無人駕駛的閉環(huán)仿真也是非常重要的,但是閉環(huán)仿真目前只能在虛擬引擎(例如Carla)中進(jìn)行評(píng)測(cè)。所以,打破虛擬引擎和真實(shí)場(chǎng)景中的域差異也非常必要。

域泛化(domain generalization, DG)和無監(jiān)督域自適應(yīng)(unsupervised domain adaptation, UDA)是緩解分布偏移的兩個(gè)有前途的方向。DG方法經(jīng)常解耦和消除特定于領(lǐng)域的特征,從而提高不可見領(lǐng)域的泛化性能。對(duì)于UDA,最近的方法通過生成偽標(biāo)簽或潛在特征分布對(duì)齊來緩解域偏移。然而,如果不使用來自不同視點(diǎn)、相機(jī)參數(shù)和環(huán)境的數(shù)據(jù),純視覺感知學(xué)習(xí)與視角和環(huán)境無關(guān)的特征是非常具有挑戰(zhàn)性的。

觀察表明單視角(相機(jī)平面)的2D檢測(cè)往往比多視角的3D目標(biāo)檢測(cè)具有更強(qiáng)的泛化能力,如圖所示。一些研究已經(jīng)探索了將2D檢測(cè)整合到BEV檢測(cè)中,例如將2D信息融合到3D檢測(cè)器中或建立2D-3D一致性。二維信息融合是一種基于學(xué)習(xí)的方法,而不是一種機(jī)制建模方法,并且仍然受到域遷移的嚴(yán)重影響?,F(xiàn)有的2D-3D一致性方法是將3D結(jié)果投影到二維平面上并建立一致性。這種約束可能損害目標(biāo)域中的語義信息,而不是修改目標(biāo)域的幾何信息。此外,這種2D-3D一致性方法使得所有檢測(cè)頭的統(tǒng)一方法具有挑戰(zhàn)性。

圖片

本論文的的貢獻(xiàn)總結(jié)

  1. 本論文提出了一種基于視角去偏的廣義BEV檢測(cè)框架,該框架不僅可以幫助模型學(xué)習(xí)源域中的視角和上下文不變特征,還可以利用二維檢測(cè)器進(jìn)一步糾正目標(biāo)域中的虛假幾何特征。
  2. 本文首次嘗試在BEV檢測(cè)上研究無監(jiān)督域自適應(yīng),并建立了一個(gè)基準(zhǔn)。在UDA和DG協(xié)議上都取得了最先進(jìn)的結(jié)果。
  3. 本文首次探索了在沒有真實(shí)場(chǎng)景注釋的虛擬引擎上進(jìn)行訓(xùn)練,以實(shí)現(xiàn)真實(shí)世界的BEV檢測(cè)任務(wù)。

BEV檢測(cè)域泛化問題定義

問題定義

研究主要圍繞增強(qiáng)BEV檢測(cè)的泛化。為了實(shí)現(xiàn)這一目標(biāo),本文探索了兩個(gè)廣泛具有實(shí)際應(yīng)用價(jià)值的協(xié)議,即域泛化(domain generalization, DG)和無監(jiān)督域自適應(yīng)(unsupervised domain adaptation, UDA):

BEV檢測(cè)的域泛化(DG):在已有的數(shù)據(jù)集(源域)訓(xùn)練一個(gè)BEV檢測(cè)算法,提升在具有在未知數(shù)據(jù)集(目標(biāo)域)的檢測(cè)性能。例如,在特定車輛或者場(chǎng)景下訓(xùn)練一個(gè)BEV檢測(cè)模型,能夠直接泛化到各種不同的車輛和場(chǎng)景。

BEV檢測(cè)的無監(jiān)督域自適應(yīng)(UDA):在已有的數(shù)據(jù)集(源域)訓(xùn)練一個(gè)BEV檢測(cè)算法,并且利用目標(biāo)域的無標(biāo)簽數(shù)據(jù)來提高檢測(cè)性能。例如,在一個(gè)新的車輛或者城市,只需要采集一些無監(jiān)督數(shù)據(jù)就可以提高模型在新車和新環(huán)境的性能。值得一提的是DG和UDA的唯一區(qū)別是是否可以利用目標(biāo)域的未標(biāo)記數(shù)據(jù)。

視角偏差定義

為了檢測(cè)物體的未知L=[x,y,z],大部分BEV檢測(cè)會(huì)有關(guān)鍵的兩部(1)獲取不同視角的圖像特征;(2)融合這些圖像特征到BEV空間并且得到最后的預(yù)測(cè)結(jié)果:

上面公式描述,域偏差可能來源于特征提取階段或者BEV融合階段。然后本文進(jìn)行了在附錄進(jìn)行了推到,得到了最后3D預(yù)測(cè)結(jié)果投影到2D結(jié)果的視角偏差為:

其中k_u, b_u, k_v和b_v與BEV編碼器的域偏置有關(guān),d(u,v)為模型的最終預(yù)測(cè)深度信息。c_u和c_v表示相機(jī)光學(xué)中心在uv圖像平面上的坐標(biāo)。上面等式提供了幾個(gè)重要的推論:(1)最終位置偏移的存在會(huì)導(dǎo)致視角偏差,這表明優(yōu)化視角偏差有助于緩解域偏移。(2)即使是相機(jī)光心射線上的點(diǎn)在單個(gè)視角成像平面上的位置也會(huì)發(fā)生移位。

直觀地說,域偏移改變了BEV特征的位置,這是由于訓(xùn)練數(shù)據(jù)視點(diǎn)和相機(jī)參數(shù)有限而產(chǎn)生的過擬合。為了緩解這個(gè)問題,從BEV特征中重新渲染新的視圖圖像是至關(guān)重要的,從而使網(wǎng)絡(luò)能夠?qū)W習(xí)與視角和環(huán)境無關(guān)的特征。鑒于此,本文旨在解決不同渲染視點(diǎn)相關(guān)的視角偏差,以提高模型的泛化能力。

詳解PD-BEV算法

PD-BEV一共分為三個(gè)部分:語義渲染,源域去偏見和目標(biāo)域去偏見如圖1所示。語義渲染是闡述如如何通過BEV特征建立2D和3D的透視關(guān)系。源域去偏見是描述在源域如何通過語義渲染來提高模型泛化能力。目標(biāo)域去偏見是描述在目標(biāo)域利用無標(biāo)住的數(shù)據(jù)通過語義渲染來提高模型泛化能力。

圖片

語義渲染

因?yàn)楹芏嗨惴ǘ紩?huì)講BEV volume的高度拍扁成為二維的特征,這部分講先利用一個(gè)BEV Decoder將BEV特征提升成一個(gè)Volume:

上面的公式其實(shí)就是對(duì)BEV平面進(jìn)行了提升,增加了一個(gè)高度維度。然后通過相機(jī)的內(nèi)外參數(shù)就可以在這個(gè)Volume采樣成為一個(gè)2D的特征圖,然后這個(gè)2D特征圖和相機(jī)內(nèi)外參數(shù)送到一個(gè)RenderNet里面來預(yù)測(cè)對(duì)應(yīng)視角的heatmap和物體的屬性。通過這樣的類似于Nerf的操作就可以建立起2D和3D的橋梁。

源域去偏見

這個(gè)部分在源域如何提高模型泛化性能的。為了減少視角偏差,源域的3D框可以用來監(jiān)控新渲染視圖的熱圖和屬性。此外,還利用歸一化深度信息來幫助圖像編碼器更好地學(xué)習(xí)幾何信息。

視角語義監(jiān)督:基于語義渲染,熱圖和屬性從不同的角度渲染(RenderNet的輸出)。同時(shí),隨機(jī)采樣一個(gè)相機(jī)內(nèi)外參數(shù),將物體的方框從3D坐標(biāo)利用這些內(nèi)外參數(shù)投射到二維相機(jī)平面內(nèi)。然后對(duì)投影后的2Dbox與渲染的結(jié)果使用Focal loss和L1 loss進(jìn)行約束:

通過這個(gè)操作可以降低對(duì)相機(jī)內(nèi)外參數(shù)的過擬合以及對(duì)新視角的魯棒性。值得一提的是,這個(gè)論文將監(jiān)督從RGB圖像換成了物體中心的heatmaps,可以避免Nerf在無人駕駛領(lǐng)域缺少新視角RGB監(jiān)督的缺點(diǎn)。

幾何監(jiān)督:提供明確的深度信息可以有效地提高多相機(jī)3D目標(biāo)檢測(cè)的性能。然而,網(wǎng)絡(luò)預(yù)測(cè)的深度傾向于過擬合內(nèi)在參數(shù)。因此,這個(gè)論文借鑒了一種虛擬深度的方式:

其中BCE()表示二進(jìn)制交叉熵?fù)p失,D_{pre}表示DepthNet的預(yù)測(cè)深度。f_u和f_v分別為像平面的u和v焦距,U為常數(shù)。值得注意的是,這里的深度是使用3D框而不是點(diǎn)云提供的前景深度信息。通過這樣做,DepthNet更有可能專注于前景物體的深度。最后,當(dāng)使用實(shí)際深度信息將語義特征提升到BEV平面時(shí),將虛擬深度轉(zhuǎn)換回實(shí)際深度。

目標(biāo)域去偏見

在目標(biāo)域就沒有標(biāo)注了,所以就不能用3D box監(jiān)督來提高模型的泛化能力了。所以這個(gè)論文闡述說,2D檢測(cè)的結(jié)果比起3D結(jié)果更加魯棒。所以這個(gè)論文利用在源域中的2D預(yù)訓(xùn)練的檢測(cè)器作為渲染后的視角的的監(jiān)督,并且還利用了偽標(biāo)簽的機(jī)制:

這個(gè)操作可以有效地利用精確的二維檢測(cè)來校正BEV空間中的前景目標(biāo)位置,這是一種目標(biāo)域的無監(jiān)督正則化。為了進(jìn)一步增強(qiáng)二維預(yù)測(cè)的校正能力,采用偽方法增強(qiáng)預(yù)測(cè)熱圖的置信度。這個(gè)論文在3.2和補(bǔ)充材料里給出了數(shù)學(xué)證明說明了3D結(jié)果在2D投影誤差的原因。以及闡述了為什么通過這種方式可以去偏見,詳細(xì)的可以參考原論文。

總體的監(jiān)督

雖然本文已經(jīng)添加了一些網(wǎng)絡(luò)來幫助訓(xùn)練,但這些網(wǎng)絡(luò)在推理中是不需要的。換句話說,本文的方法適用于大多數(shù)BEV檢測(cè)方法學(xué)習(xí)透視不變特征。為了測(cè)試我們框架的有效性,BEVDepth被實(shí)例化為測(cè)評(píng)對(duì)象。在源域上使用BEVDepth的原始損失作為主要的三維檢測(cè)監(jiān)督??傊惴ǖ淖罱K損失是:

跨域?qū)嶒?yàn)結(jié)果

表格1展示了在領(lǐng)域泛化(DG)和無監(jiān)督領(lǐng)域適應(yīng)(UDA)協(xié)議下不同方法的效果比較。其中,Target-Free表示DG協(xié)議,Pseudo Label、Coral和AD是在UDA協(xié)議上的一些常見方法。圖表中,方法在目標(biāo)域取得了顯著的改進(jìn)。它表明語義渲染作為一個(gè)橋梁可以幫助學(xué)習(xí)針對(duì)域移位的透視不變特征。此外,方法不會(huì)犧牲源域的性能,甚至在大多數(shù)情況下有一些改進(jìn)。值得一提的是,DeepAccident來源于一個(gè)Carla虛擬引擎,算法也通過在DeepAccident上的訓(xùn)練獲得了令人滿意的泛化能力。此外,測(cè)試了其他BEV檢測(cè)方法,在沒有特殊設(shè)計(jì)的情況下,它們的泛化性能非常差。為了進(jìn)一步驗(yàn)證利用目標(biāo)域無監(jiān)督數(shù)據(jù)集的能力,還建立了一個(gè)UDA基準(zhǔn),并在DG-BEV上應(yīng)用了UDA方法(包括Pseudo Label、Coral 和AD。算法實(shí)現(xiàn)了顯著的性能提升。隱式渲染充分利用具有更好泛化性能的二維探測(cè)器來校正三維探測(cè)器的虛假幾何信息。此外,發(fā)現(xiàn)大多數(shù)算法傾向于降低源域的性能,本文方法相對(duì)溫和。值得一提的是,發(fā)現(xiàn)AD和Coral在從虛擬數(shù)據(jù)集轉(zhuǎn)移到真實(shí)數(shù)據(jù)集時(shí)表現(xiàn)出顯著的改進(jìn),但在真實(shí)測(cè)試中測(cè)試時(shí)表現(xiàn)出性能下降。這是因?yàn)檫@兩種算法是為解決風(fēng)格變化而設(shè)計(jì)的,但在樣式變化很小的場(chǎng)景中,它們可能會(huì)破壞語義信息。對(duì)于Pseudo Label算法,它可以通過在一些相對(duì)較好的目標(biāo)域中增加置信度來提高模型的泛化性能,但盲目地增加目標(biāo)域中的置信度實(shí)際上會(huì)使模型變得更差。實(shí)驗(yàn)結(jié)果證明了算法在DG和UDA方面取得了顯著的性能提升。

表格2展示了算法在三個(gè)關(guān)鍵組件上的消融實(shí)驗(yàn)結(jié)果:2D檢測(cè)器預(yù)訓(xùn)練(DPT)、源域去偏(SDB)和目標(biāo)域去偏(TDB)。實(shí)驗(yàn)結(jié)果表明,每個(gè)組件都取得了改進(jìn),其中SDB和TDB表現(xiàn)出相對(duì)顯著的效果。

表格3展示了算法算法可以遷移到BEVFormer和FB-OCC算法上。因?yàn)檫@個(gè)算法是只需要對(duì)圖像特征和BEV特征加上額外的操作,所以可以對(duì)有BEV特征的算法都有提升作用。

圖5展示了檢測(cè)到的未標(biāo)記物體。第一行是標(biāo)簽的3D框,第二行是算法的檢測(cè)結(jié)果。藍(lán)色框表示算法可以檢測(cè)到一些未標(biāo)記的框。這表明方法在目標(biāo)域甚至可以檢測(cè)到?jīng)]有標(biāo)記的樣本,例如過遠(yuǎn)或者街道兩側(cè)建筑內(nèi)的車輛。

圖片

總結(jié)

本文提出了一種基于透視去偏的通用多攝像頭3D物體檢測(cè)框架,能夠解決未知領(lǐng)域的物體檢測(cè)問題。該框架通過將3D檢測(cè)結(jié)果投影到2D相機(jī)平面,并糾正透視偏差,實(shí)現(xiàn)一致和準(zhǔn)確的檢測(cè)。此外,該框架還引入了透視去偏策略,通過渲染不同視角的圖像來增強(qiáng)模型的魯棒性。實(shí)驗(yàn)結(jié)果表明,該方法在領(lǐng)域泛化和無監(jiān)督領(lǐng)域適應(yīng)方面取得了顯著的性能提升。此外,該方法還可以在虛擬數(shù)據(jù)集上進(jìn)行訓(xùn)練,無需真實(shí)場(chǎng)景標(biāo)注,為實(shí)時(shí)應(yīng)用和大規(guī)模部署提供了便利。這些亮點(diǎn)展示了該方法在解決多攝像頭3D物體檢測(cè)中的挑戰(zhàn)和潛力。這篇論文嘗試?yán)肗erf的思路來提高BEV的泛化能力,同時(shí)可以利用有標(biāo)簽的源域數(shù)據(jù)和無標(biāo)簽的目標(biāo)域數(shù)據(jù)。此外,嘗試了Sim2Real的實(shí)驗(yàn)范式,這對(duì)于無人駕駛閉環(huán)具有潛在價(jià)值。從定性和定量結(jié)果都有很好的結(jié)果,并且開源了代碼值得看一看。

原文鏈接:https://mp.weixin.qq.com/s/GRLu_JW6qZ_nQ9sLiE0p2g

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-07-26 09:22:36

2024-02-06 09:43:57

3D視覺

2023-10-08 09:21:41

2023-11-20 09:47:14

自動(dòng)駕駛視覺

2024-02-05 09:31:40

仿真駕駛模型

2024-10-28 13:30:00

2023-10-08 09:27:11

數(shù)據(jù)檢測(cè)

2023-10-05 12:49:02

自動(dòng)駕駛數(shù)據(jù)

2021-10-15 10:07:04

機(jī)器人人工智能算法

2023-11-17 09:55:41

2024-07-31 10:10:00

BEV感知算法

2024-09-24 10:30:32

2024-07-31 08:54:04

2023-12-06 09:49:36

自動(dòng)駕駛算法

2023-02-14 15:07:57

自動(dòng)駕駛

2024-10-14 14:30:00

2024-01-05 08:30:26

自動(dòng)駕駛算法

2023-12-26 09:24:37

AI算法

2023-06-30 09:33:37

自動(dòng)駕駛技術(shù)

2024-02-01 09:41:01

AI算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)