聯(lián)合駕駛場景中深度、姿態(tài)和道路估計的感知網(wǎng)絡
arXiv論文“JPerceiver: Joint Perception Network for Depth, Pose and Layout Estimation in Driving Scenes“,上傳于22年7月,報道關于澳大利亞悉尼大學陶大程教授和北京京東研究院的工作。
深度估計、視覺測程計(VO)和鳥瞰圖(BEV)場景布局估計是駕駛場景感知的三個關鍵任務,這是自主駕駛中運動規(guī)劃和導航的基礎。雖然相互補充,但通常側(cè)重于單獨的任務,很少同時處理這三個任務。
一種簡單的方法是以順序或并行的方式獨立地完成,但有三種缺點,即1)深度和VO結(jié)果受到固有的尺度多義問題的影響;2) BEV布局通常單獨估計道路和車輛,而忽略顯式疊加-下墊關系;3)雖然深度圖是用于推斷場景布局的有用幾何線索,但實際上直接從前視圖圖像預測BEV布局,并沒有使用任何深度相關信息。
本文提出一種聯(lián)合感知框架JPerceiver來解決這些問題,從單目視頻序列中同時估計尺度-覺察深度、VO以及BEV布局。用跨視圖幾何變換(cross-view geometric transformation,CGT),根據(jù)精心設計的尺度損失,將絕對尺度從道路布局傳播到深度和VO。同時,設計一個跨視圖和模態(tài)轉(zhuǎn)換(cross-view and cross-modal transfer,CCT)模塊,用深度線索通過注意機制推理道路和車輛布局。
JPerceiver以端到端的多任務學習方式進行訓練,其中CGT尺度損失和CCT模塊促進任務間知識遷移,利于每個任務的特征學習。
代碼和模型可下載https://github.com/sunnyHelen/JPerceiver.
如圖所示,JPerceiver分別由深度、姿態(tài)和道路布局三個網(wǎng)絡組成,都基于編碼器-解碼器架構(gòu)。深度網(wǎng)絡旨在預測當前幀It的深度圖Dt,其中每個深度值表示3D點與攝像頭之間的距離。姿態(tài)網(wǎng)絡的目標是預測在當前幀It及其相鄰幀It+m之間姿態(tài)變換Tt→t+m。道路布局網(wǎng)絡的目標是估計當前幀的BEV布局Lt,即俯視笛卡爾平面中道路和車輛的語義占用率。這三個網(wǎng)絡在訓練期間聯(lián)合優(yōu)化。
預測深度和姿態(tài)的兩個網(wǎng)絡以自監(jiān)督方式用光度損失和平滑度損失進行聯(lián)合優(yōu)化。此外,還設計CGT尺度損失來解決單目深度和VO估計的尺度多義問題。
為實現(xiàn)尺度-覺察的環(huán)境感知,用BEV布局中的尺度信息,提出CGT的尺度損失用于深度估計和VO。由于BEV布局顯示了BEV笛卡爾平面中的語義占用,分別覆蓋自車前面Z米和左右(Z/2)米的范圍。其提供一個自然距離場(natural distance field)z,每個像素相對于自車的度量距離zij,如圖所示:
假設BEV平面是地面,其原點剛好在自車坐標系原點下面,基于攝像機外參可以通過單應性變換將BEV平面投影到前向攝像頭。因此,BEV距離場z可以投影到前向攝像頭中,如上圖所示,用它來調(diào)節(jié)預測深度d,從而導出CGT尺度損失:
對于道路布局估計,采用了編碼器-解碼器網(wǎng)絡結(jié)構(gòu)。值得注意的是,用一個共享編碼器作為特征提取器和不同的解碼器來同時學習不同語義類別的BEV布局。此外,設CCT模塊,以加強任務之間的特征交互和知識遷移,并為BEV的空間推理提供3-D幾何信息。為了正則化道路布局網(wǎng)絡,將各種損失項組合在一起,形成混合損失,并實現(xiàn)不同類的平衡優(yōu)化。
CCT是研究前向視圖特征Ff、BEV布局特征Fb、重轉(zhuǎn)換的前向特征Ff′和前向深度特征FD之間的相關性,并相應地細化布局特征,如圖所示:分兩部分,即跨視圖模塊和跨模態(tài)模塊的CCT-CV和CCT-CM。
在CCT中,F(xiàn)f和Fd由相應感知分支的編碼器提取,而Fb通過一個視圖投影MLP將Ff轉(zhuǎn)換為BEV獲得,一個循環(huán)損失約束的相同MLP將其重新轉(zhuǎn)換為Ff′。
在CCT-CV,交叉注意機制用于發(fā)現(xiàn)前向視圖和BEV特征之間的幾何對應關系,然后指導前向視圖信息的細化,并為BEV推理做好準備。為了充分利用前向視圖圖像特征,將Fb和Ff投影到patches:Qbi和Kbi,分別作為query和 key。
除了利用前向視圖特征外,還部署CCT-CM來施加來自Fd的3-D幾何信息。由于Fd是從前向視圖圖像中提取的,因此以Ff為橋來減少跨模態(tài)間隙并學習Fd和Fb之間的對應關系是合理的。Fd起Value的作用,由此獲得與BEV信息相關有價值的3-D幾何信息,并進一步提高道路布局估計的準確性。
在探索同時預測不同布局的聯(lián)合學習框架過程中,不同語義類別的特征和分布存在很大差異。對于特征,駕駛場景中的道路布局通常需要連接,而不同的車輛目標必須分割。
對于分布,觀察到的直線道路場景比轉(zhuǎn)彎場景多,這在真實數(shù)據(jù)集中是合理的。這種差異和不平衡增加了BEV布局學習的難度,尤其是聯(lián)合預測不同類別,因為在這種情況下,簡單的交叉熵(CE)損失或L1損失會失效。將幾種分割損失(包括基于分布的CE損失、基于區(qū)域的IoU損失和邊界損失)合并為混合損失,預測每個類別的布局。
實驗結(jié)果如下: