聊一聊我們在遠距離雙目感知的一些看法
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
受 王峰:遠距離LiDAR感知 啟發(fā),作為實打?qū)嵉?L2+ RoboTruck 同行 ,我也來分享分享 智加/Plus 在遠距離感知上的一些積累,作為工作一段時間的總結(jié)。
既然特斯拉、百度/極越已經(jīng)在一定規(guī)模下證明了純視覺 L2+ (highway/city, FSD) 的可行性,那為什么還要去研究雙目呢?雙目、LiDAR 相較于 2M 的 30/60/120 和 8M 的 30/120 的區(qū)別是什么?我的看法是:
- 在線:在數(shù)據(jù)規(guī)模有限的情況下,雙目和 LiDAR 一樣,能快速提升感知性能上限;
- 離線:可用于 auto-label 中的預(yù)標注、建圖;
- 成本:相較于 LiDAR,在成本上有顯著優(yōu)勢;
- 標定:前向標定在流程上也會更簡單;
- 架構(gòu):雙目硬同步 (vision-centeric),來觸發(fā)、對齊其他相機,相較于 LiDAR-centeric 更精準。
我們的效果和大疆、鑒智釋放的圖片、視頻一樣,可以實現(xiàn)稠密、準確的深度估計。但是很可惜,基于 DL-Stereo 的方法需要稠密的深度 GT,而現(xiàn)在的 LiDAR 往往只能提供 150m 內(nèi)的 GT. Livox Tele 的 FoV 較小,超遠處的反射率和點數(shù)不足以支撐我們的需求和場景。最終在遠距離使用的,還是基于傳統(tǒng)特征的稠密/稀疏匹配。
不同于現(xiàn)在流行的前向單目、三目、長短焦雙目,同構(gòu)雙目的玩家其實并不多。乘用車領(lǐng)域,國內(nèi)做得最好的應(yīng)該是大疆、鑒智,國外是維寧爾、奔馳。我先來分享分享他們的進展和優(yōu)勢。
玩家們
大疆
- 在寶駿的一系列產(chǎn)品中交付:云朵、KiWi、悅也的高配版本,能夠?qū)崿F(xiàn)城區(qū)記憶行車。
和大疆一樣,智加也通過雙目強化了 Lane, 3D Det, Calib, Depth 等模塊。
鑒智
- 鑒智分享過很多 demo,實現(xiàn)了基于雙目的魔毯、智能底盤功能,和蔚來/奔馳的 4D 底盤異曲同工,也算是近年來把雙目作為核心優(yōu)勢的重要玩家。
鑒智優(yōu)化了 HKBU 的工作 FADNet也有做 MVS 和全向深度估計 Full Surround Monodepth from Multiple Cameras (TRI-ML/VIDAR)
地平線
- 地平線 PoC 過雙目,也有一些開源的工作,后續(xù)再觀望觀望。
奔馳
- 老法師奔馳早在13年前就分享過基于 stixel 的雙目深度估計、freespace 預(yù)測 / 參考。
英偉達
英偉達作為奔馳的重要合作伙伴,優(yōu)化、實現(xiàn)了不少雙目的工作:
- https://github.com/NVIDIA-AI-IOT/redtail/tree/master/stereoDNN
- VPI - Vision Programming Interface
- Stereo Disparity Sample
- ACCELERATING OPTICAL FLOW AND STEREO DISPARITY ESTIMATION USING THE NVIDIA A100 OFA ENGINE
維寧爾 (Veoneer)
- 維寧爾曾是寶馬、斯巴魯?shù)碾p目供應(yīng)商,在2018年的投資者日上曾分享過雙目規(guī)劃??梢钥吹?,基礎(chǔ)方法論還是奔馳分享的 stereo stixel
華為 ADS 1.0
- 華為在 ADS 1.0 上規(guī)劃了前向四目,除了廣角和長焦外,還有一對雙目。不過從 ADS 2.0 的交付來看,最終還是擁抱了 LiDAR-centeric 而不是雙目視覺。
ArgoAI
ArgoVerse stereo 相較于 KITTI stereo 更符合現(xiàn)在的自動駕駛場景需求。
- ArgoAI 1/2 都包含了雙目數(shù)據(jù),在 CVPR 2021/2022 都舉辦過比賽。但里面都是一些成熟模型的 finetune 和刷點,缺乏一些新意和實踐價值。
安霸/VisLab
- 多組雙目系統(tǒng)的想法一開始由安霸/VisLab 的視頻啟發(fā),他們實現(xiàn)了一個前向兩對雙目(包括長焦)的系統(tǒng)。還有一個視頻,很可惜找不到了,這個視頻描述了 VisLab 在 side 和 rear 裝了多組雙目,實現(xiàn)實時的全向深度估計。這個想法,很類似于 Mobileye 2020年發(fā)布的 VIDAR,以及 TRL 的 Full Surround Monodepth. 這些成果,都來源于VisLab 十多年的立體視覺研究積累。
ForeSight
- ForeSight 分享過他們的異構(gòu)雙目系統(tǒng),我曾經(jīng)去常州實車體驗過:
- 前向 120 度和 bumper 200 度廣角實現(xiàn)的雙目 (類似于 TW-SMNet)
- 車頂?shù)?30 度 RGB 雙目
- 車頂?shù)?IR 紅外雙目
- 這塊可以參考:
- iPhone 15 上的空間視頻拍攝 / Tele
- GitHub - ComVisDinh/disparityestimation: Deep Network Exploitation for Disparity Estimation Using Stereo Images with Different Focal Lengths
- 視角不平衡立體匹配研究-CSDN博客
蔚來/理想
- 蔚來/理想的兩個 front side 相機 FOV overlap 較小,非光心對齊同構(gòu)。也不是不能做雙目,但可能效果較差。
智加/Plus
在 Plus 創(chuàng)業(yè)伊始 16-18 間的 stereo demo
無論是 2021 年量產(chǎn)交付的解放 J7+, 還是 2023 年的江淮 K7+、2024 年的柳汽 H7+,長基線雙目都是我們最核心的模塊。多年前,我們曾發(fā)布過 1km 以上的目標感知結(jié)果,但那是基于 L4 狀態(tài)下的超寬基線(雙目布置在車側(cè), 2.8m 基線)。在 L2+ 量產(chǎn)平臺下,我們需要將雙目攝像頭放在擋風(fēng)玻璃內(nèi),能夠被雨刮覆蓋,并滿足法規(guī)和穩(wěn)定性要求。
在感知架構(gòu)上,最早期,感知方案主要還是 2D 檢測為主,通過 2D 檢測去摳深度圖,或者通過接地點等幾何先驗去測距。漸漸的,有了很多 Mono3D 檢測,Stereo3D 檢測的工作。最后,收斂到 BEV 前融合 3D 檢測,甚至全稀疏的 Sparse BEV. 但不管何時,在前向遠距離感知上,雙目都能夠持續(xù)提升感知的整體上限。例如,我們做過不少事情去探索雙目的價值:
第一件事是,通過 SGM/optical flow 這些底層特征,識別非標/超寬障礙物。但實踐下來,很難簡單地與 3D 表達兼容。我們漸漸地發(fā)現(xiàn),相較于2D 視角,BEV/Occupancy 是一個更優(yōu)雅的框架去解決這些難題。邏輯上還是相似的,BEV/Occ 仍然需要去表達、解釋這些稠密的底層特征和時序特征。
通過稠密深度圖去避讓超寬車
通過光流 motion seg 去識別障礙物
第二件事是,僅對 bbox 內(nèi)的點去做 match,相同精度下僅有 1/2 latency,并能提升遠處 recall. 即使在夜晚,我們也能有 300m 的穩(wěn)定 trakcing.
第三件事是,在高分辨圖下,動態(tài)裁剪 2M 原圖,通過一個額外的 2D 檢測器以及稀疏匹配,實現(xiàn)遠距離小目標 2倍 tracking 性能的提升 (cone, 80m->160m), 整體感知 tracking 距離從 300m+ 到近 400m.
第四件事是,實現(xiàn)長焦雙目。效果顯而易見, Z=fb/d. 焦距 f 的提升能夠簡單而有效地提升遠處距離性能。但簡單替換相機,會造成前向盲區(qū)過大的問題。在框架上,需要通過廣角相機去做車道線等模塊。有一定的系統(tǒng)遷移成本。
總結(jié)
無論是圖森的 LiDAR-centeric 方案,還是智加的 Stereo-centeric, 核心本質(zhì)還是提升遠距離 tracking 的穩(wěn)定性。就好像 @王峰 提到的 “對于遠距離感知的探索不能說是一帆風(fēng)順,簡直就是滿路荊棘?!?/p>
上面這些工作,都是在 Xavier 低算力平臺下循序漸進的思考和實踐。在 Orin 平臺下,我們已經(jīng)漸漸地過渡到視覺 BEV 3D 框架。但正如圖森的分享,在卡車領(lǐng)域里,數(shù)以億計的 2D 數(shù)據(jù)仍然在和 3D 需求互相融合,繼續(xù)完善。
后續(xù)的實踐,是將高分辨率 RoI 雙目集成到 BEV 框架中。當有充沛的遠距離 GT 數(shù)據(jù)時,不管是 dense-bev 還是 sparse query bev,都能看得更遠更穩(wěn)。等待合適時機再跟大家分享 :-P
最后也是最重要的,要感謝智加/Plus 的同事們 (Tim, Mianwei, Darren, Philip, Andy, Tong, Peidong, Xingjian, Fuyue, Xuyang),我只是起到了個承上啟下的作用 。
原文鏈接:https://mp.weixin.qq.com/s/KxUjgdzO_i2obsdeY0OEJw