自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

聊一聊我們在遠距離雙目感知的一些看法

智能汽車
既然特斯拉、百度/極越已經(jīng)在一定規(guī)模下證明了純視覺 L2+ (highway/city, FSD) 的可行性,那為什么還要去研究雙目呢?雙目、LiDAR 相較于 2M 的 30/60/120 和 8M 的 30/120 的區(qū)別是什么?

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

受 王峰:遠距離LiDAR感知 啟發(fā),作為實打?qū)嵉?L2+ RoboTruck 同行 ,我也來分享分享 智加/Plus 在遠距離感知上的一些積累,作為工作一段時間的總結(jié)。

既然特斯拉、百度/極越已經(jīng)在一定規(guī)模下證明了純視覺 L2+ (highway/city, FSD) 的可行性,那為什么還要去研究雙目呢?雙目、LiDAR 相較于 2M 的 30/60/120 和 8M 的 30/120 的區(qū)別是什么?我的看法是:

  • 在線:在數(shù)據(jù)規(guī)模有限的情況下,雙目和 LiDAR 一樣,能快速提升感知性能上限;
  • 離線:可用于 auto-label 中的預(yù)標注、建圖;
  • 成本:相較于 LiDAR,在成本上有顯著優(yōu)勢;
  • 標定:前向標定在流程上也會更簡單;
  • 架構(gòu):雙目硬同步 (vision-centeric),來觸發(fā)、對齊其他相機,相較于 LiDAR-centeric 更精準。

我們的效果和大疆、鑒智釋放的圖片、視頻一樣,可以實現(xiàn)稠密、準確的深度估計。但是很可惜,基于 DL-Stereo 的方法需要稠密的深度 GT,而現(xiàn)在的 LiDAR 往往只能提供 150m 內(nèi)的 GT. Livox Tele 的 FoV 較小,超遠處的反射率和點數(shù)不足以支撐我們的需求和場景。最終在遠距離使用的,還是基于傳統(tǒng)特征的稠密/稀疏匹配。

不同于現(xiàn)在流行的前向單目、三目、長短焦雙目,同構(gòu)雙目的玩家其實并不多。乘用車領(lǐng)域,國內(nèi)做得最好的應(yīng)該是大疆、鑒智,國外是維寧爾、奔馳。我先來分享分享他們的進展和優(yōu)勢。

玩家們

大疆

  • 在寶駿的一系列產(chǎn)品中交付:云朵、KiWi、悅也的高配版本,能夠?qū)崿F(xiàn)城區(qū)記憶行車。

和大疆一樣,智加也通過雙目強化了 Lane, 3D Det, Calib, Depth 等模塊。

鑒智

  • 鑒智分享過很多 demo,實現(xiàn)了基于雙目的魔毯、智能底盤功能,和蔚來/奔馳的 4D 底盤異曲同工,也算是近年來把雙目作為核心優(yōu)勢的重要玩家。

鑒智優(yōu)化了 HKBU 的工作 FADNet圖片也有做 MVS 和全向深度估計 Full Surround Monodepth from Multiple Cameras (TRI-ML/VIDAR)

地平線

  • 地平線 PoC 過雙目,也有一些開源的工作,后續(xù)再觀望觀望。

奔馳

  • 老法師奔馳早在13年前就分享過基于 stixel 的雙目深度估計、freespace 預(yù)測 / 參考。

英偉達

英偉達作為奔馳的重要合作伙伴,優(yōu)化、實現(xiàn)了不少雙目的工作:

  • https://github.com/NVIDIA-AI-IOT/redtail/tree/master/stereoDNN
  • VPI - Vision Programming Interface
  • Stereo Disparity Sample
  • ACCELERATING OPTICAL FLOW AND STEREO DISPARITY ESTIMATION USING THE NVIDIA A100 OFA ENGINE

維寧爾 (Veoneer)

  • 維寧爾曾是寶馬、斯巴魯?shù)碾p目供應(yīng)商,在2018年的投資者日上曾分享過雙目規(guī)劃??梢钥吹?,基礎(chǔ)方法論還是奔馳分享的 stereo stixel

華為 ADS 1.0

  • 華為在 ADS 1.0 上規(guī)劃了前向四目,除了廣角和長焦外,還有一對雙目。不過從 ADS 2.0 的交付來看,最終還是擁抱了 LiDAR-centeric 而不是雙目視覺。

ArgoAI

ArgoVerse stereo 相較于 KITTI stereo 更符合現(xiàn)在的自動駕駛場景需求。

  • ArgoAI 1/2 都包含了雙目數(shù)據(jù),在 CVPR 2021/2022 都舉辦過比賽。但里面都是一些成熟模型的 finetune 和刷點,缺乏一些新意和實踐價值。

安霸/VisLab

  • 多組雙目系統(tǒng)的想法一開始由安霸/VisLab 的視頻啟發(fā),他們實現(xiàn)了一個前向兩對雙目(包括長焦)的系統(tǒng)。還有一個視頻,很可惜找不到了,這個視頻描述了 VisLab 在 side 和 rear 裝了多組雙目,實現(xiàn)實時的全向深度估計。這個想法,很類似于 Mobileye 2020年發(fā)布的 VIDAR,以及 TRL 的 Full Surround Monodepth. 這些成果,都來源于VisLab 十多年的立體視覺研究積累。

ForeSight

  • ForeSight 分享過他們的異構(gòu)雙目系統(tǒng),我曾經(jīng)去常州實車體驗過:
  • 前向 120 度和 bumper 200 度廣角實現(xiàn)的雙目 (類似于 TW-SMNet)
  • 車頂?shù)?30 度 RGB 雙目
  • 車頂?shù)?IR 紅外雙目
  • 這塊可以參考:
  • iPhone 15 上的空間視頻拍攝 / Tele
  • GitHub - ComVisDinh/disparityestimation: Deep Network Exploitation for Disparity Estimation Using Stereo Images with Different Focal Lengths
  • 視角不平衡立體匹配研究-CSDN博客

蔚來/理想

  • 蔚來/理想的兩個 front side 相機 FOV overlap 較小,非光心對齊同構(gòu)。也不是不能做雙目,但可能效果較差。

智加/Plus

在 Plus 創(chuàng)業(yè)伊始 16-18 間的 stereo demo

無論是 2021 年量產(chǎn)交付的解放 J7+, 還是 2023 年的江淮 K7+、2024 年的柳汽 H7+,長基線雙目都是我們最核心的模塊。多年前,我們曾發(fā)布過 1km 以上的目標感知結(jié)果,但那是基于 L4 狀態(tài)下的超寬基線(雙目布置在車側(cè), 2.8m 基線)。在 L2+ 量產(chǎn)平臺下,我們需要將雙目攝像頭放在擋風(fēng)玻璃內(nèi),能夠被雨刮覆蓋,并滿足法規(guī)和穩(wěn)定性要求。

在感知架構(gòu)上,最早期,感知方案主要還是 2D 檢測為主,通過 2D 檢測去摳深度圖,或者通過接地點等幾何先驗去測距。漸漸的,有了很多 Mono3D 檢測,Stereo3D 檢測的工作。最后,收斂到 BEV 前融合 3D 檢測,甚至全稀疏的 Sparse BEV. 但不管何時,在前向遠距離感知上,雙目都能夠持續(xù)提升感知的整體上限。例如,我們做過不少事情去探索雙目的價值:

第一件事是,通過 SGM/optical flow 這些底層特征,識別非標/超寬障礙物。但實踐下來,很難簡單地與 3D 表達兼容。我們漸漸地發(fā)現(xiàn),相較于2D 視角,BEV/Occupancy 是一個更優(yōu)雅的框架去解決這些難題。邏輯上還是相似的,BEV/Occ 仍然需要去表達、解釋這些稠密的底層特征和時序特征。

通過稠密深度圖去避讓超寬車

通過光流 motion seg 去識別障礙物

第二件事是,僅對 bbox 內(nèi)的點去做 match,相同精度下僅有 1/2 latency,并能提升遠處 recall. 即使在夜晚,我們也能有 300m 的穩(wěn)定 trakcing.

第三件事是,在高分辨圖下,動態(tài)裁剪 2M 原圖,通過一個額外的 2D 檢測器以及稀疏匹配,實現(xiàn)遠距離小目標 2倍 tracking 性能的提升 (cone, 80m->160m), 整體感知 tracking 距離從 300m+ 到近 400m.

第四件事是,實現(xiàn)長焦雙目。效果顯而易見, Z=fb/d. 焦距 f 的提升能夠簡單而有效地提升遠處距離性能。但簡單替換相機,會造成前向盲區(qū)過大的問題。在框架上,需要通過廣角相機去做車道線等模塊。有一定的系統(tǒng)遷移成本。

總結(jié)

無論是圖森的 LiDAR-centeric 方案,還是智加的 Stereo-centeric, 核心本質(zhì)還是提升遠距離 tracking 的穩(wěn)定性。就好像 @王峰 提到的 “對于遠距離感知的探索不能說是一帆風(fēng)順,簡直就是滿路荊棘?!?/p>

上面這些工作,都是在 Xavier 低算力平臺下循序漸進的思考和實踐。在 Orin 平臺下,我們已經(jīng)漸漸地過渡到視覺 BEV 3D 框架。但正如圖森的分享,在卡車領(lǐng)域里,數(shù)以億計的 2D 數(shù)據(jù)仍然在和 3D 需求互相融合,繼續(xù)完善。

后續(xù)的實踐,是將高分辨率 RoI 雙目集成到 BEV 框架中。當有充沛的遠距離 GT 數(shù)據(jù)時,不管是 dense-bev 還是 sparse query bev,都能看得更遠更穩(wěn)。等待合適時機再跟大家分享 :-P

最后也是最重要的,要感謝智加/Plus 的同事們 (Tim, Mianwei, Darren, Philip, Andy, Tong, Peidong, Xingjian, Fuyue, Xuyang),我只是起到了個承上啟下的作用 。

原文鏈接:https://mp.weixin.qq.com/s/KxUjgdzO_i2obsdeY0OEJw

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-02-02 09:47:31

自動駕駛感知

2021-06-30 07:19:35

微服務(wù)業(yè)務(wù)MySQL

2024-11-04 09:00:00

Java開發(fā)

2023-09-29 08:58:38

2023-08-14 08:38:26

反射reflect結(jié)構(gòu)體

2017-07-18 16:14:06

FileProvideAndroidStrictMode

2021-08-26 09:31:40

Nacos配置注冊

2023-03-13 09:07:02

2023-07-06 13:56:14

微軟Skype

2024-02-06 08:58:23

開源項目my-tv

2023-09-22 17:36:37

2020-05-22 08:16:07

PONGPONXG-PON

2021-01-28 22:31:33

分組密碼算法

2020-09-08 06:54:29

Java Gradle語言

2021-03-11 08:55:47

JavaUser對象

2018-06-07 13:17:12

契約測試單元測試API測試

2021-08-01 09:55:57

Netty時間輪中間件

2023-09-27 16:39:38

2024-10-28 21:02:36

消息框應(yīng)用程序

2016-01-15 09:51:27

AngularJS實際應(yīng)用
點贊
收藏

51CTO技術(shù)棧公眾號