自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="jxxt5"><strike id="jxxt5"></strike></tfoot>

<sub id="jxxt5"></sub>

<sub id="jxxt5"></sub>

<sub id="jxxt5"><p id="jxxt5"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

聊一聊我們在遠距離雙目感知的一些看法

作者：黃奇浩 2024-02-19 10:29:24

既然特斯拉、百度/極越已經(jīng)在一定規(guī)模下證明了純視覺 L2+ (highway/city, FSD) 的可行性，那為什么還要去研究雙目呢？雙目、LiDAR 相較于 2M 的 30/60/120 和 8M 的 30/120 的區(qū)別是什么？

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

受王峰：遠距離LiDAR感知啟發(fā)，作為實打?qū)嵉?L2+ RoboTruck 同行，我也來分享分享智加/Plus 在遠距離感知上的一些積累，作為工作一段時間的總結(jié)。

既然特斯拉、百度/極越已經(jīng)在一定規(guī)模下證明了純視覺 L2+ (highway/city, FSD) 的可行性，那為什么還要去研究雙目呢？雙目、LiDAR 相較于 2M 的 30/60/120 和 8M 的 30/120 的區(qū)別是什么？我的看法是：

在線：在數(shù)據(jù)規(guī)模有限的情況下，雙目和 LiDAR 一樣，能快速提升感知性能上限；
離線：可用于 auto-label 中的預(yù)標注、建圖；
成本：相較于 LiDAR，在成本上有顯著優(yōu)勢；
標定：前向標定在流程上也會更簡單；
架構(gòu)：雙目硬同步 (vision-centeric)，來觸發(fā)、對齊其他相機，相較于 LiDAR-centeric 更精準。

我們的效果和大疆、鑒智釋放的圖片、視頻一樣，可以實現(xiàn)稠密、準確的深度估計。但是很可惜，基于 DL-Stereo 的方法需要稠密的深度 GT，而現(xiàn)在的 LiDAR 往往只能提供 150m 內(nèi)的 GT. Livox Tele 的 FoV 較小，超遠處的反射率和點數(shù)不足以支撐我們的需求和場景。最終在遠距離使用的，還是基于傳統(tǒng)特征的稠密/稀疏匹配。

不同于現(xiàn)在流行的前向單目、三目、長短焦雙目，同構(gòu)雙目的玩家其實并不多。乘用車領(lǐng)域，國內(nèi)做得最好的應(yīng)該是大疆、鑒智，國外是維寧爾、奔馳。我先來分享分享他們的進展和優(yōu)勢。

玩家們

大疆

在寶駿的一系列產(chǎn)品中交付：云朵、KiWi、悅也的高配版本，能夠?qū)崿F(xiàn)城區(qū)記憶行車。

和大疆一樣，智加也通過雙目強化了 Lane, 3D Det, Calib, Depth 等模塊。

鑒智

鑒智分享過很多 demo，實現(xiàn)了基于雙目的魔毯、智能底盤功能，和蔚來/奔馳的 4D 底盤異曲同工，也算是近年來把雙目作為核心優(yōu)勢的重要玩家。

鑒智優(yōu)化了 HKBU 的工作 FADNet也有做 MVS 和全向深度估計 Full Surround Monodepth from Multiple Cameras (TRI-ML/VIDAR)

地平線

地平線 PoC 過雙目，也有一些開源的工作，后續(xù)再觀望觀望。

奔馳

老法師奔馳早在13年前就分享過基于 stixel 的雙目深度估計、freespace 預(yù)測 / 參考。

英偉達

英偉達作為奔馳的重要合作伙伴，優(yōu)化、實現(xiàn)了不少雙目的工作：

https://github.com/NVIDIA-AI-IOT/redtail/tree/master/stereoDNN
VPI - Vision Programming Interface
Stereo Disparity Sample
ACCELERATING OPTICAL FLOW AND STEREO DISPARITY ESTIMATION USING THE NVIDIA A100 OFA ENGINE

維寧爾 (Veoneer)

維寧爾曾是寶馬、斯巴魯?shù)碾p目供應(yīng)商，在2018年的投資者日上曾分享過雙目規(guī)劃?？梢钥吹?，基礎(chǔ)方法論還是奔馳分享的 stereo stixel

華為 ADS 1.0

華為在 ADS 1.0 上規(guī)劃了前向四目，除了廣角和長焦外，還有一對雙目。不過從 ADS 2.0 的交付來看，最終還是擁抱了 LiDAR-centeric 而不是雙目視覺。

ArgoAI

ArgoVerse stereo 相較于 KITTI stereo 更符合現(xiàn)在的自動駕駛場景需求。

ArgoAI 1/2 都包含了雙目數(shù)據(jù)，在 CVPR 2021/2022 都舉辦過比賽。但里面都是一些成熟模型的 finetune 和刷點，缺乏一些新意和實踐價值。

安霸/VisLab

多組雙目系統(tǒng)的想法一開始由安霸/VisLab 的視頻啟發(fā)，他們實現(xiàn)了一個前向兩對雙目（包括長焦）的系統(tǒng)。還有一個視頻，很可惜找不到了，這個視頻描述了 VisLab 在 side 和 rear 裝了多組雙目，實現(xiàn)實時的全向深度估計。這個想法，很類似于 Mobileye 2020年發(fā)布的 VIDAR，以及 TRL 的 Full Surround Monodepth. 這些成果，都來源于VisLab 十多年的立體視覺研究積累。

ForeSight

ForeSight 分享過他們的異構(gòu)雙目系統(tǒng)，我曾經(jīng)去常州實車體驗過：
前向 120 度和 bumper 200 度廣角實現(xiàn)的雙目 (類似于 TW-SMNet)
車頂?shù)?30 度 RGB 雙目
車頂?shù)?IR 紅外雙目
這塊可以參考：
iPhone 15 上的空間視頻拍攝 / Tele
GitHub - ComVisDinh/disparityestimation: Deep Network Exploitation for Disparity Estimation Using Stereo Images with Different Focal Lengths
視角不平衡立體匹配研究-CSDN博客

蔚來/理想

蔚來/理想的兩個 front side 相機 FOV overlap 較小，非光心對齊同構(gòu)。也不是不能做雙目，但可能效果較差。

智加/Plus

在 Plus 創(chuàng)業(yè)伊始 16-18 間的 stereo demo

無論是 2021 年量產(chǎn)交付的解放 J7+, 還是 2023 年的江淮 K7+、2024 年的柳汽 H7+，長基線雙目都是我們最核心的模塊。多年前，我們曾發(fā)布過 1km 以上的目標感知結(jié)果，但那是基于 L4 狀態(tài)下的超寬基線（雙目布置在車側(cè), 2.8m 基線）。在 L2+ 量產(chǎn)平臺下，我們需要將雙目攝像頭放在擋風(fēng)玻璃內(nèi)，能夠被雨刮覆蓋，并滿足法規(guī)和穩(wěn)定性要求。

在感知架構(gòu)上，最早期，感知方案主要還是 2D 檢測為主，通過 2D 檢測去摳深度圖，或者通過接地點等幾何先驗去測距。漸漸的，有了很多 Mono3D 檢測，Stereo3D 檢測的工作。最后，收斂到 BEV 前融合 3D 檢測，甚至全稀疏的 Sparse BEV. 但不管何時，在前向遠距離感知上，雙目都能夠持續(xù)提升感知的整體上限。例如，我們做過不少事情去探索雙目的價值：

第一件事是，通過 SGM/optical flow 這些底層特征，識別非標/超寬障礙物。但實踐下來，很難簡單地與 3D 表達兼容。我們漸漸地發(fā)現(xiàn)，相較于2D 視角，BEV/Occupancy 是一個更優(yōu)雅的框架去解決這些難題。邏輯上還是相似的，BEV/Occ 仍然需要去表達、解釋這些稠密的底層特征和時序特征。

通過稠密深度圖去避讓超寬車

通過光流 motion seg 去識別障礙物

第二件事是，僅對 bbox 內(nèi)的點去做 match，相同精度下僅有 1/2 latency，并能提升遠處 recall. 即使在夜晚，我們也能有 300m 的穩(wěn)定 trakcing.

第三件事是，在高分辨圖下，動態(tài)裁剪 2M 原圖，通過一個額外的 2D 檢測器以及稀疏匹配，實現(xiàn)遠距離小目標 2倍 tracking 性能的提升 (cone, 80m->160m), 整體感知 tracking 距離從 300m+ 到近 400m.

第四件事是，實現(xiàn)長焦雙目。效果顯而易見, Z=fb/d. 焦距 f 的提升能夠簡單而有效地提升遠處距離性能。但簡單替換相機，會造成前向盲區(qū)過大的問題。在框架上，需要通過廣角相機去做車道線等模塊。有一定的系統(tǒng)遷移成本。

總結(jié)

無論是圖森的 LiDAR-centeric 方案，還是智加的 Stereo-centeric, 核心本質(zhì)還是提升遠距離 tracking 的穩(wěn)定性。就好像 @王峰提到的 “對于遠距離感知的探索不能說是一帆風(fēng)順，簡直就是滿路荊棘?！?/p>

上面這些工作，都是在 Xavier 低算力平臺下循序漸進的思考和實踐。在 Orin 平臺下，我們已經(jīng)漸漸地過渡到視覺 BEV 3D 框架。但正如圖森的分享，在卡車領(lǐng)域里，數(shù)以億計的 2D 數(shù)據(jù)仍然在和 3D 需求互相融合，繼續(xù)完善。

后續(xù)的實踐，是將高分辨率 RoI 雙目集成到 BEV 框架中。當有充沛的遠距離 GT 數(shù)據(jù)時，不管是 dense-bev 還是 sparse query bev，都能看得更遠更穩(wěn)。等待合適時機再跟大家分享 :-P

最后也是最重要的，要感謝智加/Plus 的同事們 (Tim, Mianwei, Darren, Philip, Andy, Tong, Peidong, Xingjian, Fuyue, Xuyang)，我只是起到了個承上啟下的作用。

原文鏈接：https://mp.weixin.qq.com/s/KxUjgdzO_i2obsdeY0OEJw

責(zé)任編輯：張燕妮來源：自動駕駛之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="lfi75"></sub><p id="lfi75"><li id="lfi75"><progress id="lfi75"></progress></li></p><style id="lfi75"></style>