2024年自動(dòng)駕駛標(biāo)注行業(yè)是否會(huì)被世界模型所顛覆?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
1.數(shù)據(jù)標(biāo)注面臨的問(wèn)題(特別是基于BEV 任務(wù))
隨著基于BEV transformer 任務(wù)的興起,隨之帶來(lái)的是對(duì)數(shù)據(jù)的依賴變的越來(lái)越重,基于BEV 任務(wù)的標(biāo)注也變得越來(lái)越重要。目前來(lái)看無(wú)論是2D-3D的聯(lián)合障礙物標(biāo)注,還是基于重建點(diǎn)云的clip 的車道線或者Occpuancy 任務(wù)標(biāo)注都還是太貴了(和2D標(biāo)注任務(wù)相比,貴了很多)。當(dāng)然業(yè)界里面也有很多基于大模型等的半自動(dòng)化,或者自動(dòng)化標(biāo)注的研究。還有一方面是自動(dòng)駕駛的數(shù)據(jù)采集,周期太過(guò)于漫長(zhǎng),還涉及到數(shù)據(jù)合規(guī)能一系列問(wèn)題。比如,你想采集一個(gè)平板車跨相機(jī)的場(chǎng)景,或者一個(gè)車道線城市多變少,少變多的場(chǎng)景,就需要采集人員專項(xiàng)去構(gòu)建這樣的場(chǎng)景。
2.24年會(huì)是世界模型的奇點(diǎn)時(shí)刻嗎?
世界模型這個(gè)概念太過(guò)于大,或者說(shuō)成傳感器仿真。在特斯拉AI day 上第一次見(jiàn)識(shí)到仿真對(duì)標(biāo)注的顛覆
圖1: 特斯拉的自動(dòng)化標(biāo)注效果圖二 4D 重建的效果
當(dāng)時(shí)看到之后是震驚, 還是震驚!就像當(dāng)成特斯拉的BEV 一樣顛覆。隨著越來(lái)越多的研究人員在這個(gè)方向不斷發(fā)力,有很多優(yōu)秀的研究呈現(xiàn)出來(lái)。UniSim 的自動(dòng)駕駛仿真系統(tǒng), 具備 重放,動(dòng)態(tài)物體行為控制, 自由視角渲染等功能(這應(yīng)該是每一個(gè)訓(xùn)練模型的同學(xué)都想擁有的) 。
還可以對(duì)lidar 進(jìn)行仿真。
具體見(jiàn): https://zhuanlan.zhihu.com/p/636695025. 這個(gè)方向還有更多的的類似的研究。
NeuRAD: Neural Rendering for Autonomous Driving
DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes 以上的方法都大多和Nerf 相關(guān),整個(gè)pipeline 都比較重。還有另一個(gè)方向,基于擴(kuò)散的研究方向。目前也取得了不錯(cuò)的研究。
BEVControl: Accurately Controlling Street-view Elements withMulti-perspective Consistency via BEV Sketch Layout
BEVControl: Accurately Controlling Street-view Elements withMulti-perspective Consistency via BEV Sketch Layout
< MagDriver MAGIC DRIVE : STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL >
技術(shù)發(fā)展太快了,傳感器仿真的門檻正在降低,有可能24年自動(dòng)駕駛標(biāo)注行業(yè)會(huì)出現(xiàn)一些顛覆性的產(chǎn)品出來(lái)!