自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度剖析Tesla自動(dòng)駕駛技術(shù)方案

人工智能 新聞
在BEV出現(xiàn)之前,自動(dòng)駕駛感知主流方案都是基于相機(jī)的2D Image Space,但是感知的下游應(yīng)用方-決策和路徑規(guī)劃都是在車輛所在的2D BEV Space進(jìn)行的,感知與規(guī)控之間的壁壘阻礙了FSD的發(fā)展。

01 感知:構(gòu)建實(shí)時(shí)的4D自動(dòng)駕駛場景

1.特斯拉攝像頭布局

圖片

特斯拉的攝像頭視野可以覆蓋車身周圍360°,在前向有120°魚眼、長焦鏡頭用于加強(qiáng)觀測,布局如上圖。

2.特斯拉圖像數(shù)據(jù)預(yù)處理

圖片

特斯拉采用的是36Hz的1280*960-12bit的圖像原始數(shù)據(jù),這相對于只有8-bit的ISP后處理數(shù)據(jù)多了4位信息,動(dòng)態(tài)方位擴(kuò)大了16倍。特斯拉這樣處理的原因有2個(gè):

1) ISP基于rule-base的算法對原始信號做了自動(dòng)對焦(AF)、自動(dòng)曝光(AE)、自動(dòng)白平衡(AWB)、壞點(diǎn)校正(DNS)、高動(dòng)態(tài)范圍成像(HDR)、顏色校正(CCM)等,這些滿足于人眼可視化需求,但不一定是自動(dòng)駕駛的需要。相對于rule-base的ISP,神經(jīng)網(wǎng)絡(luò)的處理能力更為強(qiáng)大,能夠更好的利用圖像的原始信息,同時(shí)避免ISP帶來的數(shù)據(jù)損失。

2) ISP的存在不利于數(shù)據(jù)的高速傳輸,影響圖像的幀率。而將對原始信號的處理放在網(wǎng)絡(luò)運(yùn)算中,速度要快很多。

這種方式跨過了傳統(tǒng)類似ISP的專業(yè)知識,直接從后端需求驅(qū)動(dòng)網(wǎng)絡(luò)學(xué)習(xí)更強(qiáng)的ISP能力,可以強(qiáng)化系統(tǒng)在低光照、低可見度條件下超越人眼的感知能力?;谶@個(gè)原理Lidar、radar的原始數(shù)據(jù)用于網(wǎng)絡(luò)擬合應(yīng)該也是更好的方式。

3.backbone網(wǎng)絡(luò):Designing Network Design Spaces

圖片

RegNet

特斯拉采用的是RegNet,相比于ResNet進(jìn)行了更高一層的抽象,解決了NAS搜索設(shè)計(jì)空間(將卷積、池化等模塊:連接組合/訓(xùn)練評估/選最優(yōu))固定、無法創(chuàng)建新模塊的弊端,可以創(chuàng)建新穎的設(shè)計(jì)空間范式,能夠發(fā)掘更多的場景適配新的"ResNet",從而避免專門去研究設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)。如果出來更好的BackBone可以替換這部分。

4. neckwork : EfficientDet: Scalable and Efficient Object Detection

圖片

BiFPN

  • PANet比FPN更準(zhǔn)是因:在FPN自頂向下的單一路徑流的基礎(chǔ)上又額外增加了自底向上的路徑流,也因此帶入更高的參數(shù)與計(jì)算;
  • BiFPN移除了只有一個(gè)輸入的節(jié)點(diǎn)(最上層和最下層),因?yàn)榫W(wǎng)絡(luò)的目的是融合特征,所以沒有融合能力的節(jié)點(diǎn)直接連接就可以。
  • BiFPN將輸入直接連接到輸出節(jié)點(diǎn),在不增加計(jì)算的情況下,融合了更多特征。
  • BiFPN將基礎(chǔ)結(jié)構(gòu)進(jìn)行了多層堆疊,能夠融合出更高緯度的特征。

圖片

FPN->BiFPN

5.BEV Fusion:FSD感知的空間理解能力

圖片

2D感知

在BEV出現(xiàn)之前,自動(dòng)駕駛感知主流方案都是基于相機(jī)的2D Image Space,但是感知的下游應(yīng)用方-決策和路徑規(guī)劃都是在車輛所在的2D BEV Space進(jìn)行的,感知與規(guī)控之間的壁壘阻礙了FSD的發(fā)展。為了消除這個(gè)壁壘,就需要將感知從2D圖像空間后置到2D的自車參考系空間,即BEV空間。

基于傳統(tǒng)技術(shù):

會采用IPM(Inverse Perspective Mapping)假設(shè)地面為平面利用相機(jī)-自車外參將2D Image Space轉(zhuǎn)換為2D的自車空間,即BEV鳥瞰空間。這里有個(gè)很明顯的缺陷:平面假設(shè)在面對道路起伏和上下坡時(shí)便不在成立。

圖片

多相機(jī)接邊拼接問題

由于每個(gè)攝像頭的FOV有限,所以即使借助IPM將2D Image Space轉(zhuǎn)換到2D BEV空間還需要解決多個(gè)相機(jī)圖像的BEV空間拼接。這其實(shí)需要高精度的多相機(jī)標(biāo)定算法,而且需要在線的實(shí)時(shí)校正算法??偨Y(jié)來說,需要實(shí)現(xiàn)的就是將多相機(jī)2D圖像空間特征映射到BEV空間,同時(shí)解決由于標(biāo)定和非平面假設(shè)引起的變換重疊問題。

Tesla基于Transformer的BEV Layer的實(shí)現(xiàn)方案:

圖片

BEV_FUSION

首先在各個(gè)相機(jī)分別通過CNN主干網(wǎng)絡(luò)和BiFPN提取多尺度特征圖層,多尺度特征圖層一方面通過MLP層生成Transformer的方法中所需的Key和Value,另一方面對多尺度Feature Map進(jìn)行Global Pooling操作得到一個(gè)全局描述向量(即圖中的Context Summary),同時(shí)通過對目標(biāo)輸出BEV空間進(jìn)行柵格化,再對每個(gè)BEV柵格進(jìn)行位置編碼,將這些位置編碼與全局描述向量進(jìn)行拼接(Concatenate)后再通過一層MLP層得到Transformer所需的Query。

在Cross Attention操作中,Query的尺度決定最終BEV層之后的輸出尺度(即BEV柵格的尺度),而Key和Value分別處于2D圖像坐標(biāo)空間下,按照Transformer的原理,通過Query和Key建立每個(gè)BEV柵格收到2D圖像平面像素的影響權(quán)重,從而建立從BEV到輸入圖像之間的關(guān)聯(lián),再利用這些權(quán)重加權(quán)由圖像平面下的特征得到的Value,最終得到BEV坐標(biāo)系下的Feature Map,完成BEV坐標(biāo)轉(zhuǎn)換層的使命,后面就可以基于BEV下的Feature Map利用已經(jīng)成熟的各個(gè)感知功能頭來直接在BEV空間下進(jìn)行感知了。BEV空間下的感知結(jié)果與決策規(guī)劃所在的坐標(biāo)系是統(tǒng)一的,因此感知與后續(xù)模塊就通過BEV變換緊密地聯(lián)系到了一起。

圖片

Calibration

通過這種方法,實(shí)際上相機(jī)外參以及地面幾何形狀的變化都在訓(xùn)練過程中被神經(jīng)網(wǎng)絡(luò)模型內(nèi)化在參數(shù)里邊。這里存在的一個(gè)問題就是使用同一套模型參數(shù)的不同車子的相機(jī)外參存在微小的差異,Karparthy在AI Day上補(bǔ)充了一個(gè)Tesla應(yīng)對外參差異的方法:他們利用標(biāo)定出來的外參將每輛車采集到的圖像通過去畸變,旋轉(zhuǎn),恢復(fù)畸變的辦法統(tǒng)一轉(zhuǎn)換到同樣一套虛擬標(biāo)準(zhǔn)相機(jī)的布設(shè)位置,從而消除了不同車相機(jī)外參的微小差別。

圖片

BEV的方法是一個(gè)非常有效的多相機(jī)融合框架,通過BEV的方案,原本很難進(jìn)行正確關(guān)聯(lián)的跨多個(gè)相機(jī)的近處的大目標(biāo)的尺寸估計(jì)和追蹤都變得更加準(zhǔn)確、穩(wěn)定,同時(shí)這種方案也使得算法對于某一個(gè)或幾個(gè)相機(jī)短時(shí)間的遮擋,丟失有了更強(qiáng)的魯棒性。簡而言之,BEV解決了多攝像頭的圖像融合拼接,增加了魯棒性。

圖片

解決了多相機(jī)的車道線和邊界融合

圖片

障礙物變的更穩(wěn)定

(從PPT來看,特斯拉初始的方案應(yīng)該是主要應(yīng)用了前向相機(jī)來做感知和車道線預(yù)測的。)

6.Video Neural Net Architecture:時(shí)空序列Feature構(gòu)建

圖片

圖片

BEV的使用將感知從多相機(jī)分散的2D Image Space提升到2D的BEV 空間,但是自動(dòng)駕駛實(shí)際的環(huán)境是一個(gè)4D的空間的問題,即便不考慮高程,也仍然缺少的一個(gè)維度是時(shí)間。Tesla通過使用具有時(shí)序信息的視頻片段替代圖像對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而使感知模型具有短時(shí)間的記憶的能力,實(shí)現(xiàn)這個(gè)功能的方法是分別引入時(shí)間維度和空間維度上的特征隊(duì)列進(jìn)入神經(jīng)網(wǎng)絡(luò)模型。規(guī)則:每隔27毫秒push queue或每走過每隔1米遠(yuǎn)就會連同運(yùn)動(dòng)信息緩存在視頻序列。

圖片

對于如何融合時(shí)序信息,Tesla嘗試了三種主流的方案:3D卷積,Transformer以及RNN。這三種方法都需要把自車運(yùn)動(dòng)信息與單幀感知結(jié)合起來,Karparthy表示自車運(yùn)動(dòng)信息只使用了包括速度和加速度的四維信息,這些運(yùn)動(dòng)信息可以從IMU中獲取,然后與BEV空間下的Feature Map(20x80x256)還有Positional Encoding相結(jié)合(Concatenate),形成20x80x300x12維的特征向量隊(duì)列,這里第三維由256維視覺特征 + 4維運(yùn)動(dòng)學(xué)特征(vx, vy, ax, ay)以及40維位置編碼(Positional Encoding)構(gòu)成,因此300 = 256 + 4 + 40,最后一維是降采樣過后的12幀時(shí)間/空間維度。

圖片

3D Conv, Transformer,RNN都能處理序列信息,三者在不同任務(wù)上各有長短,但大部分時(shí)間采用哪個(gè)方案其實(shí)區(qū)別不大,然而AI Day上Karparthy另外分享了一個(gè)簡單有效,而且效果十分有趣可解釋的方案叫做Spatial RNN。與上面三個(gè)方法有所不同,Spatial RNN由于RNN原本就是串行處理序列信息,幀間前后順序得以保留,因此無需將BEV視覺特征進(jìn)行位置編碼就可以直接給進(jìn)RNN網(wǎng)絡(luò),因此可以看到這里輸入信息就只包括20x80x256的BEV視覺Feature Map和1x1x4的自車運(yùn)動(dòng)信息。

圖片

Spatial特征在CNN中常指圖像平面上的寬高維度上的特征,這里Spatial RNN中的Spatial則指的是類似以某時(shí)刻的BEV坐標(biāo)為基準(zhǔn)的一個(gè)局部坐標(biāo)系里的兩個(gè)維度。這里為了進(jìn)行說明使用了LSTM的RNN層,LSTM的優(yōu)勢在于其可解釋性強(qiáng),這里作為例子進(jìn)行理解再合適不過了。

LSTM特點(diǎn)在于Hidden State里面可以保留前面長度可變的N個(gè)時(shí)刻的狀態(tài)的編碼(也即短時(shí)記憶),然后當(dāng)前時(shí)刻可以通過輸入和Hidden State決定哪一部分記憶的狀態(tài)需要被使用,哪一部分需要被遺忘等等。在Spatial RNN中,Hidden State是一個(gè)比BEV柵格空間更大的矩形柵格區(qū)域,尺寸為(WxHxC)(見上圖,WxH大于20x80的BEV尺寸),自車運(yùn)動(dòng)學(xué)信息決定前后BEV特征分別影響的是Hidden State的哪一部分柵格,這樣連續(xù)的BEV數(shù)據(jù)就會不斷對Hidden State的大矩形區(qū)域進(jìn)行更新,且每次更新的位置與自車運(yùn)動(dòng)相符合。經(jīng)過連續(xù)的更新后,就形成了一個(gè)類似局部地圖一樣的Hidden State Feature Map如下圖所示。

圖片

圖片

時(shí)序隊(duì)列的使用賦予了神經(jīng)網(wǎng)絡(luò)獲得幀間連續(xù)的感知結(jié)果的能力,與BEV結(jié)合后則使FSD獲得了應(yīng)對視野盲區(qū)和遮擋,選擇性地對局部地圖進(jìn)行讀寫的能力,正因?yàn)橛辛诉@樣的實(shí)時(shí)的局部地圖構(gòu)建的能力,F(xiàn)SD才能不依賴高精地圖進(jìn)行城市中的自動(dòng)駕駛。這里具備不只是3D的地圖能力,其實(shí)是局部4D場景構(gòu)建能力,可用于預(yù)測等。在Occupancy出來后,普遍認(rèn)為基于Spatial RNN改為了上述中的transformer方案。

圖片

7.Occupancy Network:BEV從2D走向3D

BEV的2D鳥瞰圖很顯然與真實(shí)自動(dòng)駕駛面臨的3D場景還有差距,所以必然存在某些場景下BEV2D感知失效的情況。在2021年特斯拉就具備了深度構(gòu)建的能力,所以從2D走向3D只是時(shí)間問題,2022年就帶來了Occupancy Network,它是BEV網(wǎng)絡(luò)在高度方向進(jìn)行了進(jìn)一步的擴(kuò)展,將BEV坐標(biāo)系下2D柵格位置編碼生成的Query升級為3D柵格位置編碼生成的Query,用Occupancy Feature替代了BEV Feature。

在CVPR2022上,Ashork給出了使用Occupancy Feature而不使用基于圖像深度估計(jì)的原因:

圖片

1)深度估計(jì)近處是OK的,但是遠(yuǎn)處深度就不一致,遠(yuǎn)處越靠近地面的地方深度值點(diǎn)越少(這是受限于圖像的成像原理導(dǎo)致的,在20m外一個(gè)像素代表的縱向距離可能超過了30cm),而且數(shù)據(jù)難以被后續(xù)規(guī)劃流程所使用。

2)深度網(wǎng)絡(luò)基于回歸構(gòu)建,很難通過遮擋來進(jìn)行預(yù)測,所以邊界上難以進(jìn)行預(yù)測,可能平滑的從車輛過渡到背景。

使用Occupancy的優(yōu)勢如下:

圖片

Occupancy優(yōu)點(diǎn)

1)在BEV空間生成了統(tǒng)一的體素,可以預(yù)測任意一個(gè)體素的占用概率

2)獲取了所有相機(jī)的視頻流,并且是統(tǒng)一的(沒有l(wèi)idar-camera融合的問題,信息的維度比lidar也要高)

3)能夠?qū)崟r(shí)預(yù)測被遮擋物體的狀態(tài)(Occupancy的動(dòng)態(tài)描述能力是從3D向4D過渡)

4)可以為每個(gè)體素生成對應(yīng)的語義類別(圖像的識別能力是遠(yuǎn)強(qiáng)于lidar)

圖片

即使不識別類別也能處理運(yùn)動(dòng)物體

5)可以為每個(gè)體素預(yù)測其運(yùn)動(dòng)狀態(tài),對隨機(jī)運(yùn)動(dòng)進(jìn)行建模

6)各個(gè)位置的分別率是可以調(diào)整的(也就是具備BEV空間變焦能力)

7)得益于特斯拉的硬件,Occupancy具有高效的存儲和計(jì)算優(yōu)勢

8)10ms內(nèi)可以完成計(jì)算,處理頻率可以很高(36Hz的圖像輸出能力已經(jīng)強(qiáng)于10Hz的lidar頻率)

Occupancy的方案相比于bounding box的感知方案優(yōu)點(diǎn)在于:

可以描述不具有固定bounding box,可以隨意變換形態(tài),任意移動(dòng)的未知類別物體,將障礙物的描述粒度從box提升到了voxel粒度,可以解決感知中很多的長尾問題。

來看下Occupancy整體方案:

圖片

Occupancy Network

1)Image Input:輸入原始圖像信息,擴(kuò)大了數(shù)據(jù)維度和動(dòng)態(tài)范圍

2)Image Featurers:RegNet+BiFPN提取多尺度的圖像特征

3)Spatial Atention:通過帶3D空間位置的spatial query對2D圖像特征進(jìn)行基于attention的多相機(jī)融合

實(shí)現(xiàn)方案1:根據(jù)每個(gè)相機(jī)的內(nèi)外參將3D spatial query投影到2D特征圖上,提取對應(yīng)位置的特征。

實(shí)現(xiàn)方案2:利用positional embedding來進(jìn)行隱式的映射,即將2D特征圖的每個(gè)位置加上合理的positional embedding,如相機(jī)內(nèi)外參、像素坐標(biāo)等,然后讓模型自己學(xué)習(xí)2D到3D特征的對應(yīng)關(guān)系

4)Temporal Alignment:利用軌跡信息對每個(gè)frame的3D Occupancy Features按照時(shí)序進(jìn)行空間上Channel維度的拼接,隨著時(shí)間遠(yuǎn)近有一個(gè)權(quán)重的衰減,組合特征會進(jìn)入Deconvolutions的模塊來提高分辨率

5)Volume Outputs:輸出固定大小柵格的占用率和占用流

6)Queryable Outputs:設(shè)計(jì)了一個(gè)隱式queryable MLP decoder,輸入任意坐標(biāo)值(x,y,z),用于獲取更高分辨率的連續(xù)體素語義、占用率、占用流信息,打破了模型分辨率的限制

7)生成具有三維幾何和語義的可行駛區(qū)域路面,有利于坡度、彎曲道路上的控制。

圖片

地面與Occupancy是一致的

8)NeRF state:nerf構(gòu)建的是場景的幾何結(jié)構(gòu),可以生成任意視角的圖像,可以恢復(fù)高分辨率的真實(shí)場景。

如果能夠用Nerf進(jìn)行升級或替換,那么將具備還原真實(shí)場景的能力,而且這個(gè)場景還原能力將是過去-現(xiàn)在-未來的。對于特斯拉技術(shù)方案追求的4D場景自動(dòng)駕駛應(yīng)該是極大的補(bǔ)充和完善。

8.FSD Lanes Neural Network:預(yù)測車道的拓?fù)溥B接關(guān)系

只分割、識別出車道線是不夠的,還需要推理獲取車道之間的拓?fù)溥B接關(guān)系,這樣才能用于軌跡規(guī)劃。

圖片

FSD車道線拓?fù)潢P(guān)系感知

1)Lane Guidance Module:使用了導(dǎo)航圖中的道路的幾何&拓?fù)潢P(guān)系,車道等級、數(shù)量、寬度、屬性信息,將這些信息與Occupancy特征整合起來進(jìn)行編碼生成Dense World Tensor給到拓?fù)潢P(guān)系建立的模塊,將視頻流稠密的特征通序列生成范式解析出 稀疏的道路拓?fù)湫畔?車道節(jié)點(diǎn)lane segment和連接關(guān)系adjacent)。

2)Language Component:把車道相關(guān)信息包括車道節(jié)點(diǎn)位置、屬性(起點(diǎn),中間點(diǎn),終點(diǎn)等)、分叉點(diǎn)、匯合點(diǎn),以及車道樣條曲線幾何參數(shù)進(jìn)行編碼,做成類似語言模型中單詞token的編碼,然后利用時(shí)序處理辦法進(jìn)行處理。具體流程如下:

圖片

language of lanes 流程

圖片

language of lanes

最終language of lanes表征的就是圖中的拓?fù)溥B接關(guān)系。

9. Object Perception:感知預(yù)測其他交通參與者

圖片

障礙物感知與預(yù)測

FSD的Object Perception是一個(gè)2-Step的方法,第1階段先從Occupancy中識別出障礙物在3D空間中的位置,第2階段將這些3D物體的張量concat一些運(yùn)動(dòng)學(xué)信息的編碼(如自車運(yùn)動(dòng),目標(biāo)行駛車道線,交通燈交通信號等)然后在接入軌跡預(yù)測、物體建模、行人位姿預(yù)測等head。將復(fù)雜的感知Heads聚焦于有限的ROI區(qū)域,減少了處理延遲。從上圖可以看到存在2步video module,分別服務(wù)于自車和它車的預(yù)測。

這里留下個(gè)疑問:上圖中的2次video module有什么區(qū)別?效率上會不會有問題?

02 決策規(guī)劃

1.復(fù)雜場景:與高頻、多樣交通參與者的交互規(guī)劃

圖片

路口無保護(hù)左轉(zhuǎn)的決策規(guī)劃場景

上述這個(gè)場景決策規(guī)劃的難點(diǎn)在于:

自車執(zhí)行無保護(hù)左轉(zhuǎn)通過路口場景過程中需要與行人、正常直行車輛交互,理解多方的相互關(guān)系。

與前者的交互決策,直接影響與后者的交互策略。這里最后選擇的方案是:盡量不干擾其他交通參與者的運(yùn)動(dòng)。

2. 傳統(tǒng)優(yōu)化方法:【聯(lián)合多物體軌跡規(guī)劃】:多物體MPC

  • 8維度狀態(tài)表征軌跡(位置,Heading,s速度,橫縱向加速度,橫縱向jerk)
  • 優(yōu)化cost: 找到自車ego和他車Obj各自的軌跡,使得所有物體都能盡可能的抵達(dá)goal,同時(shí)橫縱向jerk盡可能?。ㄊ孢m度)
  • 約束條件:
  1. 物體各自的軌跡最近距離大于安全距離
  2. 兩兩物體的軌跡早到、遲到約束
  • 缺點(diǎn):實(shí)時(shí)性太差(每一種組合耗時(shí)10ms是Tesla能做到的極限),存在組合爆炸。目標(biāo)是整體規(guī)劃耗時(shí)50ms(20hz)。?

圖片

3. 交互樹搜索:并行的路徑規(guī)劃和評估修剪

圖片

決策規(guī)劃的流程

Tesla實(shí)現(xiàn)這個(gè)目標(biāo)采用的是“交互搜索”,對一系列可能的運(yùn)動(dòng)軌跡進(jìn)行并行搜索,對應(yīng)的狀態(tài)空間包含了自車、障礙物、可行駛區(qū)域、車道、交通信號燈等。解空間采用的是一組目標(biāo)運(yùn)動(dòng)候選軌跡,在與其他交通參與互動(dòng)決策后產(chǎn)生分支,進(jìn)而遞進(jìn)決策規(guī)劃下去,最后選出最優(yōu)的軌跡,流程如上圖所示:

1) 根據(jù)道路拓?fù)浠蛉笋{數(shù)據(jù)先驗(yàn)得到goal點(diǎn)或其概率分布(大數(shù)據(jù)軌跡)

2)根據(jù)goal點(diǎn)生成候選軌跡(優(yōu)化算法+神經(jīng)網(wǎng)絡(luò))

3)沿著候選軌跡rollout并交互決策,重新規(guī)劃路徑,評估各個(gè)路徑的風(fēng)險(xiǎn)和得分,優(yōu)先搜索最佳路徑知道goal點(diǎn)

整個(gè)決策規(guī)劃的優(yōu)化表達(dá)式:

圖片

決策規(guī)劃優(yōu)化表達(dá)式

圖片

輕量級的規(guī)劃軌跡查詢網(wǎng)絡(luò)

特斯拉采用遞增的方式不斷加入新的決策約束,用較少約束下最優(yōu)方案作為初值繼續(xù)求解更加復(fù)雜的優(yōu)化問題,最終得到最優(yōu)解。但由于存在眾多的可能分支,就要整個(gè)決策規(guī)劃過程要十分的高效,采用基于傳統(tǒng)優(yōu)化算法的planner每次決策規(guī)劃需要耗時(shí)1~5ms,當(dāng)存在高密度交通參與者時(shí)顯然是不夠安全的。特斯拉采用的Neural Planner是一個(gè)輕量級的網(wǎng)絡(luò),查詢的規(guī)劃軌跡使用Tesla車隊(duì)中人類駕駛員駕駛數(shù)據(jù)和在無時(shí)間約束的離線條件下規(guī)劃的全局最優(yōu)路徑最為真值進(jìn)行訓(xùn)練出來的,每次決策規(guī)劃只有100us。

圖片

規(guī)劃決策評估

每次決策后查詢到的多個(gè)候選軌跡都需要進(jìn)行評估,評估依據(jù)的規(guī)范有碰撞檢查、舒適性分析、接管可能性、與人的相似程度等,有助于修剪搜素分支,避免整個(gè)決策樹過于龐大,同時(shí)也能夠?qū)⑺懔械阶钣锌赡艿姆种稀esla強(qiáng)調(diào)該方案同樣適用于遮擋場景,在規(guī)劃過程會考慮被遮擋的物體的運(yùn)動(dòng)狀態(tài),通過添加“鬼影”進(jìn)行規(guī)劃。

圖片

ghost遮擋場景

在CVPR還分享了碰撞規(guī)避的網(wǎng)絡(luò)流程和對應(yīng)的規(guī)劃過程,不細(xì)述。

圖片

碰撞規(guī)避網(wǎng)絡(luò)

圖片


圖片


03 場景重建&自動(dòng)標(biāo)注

特斯拉強(qiáng)大的感知能力需要強(qiáng)大的標(biāo)注能力作為支撐,從2018至今,特斯拉的標(biāo)注經(jīng)歷了4個(gè)階段:

圖片

特斯拉的標(biāo)注迭代

第1階段(2018):只有純?nèi)斯さ?維的圖像標(biāo)注,效率非常低

第2階段(2019):開始有3D label,但是是單趟的人工的

第3階段(2020):采用BEV空間進(jìn)行標(biāo)注,重投影的精度明顯降低

第4階段(2021):采用多趟重建去進(jìn)行標(biāo)注,精度、效率、拓?fù)潢P(guān)系都達(dá)到了極高的水準(zhǔn)

特斯拉的這套自動(dòng)標(biāo)注系統(tǒng)可以取代500萬小時(shí)的人工作業(yè)量,人工只需要檢查、補(bǔ)漏極小的部分(<0.1hrs).

這套多趟軌跡重建方案過程如下:(類似于一套離線的語義slam系統(tǒng))

圖片

自動(dòng)標(biāo)注系統(tǒng)

第1步:VIO生成高精軌跡。將視頻流、IMU、里程計(jì)給到神經(jīng)網(wǎng)絡(luò),推理提取點(diǎn)、線、地面、分割特征,然后在BEV空間用multi-camera VIO進(jìn)行tracking和optimization,輸出100Hz的6dof的軌跡和3dof的結(jié)構(gòu)和道路,同時(shí)還可以輸出camera的標(biāo)定值。重建軌跡的精度是1.3cm/m、0.45弧度/m,不算很高。所有的FSD都可以運(yùn)行這套流程獲取某趟預(yù)處理的軌跡和結(jié)構(gòu)信息。(看視頻感覺vio只顯式用了點(diǎn)特征,可能隱式使用了用線、面特征。)

圖片

多趟軌跡重建

第2步:多趟軌跡重建。將多趟來自不同車輛的重建數(shù)據(jù)進(jìn)行軌跡分組粗對齊->特征匹配->聯(lián)合優(yōu)化->路面精修,然后人工參與進(jìn)來最終核實(shí)確認(rèn)標(biāo)注結(jié)果。這里聯(lián)合優(yōu)化后還進(jìn)行了一個(gè)路面優(yōu)化,猜測是視覺重建的誤差比較大,全局優(yōu)化后在局部道路存在分層重疊問題,為了消除這部分全局優(yōu)化錯(cuò)誤分配的誤差,增加了路面優(yōu)化。從算法邏輯上來講,全局優(yōu)化后接局部優(yōu)化是一個(gè)必須項(xiàng),因?yàn)樽詣?dòng)駕駛的要求是處處能可行駛。整個(gè)過程在集群上并行的。

圖片

粗對齊

第3步:自動(dòng)標(biāo)注新軌跡數(shù)據(jù)。在預(yù)先構(gòu)建的地圖上,對新行駛軌跡數(shù)據(jù)執(zhí)行多趟軌跡重建一樣的重建流程,這樣對齊后的新軌跡數(shù)據(jù)就可以自動(dòng)的從預(yù)構(gòu)建地圖上獲取語義標(biāo)注。這其實(shí)就是一個(gè)重定位獲取語義標(biāo)簽的過程。這個(gè)自動(dòng)標(biāo)注其實(shí)是只能自動(dòng)標(biāo)注靜態(tài)的物體,比如:車道線、道路邊界等。通過感知模型,其實(shí)已經(jīng)能夠獲取到車道線等的語義類別,但是在惡劣場景下會存在完整性和誤識別問題,通過這個(gè)自動(dòng)標(biāo)注可以解決這些問題。但缺陷在于對于動(dòng)態(tài)障礙物可能就不太適用了,比如:行駛中的車輛、行人等。下面是使用場景:

圖片

自動(dòng)標(biāo)注使用場景

特斯拉所展示的很多圖像都有一個(gè)特點(diǎn):存在模糊或污漬遮擋,但是不嚴(yán)重影響其感知結(jié)果。在正常的使用中,車輛的相機(jī)鏡頭很容易被弄臟,但是有了這個(gè)自動(dòng)標(biāo)注,特斯拉的感知魯棒性會非常強(qiáng),也降低了相機(jī)的維護(hù)成本。

圖片

自動(dòng)標(biāo)注不適用于動(dòng)態(tài)車輛

回顧2021年的ai day可知上述重建構(gòu)建的是static world,而是不只是車道線車道線,還有車輛和建筑。

圖片

3D重建

圖片

重建靜態(tài)世界并標(biāo)注

圖片

4D空間標(biāo)注

在BEV空間標(biāo)注完后,會將標(biāo)注再映射會多個(gè)相機(jī)的圖像中,從而實(shí)現(xiàn)4D空間一次標(biāo)注可以2D多幀應(yīng)用。

關(guān)于場景重建,當(dāng)前的重建能力和精度可能還是沒有達(dá)到特斯拉工程師的期望,他們最終的目標(biāo)是真實(shí)還原重建出所有特斯拉汽車行駛過的場景,而且可以真實(shí)的改變這些場景的條件生成新的真實(shí)場景,這才是終局目標(biāo)。

圖片

還原真實(shí)世界

圖片

重建真實(shí)世界

04 場景仿真:基于真實(shí)道路信息,創(chuàng)造自動(dòng)駕駛場景

圖片

場景仿真

圖片

仿真可以獲取絕對正確的label

基于重建去構(gòu)建的真實(shí)場景受限于數(shù)據(jù)、算法等,當(dāng)前還難以大規(guī)模實(shí)現(xiàn),而且耗時(shí)還比較長,例如:上圖一個(gè)真實(shí)路口的仿真需要花費(fèi)2周時(shí)間。但是自動(dòng)駕駛的落地又依賴于在不同場景中的訓(xùn)練和測試,所以特斯拉就構(gòu)建了一套仿真系統(tǒng),用于模擬自動(dòng)駕駛場景。這套系統(tǒng)并不能真實(shí)模擬現(xiàn)實(shí)場景,但好處是比上述真實(shí)常見重建方案快1000倍,可以提供現(xiàn)實(shí)中難以獲得或難以標(biāo)記的數(shù)據(jù),對于自動(dòng)駕駛的訓(xùn)練仍然非常有意義。

圖片

仿真構(gòu)建的架構(gòu)

這套仿真器的架構(gòu)如上圖,在場景創(chuàng)建過程中需要經(jīng)過以下步驟:

第1步:在仿真世界中鋪開道路,利用邊界label生成實(shí)體路面mesh,用道路拓?fù)潢P(guān)系重新關(guān)聯(lián).

第2步:將路面上的車道線和幾何描述要素投影到車道路段上,構(gòu)建車道細(xì)節(jié)

第3步:在道路中間邊界區(qū)域內(nèi)生成中心分道區(qū),隨機(jī)生成植物、交通標(biāo)識填補(bǔ);道路邊界外采用隨機(jī)啟發(fā)的方式生成一系列的建筑、樹木、交通標(biāo)識物等

第4步:從地圖中獲取紅綠燈或停止標(biāo)志的位置,還可以獲取車道數(shù)、道路名稱等

第5步:使用車道地圖獲取車道的拓?fù)潢P(guān)系,生成行駛方向(左右轉(zhuǎn)標(biāo)線)和輔助標(biāo)記

第6步:利用車道地圖本身確定車道相鄰關(guān)系和其他有用的信息

第7步:根據(jù)車道關(guān)系生成隨機(jī)車流組合

在上述過程中,基于一套車道導(dǎo)航地圖真值可以修改仿真參數(shù)生成變化,產(chǎn)生多種組合場景。而且甚至可以根據(jù)訓(xùn)練的需要,修改真值的某些屬性,創(chuàng)造新的場景,從而實(shí)現(xiàn)訓(xùn)練目的。

圖片

數(shù)據(jù)劃分為Tile存儲

圖片

基于Tile粒度構(gòu)建的世界

上述構(gòu)建的仿真是基于真實(shí)的道路信息,所以很多現(xiàn)實(shí)性的問題就可以借助仿真來解決。例如:可以在仿真的洛杉磯道路環(huán)境中測試自動(dòng)駕駛功能。(上述的存儲方式就是在仿真建圖、存儲、加載使用)

圖片

仿真場景下的自動(dòng)駕駛

感受:對于自動(dòng)駕駛來說什么樣的地圖信息是不可被取代的可以從這個(gè)仿真構(gòu)建過程中找到一些答案。

05 數(shù)據(jù)引擎:挖掘corner case數(shù)據(jù)

圖片

數(shù)據(jù)閉環(huán)流程

數(shù)據(jù)引擎從影子模式中挖掘模型誤判的數(shù)據(jù),將之召回并采用自動(dòng)標(biāo)注工具進(jìn)行標(biāo)簽修正,然后加入到訓(xùn)練和測試集中,可以不斷的優(yōu)化網(wǎng)絡(luò)。這個(gè)過程是數(shù)據(jù)閉環(huán)的關(guān)鍵節(jié)點(diǎn),會持續(xù)生成corner case樣本數(shù)據(jù)。

圖片

彎道停車的數(shù)據(jù)挖掘

上圖是彎道停車數(shù)據(jù)挖掘?qū)δP吞嵘陌咐?,隨著數(shù)據(jù)源源不斷的加入到訓(xùn)練中,準(zhǔn)確率指標(biāo)持續(xù)提升。

責(zé)任編輯:張燕妮 來源: 智駕最前沿
相關(guān)推薦

2021-12-01 10:21:27

自動(dòng)駕駛技術(shù)人工智能

2022-02-17 10:22:17

汽車智能自動(dòng)駕駛

2023-03-15 11:54:32

無人駕駛系統(tǒng)

2021-01-26 21:26:10

自動(dòng)駕駛AI人工智能

2023-03-30 09:57:04

2023-07-07 10:37:43

自動(dòng)駕駛技術(shù)

2020-01-09 08:42:23

自動(dòng)駕駛AI人工智能

2020-11-06 10:36:39

自動(dòng)駕駛

2023-03-07 09:36:44

人工智能自動(dòng)駕駛

2022-01-26 10:31:25

自動(dòng)駕駛軟件架構(gòu)

2023-05-06 10:02:37

深度學(xué)習(xí)算法

2023-03-14 09:40:33

自動(dòng)駕駛

2019-03-18 13:41:39

自動(dòng)駕駛特朗普馬斯克

2022-10-27 10:18:25

自動(dòng)駕駛

2021-11-18 09:50:35

自動(dòng)駕駛輔助駕駛人工智能

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2021-11-12 16:28:13

自動(dòng)駕駛音頻技術(shù)

2020-03-25 13:51:05

人工智能自動(dòng)駕駛技術(shù)

2019-07-11 16:30:04

智能物聯(lián)自動(dòng)駕駛麥肯錫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號