自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺自動(dòng)駕駛最新技術(shù)路線淺析

人工智能 新聞
自動(dòng)駕駛的視覺感知最終服務(wù)于部署,而在部署的時(shí)候會(huì)涉及到數(shù)據(jù)的問題和模型的問題。

背景

自動(dòng)駕駛是逐漸從預(yù)言階段向工業(yè)化階段的一個(gè)過渡,具體表現(xiàn)可分為4點(diǎn)。首先,在大數(shù)據(jù)的背景下,數(shù)據(jù)集的規(guī)模在快速擴(kuò)張導(dǎo)致以前在小規(guī)模數(shù)據(jù)集上開發(fā)原型的細(xì)節(jié)會(huì)被大量過濾掉,能在大規(guī)模數(shù)據(jù)上有效的工作才會(huì)被留下來。其次是關(guān)注點(diǎn)的切換,從單目切換到多目場(chǎng)景,導(dǎo)致復(fù)雜度提升。然后是傾向于對(duì)應(yīng)用友好的設(shè)計(jì),如輸出的空間從圖像空間向BEV空間的轉(zhuǎn)移。

最后就是從之前單純追求精度到逐漸同時(shí)考慮推理速度。同時(shí)自動(dòng)駕駛場(chǎng)景下需要快速響應(yīng),因此對(duì)性能的要求會(huì)考慮速度方面,另外就是更多的去考慮如何部署到邊緣設(shè)備。

還有一部分的背景是在過去10年里,視覺感知在深度學(xué)習(xí)的推動(dòng)下快速發(fā)展,分類檢測(cè)、分割等主流的方向上有大量的工作以及部分相當(dāng)成熟的范式。自動(dòng)駕駛場(chǎng)景里的視覺感知在發(fā)展的過程中,像特征編碼的目標(biāo)定義、感知范式和監(jiān)督等方面都大量借鑒了這些主流的方向,因此在投身自動(dòng)駕駛感知之前,這些主流的方向都應(yīng)該去涉獵一下。

在這些背景之下,過去一年涌現(xiàn)了大量針對(duì)大規(guī)模數(shù)據(jù)集的三維目標(biāo)檢測(cè)工作,如圖1所示(標(biāo)紅的為曾經(jīng)第一過的算法)。

圖片

圖1 三維目標(biāo)檢測(cè)近一年發(fā)展

技術(shù)路線

Lifting?

自動(dòng)駕駛場(chǎng)景中視覺感知和主流的視覺的感知區(qū)別主要在于給定的目標(biāo)定義空間不同,主流的視覺感知的目標(biāo)定義在圖像空間,自動(dòng)駕駛場(chǎng)景的目標(biāo)定義在3維空間。在輸入都是圖像的情況下,獲取3維空間的結(jié)果就需要有一個(gè)Lift的過程,這就是自動(dòng)駕駛視覺感知核心的問題。

我們可以把解決Lift對(duì)象問題的方法分為輸入、中間特征和輸出,輸入級(jí)別的一個(gè)例子就是視角變化,其原理是利用圖像去推理深度信息,然后利用深度信息把圖像的RGB值投影到三維空間,得到一個(gè)帶顏色的點(diǎn)云,后面就沿用點(diǎn)云檢測(cè)的相關(guān)工作。

目前比較有前景的是特征級(jí)別的變換或特征級(jí)別的Lift,如DETR3D這些都是在特征級(jí)別進(jìn)行空間變化,特征級(jí)別變換的好處是可以避免重復(fù)的去提取圖像級(jí)別的特征,計(jì)算量小,也可以避免輸出級(jí)別的環(huán)視結(jié)果融合的問題。當(dāng)然特征級(jí)別的轉(zhuǎn)換也會(huì)有一些典型的問題,如通常會(huì)用到一些奇怪的OP,導(dǎo)致部署的時(shí)候并不友好。 

目前特征級(jí)別的Lift過程比較魯棒的主要有基于深度和注意力機(jī)制策略,分別具有代表性的為BEVDet和DETR3D?;谏疃鹊牟呗允峭ㄟ^計(jì)算圖像的每一點(diǎn)的深度,然后根據(jù)相機(jī)的成像模型把特征投影到3維空間,從而完成Lift的一個(gè)過程。基于注意力機(jī)制的策略是通過預(yù)先定義3維空間中的一個(gè)對(duì)象當(dāng)做query,通過內(nèi)外參找到和三維空間中點(diǎn)所對(duì)應(yīng)的圖像特征當(dāng)做key和value,再通過attention的方式去計(jì)算得到一個(gè)3維空間中對(duì)象的一個(gè)特征。

當(dāng)前所有的算法都基本上高度依賴于相機(jī)模型,無論是基于深度的還是基于注意力機(jī)制的,這就會(huì)導(dǎo)致對(duì)標(biāo)定敏感以及計(jì)算過程普遍偏復(fù)雜。而那些拋棄相機(jī)模型的算法往往會(huì)缺乏魯棒性,所以這方面還沒有完全的成熟。

Temporal?

時(shí)序(Temporal)的信息可以有效提高目標(biāo)檢測(cè)的效果。對(duì)于自動(dòng)駕駛的場(chǎng)景來說,時(shí)序具有更深層次的意義在于目標(biāo)的速度是當(dāng)前場(chǎng)景下主要的感知目標(biāo)之一。速度重點(diǎn)在于變化,單幀數(shù)據(jù)并不具備充分的變化信息,因此需要去建模來提供時(shí)間維度的一個(gè)變化信息?,F(xiàn)有的點(diǎn)云時(shí)序建模方法是把多幀的點(diǎn)云混合在一起作為輸入,這樣可以得到比較稠密的點(diǎn)云,使得檢測(cè)更準(zhǔn)確。另外多幀的點(diǎn)云含有持續(xù)的信息,后面在網(wǎng)絡(luò)訓(xùn)練過程中通過BP學(xué)會(huì)如何提取這個(gè)持續(xù)的信息,以解決速度估計(jì)這種需要持續(xù)信息的任務(wù)。

視覺感知的時(shí)序建模方式主要來源于BEVDet4D和BEVFormer。BEVDet4D通過簡(jiǎn)單的融合兩幀的一個(gè)特征,為后續(xù)的網(wǎng)絡(luò)提供一個(gè)持續(xù)的信息。另外一個(gè)路徑是基于attention的,同時(shí)提供單時(shí)幀和逆時(shí)針的特征作為query的一個(gè)對(duì)象,然后通過attention的方式同時(shí)去查詢這兩個(gè)特征,從而去提取時(shí)序的信息。

Depth

自動(dòng)駕駛視覺感知相比于雷達(dá)感知的一個(gè)最大的缺點(diǎn)就是深度估計(jì)的準(zhǔn)確度。論文《probabilistic and geometric depth: detecting objects in perspective》通過替換GT的方法來研究不同因素對(duì)表現(xiàn)分的影響程度,分析得到的主要結(jié)論是精確的深度估計(jì)可以帶來顯著的性能提升。

但深度估計(jì)是當(dāng)前視覺感知的一個(gè)主要的瓶頸,目前改進(jìn)的思路主要就有兩種,一種是在PGD里面利用幾何約束對(duì)預(yù)測(cè)的深度圖進(jìn)行refine。另一種是利用激光雷達(dá)作為監(jiān)督去獲得一個(gè)魯邦性更好的深度估計(jì)。

目前流程上優(yōu)勝的方案BEVDepth,是在訓(xùn)練的過程中利用激光雷達(dá)所提供的深度信息去對(duì)變化過程中的深度估計(jì)進(jìn)行監(jiān)督,和感知的主任務(wù)同時(shí)進(jìn)行。

Muti-modality/Multi-Task?

多任務(wù)是希望在一個(gè)統(tǒng)一的框架上去完成多種的感知任務(wù),通過這個(gè)計(jì)算能夠達(dá)到節(jié)省資源或者加速計(jì)算推理的目的。但目前的方法基本上都是在得到一個(gè)統(tǒng)一的特征之后,通過不同的層次去處理特征來簡(jiǎn)單的實(shí)現(xiàn)多任務(wù),普遍都存在任務(wù)合并之后,性能下降的問題。多模態(tài)也差不多普遍都是在整個(gè)判斷里面找到一個(gè)可以直接融合的形式,然后實(shí)現(xiàn)一個(gè)簡(jiǎn)單的融合

BEVDet系列

BEVDet

BEVDet網(wǎng)絡(luò)如圖2所示,特征提取過程主要是提取的圖像空間的一個(gè)特征轉(zhuǎn)化成一個(gè)BEV空間的特征,然后進(jìn)一步的去編碼這個(gè)特征,得到一個(gè)預(yù)測(cè)可用的特征,最后用稠密預(yù)測(cè)的方式進(jìn)行目標(biāo)預(yù)測(cè)。

圖片

圖2 BEVDet網(wǎng)絡(luò)結(jié)構(gòu)

視角變化模塊過程分兩步走,首先假設(shè)要變換的特征的大小是VxCxHxW,然后在圖像空間以分類的方式去預(yù)測(cè)一個(gè)深度,對(duì)于每一個(gè)像素得到一個(gè)D維的深度分布,那么就可以利用這兩個(gè)將不同深度的特征進(jìn)行渲染,得到一個(gè)視覺特征,然后利用相機(jī)模型將它投影到3維空間中,對(duì)3維空間進(jìn)行體素化,其次進(jìn)行splat過程得到BEV特征。

視角變化模塊的一個(gè)非常重要特點(diǎn)是在數(shù)據(jù)增緩中起到了一個(gè)相互隔離的作用。具體而言就是經(jīng)過相機(jī)的內(nèi)參,可以投影到3維空間中得到相機(jī)坐標(biāo)系上的一個(gè)點(diǎn),當(dāng)數(shù)據(jù)增廣的作用在圖像空間上點(diǎn)的時(shí)候,為了維持在這個(gè)相機(jī)坐標(biāo)系上點(diǎn)的坐標(biāo)不變,則需要做一個(gè)逆變換,即在相機(jī)坐標(biāo)系上面的一個(gè)坐標(biāo)在增廣前和增廣后是不變的,這就起到了一個(gè)相互隔離的效果。相互隔離的缺點(diǎn)是圖像空間的增廣并不會(huì)對(duì)BEV空間的學(xué)習(xí)起到正則化的作用,優(yōu)點(diǎn)可以提高BEV空間學(xué)習(xí)的魯棒性

我們從實(shí)驗(yàn)上可以得到幾個(gè)比較重要的結(jié)論。首先,在使用了BEV空間的編碼器之后,算法更容易陷入過擬合的情況。另外一個(gè)結(jié)論是BEV空間的增廣會(huì)比圖像空間的增廣對(duì)性能的影響更大。

還有就是BEV空間的目標(biāo)尺寸和類別高度的相關(guān),同時(shí)目標(biāo)之間的重合長(zhǎng)度很小會(huì)導(dǎo)致一些問題,觀察到在圖像空間里面設(shè)計(jì)的非極大值抑制方法并非是最優(yōu)的。同時(shí)加速的策略的核心是利用并行的計(jì)算方式去給不同小的計(jì)算任務(wù)去分配獨(dú)立的線程去達(dá)到并行計(jì)算加速的目的,優(yōu)點(diǎn)在于沒有額外的顯存開銷。

BEVDet4D?

BEVDet4D網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。該網(wǎng)絡(luò)的主要關(guān)注點(diǎn)在于怎么把逆時(shí)幀的特征應(yīng)用到當(dāng)前幀,我們選擇輸入的特征作為一個(gè)保留的對(duì)象,但沒有選擇這個(gè)圖像特征,因?yàn)槟繕?biāo)的變量都是定義在BEV空間,而圖像的特征并不適用于直接的時(shí)序建模。同時(shí)也沒有選擇BEV Encoder后面的特征去作為持續(xù)融合的特征,因?yàn)槲覀冃枰贐EV Encoder的中進(jìn)行一個(gè)持續(xù)特征的提取。

考慮到視角變化模塊輸出的特征比較稀疏,因此在視角變換后接了一個(gè)額外的BEV Encoder去提取初步BEV特征,再去進(jìn)行一個(gè)時(shí)序的建模。在時(shí)序融合的時(shí)候,我們把逆時(shí)幀的特征通過對(duì)齊之后和當(dāng)前針進(jìn)行簡(jiǎn)單的拼接就完成這個(gè)時(shí)序的一個(gè)融合,其實(shí)我們?cè)谶@里就是把這個(gè)時(shí)序特征的提取的任務(wù)就交給了后面的BEV去做。

圖片

圖3 BEVDet4D網(wǎng)絡(luò)結(jié)構(gòu)

怎么去設(shè)計(jì)與網(wǎng)絡(luò)結(jié)構(gòu)相匹配的目標(biāo)變量?在這之前,我們首先要了解一下網(wǎng)絡(luò)的一些關(guān)鍵的特性,首先是特征的感受野,因?yàn)榫W(wǎng)絡(luò)是通過BP學(xué)習(xí),特征的感受野是由輸出空間所決定的。

自動(dòng)駕駛的感知算法的輸出空間一般會(huì)定義在自車周圍的一定范圍內(nèi)的空間,特征圖就可以視為該連續(xù)空間上一個(gè)均勻分布,角點(diǎn)對(duì)齊的一個(gè)離散采樣。由于在特征圖的感受野是定義在自車周圍的一定范圍內(nèi)就會(huì)隨著自車的運(yùn)動(dòng)而發(fā)生了變化,因此在兩個(gè)不同時(shí)間節(jié)點(diǎn),特征圖的感受野在世界坐標(biāo)系上面是有一定的偏移的。

若直接把兩個(gè)特征進(jìn)行一個(gè)拼接,靜態(tài)目標(biāo)在兩個(gè)特征圖中的位置是不同的,動(dòng)態(tài)目標(biāo)在這兩個(gè)特征途圖中的偏移量等于自測(cè)的偏移量加上動(dòng)態(tài)目標(biāo)在世界坐標(biāo)系中的偏移量。根據(jù)模式一致的一個(gè)原則,既然拼接的特征里面目標(biāo)的偏移量是跟自車相關(guān)的,因此在設(shè)定網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)的時(shí)候,應(yīng)該是目標(biāo)在這兩張?zhí)卣鲌D中的位置的變化量。

根據(jù)下面的公式去進(jìn)行推導(dǎo),可以得到一個(gè)學(xué)習(xí)的目標(biāo)是跟自測(cè)的運(yùn)動(dòng)是不相關(guān)的,只跟目標(biāo)在世界坐標(biāo)系下面的一個(gè)運(yùn)動(dòng)相關(guān)。

圖片

我們從上述推導(dǎo)得到的學(xué)習(xí)目標(biāo)和當(dāng)前主流方法的學(xué)習(xí)目標(biāo)區(qū)別就在于去掉了時(shí)間成分,而速度等于位移/時(shí)間,但這兩個(gè)特征中并沒有提供時(shí)間相關(guān)的線索,所以如果學(xué)習(xí)這個(gè)速度的目標(biāo),需要網(wǎng)絡(luò)去準(zhǔn)確的估計(jì)出這個(gè)時(shí)間的成分,這就增加了一個(gè)學(xué)習(xí)的難度。在實(shí)際中,我們可以把訓(xùn)練過程中兩幀的時(shí)間設(shè)定為恒定值,一個(gè)恒定的時(shí)間間隔網(wǎng)絡(luò)是可以通過學(xué) BP學(xué)習(xí)到的。

在時(shí)域的增廣當(dāng)中,我們?cè)谟?xùn)練過程中隨機(jī)的采用不同的時(shí)間間隔,在不同的時(shí)間間隔下,目標(biāo)在兩張這張圖中的偏移量不同,學(xué)習(xí)的目標(biāo)偏移量也不同,以此達(dá)到模型對(duì)不同偏移量的魯邦效果。同時(shí),模型對(duì)于目標(biāo)的偏移量是有一定的靈敏度的,即如果間隔太小,兩幀之間變化太小就很難被感知到。因此在測(cè)試的時(shí)候選擇一個(gè)合適的時(shí)間間隔,可以有效提高模型的一個(gè)泛化的性能。

BEVDepth?

這篇是利用雷達(dá)去得到一個(gè)魯棒性的深度估計(jì),如圖4所示。它通過利用點(diǎn)云去對(duì)變化模塊中的深度分布去進(jìn)行監(jiān)督,這個(gè)監(jiān)督是稀疏的,這個(gè)稀疏是相比于目標(biāo)所提供的深度監(jiān)督來說是稠密的,但是也沒有達(dá)到每個(gè)像素都有一個(gè)準(zhǔn)確的深度監(jiān)督,也是相對(duì)稀疏。不過可以提供更多的樣本,提高這個(gè)深度估計(jì)的一個(gè)泛化的性能。

圖片

圖4 BEVDepth網(wǎng)絡(luò)結(jié)構(gòu)

這篇工作另外一個(gè)方面是把特征和深度分了兩個(gè)分支進(jìn)行估計(jì),并且在深度估計(jì)的分支里面增加額外的殘差網(wǎng)絡(luò)以提高深度估計(jì)分支的感受野。研究人員認(rèn)為這個(gè)相機(jī)內(nèi)外參的精度問題會(huì)導(dǎo)致context和深度是不對(duì)齊的,當(dāng)這個(gè)深度估計(jì)的網(wǎng)絡(luò)的感受不夠大的時(shí)候,會(huì)有一定的精度損失。

最后就是將這個(gè)相機(jī)的內(nèi)參作為一個(gè)深度估計(jì)的分支輸入,使用了一個(gè)類似于NSE的方式,對(duì)輸入特征的通道進(jìn)行一個(gè)通道層面的調(diào)整,這可以有效提高網(wǎng)絡(luò)對(duì)于不同的相機(jī)內(nèi)參的魯棒性。

局限性與相關(guān)的討論

首先,自動(dòng)駕駛的視覺感知最終服務(wù)于部署,而在部署的時(shí)候會(huì)涉及到數(shù)據(jù)的問題和模型的問題。數(shù)據(jù)的問題涉及到一個(gè)多樣性的問題和數(shù)據(jù)標(biāo)注,因?yàn)槿斯?biāo)注是非常昂貴的,因此看以后能不能夠?qū)崿F(xiàn)自動(dòng)化的標(biāo)注。

目前來說對(duì)于動(dòng)態(tài)目標(biāo)的標(biāo)注還是前所未有的,對(duì)于靜態(tài)目標(biāo)可以通過3維重建去得到一個(gè)偏自動(dòng)化標(biāo)注或者半自動(dòng)化的標(biāo)注。另外是模型方面,現(xiàn)在的模型設(shè)計(jì)對(duì)標(biāo)定是一個(gè)不魯棒的或說是對(duì)標(biāo)定是敏感的,那么怎么樣去讓模型對(duì)標(biāo)定魯棒或者說不依賴于標(biāo)定這也是一個(gè)值得思考的問題。

另外就是網(wǎng)絡(luò)結(jié)構(gòu)加速的問題,能不能用通用的OP去實(shí)現(xiàn)視角的變化且這個(gè)問題會(huì)影響到網(wǎng)絡(luò)加速的過程。

責(zé)任編輯:張燕妮 來源: 焉知智能汽車
相關(guān)推薦

2023-03-14 09:40:33

自動(dòng)駕駛

2023-05-06 10:02:37

深度學(xué)習(xí)算法

2021-12-15 10:40:53

特斯拉AI自動(dòng)駕駛

2021-12-01 10:21:27

自動(dòng)駕駛技術(shù)人工智能

2022-02-17 10:22:17

汽車智能自動(dòng)駕駛

2023-03-15 11:54:32

無人駕駛系統(tǒng)

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2022-01-10 11:12:54

自動(dòng)駕駛數(shù)據(jù)人工智能

2023-03-30 09:57:04

2023-07-07 10:37:43

自動(dòng)駕駛技術(shù)

2020-01-09 08:42:23

自動(dòng)駕駛AI人工智能

2022-04-25 15:13:03

自動(dòng)駕駛傳感器

2022-01-03 17:33:30

自動(dòng)駕駛技術(shù)安全

2023-03-07 09:36:44

人工智能自動(dòng)駕駛

2023-02-21 15:26:26

自動(dòng)駕駛特斯拉

2022-01-26 10:31:25

自動(dòng)駕駛軟件架構(gòu)

2019-03-18 13:41:39

自動(dòng)駕駛特朗普馬斯克

2022-10-27 10:18:25

自動(dòng)駕駛

2024-03-11 10:08:12

駕駛模型

2023-06-02 10:33:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)