自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

軌跡預(yù)測的視覺方法綜述

人工智能 新聞
基于物理的模型構(gòu)成了動(dòng)力學(xué)方程,為不同類別的智體建模人工設(shè)計(jì)的運(yùn)動(dòng)。

最近一個(gè)綜述論文 “Trajectory-Prediction With Vision: A Survey ”,來自現(xiàn)代和安波福的公司Motional;不過它參考了牛津大學(xué)的綜述文章“Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey ”。

預(yù)測任務(wù)基本分為兩部分:1)意圖,這是一項(xiàng)分類任務(wù),為智體預(yù)先設(shè)計(jì)一組意圖類;通常將其視為一個(gè)監(jiān)督學(xué)習(xí)問題,需要標(biāo)注智體可能的分類意圖;2)軌跡,需要預(yù)測智體在后面未來幀中的一組可能位置,稱為路點(diǎn);這構(gòu)成了智體之間以及智體和道路之間的交互。

之前行為預(yù)測模型分類為三種:基于物理的、基于機(jī)動(dòng)的和交互-覺察模型?;谖锢淼哪P蜆?gòu)成了動(dòng)力學(xué)方程,為不同類別的智體建模人工設(shè)計(jì)的運(yùn)動(dòng)。這種方法無法對(duì)整個(gè)場景的隱態(tài)進(jìn)行建模,并且往往一次只關(guān)注一個(gè)特定的智體。然而,在深度學(xué)習(xí)之前的時(shí)代,這種趨勢曾經(jīng)是SOTA?;跈C(jī)動(dòng)的模型是基于智體預(yù)期運(yùn)動(dòng)類型的模型。交互-覺察的模型通常是一種基于機(jī)器學(xué)習(xí)的系統(tǒng),對(duì)場景中的每個(gè)智體進(jìn)行逐對(duì)推理,并為所有動(dòng)態(tài)智體生成交互-覺察的預(yù)測。在場景中附近不同智體目標(biāo)之間存在高度相關(guān)性。對(duì)復(fù)雜的智體軌跡注意模塊進(jìn)行建模,可以更好泛化。

行為預(yù)測可以是隱含的,表現(xiàn)為未來軌跡的形式,也可以是顯式的,預(yù)測未來的行動(dòng)或事件。智體的意圖可能受到以下因素的影響:a)智體自己的信念或意愿(通常不會(huì)被觀察到,因此難以建模);b) 社會(huì)交互,可以用不同的方法進(jìn)行建模,如社交池化、圖神經(jīng)網(wǎng)絡(luò)、注意力等;c) 環(huán)境約束,如道路布局,可通過高清(HD)地圖進(jìn)行編碼;d) 背景信息,形式為RGB圖像幀、激光雷達(dá)點(diǎn)云、光流、分割圖等。另一方面,軌跡預(yù)測本質(zhì)上更具挑戰(zhàn)性——與意圖這種分類問題不同,軌跡預(yù)測是一個(gè)回歸(連續(xù))問題。

軌跡和意圖需要從交互-覺察入手。舉個(gè)例子,如果激進(jìn)地試圖進(jìn)入交通擁擠的高速公路,一輛過來的車可能會(huì)有點(diǎn)剎車,這是一個(gè)合理的假設(shè)。一般來說,軌跡預(yù)測可以在圖像視角(也稱為透視圖)或BEV中建模;最好在BEV空間進(jìn)行。原因是,可以以網(wǎng)格的形式為感興趣區(qū)域(RoI)分配一個(gè)專用的距離范圍。然而,由于透視圖中的消失線,圖像視角在理論上可以具有無限的RoI。因?yàn)檫\(yùn)動(dòng)更線性地建模,所以在BEV空間中對(duì)遮擋進(jìn)行建模更容易。根據(jù)姿態(tài)估計(jì)(自車的平移和旋轉(zhuǎn))可以很容易地進(jìn)行自車運(yùn)動(dòng)補(bǔ)償。此外,這個(gè)空間保留了智體的運(yùn)動(dòng)和尺度,即不管離自車有多遠(yuǎn),周圍車輛將占據(jù)相同數(shù)量的BEV像素;但圖像視角的情況并非如此。為了預(yù)測未來,需要對(duì)過去有一個(gè)了解。這通??梢酝ㄟ^跟蹤來完成,也可以用歷史聚合BEV特征來完成。

下圖是預(yù)測模型的一些組件和數(shù)據(jù)流框圖:

下表是預(yù)測模型的總結(jié):

以下基本從輸入/輸出入手討論預(yù)測模型:

1)Tracklets:感知模塊預(yù)測所有動(dòng)態(tài)智體的當(dāng)前狀態(tài)。這種狀態(tài)包括3-D中心、維度、速度、加速度等屬性。跟蹤的作用是利用這些數(shù)據(jù)并將其臨時(shí)關(guān)聯(lián),這樣每個(gè)跟蹤器都能保存所有智體的狀態(tài)歷史。現(xiàn)在,每個(gè)tracklet都表示該智體過去的運(yùn)動(dòng)。這是一種最簡單的預(yù)測模型形式,因?yàn)樗话∈璧能壽E作為輸入。一個(gè)好的跟蹤器能夠跟蹤一個(gè)智體,即使在當(dāng)前幀中被遮擋。傳統(tǒng)的跟蹤器是基于非機(jī)器學(xué)習(xí)的網(wǎng)絡(luò),因此使用這種方法很難實(shí)現(xiàn)端到端模型。

2)原始傳感器數(shù)據(jù):這是一種端到端方法,模型獲取原始傳感器數(shù)據(jù)信息,并直接預(yù)測場景中每個(gè)智體的軌跡預(yù)測。這種方法可能有也可能沒有輔助輸出及其損失來監(jiān)督復(fù)雜的訓(xùn)練。這一類方法的缺點(diǎn)是,用于輸入的信息密集,計(jì)算上昂貴。此外,由于將三個(gè)問題結(jié)合在一起,即感知、跟蹤和預(yù)測;模型變得很難開發(fā),甚至更難收斂。

3)攝像頭-vs- BEV:BEV方法處理來自頂視類似地圖的數(shù)據(jù),攝像頭預(yù)測算法從自車角度感知世界,由于多種原因,后者通常比前者更具挑戰(zhàn)性;首先,從BEV感知可以獲得更廣闊的視野和更豐富的預(yù)測信息,相比之下攝像頭的視野較短,這限制了預(yù)測范圍,因?yàn)槠嚐o法做視野以外規(guī)劃;此外,攝像頭更容易被遮擋,因此與基于相機(jī)的方法相比,BEV方法受到的“部分可觀察性”挑戰(zhàn)更少;其次,除非激光雷達(dá)數(shù)據(jù)可用,否則單目視覺使算法難以推斷關(guān)注智體的深度,這是預(yù)測其行為的重要線索;最后,攝像頭正在移動(dòng),這需要處理關(guān)注智體的運(yùn)動(dòng)和自車的運(yùn)動(dòng),這與靜態(tài)BEV不同;提一句:作為一種缺點(diǎn),BEV表征方法仍然存在累積錯(cuò)誤的問題;盡管在處理相機(jī)視圖方面存在固有的挑戰(zhàn),但它仍然比BEV更實(shí)用,其實(shí)汽車很少能訪問顯示道路上BEV和關(guān)注智體位置的攝像頭。結(jié)論是,預(yù)測系統(tǒng)應(yīng)該能夠從自車的角度看待世界,包括激光雷達(dá)和/或立體相機(jī),其數(shù)據(jù)以3D方式感知世界可能是有利的;另一個(gè)重要的相關(guān)點(diǎn)是,每次若必須包括關(guān)注智體的位置以進(jìn)行預(yù)測時(shí),最好使用邊框位置,而不是純粹的中心點(diǎn),因?yàn)榍罢叩淖鴺?biāo)隱含自車和行人之間的相對(duì)距離變化以及相機(jī)自運(yùn)動(dòng);換句話說,隨著智體接近自車,邊框變得更大,提供了對(duì)深度的附加(盡管是初步的)估計(jì)。

4)自運(yùn)動(dòng)預(yù)測:自車運(yùn)動(dòng)進(jìn)行建模生成更準(zhǔn)確的軌跡。另外一些方法使用深度網(wǎng)絡(luò)或動(dòng)力學(xué)模型對(duì)關(guān)注智體的運(yùn)動(dòng)進(jìn)行建模,利用從數(shù)據(jù)集輸入計(jì)算的額外量,如姿勢、光流、語義圖和熱圖。

5)時(shí)域編碼:由于駕駛環(huán)境是動(dòng)態(tài)的,有許多活動(dòng)智體,因此有必要在智體時(shí)間維度進(jìn)行編碼可建立一個(gè)更好的預(yù)測系統(tǒng),將過去發(fā)生的事情與未來通過現(xiàn)在發(fā)生的事情聯(lián)系起來;了解智體的來源有助于猜測智體下一步可能會(huì)去哪里,大多數(shù)基于攝像頭的模型處理較短的時(shí)間范圍,而對(duì)于較長的時(shí)間范圍處理,預(yù)測模型需要一個(gè)更復(fù)雜的結(jié)構(gòu)。

6) 社交編碼:為了應(yīng)對(duì)“多智體”的挑戰(zhàn),大多數(shù)性能最好的算法使用不同類型的圖神經(jīng)網(wǎng)絡(luò)(GNN)來編碼智體之間的社會(huì)交互;大多數(shù)方法分別對(duì)時(shí)間和社會(huì)維度進(jìn)行編碼——要么從時(shí)間層面開始,然后考慮社會(huì)層面,要么相反順序;有一種基于Transformer的模型,可以同時(shí)對(duì)兩個(gè)維度進(jìn)行編碼。

7)基于預(yù)期目標(biāo)的預(yù)測:行為意圖預(yù)測與場景上下文一樣,通常會(huì)受到不同預(yù)期目標(biāo)的影響,并且應(yīng)該通過解釋來推斷;對(duì)于以預(yù)期目標(biāo)為條件的未來預(yù)測,這個(gè)目標(biāo)會(huì)被建模為未來狀態(tài)(定義為目的地坐標(biāo))或智體期望的運(yùn)動(dòng)類型;神經(jīng)科學(xué)和計(jì)算機(jī)視覺的研究表明,人通常是目標(biāo)-導(dǎo)向的智體;此外在做出決策的同時(shí),人遵循一系列連續(xù)級(jí)的推理,最終制定出短期或長期計(jì)劃;基于此,這個(gè)問題可分為兩類:第一類是認(rèn)知性的,回答智體要去哪里的問題;第二個(gè)是任意性的,回答這個(gè)智體如何實(shí)現(xiàn)其預(yù)期目標(biāo)的問題。

8)多模態(tài)預(yù)測:由于道路環(huán)境是隨機(jī)的,一個(gè)先前的軌跡可以展開不同的未來軌跡;因此,解決“隨機(jī)彈性(stocasticity)”挑戰(zhàn)的實(shí)用預(yù)測系統(tǒng)會(huì)對(duì)問題的不確定性進(jìn)行建模;盡管存在離散變量的潛空間建模的方法,但多模態(tài)僅應(yīng)用于軌跡,完全顯示其在意圖預(yù)測方面的潛力;采用注意力機(jī)制,可用于計(jì)算加權(quán)。

責(zé)任編輯:張燕妮 來源: 知乎
相關(guān)推薦

2023-11-06 09:51:10

自動(dòng)駕駛軌跡

2023-09-07 10:20:38

自動(dòng)駕駛技術(shù)

2023-10-17 09:47:24

智能駕駛

2024-06-04 09:25:51

2023-11-20 09:53:13

自動(dòng)駕駛系統(tǒng)

2023-11-22 10:00:30

視覺智能

2023-05-06 10:02:37

深度學(xué)習(xí)算法

2023-08-08 12:12:07

自動(dòng)駕駛預(yù)測

2022-12-16 09:44:39

3D智能

2025-02-26 10:17:43

2024-03-26 09:23:22

自動(dòng)駕駛軌跡

2024-11-05 09:41:27

2022-02-07 16:11:39

自動(dòng)駕駛汽車安全

2021-12-16 10:45:22

自動(dòng)駕駛數(shù)據(jù)人工智能

2022-12-27 10:05:03

自動(dòng)駕駛

2024-04-03 09:48:47

自動(dòng)駕駛軌跡

2023-03-09 10:06:47

自動(dòng)駕駛

2025-02-07 10:17:55

2024-04-12 15:14:38

軌跡預(yù)測

2023-02-08 11:04:59

自動(dòng)駕駛系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)