開環(huán)端到端自動(dòng)駕駛中自車狀態(tài)是你所需要的一切嗎?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
原標(biāo)題:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
論文鏈接:https://arxiv.org/abs/2312.03031
代碼鏈接:https://github.com/NVlabs/BEV-Planner
作者單位:南京大學(xué) NVIDIA
論文思路:
端到端自動(dòng)駕駛最近作為一個(gè)有前景的研究方向浮現(xiàn)出來,以全棧視角為目標(biāo)尋求自動(dòng)化。沿這條線,許多最新的工作遵循開環(huán)評(píng)估設(shè)置在 nuScenes 上研究規(guī)劃行為。本文通過進(jìn)行徹底的分析并揭示更多細(xì)節(jié)中的難題,更深入地探討了這個(gè)問題。本文最初觀察到,以相對(duì)簡單的駕駛場景為特征的 nuScenes 數(shù)據(jù)集,導(dǎo)致在整合了自車狀態(tài)(ego status)的端到端模型中感知信息的利用不足,例如自車的速度。這些模型傾向于主要依賴自車狀態(tài)進(jìn)行未來路徑規(guī)劃。除了數(shù)據(jù)集的局限性之外,本文還注意到當(dāng)前的指標(biāo)并不能全面評(píng)估規(guī)劃質(zhì)量,這導(dǎo)致從現(xiàn)有基準(zhǔn)中得出的結(jié)論可能存在偏見。為了解決這個(gè)問題,本文引入了一個(gè)新的指標(biāo)來評(píng)估預(yù)測的軌跡是否遵循道路。本文進(jìn)一步提出了一個(gè)簡單的基線,能夠在不依賴感知標(biāo)注的情況下達(dá)到有競爭力的結(jié)果。鑒于現(xiàn)有基準(zhǔn)和指標(biāo)的局限性,本文建議學(xué)術(shù)界重新評(píng)估相關(guān)的主流研究,并謹(jǐn)慎考慮持續(xù)追求最先進(jìn)技術(shù)是否會(huì)產(chǎn)生令人信服的普遍結(jié)論。
主要貢獻(xiàn):
現(xiàn)有基于 nuScenes 的開環(huán)自動(dòng)駕駛模型的規(guī)劃性能受到自車狀態(tài)(ego status) (速度、加速度、偏航角)的高度影響。當(dāng)自車狀態(tài)(ego status) 參與進(jìn)來,模型最終預(yù)測的軌跡基本上由它主導(dǎo),導(dǎo)致對(duì)感知信息的使用減少。
現(xiàn)有的規(guī)劃指標(biāo)未能完全捕捉到模型的真實(shí)性能。模型的評(píng)估結(jié)果在不同指標(biāo)之間可能會(huì)有顯著差異。本文主張采用更多樣化和全面的指標(biāo),以防止模型在特定指標(biāo)上實(shí)現(xiàn)局部最優(yōu),這可能會(huì)導(dǎo)致忽視其他安全隱患。
與在現(xiàn)有的 nuScenes 數(shù)據(jù)集上推動(dòng)最先進(jìn)性能相比,本文認(rèn)為開發(fā)更合適的數(shù)據(jù)集和指標(biāo)代表了一個(gè)更為關(guān)鍵和緊迫的挑戰(zhàn)。
論文設(shè)計(jì):
端到端自動(dòng)駕駛旨在以全棧方式共同考慮感知和規(guī)劃[1, 5, 32, 35]。一個(gè)基本的動(dòng)機(jī)是將自動(dòng)駕駛車輛(AV)的感知作為達(dá)成目的(規(guī)劃)的手段來評(píng)估,而不是過度擬合某些感知度量標(biāo)準(zhǔn)。
與感知不同,規(guī)劃通常更加開放式且難以量化[6, 7]。理想情況下,規(guī)劃的開放式特性將支持閉環(huán)評(píng)估設(shè)置,在該設(shè)置中,其他代理可以對(duì)自車的行為做出反應(yīng),原始傳感器數(shù)據(jù)也可以相應(yīng)地變化。然而,到目前為止,在閉環(huán)模擬器中進(jìn)行代理行為建模和真實(shí)世界數(shù)據(jù)模擬[8, 19]仍然是具有挑戰(zhàn)性的未解決問題。因此,閉環(huán)評(píng)估不可避免地引入了與現(xiàn)實(shí)世界相當(dāng)大的域差距(domain gaps)。
另一方面,開環(huán)評(píng)估旨在將人類駕駛視為真實(shí)情況,并將規(guī)劃表述為模仿學(xué)習(xí)[13]。這種表述允許通過簡單的日志回放,直接使用現(xiàn)實(shí)世界的數(shù)據(jù)集,避免了來自模擬的域差距(domain gaps)。它還提供了其他優(yōu)勢,例如能夠在復(fù)雜和多樣的交通場景中訓(xùn)練和驗(yàn)證模型,這些場景在模擬中經(jīng)常難以高保真度生成[5]。因?yàn)檫@些好處,一個(gè)已經(jīng)建立的研究領(lǐng)域集中于使用現(xiàn)實(shí)世界數(shù)據(jù)集的開環(huán)端到端自動(dòng)駕駛[2, 12, 13, 16, 43]。
目前流行的端到端自動(dòng)駕駛方法[12, 13, 16, 43]通常使用 nuScenes[2] 來進(jìn)行其規(guī)劃行為的開環(huán)評(píng)估。例如,UniAD[13] 研究了不同感知任務(wù)模塊對(duì)最終規(guī)劃行為的影響。然而,ADMLP[45] 最近指出,一個(gè)簡單的MLP網(wǎng)絡(luò)也能僅依靠自車狀態(tài)(ego status) 信息,就實(shí)現(xiàn)最先進(jìn)的規(guī)劃結(jié)果。這激發(fā)了本文提出一個(gè)重要問題:
開環(huán)端到端自動(dòng)駕駛是否只需要自車狀態(tài)(ego status) 信息?
本文的答案是肯定的也是否定的,這考慮到了在當(dāng)前基準(zhǔn)測試中使用自車狀態(tài)(ego status) 信息的利弊:
是。自車狀態(tài)(ego status) 中的信息,如速度、加速度和偏航角,顯然應(yīng)有利于規(guī)劃任務(wù)的執(zhí)行。為了驗(yàn)證這一點(diǎn),本文解決了AD-MLP的一個(gè)公開問題,并移除了歷史軌跡真實(shí)值(GTs)的使用,以防止?jié)撛诘臉?biāo)簽泄露。本文復(fù)現(xiàn)的模型,Ego-MLP(圖1 a.2),僅依賴自車狀態(tài)(ego status) ,并且在現(xiàn)有的L2距離和碰撞率指標(biāo)方面與最先進(jìn)方法不相上下。另一個(gè)觀察結(jié)果是,只有現(xiàn)有的方法[13, 16, 43],將自車狀態(tài)(ego status) 信息納入規(guī)劃模塊中,才能獲得與 Ego-MLP 相當(dāng)?shù)慕Y(jié)果。盡管這些方法采用了額外的感知信息(追蹤、高清地圖等),但它們并未顯示出比 Ego-MLP 更優(yōu)越。這些觀察結(jié)果驗(yàn)證了自車狀態(tài)(ego status) 在端到端自動(dòng)駕駛開環(huán)評(píng)估中的主導(dǎo)作用。
不是。很明顯,作為一個(gè)安全至關(guān)重要的應(yīng)用,自動(dòng)駕駛在決策時(shí)不應(yīng)該僅僅依賴于自車狀態(tài)(ego status) 。那么,為什么僅使用自車狀態(tài)(ego status) 就能達(dá)到最先進(jìn)規(guī)劃結(jié)果的現(xiàn)象會(huì)發(fā)生呢?為了回答這個(gè)問題,本文提出了一套全面的分析,涵蓋了現(xiàn)有的開環(huán)端到端自動(dòng)駕駛方法。本文識(shí)別了現(xiàn)有研究中的主要缺陷,包括與數(shù)據(jù)集、評(píng)估指標(biāo)和具體模型實(shí)現(xiàn)相關(guān)的方面。本文在本節(jié)的其余部分列舉并詳細(xì)說明了這些缺陷:
數(shù)據(jù)集不平衡。NuScenes 是一個(gè)常用的開環(huán)評(píng)估任務(wù)的基準(zhǔn)[11–13, 16, 17, 43]。然而,本文的分析顯示,73.9%的 nuScenes 數(shù)據(jù)涉及直線行駛的場景,如圖2所示軌跡分布反映的那樣。對(duì)于這些直線行駛的場景,大多數(shù)時(shí)候保持當(dāng)前的速度、方向或轉(zhuǎn)向率就足夠了。因此,自車狀態(tài)(ego status) 信息可以很容易地被作為一種捷徑來適應(yīng)規(guī)劃任務(wù),這導(dǎo)致了 Ego-MLP 在 nuScenes 上的強(qiáng)大性能。
現(xiàn)有的評(píng)估指標(biāo)不全面。NuScenes 數(shù)據(jù)中剩余的26.1%涉及更具挑戰(zhàn)性的駕駛場景,可能是規(guī)劃行為更好的基準(zhǔn)。然而,本文認(rèn)為廣泛使用的當(dāng)前評(píng)估指標(biāo),如預(yù)測與規(guī)劃真實(shí)值之間的L2距離以及自車與周圍障礙物之間的碰撞率,并不能準(zhǔn)確衡量模型規(guī)劃行為的質(zhì)量。通過可視化各種方法生成的眾多預(yù)測軌跡,本文注意到一些高風(fēng)險(xiǎn)軌跡,如駛出道路可能在現(xiàn)有指標(biāo)中不會(huì)受到嚴(yán)重懲罰。為了回應(yīng)這一問題,本文引入了一種新的評(píng)估指標(biāo),用于計(jì)算預(yù)測軌跡與道路邊界之間的交互率(interaction rate)。當(dāng)專注于與道路邊界的交匯率(intersection rates) 時(shí),基準(zhǔn)將經(jīng)歷一個(gè)實(shí)質(zhì)性的轉(zhuǎn)變。在這個(gè)新的評(píng)估指標(biāo)下,Ego-MLP 傾向于預(yù)測出比 UniAD 更頻繁偏離道路的軌跡。
自車狀態(tài)(ego status)偏見與駕駛邏輯相矛盾。由于自車狀態(tài)(ego status) 可能導(dǎo)致過擬合,本文進(jìn)一步觀察到一個(gè)有趣的現(xiàn)象。本文的實(shí)驗(yàn)結(jié)果表明,在某些情況下,從現(xiàn)有的端到端自動(dòng)駕駛框架中完全移除視覺輸入,并不會(huì)顯著降低規(guī)劃行為的質(zhì)量。這與基本的駕駛邏輯相矛盾,因?yàn)楦兄黄谕麨橐?guī)劃提供有用的信息。例如,在 VAD [16] 中屏蔽所有攝像頭輸入會(huì)導(dǎo)致感知模塊完全失效,但如果有自車狀態(tài)(ego status) 的話,規(guī)劃的退化卻很小。然而,改變輸入的自身速度可以顯著影響最終預(yù)測的軌跡。
總之,本文推測,最近在端到端自動(dòng)駕駛領(lǐng)域的努力及其在 nuScenes 上的最先進(jìn)成績很可能是由于過度依賴自車狀態(tài)(ego status) ,再加上簡單駕駛場景的主導(dǎo)地位所造成的。此外,當(dāng)前的評(píng)估指標(biāo)在全面評(píng)估模型預(yù)測軌跡的質(zhì)量方面還不夠。這些懸而未決的問題和不足可能低估了規(guī)劃任務(wù)的潛在復(fù)雜性,并且造成了一種誤導(dǎo)性的印象,那就是在開環(huán)端到端自動(dòng)駕駛中,自車狀態(tài)(ego status) 就是你所需要的一切。
當(dāng)前開環(huán)端到端自動(dòng)駕駛研究中自車狀態(tài)(ego status) 的潛在干擾引出了另一個(gè)問題:是否可以通過從整個(gè)模型中移除自車狀態(tài)(ego status) 來抵消這種影響?然而,值得注意的是,即使排除了自車狀態(tài)(ego status) 的影響,基于 nuScenes 數(shù)據(jù)集的開環(huán)自動(dòng)駕駛研究的可靠性仍然存疑。
圖1。(a) AD-MLP 同時(shí)使用自車狀態(tài)(ego status) 和過去軌跡的真實(shí)值作為輸入。本文復(fù)現(xiàn)的版本(Ego-MLP)去掉了過去的軌跡。(b) 現(xiàn)有的端到端自動(dòng)駕駛流程包括感知、預(yù)測和規(guī)劃模塊。自車狀態(tài)(ego status) 可以集成到鳥瞰圖(BEV)生成模塊或規(guī)劃模塊中。(c) 本文設(shè)計(jì)了一個(gè)簡單的基線以便與現(xiàn)有方法進(jìn)行比較。這個(gè)簡單的基線不利用感知或預(yù)測模塊,而是直接基于 BEV 特征預(yù)測最終軌跡。
圖2。(a) nuScenes 數(shù)據(jù)集中的自車軌跡熱圖。(b) nuScenes 數(shù)據(jù)集中的大多數(shù)場景由直行駕駛情況組成。
圖3。當(dāng)前方法[12, 13, 16]忽略了考慮自車的偏航角變化,始終保持0偏航角(由灰色車輛表示),從而導(dǎo)致假陰性(a)和假陽性(b)的碰撞檢測事件增加。本文通過估計(jì)車輛軌跡的變化來估計(jì)車輛的偏航角(由紅色車輛表示),以提高碰撞檢測的準(zhǔn)確性。
圖4。本文展示了 VAD 模型(在其規(guī)劃器中結(jié)合了自車狀態(tài)(ego status) )在各種圖像損壞情況下的預(yù)測軌跡。給定場景中的所有軌跡(跨越20秒)都在全局坐標(biāo)系統(tǒng)中呈現(xiàn)。每個(gè)三角形標(biāo)記代表自車的真實(shí)軌跡點(diǎn),不同的顏色代表不同的時(shí)間步。值得注意的是,即使輸入為空白圖像,模型的預(yù)測軌跡仍保持合理性。然而,紅色框內(nèi)的軌跡是次優(yōu)的,如圖5中進(jìn)一步闡述的。盡管對(duì)所有環(huán)視圖像都進(jìn)行了損壞處理,但為了便于可視化,只顯示了初始時(shí)間步對(duì)應(yīng)的前視圖像。
圖5。在開環(huán)自動(dòng)駕駛方法中,從自車的起始位置預(yù)測未來軌跡。在模仿學(xué)習(xí)范式內(nèi),預(yù)測軌跡理想情況下應(yīng)該與實(shí)際的真實(shí)軌跡密切對(duì)齊。此外,連續(xù)時(shí)間步預(yù)測的軌跡應(yīng)保持一致性,從而保證駕駛策略的連續(xù)性和平滑性。因此,圖4 中紅色框顯示的預(yù)測軌跡不僅偏離了真實(shí)軌跡,而且在不同的時(shí)間戳上顯示出顯著的分歧。
圖6。對(duì)于在其規(guī)劃器中結(jié)合了自車狀態(tài)(ego status) 的基于VAD的模型,本文在視覺輸入保持恒定的情況下,向自車速度引入噪聲。值得注意的是,當(dāng)自車的速度數(shù)據(jù)被擾動(dòng)時(shí),結(jié)果軌跡顯示出顯著的變化。將車輛的速度設(shè)置為零會(huì)導(dǎo)致靜止的預(yù)測,而速度為100米/秒會(huì)導(dǎo)致預(yù)測出不切實(shí)際的軌跡。這表明,盡管感知模塊繼續(xù)提供準(zhǔn)確的周圍信息,模型的決策過程過分依賴于自車狀態(tài)(ego status) 。
圖7。BEVFormer在 BEV查詢的初始化過程中結(jié)合了自車狀態(tài)(ego status) 信息,這是當(dāng)前端到端自動(dòng)駕駛方法[13, 16, 43]未曾涉及的細(xì)節(jié)。
圖8。在 BEV-Planner++ 中引入自車狀態(tài)(ego status) 信息使得模型能夠非常快速地收斂。
圖9。比較本文基線的 BEV特征與相應(yīng)的場景。
實(shí)驗(yàn)結(jié)果:
論文總結(jié):
本文深入分析了當(dāng)前開環(huán)端到端自動(dòng)駕駛方法固有的缺點(diǎn)。本文的目標(biāo)是貢獻(xiàn)研究成果,促進(jìn)端到端自動(dòng)駕駛的逐步發(fā)展。
引用:
Li Z, Yu Z, Lan S, et al. Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?[J]. arXiv preprint arXiv:2312.03031, 2023.