nuScenes最新SOTA | SparseAD:稀疏查詢助力高效端到端自動駕駛!
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&出發(fā)點
端到端的范式使用統(tǒng)一的框架在自動駕駛系統(tǒng)中實現(xiàn)多任務。盡管這種范式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的性能仍然遠遠落后于單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特征使得擴展到更多模態(tài)或任務變得成本高昂。這里提出了一種稀疏查詢?yōu)橹行牡亩说蕉俗詣玉{駛范式(SparseAD),其中稀疏查詢完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統(tǒng)一的稀疏架構(gòu),用于包括檢測、跟蹤和在線地圖繪制在內(nèi)的感知任務。此外,重新審視了運動預測和規(guī)劃,并設計了一個更合理的運動規(guī)劃框架。在具有挑戰(zhàn)性的nuScenes數(shù)據(jù)集上,SparseAD在端到端方法中實現(xiàn)了最先進的全任務性能,并顯著縮小了端到端范式與單任務方法之間的性能差距。
領(lǐng)域背景
自動駕駛系統(tǒng)需要在復雜的駕駛場景中做出正確的決策,以確保駕駛的安全性和舒適性。通常,自動駕駛系統(tǒng)集成了多個任務,如檢測、跟蹤、在線地圖、運動預測和規(guī)劃。如圖1a所示,傳統(tǒng)的模塊化范式將復雜的系統(tǒng)拆分為多個單獨的任務,每個任務都獨立優(yōu)化。在這種范式中,獨立的單任務模塊之間需要手工進行后處理,這使得整個流程變得更為繁瑣。另一方面,由于堆疊任務之間的場景信息損失壓縮,整個系統(tǒng)的誤差會逐漸累積,這可能導致潛在的安全問題。
關(guān)于上述問題,端到端自動駕駛系統(tǒng)以原始傳感器數(shù)據(jù)作為輸入,并以更簡潔的方式返回規(guī)劃結(jié)果。早期的工作提出跳過中間任務,直接從原始傳感器數(shù)據(jù)預測規(guī)劃結(jié)果。盡管這種方法更為直接,但在模型優(yōu)化、可解釋性和規(guī)劃性能方面并不令人滿意。另一種具有更好可解釋性的多面范式是將自動駕駛的多個部分集成到一個模塊化的端到端模型中,其中引入了多維度的監(jiān)督,以提高對復雜駕駛場景的理解能力,并帶來多任務處理的能力。
如圖1b所示,在大多數(shù)先前的模塊化端到端方法中,整個駕駛場景通過密集的鳥瞰圖(BEV)特征進行表示,這些特征包括多傳感器和時間信息,并作為全棧駕駛?cè)蝿眨òǜ兄㈩A測和規(guī)劃)的源輸入。盡管密集的BEV特征在跨空間和時間的多模態(tài)和多任務中確實發(fā)揮了關(guān)鍵作用,將之前使用BEV表示的端到端方法總結(jié)為Dense BEV-Centric范式。然而,盡管這些方法具有簡潔性和可解釋性,它們在自動駕駛的每個子任務上的性能仍然遠遠落后于相應的單任務方法。此外,在Dense BEV-Centric范式下,長期時間融合和多模態(tài)融合主要是通過多個BEV特征圖來實現(xiàn)的,這導致了計算成本、內(nèi)存占用顯著增加,給實際部署帶來了更大的負擔。
這里提出了一種新穎的以稀疏查詢?yōu)橹行牡亩说蕉俗詣玉{駛范式(SparseAD)。在該范式中,整個駕駛場景中的空間和時間元素均由稀疏查詢表示,摒棄了傳統(tǒng)的密集鳥瞰圖(BEV)特征,如圖1c所示。這種稀疏表示使得端到端模型能夠更高效地利用更長的歷史信息,并擴展到更多模態(tài)和任務,同時顯著降低了計算成本和內(nèi)存占用。
具體來說,重新設計了模塊化端到端架構(gòu),并將其簡化為一個由稀疏感知和運動規(guī)劃器組成的簡潔結(jié)構(gòu)。在稀疏感知模塊中,利用通用的時間解碼器[將包括檢測、跟蹤和在線地圖繪制在內(nèi)的感知任務統(tǒng)一起來。在這個過程中,多傳感器特征和歷史記憶被視為tokens,而物體查詢和地圖查詢則分別代表駕駛場景中的障礙物和道路元素。在運動規(guī)劃器中,以稀疏感知查詢作為環(huán)境表示,同時對自車和周圍代理進行多模態(tài)運動預測,以獲取自車的多種初始規(guī)劃方案。隨后,充分考慮多維度的駕駛約束,生成最終的規(guī)劃結(jié)果。
主要貢獻:
- 提出了一種新穎的以稀疏查詢?yōu)橹行牡亩说蕉俗詣玉{駛范式(SparseAD),該范式摒棄了傳統(tǒng)的密集鳥瞰圖(BEV)表示方法,因此具有巨大的潛力,能夠高效地擴展到更多模態(tài)和任務。
- 將模塊化的端到端架構(gòu)簡化為稀疏感知和運動規(guī)劃兩部分。在稀疏感知部分,以完全稀疏的方式統(tǒng)一了檢測、跟蹤和在線地圖繪制等感知任務;而在運動規(guī)劃部分,則在更合理的框架下進行了運動預測和規(guī)劃。
- 在具有挑戰(zhàn)性的nuScenes數(shù)據(jù)集上,SparseAD在端到端方法中取得了最先進的性能,并顯著縮小了端到端范式與單任務方法之間的性能差距。這充分證明了所提出的稀疏端到端范式具有巨大的潛力。SparseAD不僅提高了自動駕駛系統(tǒng)的性能和效率,還為未來的研究和應用提供了新的方向和可能性。
SparseAD網(wǎng)絡結(jié)構(gòu)
如圖1c所示,在提出的以稀疏查詢?yōu)橹行牡姆妒街?,不同的稀疏查詢完全代表了整個駕駛場景,不僅負責模塊之間的信息傳遞和交互,還以端到端的方式在多任務中傳播反向梯度以進行優(yōu)化。與以往以密集鳥瞰圖(BEV)為中心的方法不同,SparseAD中沒有使用任何視圖投影和密集BEV特征,從而避免了沉重的計算和內(nèi)存負擔,SparseAD的詳細架構(gòu)如圖2所示。
從架構(gòu)示意圖上看,SparseAD主要由三部分組成,包括傳感器編碼器、稀疏感知和運動規(guī)劃器。具體來說,傳感器編碼器將多視圖相機圖像、雷達或激光雷達點作為輸入,并將其編碼成高維特征。這些特征隨后與位置嵌入(PE)一起作為傳感器tokens輸入到稀疏感知模塊中。在稀疏感知模塊中,來自傳感器的原始數(shù)據(jù)將被聚合成多種稀疏感知查詢,如檢測查詢、跟蹤查詢和地圖查詢,它們分別代表駕駛場景中的不同元素,并將進一步傳播到下游任務中。在運動規(guī)劃器中,感知查詢被視為駕駛場景的稀疏表示,并被充分利用于所有周圍agent和自車。同時,考慮了多方面的駕駛約束以生成既安全又符合動力學要求的最終規(guī)劃。
此外,架構(gòu)中引入了端到端多任務記憶庫,用于統(tǒng)一存儲整個駕駛場景的時序信息,這使得系統(tǒng)能夠受益于長時間歷史信息的聚合,從而完成全棧駕駛?cè)蝿铡?/p>
如圖3所示,SparseAD的稀疏感知模塊以稀疏的方式統(tǒng)一了多個感知任務,包括檢測、跟蹤和在線地圖繪制。具體來說,這里有兩個結(jié)構(gòu)完全相同的時序解碼器,它們利用來自記憶庫的長期歷史信息。其中一個解碼器用于障礙物感知,另一個用于在線地圖繪制。
通過不同任務對應的感知查詢進行信息聚合后,檢測和跟蹤頭以及地圖部分別被用于解碼和輸出障礙物和地圖元素。之后,進行更新過程,該過程會過濾并保存當前幀的高置信度感知查詢,并相應地更新記憶庫,這將有利于下一幀的感知過程。
通過這種方式,SparseAD的稀疏感知模塊實現(xiàn)了對駕駛場景的高效、準確的感知,為后續(xù)的運動規(guī)劃提供了重要的信息基礎(chǔ)。同時,通過利用記憶庫中的歷史信息,模塊能夠進一步提高感知的準確性和穩(wěn)定性,確保自動駕駛系統(tǒng)的可靠運行。
稀疏感知
在障礙物感知方面,在統(tǒng)一的解碼器內(nèi)采用聯(lián)合檢測和跟蹤的方式,無需任何額外的手工后處理。檢測和跟蹤查詢之間存在明顯的不平衡,這可能導致檢測性能的顯著下降。為了緩解上述問題,從多個角度改進了障礙物感知的性能。首先,引入了兩級記憶機制來跨幀傳播時序信息。其中,場景級記憶維持沒有跨幀關(guān)聯(lián)的查詢信息,而實例級記憶則保持跟蹤障礙物相鄰幀之間的對應關(guān)系。其次,考慮到兩者起源和任務的不同,對場景級和實例級記憶采用了不同的更新策略。具體來說,通過MLN來更新場景級記憶,而實例級記憶則通過每個障礙物的未來預測進行更新。此外,在訓練過程中,還對跟蹤查詢采用了增強策略,以平衡兩級記憶之間的監(jiān)督,從而增強檢測和跟蹤性能。之后,通過檢測和跟蹤頭部,可以從檢測或跟蹤查詢中解碼出具有屬性和唯一ID的3D邊界框,然后進一步用于下游任務。
在線地圖構(gòu)建是一個復雜而重要的任務。根據(jù)目前所了解的知識,現(xiàn)有的在線地圖構(gòu)建方法大多依賴于密集的鳥瞰視圖(BEV)特征來表示駕駛環(huán)境。這種方法在擴展感知范圍或利用歷史信息方面存在困難,因為需要大量的內(nèi)存和計算資源。我們堅信所有的地圖元素都可以以稀疏的方式表示,因此,嘗試在稀疏范式下完成在線地圖構(gòu)建。具體來說,采用了與障礙物感知任務中相同的時序解碼器結(jié)構(gòu)。最初,帶有先驗類別的地圖查詢被初始化為在駕駛平面上均勻分布。在時序解碼器中,地圖查詢與傳感器標記和歷史記憶標記進行交互。這些歷史記憶標記實際上是由之前幀中高度可信的地圖查詢組成的。然后,更新后的地圖查詢攜帶了當前幀地圖元素的有效信息,可以被推送到記憶庫中,以便在未來的幀或下游任務中使用。
顯然,在線地圖構(gòu)建的流程與障礙物感知大致相同。也就是說,統(tǒng)一了包括檢測、跟蹤和在線地圖構(gòu)建在內(nèi)的感知任務,采用了一種通用的稀疏方式,這種方式在擴展到更大范圍(例如100m × 100m)或長期融合時更加高效,而且不需要任何復雜的操作(如可變形注意力或多點注意力)。據(jù)我們所知,這是第一個在稀疏方式下在統(tǒng)一感知架構(gòu)中實現(xiàn)在線地圖構(gòu)建的。隨后,利用分段貝塞爾地圖Head來回歸每個稀疏地圖元素的分段貝塞爾控制點,這些控制點可以方便地轉(zhuǎn)換以滿足下游任務的要求。
Motion Planner
我們重新審視了自動駕駛系統(tǒng)中的運動預測與規(guī)劃問題,并發(fā)現(xiàn)許多先前的方法在預測周圍車輛運動時忽略了本車(ego-vehicle)的動態(tài)。雖然這在大多數(shù)情況下可能不會顯現(xiàn)出來,但在諸如交叉口等場景中,當近處車輛與本車之間交互緊密時,這可能會帶來潛在風險。受此啟發(fā),設計了一個更加合理的運動規(guī)劃框架。在這個框架中,運動預測器同時預測周圍車輛和本車的運動。隨后,本車的預測結(jié)果作為運動先驗被用于后續(xù)的規(guī)劃優(yōu)化器。在規(guī)劃過程中,我們考慮了不同方面的約束,以產(chǎn)生既滿足安全性又符合動力學要求的最終規(guī)劃結(jié)果。
如圖4所示,SparseAD中的運動規(guī)劃器將感知查詢(包括軌跡查詢和地圖查詢)作為當前駕駛場景的稀疏表示。多模態(tài)運動查詢被用作媒介,以實現(xiàn)對駕駛場景的理解、對所有車輛(包括本車)之間交互的感知,以及對不同未來可能性的博弈。隨后,本車的多模態(tài)運動查詢被送入規(guī)劃優(yōu)化器,其中充分考慮了包括高級指令、安全性和動力學在內(nèi)的多個方面的駕駛約束。
運動預測器。遵循先前的方法,通過標準的transformer層實現(xiàn)了運動查詢與當前駕駛場景表示(包括軌跡查詢和地圖查詢)之間的感知和整合。此外,應用自車agent和跨模態(tài)交互來共同建模未來時空場景中周圍agent和本車之間的交互。通過多層堆疊結(jié)構(gòu)內(nèi)部和之間的模塊協(xié)同作用,運動查詢能夠聚合來自靜態(tài)和動態(tài)環(huán)境的豐富語義信息。
除了上述內(nèi)容外,還引入了兩種策略來進一步提高運動預測器的性能。首先,利用軌跡查詢的實例級時間記憶進行簡單直接的預測,并將其作為周圍agent運動查詢初始化的一部分。通過這種方式,運動預測器能夠從上游任務中獲得的先驗知識中受益。其次,得益于端到端記憶庫,能夠以幾乎可忽略的成本、以流式方式通過代理記憶聚合器從保存的歷史運動查詢中同化有用信息。
需要注意的是,本車的多模態(tài)運動查詢是同時更新的。通過這種方式,可以獲得本車的運動先驗,這可以進一步促進規(guī)劃的學習過程。
規(guī)劃優(yōu)化器。借助運動預測器提供的運動先驗,獲得了更好的初始化,從而在訓練過程中減少了繞行。作為運動規(guī)劃器的關(guān)鍵組成部分,成本函數(shù)的設計至關(guān)重要,因為它將極大地影響甚至決定最終性能的質(zhì)量。在提出的SparseAD運動規(guī)劃器中,主要考慮安全和動力學兩大方面的約束,旨在生成令人滿意的規(guī)劃結(jié)果。具體來說,除了VAD中確定的約束外,還重點關(guān)注本車與附近agent之間的動態(tài)安全關(guān)系,并考慮它們在未來時刻的相對位置。例如,如果agent i相對于本車持續(xù)保持在前方左側(cè)區(qū)域,從而阻止本車向左變道,那么agent i將獲得一個左標簽,表示agent i對本車施加了向左的約束。因此,約束在縱向方向上被分為前、后或無,在橫向方向上被分為左、右或無。在規(guī)劃器中,我們從相應的查詢中解碼其他agent與本車在橫向和縱向方向上的關(guān)系。這個過程涉及確定這些方向上其他代理與本車之間所有約束關(guān)系的概率。然后,我們利用focal loss作為Ego-Agent關(guān)系(EAR)的成本函數(shù),有效地捕獲附近agent帶來的潛在風險:
由于規(guī)劃軌跡必須遵循控制系統(tǒng)執(zhí)行的動力學規(guī)律,在運動規(guī)劃器中嵌入了輔助任務,以促進本車動力學狀態(tài)的學習。從本車查詢Qego中解碼速度、加速度和偏航角等狀態(tài),并使用動力學損失對這些狀態(tài)進行監(jiān)督:
實驗結(jié)果
在nuScenes數(shù)據(jù)集上進行了大量實驗,以證明方法的有效性和優(yōu)越性。公正地說,將對每個完整任務的性能進行評估,并與之前的方法進行比較。本節(jié)實驗使用了SparseAD的三種不同配置,分別是僅使用圖像輸入的SparseAD-B和SparseAD-L,以及使用雷達點云和圖像多模態(tài)輸入的SparseAD-BR。SparseAD-B和SparseAD-BR都使用V2-99作為圖像骨干網(wǎng)絡,輸入圖像分辨率為1600 × 640。SparseAD-L則進一步利用ViTLarge作為圖像骨干網(wǎng)絡,輸入圖像分辨率為1600×800。
在nuScenes驗證數(shù)據(jù)集上的3D檢測和3D多目標跟蹤結(jié)果如下?!皟H跟蹤方法”指的是通過后期處理關(guān)聯(lián)進行跟蹤的方法?!岸说蕉俗詣玉{駛方法”指的是具備自動駕駛?cè)珬H蝿漳芰Φ姆椒ā1碇械乃蟹椒ǘ际窃谌直媛蕡D像輸入下進行評估的。?:結(jié)果是通過官方開源代碼復現(xiàn)的。-R:表示使用了雷達點云輸入。
與在線建圖方法的性能比較如下,結(jié)果是在[1.0m, 1.5m, 2.0m]的閾值下進行評估的。?:通過官方開源代碼復現(xiàn)的結(jié)果。?:根據(jù)SparseAD中規(guī)劃模塊的需求,我們進一步將邊界細分為路段和車道,并分別進行評估。?:骨干網(wǎng)絡和稀疏感知模塊的成本。-R:表示使用了雷達點云輸入。
Multi-Task結(jié)果
障礙感知。在Tab. 2中將SparseAD的檢測和跟蹤性能與nuScenes驗證集上的其他方法進行了比較。顯然,SparseAD-B在大多數(shù)流行的僅檢測、僅跟蹤和端到端多目標跟蹤方法中表現(xiàn)出色,同時與SOTA方法如StreamPETR、QTrack在相應任務上的性能相當。通過采用更先進的骨干網(wǎng)絡進行擴展,SparseAD-Large實現(xiàn)了整體更好的性能,其mAP為53.6%,NDS為62.5%,AMOTA為60.6%,整體上優(yōu)于之前的最佳方法Sparse4Dv3。
在線建圖。在Tab. 3中展示了SparseAD與其他先前方法在nuScenes驗證集上的在線建圖性能比較結(jié)果。需要指出的是,根據(jù)規(guī)劃的需求,我們將邊界細分為路段和車道,并分別進行評估,同時將范圍從通常的60m × 30m擴展到102.4m × 102.4m,以與障礙感知保持一致。在不失公平性的前提下,SparseAD以稀疏的端到端方式實現(xiàn)了34.2%的mAP,無需任何密集的BEV表示,這優(yōu)于大多數(shù)之前流行的方法,如HDMapNet、VectorMapNet和MapTR,在性能和訓練成本方面都具有明顯優(yōu)勢。盡管性能略遜于StreamMapNet,但我們的方法證明了在線建圖可以在統(tǒng)一的稀疏方式下完成,無需任何密集的BEV表示,這對于以顯著較低成本實現(xiàn)端到端自動駕駛的實際部署具有重要意義。誠然,如何有效利用其他模態(tài)(如雷達)的有用信息仍是一個值得進一步探索的任務。我們相信在稀疏方式下仍有很大的探索空間。
運動預測。在Tab. 4a中展示了運動預測的比較結(jié)果,其中指標與VIP3D保持一致。SparseAD在所有端到端方法中實現(xiàn)了最佳性能,具有最低的0.83m minADE、1.58m minFDE、18.7%的遺漏率以及最高的0.308 EPA,優(yōu)勢巨大。此外,得益于稀疏查詢中心范式的效率和可擴展性,SparseAD可以有效地擴展到更多模態(tài),并從先進的骨干網(wǎng)絡中受益,從而進一步顯著提高預測性能。
規(guī)劃。規(guī)劃的結(jié)果呈現(xiàn)在Tab. 4b中。得益于上游感知模塊和運動規(guī)劃器的卓越設計,SparseAD的所有版本在nuScenes驗證數(shù)據(jù)集上都達到了最先進水平。具體來說,與包括UniAD和VAD在內(nèi)的所有其他方法相比,SparseAD-B實現(xiàn)了最低的平均L2誤差和碰撞率,這證明了我們的方法和架構(gòu)的優(yōu)越性。與上游任務(包括障礙感知和運動預測)類似,SparseAD通過雷達或更強大的骨干網(wǎng)絡進一步提升了性能。