進(jìn)一步加速落地:壓縮自動(dòng)駕駛端到端運(yùn)動(dòng)規(guī)劃模型
本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
原標(biāo)題:On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2403.01238.pdf
代碼鏈接:https://github.com/tulerfeng/PlanKD
作者單位:北京理工大學(xué) ALLRIDE.AI 河北省大數(shù)據(jù)科學(xué)與智能技術(shù)重點(diǎn)實(shí)驗(yàn)室
論文思路
端到端的運(yùn)動(dòng)規(guī)劃模型配備了深度神經(jīng)網(wǎng)絡(luò),在實(shí)現(xiàn)全自動(dòng)駕駛方面展現(xiàn)出了巨大潛力。然而,過大的神經(jīng)網(wǎng)絡(luò)使得它們不適合部署在資源受限的系統(tǒng)上,這無疑需要更多的計(jì)算時(shí)間和資源。為了解決這個(gè)問題,知識蒸餾提供了一種有前景的方法,它通過使一個(gè)較小的學(xué)生模型從較大的教師模型學(xué)習(xí)來壓縮模型。盡管如此,如何應(yīng)用知識蒸餾來壓縮運(yùn)動(dòng)規(guī)劃器到目前為止還未被探索。本文提出了 PlanKD,這是第一個(gè)為壓縮端到端運(yùn)動(dòng)規(guī)劃器量身定制的知識蒸餾框架。首先,考慮到駕駛場景本質(zhì)上是復(fù)雜的,常常包含與規(guī)劃無關(guān)或甚至是噪聲信息,遷移這種信息對學(xué)生規(guī)劃器并無益處。因此,本文設(shè)計(jì)了一種基于信息瓶頸(information bottleneck)的策略,只蒸餾與規(guī)劃相關(guān)的信息,而不是無差別地遷移所有信息。其次,輸出規(guī)劃軌跡中的不同 waypoints 可能對運(yùn)動(dòng)規(guī)劃的重要性各不相同,某些關(guān)鍵 waypoints 的輕微偏差可能會(huì)導(dǎo)致碰撞。因此,本文設(shè)計(jì)了一個(gè) safety-aware waypoint-attentive 的蒸餾模塊,根據(jù)重要性為不同 waypoints 分配自適應(yīng)權(quán)重,以鼓勵(lì)學(xué)生模型更準(zhǔn)確地模仿更關(guān)鍵的 waypoints ,從而提高整體安全性。實(shí)驗(yàn)表明,本文的 PlanKD 可以大幅提升小型規(guī)劃器的性能,并顯著減少它們的參考時(shí)間。
主要貢獻(xiàn):
- 本文構(gòu)建了第一個(gè)旨在探索專用知識蒸餾方法以壓縮自動(dòng)駕駛中端到端運(yùn)動(dòng)規(guī)劃器的嘗試。
- 本文提出了一個(gè)通用且創(chuàng)新的框架 PlanKD,它使學(xué)生規(guī)劃器能夠繼承中間層中與規(guī)劃相關(guān)的知識,并促進(jìn)關(guān)鍵 waypoints 的準(zhǔn)確匹配以提高安全性。
- 實(shí)驗(yàn)表明,本文的 PlanKD 可以大幅提升小型規(guī)劃器的性能,從而為資源有限的部署提供了一個(gè)更便攜、更高效的解決方案。
網(wǎng)絡(luò)設(shè)計(jì):
端到端運(yùn)動(dòng)規(guī)劃最近作為自動(dòng)駕駛中的一個(gè)有前景的方向出現(xiàn)[3, 10, 30, 31, 40, 47, 48],它直接將原始傳感器數(shù)據(jù)映射到規(guī)劃的動(dòng)作上。這種基于學(xué)習(xí)的范式展現(xiàn)出減少對手工制定規(guī)則的嚴(yán)重依賴和減輕在復(fù)雜級聯(lián)模塊(通常是檢測-跟蹤-預(yù)測-規(guī)劃)[40, 48]內(nèi)錯(cuò)誤累積的優(yōu)點(diǎn)。盡管取得了成功,但運(yùn)動(dòng)規(guī)劃器中深度神經(jīng)網(wǎng)絡(luò)龐大的架構(gòu)為在資源受限環(huán)境中的部署帶來了挑戰(zhàn),例如依賴邊緣設(shè)備計(jì)算能力的自動(dòng)配送機(jī)器人。此外,即便是在常規(guī)車輛中,車載設(shè)備上的計(jì)算資源也經(jīng)常是有限的[34]。因此,直接部署深層且龐大的規(guī)劃器不可避免地需要更多的計(jì)算時(shí)間和資源,這使得快速響應(yīng)潛在危險(xiǎn)變得具有挑戰(zhàn)性。為了緩解這個(gè)問題,一個(gè)直接的方法是通過使用較小的主干網(wǎng)絡(luò)來減少網(wǎng)絡(luò)參數(shù)的數(shù)量,但本文觀察到,端到端規(guī)劃模型的性能會(huì)急劇下降,如圖1所示。例如,盡管當(dāng) InterFuser [33](一個(gè)典型的端到端運(yùn)動(dòng)規(guī)劃器)的參數(shù)數(shù)量從52.9M減少到26.3M時(shí),推理時(shí)間降低了,但其駕駛得分也從53.44下降到了36.55。因此,有必要開發(fā)一種適用于端到端運(yùn)動(dòng)規(guī)劃的模型壓縮方法。
為了得到一個(gè)便攜的運(yùn)動(dòng)規(guī)劃器,本文采用知識蒸餾[19]來壓縮端到端運(yùn)動(dòng)規(guī)劃模型。知識蒸餾(KD)已經(jīng)在各種任務(wù)中被廣泛研究用于模型壓縮,例如目標(biāo)檢測[6, 24]、語義分割[18, 28]等。這些工作的基本思想是通過從更大的教師模型繼承知識來訓(xùn)練一個(gè)簡化的學(xué)生模型,并在部署期間使用學(xué)生模型來替代教師模型。雖然這些研究取得了顯著的成功,但直接將它們應(yīng)用于端到端運(yùn)動(dòng)規(guī)劃會(huì)導(dǎo)致次優(yōu)結(jié)果。這源于運(yùn)動(dòng)規(guī)劃任務(wù)中固有的兩個(gè)新出現(xiàn)的挑戰(zhàn):(i) 駕駛場景本質(zhì)上是復(fù)雜的[46],涉及包括多個(gè)動(dòng)態(tài)和靜態(tài)物體、復(fù)雜的背景場景以及多方面的道路和交通信息在內(nèi)的多樣化信息。然而,并不是所有這些信息都對規(guī)劃有益。例如,背景建筑物和遠(yuǎn)處的車輛對規(guī)劃來說是無關(guān)的甚至是噪音[41],而附近的車輛和交通燈則有確定性的影響。因此,自動(dòng)地只從教師模型中提取與規(guī)劃相關(guān)的信息至關(guān)重要,而以往的KD方法無法做到這一點(diǎn)。(ii) 輸出規(guī)劃軌跡中的不同 waypoints 通常對運(yùn)動(dòng)規(guī)劃的重要性各不相同。例如,在導(dǎo)航一個(gè)交叉口時(shí),軌跡中靠近其他車輛的 waypoints 可能比其他 waypoints 具有更高的重要性。這是因?yàn)樵谶@些點(diǎn),自車需要主動(dòng)與其他車輛互動(dòng),即使是微小的偏差也可能導(dǎo)致碰撞。然而,如何自適應(yīng)地確定關(guān)鍵 waypoints 并準(zhǔn)確地模仿它們是以往KD方法的另一個(gè)重大挑戰(zhàn)。
為了解決上述兩個(gè)挑戰(zhàn),本文提出了第一個(gè)為壓縮自動(dòng)駕駛中端到端運(yùn)動(dòng)規(guī)劃器量身定制的知識蒸餾方法,稱為 PlanKD 。首先,本文提出了一個(gè)基于信息瓶頸原理[2]的策略,其目標(biāo)是提取包含最少且足夠規(guī)劃信息的與規(guī)劃相關(guān)的特征。具體來說,本文最大化提取的與規(guī)劃相關(guān)特征和本文定義的規(guī)劃狀態(tài)的真值之間的互信息,同時(shí)最小化提取特征和中間特征映射之間的互信息。這一策略使本文能夠只在中間層提取關(guān)鍵的與規(guī)劃相關(guān)的信息,從而增強(qiáng)學(xué)生模型的有效性。其次,為了動(dòng)態(tài)識別關(guān)鍵 waypoints 并如實(shí)地模仿它們,本文采用注意力機(jī)制[38]計(jì)算每個(gè) waypoints 及其在鳥瞰圖(BEV)中與關(guān)聯(lián)上下文之間的注意力權(quán)重。為了在蒸餾過程中促進(jìn)對安全關(guān)鍵 waypoints 的準(zhǔn)確模仿,本文設(shè)計(jì)了一個(gè) safety-aware ranking loss ,鼓勵(lì)對于靠近移動(dòng)障礙物的 waypoints 給予更高的注意力權(quán)重。相應(yīng)地,學(xué)生規(guī)劃器的安全性可以顯著增強(qiáng)。如圖1所示的證據(jù)顯示,通過本文的 PlanKD,學(xué)生規(guī)劃器的駕駛得分可以顯著提高。此外,本文的方法可以將參考時(shí)間降低約50%,同時(shí)保持與教師規(guī)劃器在 Town05 Long Benchmark 上相當(dāng)?shù)男阅堋?/p>
圖1. 在 Town05 Long Benchmark [31]上,隨著參數(shù)數(shù)量的減少,InterFuser[33] 性能下降的示意圖。通過利用本文的 PlanKD ,可以提升緊湊型運(yùn)動(dòng)規(guī)劃器的性能,并且顯著降低參考時(shí)間。推理時(shí)間在服務(wù)器上的 GeForce RTX 3090 GPU 上進(jìn)行評估。
圖2. 本文的 PlanKD 框架示意圖。PlanKD 由兩個(gè)模塊組成:一個(gè)與規(guī)劃相關(guān)的特征蒸餾模塊,通過信息瓶頸(IB)從中間特征映射中提取與規(guī)劃相關(guān)的特征;一個(gè) safety-aware waypoint-attentive 蒸餾模塊,動(dòng)態(tài)確定關(guān)鍵 waypoints ,并從中提取知識以增強(qiáng)整體安全性。
實(shí)驗(yàn)結(jié)果:
圖3. 在不同駕駛場景下,safety-aware 注意力權(quán)重的可視化。綠色塊代表自車(ego-vehicle),黃色塊代表其他道路使用者(例如汽車、自行車)。一個(gè) waypoint 的顏色越紅,它的注意力權(quán)重就越高。
總結(jié):
本文提出了 PlanKD,這是一種為壓縮端到端運(yùn)動(dòng)規(guī)劃器量身定制的知識蒸餾方法。所提出的方法可以通過信息瓶頸學(xué)習(xí)與規(guī)劃相關(guān)的特征,以實(shí)現(xiàn)有效的特征蒸餾。此外,本文設(shè)計(jì)了一個(gè) safety-aware waypoint-attentive 蒸餾機(jī)制,以適應(yīng)性地決定每個(gè) waypoint 對 waypoint 蒸餾的重要性。廣泛的實(shí)驗(yàn)驗(yàn)證了本文方法的有效性,證明了 PlanKD 可以作為資源有限部署的便攜式和安全的解決方案。
引用:
Feng K, Li C, Ren D, et al. On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving[J]. arXiv preprint arXiv:2403.01238, 2024.