BEV進入定制化時代!清華Hierarchical BEV:創(chuàng)新多模塊學習框架,無痛落地無縫量產(chǎn)!
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
論文思路
自動駕駛指通過傳感器計算設備、信息通信、自動控制和人工智能的集成,將車輛轉(zhuǎn)變?yōu)槟軌蜃晕覍Ш降膶嶓w。環(huán)境感知系統(tǒng)是智能車輛獲取外部信息的通道,它的任務是收集、處理和分析與車輛周圍環(huán)境有關(guān)的數(shù)據(jù),作為自動駕駛的先決條件。感知系統(tǒng)作為智能駕駛技術(shù)的關(guān)鍵要素,為后續(xù)模塊如定位、預測、決策、規(guī)劃、控制等提供必要的輸入數(shù)據(jù)。目前,大多數(shù)用于車輛實現(xiàn)的感知算法都是基于深度學習實現(xiàn)的,特別是神經(jīng)網(wǎng)絡,這些算法在帶有標簽的公共數(shù)據(jù)集上進行訓練,并部署在一系列視覺感知任務中。為了解決感知算法開發(fā)過程中存在開發(fā)周期長、可復用性差、傳感器設置復雜等問題,論文提出了一種新的分層BEV感知范式,旨在提供一個基本感知模塊庫和用戶友好的圖形界面,從而能夠快速構(gòu)建定制模型。
挑戰(zhàn)及主要貢獻
挑戰(zhàn)
- 算法在不同和動態(tài)設置中的可泛化性:在一種情況下表現(xiàn)出色的模型可能在另一種情況下表現(xiàn)不佳,這強調(diào)了適應性強、效率高的感知系統(tǒng)的必要性;
- 開發(fā)智能感知算法的傳統(tǒng)過程受到長周期和缺乏模塊化的阻礙:這導致了組件的低可重用性,復雜的配置,增加了工程工作中的冗余,增加了開發(fā)成本;
- 在部署過程中缺乏系統(tǒng)的方法來利用公共功能模塊,使得大規(guī)模生產(chǎn)感知系統(tǒng)的優(yōu)化變得復雜,阻礙了對特定任務需求的有效適應。
主要貢獻
為了應對上述的這些挑戰(zhàn),論文中引入了一種分層感知方案,設計了一個綜合框架來簡化自動駕駛汽車感知算法的開發(fā)。通過將基本算法組件組織到一個功能模塊庫中,所提出的感知方案使汽車工程師能夠以更高的效率構(gòu)建和定制滿足特定操作需求的感知模型。該方案根據(jù)感知模型的功能角色對其進行分類,每個模塊提供網(wǎng)絡結(jié)構(gòu)的選擇,這種設計不僅有利于與各種平臺的計算能力保持一致,而且簡化了對自定義數(shù)據(jù)集的適應,從而提高了開發(fā)效率。這些標準化功能模塊的可復用性大大減少了重復的工作,從而縮短了開發(fā)時間。另外,考慮到智能汽車平臺的快速發(fā)展和對快速功能更新的需求,該模塊化感知系統(tǒng)具有固有的可擴展性。它允許開發(fā)人員輕松地引入新模塊或改進現(xiàn)有模塊,確保系統(tǒng)的發(fā)展響應新出現(xiàn)的需求和技術(shù)進步。
為了提高開發(fā)效率,論文還提出了一種將預訓練與微調(diào)相結(jié)合的范式。通過利用開源數(shù)據(jù)集,建立一個性能良好的模型的多樣化存儲庫,這些預訓練模型提供了一個堅實的基礎(chǔ),使得在微調(diào)階段需要更少的訓練數(shù)據(jù)和更少的迭代。這種方法使用戶能夠適應功能和調(diào)整參數(shù)以匹配自定義數(shù)據(jù)集,而后通過遷移學習和領(lǐng)域適應等技術(shù)在現(xiàn)實場景中實現(xiàn)最佳性能。具體來說,預訓練方案包括對每個潛在模塊組合進行詳盡的訓練,以確保每個感知模塊被賦予與上游和下游功能對應的兼容權(quán)重。一旦建立了感知功能模塊庫,那就在預訓練階段引入了一種新的多模塊學習(MML)范式。MML是針對分層解耦的感知系統(tǒng)設計的,它提高了整體的訓練效率,并且可以同時優(yōu)化多種模型架構(gòu)以獲得性能提升。在后續(xù)的研究中,MML框架已經(jīng)證明了其有效性。主要貢獻可以概括如下:
模型架構(gòu):自動駕駛感知集成方案
分層感知范式
圖1 分層感知方案概述
論文中提出的分層感知系統(tǒng)的技術(shù)細節(jié)如圖1所示。其核心創(chuàng)新在于提供了一個模塊化且易于操作的BEV感知算法構(gòu)建過程視圖,該過程分別通過集成功能模塊組件的預訓練算法和微調(diào)算法來實現(xiàn)。如表1所示,在集成車輛-云端-道路架構(gòu)的背景下,封裝了一套39個通用感知功能模塊來表示概念分類。車輛-云端-道路集成感知系統(tǒng)以單個車輛智能感知為基礎(chǔ),主要包括車輛之間、車輛與基礎(chǔ)設施之間的協(xié)同感知。為了構(gòu)建數(shù)字感知功能模塊庫,采用多模塊集成的知識共享訓練方法。首先,在龐大的公共數(shù)據(jù)集上預訓練感知功能模塊的各種組合,從而創(chuàng)建模塊化組件的存儲庫。隨后,設計一個用戶友好的圖形化軟件界面,通過直觀的拖放操作來促進模型的構(gòu)建。這種圖形化軟件可以輕松地組裝感知模型,為訓練、推理和微調(diào)提供統(tǒng)一的界面。
表1 車輛-云端-道路集成架構(gòu)感知功能模塊庫
以視覺為中心的三維物體檢測的原型設計
2)圖像視圖轉(zhuǎn)換
3)時間特征融合:
圖2 兩種不同的時間特征融合方法
4)檢測頭:
圖3 多模塊學習框架
通過采用軟參數(shù)共享的方法,MML提供了一種更加靈活的多模型學習體系結(jié)構(gòu)。在軟參數(shù)共享的框架下,每個模型都有自己獨立的結(jié)構(gòu)和一組排他的參數(shù),而不是直接共享很大一部分網(wǎng)絡層。這種設計考慮到不同的任務可能需要學習不同的特征表示,因此,賦予每個模型一定程度的排他性能力有助于提高整體性能。然而,為了實現(xiàn)知識遷移和促進通用表示的學習,軟參數(shù)共享并沒有完全隔離每個任務的模型參數(shù)。相反,它通過施加一定的約束,促使不同任務的模型參數(shù)趨于相似,從而在一定程度上實現(xiàn)參數(shù)共享。
算法1 平均模塊組裝策略
實驗
實現(xiàn)細節(jié)
比較結(jié)果
表2 不同模型配置的詳細信息
表3 對不同的集成模型實現(xiàn)了一致的改進
圖4 不同模塊組件的三維探測器在nuScenes數(shù)值集上的對比結(jié)果圖5 nuScenes驗證集的可視化比較結(jié)果
消融實驗
圖6 消融方法
表4 在nuscenes驗證數(shù)據(jù)集上與1:9分割的性能比較
表5 在nuscenes驗證數(shù)據(jù)集上與3:7分割的性能比較
討論
圖7 不同權(quán)值合并策略的比較,每個子圖顯示了訓練過程中每個模型的mAP指標
圖8 不同權(quán)值合并策略的比較,每個子圖顯示了訓練過程中每個模型的NDS指標
表6 8種模型在nuscenes val數(shù)據(jù)集上的預訓練對比結(jié)果
結(jié)論
該論文旨在開發(fā)模塊化感知系統(tǒng)架構(gòu),支持可重用和可重構(gòu)組件,為下一代汽車計算智能平臺量身定制。提出的框架提供了豐富靈活的基礎(chǔ)算法構(gòu)建模塊,允許開發(fā)者根據(jù)具體需求選擇和組合不同的功能模塊,從而促進定制化智能駕駛感知算法的快速開發(fā)。該框架可以不斷擴展功能模塊庫,適應不同的用戶需求,并具有持續(xù)學習的能力,從而縮短開發(fā)周期。