短小精悍的BEV實(shí)例預(yù)測框架:PowerBEV
本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
01 摘要
準(zhǔn)確感知實(shí)例并預(yù)測其未來運(yùn)動(dòng)是自動(dòng)駕駛汽車的關(guān)鍵任務(wù),可使其在復(fù)雜的城市交通中安全導(dǎo)航。雖然鳥瞰圖(BEV)表示法在自動(dòng)駕駛感知中很常見,但其在運(yùn)動(dòng)預(yù)測設(shè)置中的潛力卻較少被發(fā)掘?,F(xiàn)有的環(huán)繞攝像頭 BEV 實(shí)例預(yù)測方法依賴于多任務(wù)自動(dòng)回歸設(shè)置和復(fù)雜的后處理,以時(shí)空一致的方式預(yù)測未來實(shí)例。在本文中,我們偏離了這一模式,提出了一種名為 "POWER BEV "的高效新型端到端框架。首先,POWER BEV 并非以自動(dòng)回歸的方式預(yù)測未來,而是使用由輕量級二維卷積網(wǎng)絡(luò)構(gòu)建的并行多尺度模塊。其次,我們證明了分割和向心倒流足以進(jìn)行預(yù)測,通過消除多余的輸出模式簡化了以往的多任務(wù)目標(biāo)。在這種輸出表示法的基礎(chǔ)上,我們提出了一種簡單的、基于流經(jīng)的后處理方法,這種方法能產(chǎn)生更穩(wěn)定的跨時(shí)間實(shí)例關(guān)聯(lián)。通過這種輕量級但功能強(qiáng)大的設(shè)計(jì),POWER BEV 在 NuScenes 數(shù)據(jù)集上的表現(xiàn)優(yōu)于最先進(jìn)的基準(zhǔn),為 BEV 實(shí)例預(yù)測提供了另一種范例。
▲圖1|PowerBEV和其他模式的對比
02 引言
準(zhǔn)確獲取周圍車輛信息是自動(dòng)駕駛系統(tǒng)面臨的一項(xiàng)關(guān)鍵挑戰(zhàn)??紤]到駕駛環(huán)境的高度復(fù)雜性和動(dòng)態(tài)性,除了目前對道路使用者的精確檢測和定位外,預(yù)測他們的未來運(yùn)動(dòng)也非常重要。一種廣為接受的模式是將這些任務(wù)分解為不同的模塊。在這種模式下,首先通過復(fù)雜的感知模型對感興趣的物體進(jìn)行檢測和定位,并在多個(gè)幀中進(jìn)行關(guān)聯(lián)。然后,通過參數(shù)軌跡模型,利用這些檢測到的物體過去的運(yùn)動(dòng)來預(yù)測其未來的潛在運(yùn)動(dòng)。但由于感知和運(yùn)動(dòng)模型是分開進(jìn)行預(yù)測的,因此整個(gè)系統(tǒng)在第一階段很容易出現(xiàn)誤差。
近年來,許多研究都證明了鳥瞰圖(BEV)表示法在以視覺為中心的精確駕駛環(huán)境感知方面的潛力。為解決誤差累積問題,研究人員試圖利用端到端框架直接確定 BEV 中的物體位置,并以占位網(wǎng)格圖的形式預(yù)測全局場景變化。
如圖1和圖4所示,雖然采用了端到端范例,但現(xiàn)有方法預(yù)測了多個(gè)部分冗余的表征,如分割圖、實(shí)例中心、前向流和指向?qū)嵗行牡钠?。這些冗余表征不僅需要各種損失項(xiàng),還需要復(fù)雜的后處理才能獲得實(shí)例預(yù)測。
在這項(xiàng)工作中,我們簡化了之前工作中使用的多任務(wù)設(shè)置,并提出了一種只需要兩種輸出模式的方法:分割圖和流量。具體來說,我們直接從分割中計(jì)算實(shí)例中心,從而省去了多余的單獨(dú)中心圖。這也消除了估計(jì)中心和預(yù)測分割之間不一致的可能性。此外,與前人使用的前向流不同,我們計(jì)算的是向心后向流。這是一個(gè)矢量場,從當(dāng)前每個(gè)被占據(jù)的像素點(diǎn)指向上一幀中其對應(yīng)的實(shí)例中心。它將像素級關(guān)聯(lián)和實(shí)例級關(guān)聯(lián)合并為單一的像素實(shí)例分配任務(wù)。因此,不再需要偏移頭。此外,這種設(shè)計(jì)選擇還簡化了關(guān)聯(lián)過程,因?yàn)樗辉傩枰鄠€(gè)步驟。與自動(dòng)回歸模型相比,我們還發(fā)現(xiàn)二維卷積網(wǎng)絡(luò)足以讓所提出的 POWER BEV 框架獲得令人滿意的實(shí)例預(yù)測,從而形成一個(gè)輕量級但功能強(qiáng)大的框架。
我們在NuScenes數(shù)據(jù)集上對我們的方法進(jìn)行了評估,結(jié)果表明我們的方法優(yōu)于現(xiàn)有框架,并達(dá)到了最先進(jìn)的實(shí)例預(yù)測性能。我們還進(jìn)一步進(jìn)行了消融研究,以驗(yàn)證我們強(qiáng)大而輕巧的框架設(shè)計(jì)。
我們的主要貢獻(xiàn)可總結(jié)如下:
●我們提出了 POWER BEV,這是一種新穎而優(yōu)雅的基于視覺的端到端框架,它僅由二維卷積層組成,可對 BEV 中的多個(gè)物體進(jìn)行感知和預(yù)測。
●我們證明,冗余表征導(dǎo)致的過度監(jiān)督會損害預(yù)測能力。相比之下,我們的方法通過簡單的預(yù)測分割和向心后向流就能完成語義和實(shí)例級代理預(yù)測。
●基于向心后向流的分配方案優(yōu)于之前的前向流和傳統(tǒng)的匈牙利匹配算法。
03 相關(guān)工作
■3.1 BEV針對基于相機(jī)的3D感知
雖然基于激光雷達(dá)的感知方法通常會將三維點(diǎn)云映射到 BEV 平面上,并進(jìn)行 BEV 分割或三維邊界框回歸,但將單目相機(jī)圖像轉(zhuǎn)換為 BEV 表示仍然是一個(gè)難題。雖然有一些方法結(jié)合激光雷達(dá)和相機(jī)數(shù)據(jù)生成 BEV,但這些方法依賴于精確的多傳感器校準(zhǔn)和同步。
LSS(Lift Splat Shoot)可被視為第一個(gè)將二維特征提升到三維并將提升后的特征投射到 BEV 平面上的工作。它將深度離散化,并預(yù)測深度分布。然后,圖像特征將根據(jù)該分布在深度維度上進(jìn)行縮放和分布。BEVDet 將 LSS 適應(yīng)于從 BEV 特征圖進(jìn)行 3D 物體檢測。2021 年特斯拉人工智能日首先提出使用 Transformer 架構(gòu)將多視角相機(jī)特征融合到 BEV 特征圖中,其中密集 BEV 查詢和透視圖像特征之間的交叉關(guān)注充當(dāng)視圖變換。通過利用 BEVFormer和 BEVSegFormer中的相機(jī)校準(zhǔn)和可變形注意力來降低變換器的二次方復(fù)雜性,這種方法得到了進(jìn)一步改進(jìn)。此外,已有研究表明,BEV 特征的時(shí)間建??娠@著提高三維檢測性能,但代價(jià)是高計(jì)算量和內(nèi)存消耗。與檢測或分割不同,預(yù)測任務(wù)自然需要對歷史信息進(jìn)行時(shí)間建模。為此,我們的方法在 LSS 的基礎(chǔ)上使用輕量級全卷積網(wǎng)絡(luò)提取時(shí)空信息,既有效又高效。
■3.2 BEV未來預(yù)測
早期基于 BEV 的預(yù)測方法將過去的軌跡渲染為 BEV 圖像,并使用 CNN 對光柵化輸入進(jìn)行編碼,假設(shè)完美檢測和跟蹤物體。另一項(xiàng)工作是直接從 LiDAR 點(diǎn)云進(jìn)行端到端軌跡預(yù)測。與實(shí)例級軌跡預(yù)測不同,MotionNet和 MP3 通過每個(gè)占用網(wǎng)格的運(yùn)動(dòng)(流)場來處理預(yù)測任務(wù)。與上述依賴 LiDAR 數(shù)據(jù)的方法相比,F(xiàn)IERY 首先僅根據(jù)多視圖相機(jī)數(shù)據(jù)預(yù)測 BEV 實(shí)例分割。FIERY 按照 LSS 提取多幀 BEV 特征,使用循環(huán)網(wǎng)絡(luò)將它們?nèi)诤铣蓵r(shí)空狀態(tài),然后進(jìn)行概率實(shí)例預(yù)測。StretchBEV 使用具有隨機(jī)殘差更新的隨機(jī)時(shí)間模型改進(jìn)了 FIERY。BVerse 提出了一種潛在空間中的迭代流扭曲,用于多任務(wù) BEV 感知框架中的預(yù)測。這些方法遵循 Panoptic-DeepLab ,它利用四個(gè)不同的頭來計(jì)算語義分割圖、實(shí)例中心、每像素向心偏移和未來流。他們依靠復(fù)雜的后處理從這四種表示生成最終的實(shí)例預(yù)測。在本文中,我們表明只需兩個(gè)頭,即語義分割和向心向后流,再加上簡化的后處理就足以用于未來的實(shí)例預(yù)測。
▲圖2|PowerBEV算法架構(gòu)
04 方法
在本節(jié)中,我們概述了我們提出的端到端框架。該方法的概述如圖 2 所示。它由三個(gè)主要部分組成:感知模塊、預(yù)測模塊和后處理階段。感知模塊遵循 LSS ,并以時(shí)間戳中的 T 為輸入,將 M 個(gè)多視圖相機(jī)圖像作為輸入,并將它們提升到 BEV 特征圖中的 T(參見第 3.1節(jié))。然后,預(yù)測模塊融合提取的 BEV 特征中包含的時(shí)空信息(參見第 3.2 節(jié)),并并行預(yù)測未來幀的分割圖序列和向心向后流(參見第 3.3 節(jié))。最后,從預(yù)測的分割中恢復(fù)未來的實(shí)例預(yù)測,并通過基于變形的后處理(參見第 3.4 節(jié))。下面我們詳細(xì)描述每個(gè)涉及的組件。
▲圖3|多尺度預(yù)測模型架構(gòu)
■4.1 基于LSS的感知模塊
為了獲得用于預(yù)測的視覺特征,本文遵循他人的工作并且在 LSS 上構(gòu)建,從周圍相機(jī)圖像中提取 BEV 特征網(wǎng)格。更準(zhǔn)確的,針對每張圖像在時(shí)刻,然后應(yīng)用一個(gè)共享的EfficientNet基干,提取透視特征,其中我們指定的第一個(gè)通道參數(shù)表示一個(gè)上下文特征,接著通道表示一個(gè)類別深度分布。一個(gè)3D特征張量是由外積均值組成:
這個(gè)公式表示了上下文特征提升到不同深度,根據(jù)估計(jì)到的深度分布置信度。之后,每個(gè)相機(jī)特征分布圖,在每個(gè)時(shí)間戳被轉(zhuǎn)換到本體車輛中心坐標(biāo)系統(tǒng),同時(shí)利用對應(yīng)相機(jī)的內(nèi)參和外參。之后,將轉(zhuǎn)換后的特征沿著高度維度進(jìn)行加權(quán),得到全局的BEV狀態(tài)在時(shí)間戳,其中是狀態(tài)通道數(shù)量,是BEV狀態(tài)圖的網(wǎng)格尺度。最后,所有BEV狀態(tài)被統(tǒng)一到當(dāng)前幀,然后如同F(xiàn)IERY一樣堆疊,因此表示當(dāng)前全局狀態(tài)且獨(dú)立于本體車輛位置。
■4.2 多尺度預(yù)測模塊
在獲得對于過去上下文的一個(gè)緊湊表示之后,我們使用一個(gè)類似于U-Net的多尺度編解碼架構(gòu),以觀測到的BEV特征作為輸入,預(yù)測未來分割圖和向心后向流場,如圖3所示。為了獲得時(shí)空特征,本文僅用2D卷積進(jìn)行處理,具體是將時(shí)間和特征維度壓縮進(jìn)單個(gè)維度,生成一個(gè)輸入張量結(jié)果。編碼器首先按照空間尺度逐步對進(jìn)行下采樣,得到一個(gè)多尺度BEV特征,其中。在一個(gè)中間預(yù)測階段,特征圖從映射到得到。最后,解碼器在輸入尺度重建未來BEV特征。
每個(gè)分支在監(jiān)督下分別預(yù)測未來的分割圖或向心后流場,考慮到任務(wù)和監(jiān)督的不同,我們對每個(gè)分支采用相同的架構(gòu),但不進(jìn)行權(quán)重共享。與之前基于空間 LSTM 或空間 GRU 的工作相比,我們的架構(gòu)只利用了2D卷積,在很大程度上緩解了空間 RNN 在解決長程時(shí)間依賴性方面的局限性。
▲圖4|任務(wù)相似度
■4.3 多任務(wù)設(shè)定
現(xiàn)有方法采用自下而上的流程,為每幀生成實(shí)例分割,然后根據(jù)前向流使用匈牙利匹配(HM)跨幀關(guān)聯(lián)實(shí)例。因此,在 BEV 中需要四個(gè)不同的頭部:語義分割、中心性、未來前向流和每像素向心偏移(圖1.a)。這就導(dǎo)致了多任務(wù)訓(xùn)練帶來的模型冗余和不穩(wěn)定性。通過比較,我們首先發(fā)現(xiàn)流量和向心偏移都是實(shí)例掩碼內(nèi)的回歸任務(wù)(圖4.b),流量可以理解為運(yùn)動(dòng)偏移。
此外,這兩個(gè)量與中心度的結(jié)合分為兩個(gè)階段:
(1)向心偏移將像素分組到每幀中預(yù)測的實(shí)例中心,為像素分配實(shí)例 ID;
(2)流量用于匹配連續(xù)兩幀中的中心,進(jìn)行實(shí)例 ID 關(guān)聯(lián)。
基于上述分析,我們可以直觀地使用統(tǒng)一的表示方法來解決這兩項(xiàng)任務(wù)。
總之,我們的網(wǎng)絡(luò)僅產(chǎn)生兩個(gè)輸出:語義分割圖,以及向心后向流。我們使用top-k交叉熵,且k=25%作為分割損失,以及一個(gè)平滑距離作為流損失,整體的損失函數(shù)表示如下:
■4.4 實(shí)例關(guān)聯(lián)
▲圖5|實(shí)例匹配
關(guān)于實(shí)例預(yù)測,現(xiàn)有方法使用前向流將實(shí)例中心投射到下一幀,然后使用匈牙利匹配法(Hungarian Matching)匹配最近的代理中心,如圖5.a 所示。因此,只有位于物體中心的流向量才會被用于運(yùn)動(dòng)預(yù)測。這種方法有兩個(gè)缺點(diǎn):首先,沒有考慮物體的旋轉(zhuǎn);其次,單個(gè)位移矢量比覆蓋整個(gè)實(shí)例的多個(gè)位移矢量更容易出錯(cuò)。在實(shí)踐中,這可能會導(dǎo)致投影實(shí)例重疊,從而導(dǎo)致 ID 分配錯(cuò)誤。在較長的預(yù)測范圍內(nèi),這一點(diǎn)對于距離較近的物體尤為明顯。
利用我們的后向心流,我們進(jìn)一步提出了基于經(jīng)變的像素級關(guān)聯(lián)來解決上述問題。圖 5.b 展示了我們的關(guān)聯(lián)方法。對于每個(gè)前景網(wǎng)格單元,該操作直接將實(shí)例 ID 從上一幀中位于流矢量目的地的像素傳播到當(dāng)前幀。使用這種方法,每個(gè)像素的實(shí)例 ID 都是單獨(dú)分配的,從而產(chǎn)生像素級關(guān)聯(lián)。
與實(shí)例級關(guān)聯(lián)相比,我們的方法可以容忍更嚴(yán)重的流量預(yù)測誤差,因?yàn)檎鎸?shí)中心周圍的相鄰網(wǎng)格單元傾向于共享相同的標(biāo)識,而誤差往往發(fā)生在單個(gè)外圍像素上。此外,通過使用后向流量扭曲,可以將多個(gè)未來位置與前一幀中的一個(gè)像素相關(guān)聯(lián),這有利于多模態(tài)未來預(yù)測。
05 實(shí)驗(yàn)驗(yàn)證
■5.1 實(shí)驗(yàn)設(shè)定
· 數(shù)據(jù)集:
我們在 NuScenes 數(shù)據(jù)集上對我們的方法進(jìn)行評估,并將其與最先進(jìn)的框架進(jìn)行比較,這是一個(gè)廣泛用于自動(dòng)駕駛感知和預(yù)測的公共數(shù)據(jù)集。該數(shù)據(jù)集包含從波士頓和新加坡收集的 1000 個(gè)駕駛場景,分為訓(xùn)練集、驗(yàn)證集和測試集,分別有 750、150 和 150 個(gè)場景。每個(gè)場景由 20 秒的交通數(shù)據(jù)組成,并以 2 Hz 的頻率標(biāo)注語義注釋。
· 實(shí)施細(xì)節(jié)
我們沿用了現(xiàn)有研究的設(shè)置,即使用過去 1 秒(包括當(dāng)前幀)對應(yīng)的 3 個(gè)幀的信息來預(yù)測未來 2 秒對應(yīng)的 4 個(gè)幀的語義分割、流量和實(shí)例運(yùn)動(dòng)。為了評估模型在不同感知范圍內(nèi)的性能,采用了兩種空間分辨率:
(1)100 米 ×100 米區(qū)域,分辨率為 0.5 米(長);
(2)30 米 ×30 米區(qū)域,分辨率為 0.15 米(短)。
使用學(xué)習(xí)率為 3 × 10 -4 的 Adam 優(yōu)化器,端到端框架在 4 個(gè)配備 16 GB 內(nèi)存的 Tesla V100 GPU 上進(jìn)行了20 次訓(xùn)練,批量大小為 8。我們的實(shí)現(xiàn)基于 FIERY 的代碼。
· 指標(biāo)
我們沿用了 FIERY 的評估程序。為了評估分割的準(zhǔn)確性,我們使用“交集大于聯(lián)合”(Intersection-over-Union,IoU)作為分割質(zhì)量的評估指標(biāo)。
· 基準(zhǔn)方法
我們將 PowerBEV 與三種最先進(jìn)的方法 FIERY、Stretch-BEV 和 BEVerse進(jìn)行了比較。FIERY 和 StretchBEV 的實(shí)驗(yàn)設(shè)置與我們的工作相同,只是批量更大,為 12 批,使用 4 個(gè) Tesla V100 GPU,每個(gè)GPU 有 32GB 內(nèi)存。BEVerse 將骨干系統(tǒng)升級為更先進(jìn)的 SwinTransformer,將圖像輸入大小大幅增加到 704 × 256,批量大小增加到 32,使用32 個(gè) NVIDIA GeForceRTX 3090 GPU 訓(xùn)練端到端模型。為了證明我們框架的有效性,我們故意不使用像 BEVerse 那樣的大型模型或大尺寸圖像,而是在 FLOPs 和 GPU 內(nèi)存使用量方面將自己限制在FIERY 設(shè)置中,以便進(jìn)行公平的比較。
■5.2 實(shí)驗(yàn)結(jié)果
(1)量化結(jié)果
我們首先在表 1 中比較了我們的方法與基準(zhǔn)框架的性能。我們還將 FIERY 與我們提出的標(biāo)簽生成方法(參見第 4.1 節(jié))進(jìn)行了比較,結(jié)果發(fā)現(xiàn)我們在遠(yuǎn)距離領(lǐng)域的性能有所提高,這對自動(dòng)駕駛汽車的安全性至關(guān)重要。
▲表1|實(shí)例預(yù)測對比結(jié)果
如表2所示,我們改變了額外訓(xùn)練目標(biāo)的數(shù)量和類型。只有兩個(gè)頭部的方法(模型 [D])比所有其他變體的表現(xiàn)都要好。增加中心點(diǎn)(模型 [B])或偏移點(diǎn)(模型 [C])會對各種指標(biāo)產(chǎn)生負(fù)面影響。
▲表2|不同預(yù)測頭對比結(jié)果
從表 3 的上半部分可以看出,我們的方法(模型 [F])在 IoU 和 VPQ 方面都優(yōu)于基于 HM 的實(shí)例級關(guān)聯(lián)(模型 [E])。
▲表3|PowerBEV與HM的對比結(jié)果
(2)定性結(jié)果
如圖6所示,該結(jié)果展示了在三個(gè)典型駕駛場景中與 FIERY 的比較:動(dòng)態(tài)交通密集的城市場景、靜態(tài)車輛眾多的停車場和雨天場景。在最常見的密集交通場景中,我們的方法提供了更精確、更可靠的軌跡預(yù)測,這一點(diǎn)在第一個(gè)例子中尤為明顯,即車輛在本體車輛左側(cè)拐入小路。
▲圖6|實(shí)例預(yù)測示意圖
06 結(jié)語
在這項(xiàng)工作中,我們提出了一個(gè)新穎的框架 POWERBEV,用于預(yù)測 BEV 中的未來實(shí)例。我們的方法采用并行方案,利用2D網(wǎng)絡(luò)(2D-CNNs)僅預(yù)測語義分割和向心后向流。此外,它還采用了一種新穎的后處理方法,能更好地處理多模態(tài)未來運(yùn)動(dòng),在 NuScenes 基準(zhǔn)中實(shí)現(xiàn)了最先進(jìn)的實(shí)例預(yù)測性能。我們提供了詳盡的消融研究,對我們的方法進(jìn)行了分析,并展示了其有效性。實(shí)驗(yàn)證實(shí),POWERBEV 比以前的方法更輕便,但性能有所提高。因此,我們相信這種方法可以成為 BEV 實(shí)例預(yù)測的新設(shè)計(jì)范例。
原文鏈接:https://mp.weixin.qq.com/s/KpJ9SsfkdR5vpawz6suvFQ