多模態(tài)卷進(jìn)車路協(xié)同 | V2VFormer++:首個(gè)多模態(tài)V2V框架問世!
本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
筆者的個(gè)人理解
最近出現(xiàn)的多車輛協(xié)作感知旨在促進(jìn)聯(lián)網(wǎng)自動(dòng)車輛(CAV)的遠(yuǎn)距離和大規(guī)模感知能力。 盡管如此,人們付出了巨大的努力將協(xié)同感知制定為僅 LiDAR 的 3D 檢測范例,而忽略了密集圖像的重要性和補(bǔ)充。 在這項(xiàng)工作中,我們構(gòu)建了第一個(gè)多模態(tài)車對車協(xié)同感知框架,稱為 V2VFormer++,其中單個(gè)攝像頭-LiDAR 表示與鳥瞰 (BEV) 空間的動(dòng)態(tài)通道融合 (DCF) 相結(jié)合,并且來自相鄰車輛的以自我為中心的 BEV 地圖由全局-局部transformer模塊聚合。 具體來說,開發(fā)了采用 MLP 設(shè)計(jì)的通道token混合器 (CTM),以捕獲相鄰 CAV 之間的全局響應(yīng),并且位置感知融合 (PAF) 進(jìn)一步從局部角度研究每個(gè)自我網(wǎng)絡(luò)地圖之間的空間相關(guān)性。 通過這種方式,我們可以戰(zhàn)略性地確定哪些 CAV 適合協(xié)同以及如何從它們中聚合最重要的信息。 在公開的 OPV2V 和 V2X-Sim2.0 基準(zhǔn)上進(jìn)行了定量和定性實(shí)驗(yàn),我們提出的 V2VFormer++ 得到了最先進(jìn)的協(xié)同感知性能,展示了其有效性和先進(jìn)性。 此外,消融研究和可視化分析進(jìn)一步表明,其對現(xiàn)實(shí)場景中的各種干擾具有很強(qiáng)的魯棒性。
V2VFormer++的主要思路是什么?
作為前沿技術(shù),自動(dòng)駕駛被視為智能交通系統(tǒng)(ITS)的發(fā)展趨勢,為解決交通擁堵、碰撞和排放污染等棘手問題提供了一種有前景的解決方案。 隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺的發(fā)展,環(huán)境感知作為自動(dòng)駕駛系統(tǒng)的重要組成部分,在物體檢測和分割任務(wù)方面也取得了長足的進(jìn)步。在準(zhǔn)確性和效率方面都獲得了顯著的性能改進(jìn)。 由于復(fù)雜的交通場景和變化的物理?xiàng)l件,單純依靠自車視角信息很難保證魯棒性和安全的傳感性能。 因此,如何挖掘和聚合多源信息來增強(qiáng)感知能力是學(xué)術(shù)界和工業(yè)界的熱點(diǎn)問題。
最近出現(xiàn)了基于信息融合和數(shù)據(jù)共享的車車(V2V)協(xié)同感知,它通過低延遲車輛通信戰(zhàn)略性地整合來自鄰近聯(lián)網(wǎng)自動(dòng)車輛(CAV)的多視圖環(huán)境。 這樣,可以顯著緩解各種駕駛場景中出現(xiàn)的盲點(diǎn)、超視距、遮擋等感知挑戰(zhàn),同時(shí)使自動(dòng)駕駛汽車具備遠(yuǎn)距離、大范圍的感知能力 如圖1所示。根據(jù)不同的協(xié)同策略,當(dāng)前的工作關(guān)于多智能體感知可以分為三個(gè)層次。 一方面,早期融合將來自每輛車的原始傳感器數(shù)據(jù)傳輸?shù)侥繕?biāo)車輛,然而,由于難以承受的計(jì)算開銷和通信帶寬,它無法滿足實(shí)時(shí)系統(tǒng)的要求。 另一方面,后期融合通過數(shù)學(xué)運(yùn)算(即求和和平均)或注意力機(jī)制直接對各個(gè)檢測進(jìn)行重新加權(quán),大大提高了運(yùn)行速度。 然而,不同車輛的誤報(bào)可能會以這種方式被放大,累積的空間位移會逐步損害多智能體的協(xié)同性能。 中間特征協(xié)同由于其在準(zhǔn)確性和速度之間更好的權(quán)衡而越來越受歡迎,將 CAV 緊湊的特征的表示(例如 BEV 地圖)轉(zhuǎn)換為統(tǒng)一坐標(biāo),以便在全局視圖中全面了解交通場景。 給定多個(gè) BEV 特征,基于圖的方法創(chuàng)建一個(gè)加權(quán)協(xié)同圖,其中每個(gè)節(jié)點(diǎn)表示單個(gè)車輛及其實(shí)時(shí)姿態(tài)信息,成對邊緣通過空間權(quán)重矩陣定義相鄰車輛之間的關(guān)系。 此外,基于 Transformer 的算法對編碼序列執(zhí)行自注意力或交叉注意力操作,以捕獲 CAV 之間的局部和全局依賴性。 作為替代方案,通過最遠(yuǎn)點(diǎn)采樣(FPS)有效地選擇關(guān)鍵點(diǎn)表示來突出顯示重要點(diǎn),只有當(dāng)它存在于候選提案中時(shí)才會被進(jìn)一步保留。 總之,這些工作的流程是在自我坐標(biāo)上結(jié)合車輛間表示來增強(qiáng)特征,但由于激光雷達(dá)點(diǎn)的稀疏性和不均勻性,很容易出現(xiàn)特征模糊和語義缺陷。 更重要的是,以前的協(xié)同策略在投影到參考坐標(biāo)后顯式地構(gòu)建空間特征關(guān)系,但研究全局中 CAV 之間的通道交互并非易事。
在本文中,我們將感知轉(zhuǎn)化為3D目標(biāo)檢測任務(wù),并開發(fā)了多模態(tài)車車協(xié)同感知框架,稱為V2VFormer++。 對于每個(gè) CAV,提出了一種相機(jī)-LiDAR 范例來克服僅 LiDAR 檢測的缺點(diǎn),它用密集的上下文(即紋理、輪廓等)補(bǔ)償精確的幾何形狀,以實(shí)現(xiàn)多功能的環(huán)境描述。為了獲得統(tǒng)一平面上的表達(dá)表示,我們通過視圖變換將兩種異構(gòu)模態(tài)投影到鳥瞰圖(BEV)空間中,并進(jìn)一步設(shè)計(jì)了一種簡單而高效的多模態(tài)融合模塊動(dòng)態(tài)通道融合(DCF)像素 -以自適應(yīng)方式進(jìn)行點(diǎn)對應(yīng)聚合。 通過這種方式,可以通過邊際計(jì)算預(yù)算充分利用每個(gè)以自我為中心的視角的豐富語義屬性。對于車輛到車輛的感知,提出了一種新穎的全局-局部變換策略來聚合 CAV 的中間特征。 具體來說,我們首先采用MLP設(shè)計(jì)的通道token混合器(CTM)來計(jì)算不同車輛之間的全局響應(yīng),從而根據(jù)相關(guān)性得分來匹配每個(gè)自我網(wǎng)絡(luò)對。 為了更多地關(guān)注感興趣區(qū)域(RoI),引入了位置感知融合(PAF)來關(guān)注所有車輛的信息區(qū)域,并且還使用自注意力transformer探索了局部的像素級特征語義。 最后,我們對 OPV2V 和 V2X-Sim 2.0數(shù)據(jù)集進(jìn)行了全面的實(shí)證研究,提出的 V2VFormer++ 實(shí)現(xiàn)了最先進(jìn)的協(xié)作感知精度,對比同行(例如,多 車輛單模式和多車輛多模式)大幅提高。 此外,對不同配置和場景的消融分析進(jìn)一步表明其針對現(xiàn)實(shí)世界中斷的魯棒性和通用性。
綜上所述,這項(xiàng)工作的貢獻(xiàn)主要描述如下:
- 我們提出了 V2VFormer++,這是第一個(gè)多模態(tài)車輛間協(xié)同感知框架,它使用來自單獨(dú)車輛的異構(gòu)模態(tài)來增強(qiáng)多智能體協(xié)作性能。
- 動(dòng)態(tài)通道融合(DCF)模塊旨在以自適應(yīng)方式從相機(jī)和 LiDAR BEV 視圖進(jìn)行對應(yīng)聚合。
- 全局-局部transformer協(xié)同是一種中間融合策略,其中開發(fā)通道token混合器(CTM)用于捕獲CAV之間的全局響應(yīng),并利用位置感知融合(PAF)模塊從局部角度探索空間語義 。
- 沒有花里胡哨的東西,我們的 V2VFormer++ 報(bào)告了 OPV2V和V2X-Sim 2.0基準(zhǔn)測試中最先進(jìn)的協(xié)同檢測性能,其性能顯著優(yōu)于所有替代方案。 此外,消融研究和可視化結(jié)果進(jìn)一步證明了其針對現(xiàn)實(shí)場景中各種干擾的魯棒性。
領(lǐng)域目前的工作
本節(jié)旨在回顧基于 LiDAR 和攝像頭 LiDAR 3D 目標(biāo)檢測以及車車協(xié)同感知的相關(guān)研究。
A. 基于 LiDAR 的 3D 檢測
根據(jù)不同的數(shù)據(jù)格式,基于LiDAR的3D檢測可大致分為三類:基于點(diǎn)、基于體素和混合表示。 基于點(diǎn)的算法直接使用PointNet 和PointNet ++架構(gòu)的原始LiDAR數(shù)據(jù)來進(jìn)行可靠的幾何特征提取,前者采用集合抽象(SA)運(yùn)算符來聚合逐點(diǎn)表示并利用變換網(wǎng)絡(luò)(T-Net)用于輸入和特征級別的特征對齊,而后者通過分層采樣方法進(jìn)一步從點(diǎn)云學(xué)習(xí)局部和全局上下文。 對于3D檢測任務(wù),3DSSD同時(shí)引入距離(D-)和特征(F-)最遠(yuǎn)點(diǎn)采樣(FPS)策略來處理點(diǎn)表示的稀疏性,并通過SSD(單級)進(jìn)行目標(biāo)定位和分類 探測器)類似的架構(gòu)。 為了更好地區(qū)分前景點(diǎn)和背景,CenterPoint 提取關(guān)鍵點(diǎn)特征以從目標(biāo)的中心點(diǎn)預(yù)測 3D 邊界框,而 IA-SSD利用 SSD 架構(gòu)的實(shí)例感知特征進(jìn)行 3D 目標(biāo)檢測。 基于體素的檢測器是一種有效的范例,其中 3D 點(diǎn)空間首先被離散化為規(guī)則網(wǎng)格,然后引入卷積網(wǎng)絡(luò)來處理每個(gè)體素內(nèi)編碼的細(xì)粒度特征。 作為開創(chuàng)性工作,VoxelNet設(shè)計(jì)了堆疊體素特征編碼(VFE)層來進(jìn)行逐點(diǎn)信息提取,然后利用 3D 卷積進(jìn)行局部中間特征聚合。 為了加快推理速度,SECOND 開發(fā)了 3D 稀疏卷積來進(jìn)行高效體素特征編碼,而 PointPillars將點(diǎn)云折疊為 2D 表示并使用稀疏卷積主干。 受 2D Faster RCNN 思想的啟發(fā),Deng et al.提出了一種名為 Voxel RCNN 的兩階段 3D 檢測框架,在精度和效率之間具有更好的權(quán)衡,首先生成粗略的 3D 候選推薦,并在第二階段通過體素 RoI 池化層執(zhí)行框細(xì)化。 此外,CAGroup3D探索全卷積3D池化來增強(qiáng)每個(gè)推薦框內(nèi)的主干特征,追求最終的檢測性能。 將逐點(diǎn)特征與體素特征結(jié)合起來進(jìn)行 3D 目標(biāo)檢測的研究最近成為一個(gè)熱點(diǎn)問題。 STD遵循稀疏到密集的檢測范式,該范式通過新穎的球形錨從原始點(diǎn)獲得準(zhǔn)確的推薦,并通過點(diǎn)池化從稀疏點(diǎn)表達(dá)生成緊湊的表示。 PV-RCNN使用體素集抽象模塊將3D場景概括為一組關(guān)鍵點(diǎn),并通過RoI網(wǎng)格池化將特定于推薦的特征抽象為密集網(wǎng)格。 此外,PV-RCNN++引入了位置敏感融合模塊,用于點(diǎn)云和體素網(wǎng)格上的特征增強(qiáng)。 Part-A2 Net由部分感知和部分聚合階段組成,前者旨在生成具有目標(biāo)內(nèi)部分位置的高質(zhì)量推薦,而后者在池化后根據(jù)空間位置關(guān)系進(jìn)行框細(xì)化。 SE-SSD采用一對teacher和student檢測器,采用有效的基于 IoU 的匹配策略和一致性 ODIoU 損失來提高性能。 此外,Noh et al.提出了一種新的 HVPR 架構(gòu),它將基于點(diǎn)和基于體素的特征集成到單個(gè) 3D 表示中,并設(shè)計(jì)了細(xì)心的多尺度特征模塊,以從稀疏和不規(guī)則的點(diǎn)模式中學(xué)習(xí)尺度感知信息。 在本文中,我們采用 PointPillars 作為單車 LiDAR 骨干網(wǎng),以實(shí)現(xiàn)效率和精度之間的權(quán)衡。
B. 相機(jī)-LiDAR 3D 物體檢測
相機(jī)-LiDAR融合感知最近展示了其優(yōu)越性并引起了3D檢測的廣泛關(guān)注,它彌補(bǔ)了僅激光雷達(dá)方法的稀疏性、不確定性和語義碎片化。 在沒有復(fù)雜的偽激光雷達(dá)生成過程的情況下,Pointpainting設(shè)計(jì)了一種基于順序的融合機(jī)制,首先用圖像分割網(wǎng)絡(luò)產(chǎn)生的像素級語義得分來修飾原始點(diǎn)云,然后將它們放入任何僅激光雷達(dá)流程中。 3D-CVF將密集的相機(jī)體素投影到 BEV 平面上,并通過自適應(yīng)門控注意力圖連接每個(gè)模態(tài)。 此外,Chen et al.通過可學(xué)習(xí)的透視對齊而不是固有的投影矩陣建立像素-體素視圖關(guān)聯(lián),靈活地實(shí)現(xiàn)異構(gòu)表示的一致性。最近,Transfusion首次嘗試將transformer引入相機(jī) LiDAR 3D檢測中,因?yàn)樗谶h(yuǎn)程依賴建模方面具有優(yōu)越性。它應(yīng)用兩個(gè)順序解碼器層將目標(biāo)查詢與 BEV 平面上的粗略 LiDAR 和精細(xì)增益圖像特征軟關(guān)聯(lián),逐步增強(qiáng)感知性能。 類似地,UVTR通過基于transformer的解碼器和概率深度分布將圖像特定空間擴(kuò)展到體素,并進(jìn)一步通過知識遷移進(jìn)行交叉注意特征交互。 BEVFusion將多模態(tài)流轉(zhuǎn)換為規(guī)范坐標(biāo),并采用動(dòng)態(tài)融合策略來防止 LiDAR 故障造成的故障情況。 在本文中,我們的目標(biāo)是一種簡單而優(yōu)雅的像素點(diǎn)融合范式,其中異構(gòu)特征可以轉(zhuǎn)換為統(tǒng)一的表示,并且兩個(gè) BEV 圖以自適應(yīng)聚合的方式投影到與高度無關(guān)的自車平面上。
C. 車與車協(xié)同感知
車輛對車輛(V2V)協(xié)同感知最近隨著先進(jìn)的車輛通信和信息融合而出現(xiàn),從而為緩解單智能體檢測帶來的超視距和盲點(diǎn)挑戰(zhàn)提供了有效的解決方案。 總體而言,該流程將來自聯(lián)網(wǎng)自動(dòng)車輛(CAV)的多視圖周圍感知數(shù)據(jù)與以自車為中心的觀察相結(jié)合,以促進(jìn)全局感知能力,并且根據(jù)不同的合作階段,先前的工作可主要分為早期、 中期和后期協(xié)同。 Cooper主要共享多分辨率 LiDAR 點(diǎn),并將自己的稀疏表示投影到緊湊的空間中,然后使用稀疏點(diǎn)云目標(biāo)檢測(SPOD)網(wǎng)絡(luò)來適應(yīng)低密度點(diǎn)云。 然而,它在早期融合方式中導(dǎo)致了難以承受的計(jì)算開銷。 相反,后期融合方法結(jié)合了來自不同車輛的獨(dú)立預(yù)測,并進(jìn)行推薦細(xì)化以產(chǎn)生最終結(jié)果。 Hurl et al.引入了用于安全消息選擇的信任機(jī)制,并集成了一種新穎的 TruPercept 根據(jù)一致性得分重新加權(quán)輸出。 然而,由于過度依賴個(gè)體預(yù)測,這種方法很容易出現(xiàn)不令人滿意的結(jié)果。 為了在感知精度和推理延遲之間進(jìn)行權(quán)衡,相鄰車輛之間的中間特征融合已被廣泛探索,以追求良好的性能增益。 Wang et al. 提出了一種基于圖的方法,通過卷積門控循環(huán)單元(ConvGRU)迭代捕獲和更新每輛車的地理信息。 為了強(qiáng)調(diào)代理的重要性,DiscoNet通過邊緣權(quán)重矩陣丟棄車輛之間高度相似的像素,并通過知識蒸餾構(gòu)建整體幾何拓?fù)洹?為了模擬現(xiàn)實(shí)世界中傳輸延遲的影響,Liu et al.提出了一個(gè)三步握手通信協(xié)議,包括請求、匹配和連接,確定與哪個(gè)協(xié)同者交互。 此外,Liu et al.考慮了一種可學(xué)習(xí)的自我注意機(jī)制來推斷自我代理是否進(jìn)行額外的通信以獲得更多信息。 Hu et al.開發(fā)了一種新穎的稀疏置信圖來掩蓋特征壓縮的無關(guān)緊要元素。 作為車載攝像頭的細(xì)粒度和密集預(yù)測,Xu et al.研究了 BEV 平面下的僅相機(jī)地圖預(yù)測框架,該框架利用新穎的融合軸向(FAX)注意來重建地平面上的動(dòng)態(tài)場景。 盡管上述算法取得了顯著的性能,但它們主要關(guān)注局部區(qū)域中 CAV 之間的空間相關(guān)性,而沒有用于重疊語義細(xì)化的全局特征交互。 在這項(xiàng)工作中,我們嘗試設(shè)計(jì)一種名為 V2VFormer++ 的新型中間特征協(xié)作,它顯式地捕獲每輛車之間的全局響應(yīng),并且自我網(wǎng)絡(luò)對利用基于變壓器的操作以位置方式關(guān)注局部判別特征。
圖1 協(xié)同感知的優(yōu)勢。 左邊。 汽車在路口行駛時(shí)未能提前感知公共車輛(PV)的潛在威脅。 借助聯(lián)網(wǎng)自動(dòng)車輛(CAV),可以將整體視圖信息傳輸?shù)阶攒嚕‥go),以規(guī)避盲點(diǎn)區(qū)域的交通沖突。 右邊。 檢測結(jié)果在鳥瞰(BEV)空間中可視化。
圖2. V2VFormer++架構(gòu)圖。 對于每輛車,采用具有特定模態(tài)backbone的雙流網(wǎng)絡(luò)在 BEV 平面中進(jìn)行相機(jī)-LiDAR 特征提取(使用稀疏交叉注意 SCA 模塊進(jìn)行相機(jī)-視圖變換),并設(shè)計(jì)動(dòng)態(tài)通道融合(DCF)以實(shí)現(xiàn)精細(xì) - 粒度像素點(diǎn)聚合。 給定多模態(tài)BEV圖,進(jìn)行數(shù)據(jù)壓縮和共享以生成一組在自車-坐標(biāo)處的特征圖。 隨后,提出了全局-局部transformer協(xié)同策略,用于相鄰 CAV 之間的通道語義探索和空間相關(guān)建模。 最后,將多車輛融合圖 輸入到預(yù)測頭中以進(jìn)行目標(biāo)分類和定位回歸。
方法的整體設(shè)計(jì)
在本節(jié)中,我們將介紹所提出的多模態(tài)車對車協(xié)同感知框架V2VFormer++。 如圖2所示,整體架構(gòu)主要包含四個(gè)部分:(1)用于多視圖相機(jī)和LiDAR點(diǎn)特征提取的模態(tài)特定backbone; (2)像素點(diǎn)融合模塊,用于自適應(yīng)地聚合語義和幾何信息; (3)具有自注意力機(jī)制的信息區(qū)域的全局局部transformer; (4)用于產(chǎn)生目標(biāo)定位和分類分?jǐn)?shù)的預(yù)測頭。
圖3 根據(jù)相機(jī)特征生成BEV地圖的示意圖。 BEV 地圖 由一組從世界坐標(biāo)采樣的 X-Y 網(wǎng)格初始化。 同時(shí),利用滑動(dòng)窗口采樣方法將BEV和多尺度相機(jī)圖 劃分為更小的比例。 線性投影后,查詢()、鍵()和值()嵌入被輸入稀疏交叉注意(SCA)模塊以進(jìn)行迭代 BEV 映射更新。
圖4 動(dòng)態(tài)信道融合(DCF)示意圖。 給定相機(jī)-LiDAR BEV 地圖 和 ,DCF 以元素方式將它們連接起來,并采用 3 × 3 卷積來探索有價(jià)值的語義和幾何信息。 經(jīng)過全局平均池化算子和 MLP(由 1 × 1 卷積實(shí)現(xiàn))后,sigmoid 函數(shù) δ(·) 產(chǎn)生通道特征重新加權(quán)的激活概率。 結(jié)果,從每個(gè)單視圖編碼器模塊生成多模態(tài)融合圖
A. 特定模態(tài)的backbone
為了促進(jìn)不同模態(tài)的有效特征學(xué)習(xí),我們采用特定于模態(tài)的backbone來進(jìn)行相機(jī)和激光雷達(dá)特征提取。 對于單個(gè)車輛,給定一組環(huán)視圖像 ,ResNet 風(fēng)格的backbone網(wǎng)絡(luò)被用于從相機(jī)圖像中進(jìn)行全面的特征學(xué)習(xí),其中包含幾個(gè)strided的 3 × 3 卷積層,后面是批歸一化(BN)和修正線性單元(ReLU)。 此外,shortcut連接也是用1×1卷積構(gòu)建的,從而實(shí)現(xiàn)穩(wěn)定的梯度傳播和信息傳遞。 這樣,相機(jī)分支產(chǎn)生多尺度特征圖 ,其中 表示不同分辨率下特征圖的高度、寬度和通道數(shù),n是特征尺度的數(shù)量。
先前關(guān)于從透視到鳥瞰(BEV)空間的空間投影的工作明確地通過相機(jī)內(nèi)在和外在參數(shù)進(jìn)行深度估計(jì),然而,特征模糊和不準(zhǔn)確的對應(yīng)反而不可避免地?fù)p害了最終的性能。 在這項(xiàng)工作中,我們主要從世界坐標(biāo)中采樣一組X-Y平面上的網(wǎng)格,然后將它們投影到圖像平面上,形成感知范圍內(nèi)的BEV圖,如圖3所示。 為了利用深度信息 根據(jù)各種相機(jī)設(shè)置,采用新穎的稀疏交叉注意(SC A)模塊來實(shí)現(xiàn)正面圖像和 BEV 表示之間的特征交互。 具體來說,首先利用自適應(yīng)滑動(dòng)窗口采樣策略將多尺度特征 和 BEV 映射的分辨率劃分為較小的比例,并具有可承受的計(jì)算開銷。 給定窗口大小 和 ,得到的特征塊和 BEV 網(wǎng)格分別表示為 和 。 通過獨(dú)立的線性投影,我們進(jìn)一步從兩個(gè)分區(qū)序列生成查詢 Qbev、鍵 Kcam 和值 Vcam,然后通過位置嵌入來突出顯示空間信息。 因此,稀疏交叉注意過程可以在數(shù)學(xué)上描述為等式1-4:
其中Linear(·)是具有全連接層的線性投影,Multi Head(·)是多頭自注意力層,Concate[·]是逐元素特征連接,σ(·)是softmax函數(shù) ,h 是頭數(shù),F(xiàn) F N(·) 定義了用多層感知機(jī)實(shí)現(xiàn)的前饋網(wǎng)絡(luò),L N(·) 是層歸一化[55]。我們進(jìn)行了三個(gè) SCA 塊以進(jìn)行分層特征聚合和空間相關(guān)性 建模,最終圖像BEV圖可表示為。
對于 LiDAR 分支,我們采用 PointPillars [27] backbone進(jìn)行點(diǎn)特征提取。 將原始點(diǎn)云表示為 ,其中 和 分別代表空間坐標(biāo)、反射率和點(diǎn)的數(shù)量,形成具有相應(yīng)索引的堆疊柱張量,并且我們利用簡單的 PointNet [21] 架構(gòu)進(jìn)行柱特征提取。 為了生成偽 BEV 圖像,這些特征被進(jìn)一步分散回 X-Y 平面,并引入 2D CNN backbone,用于將多分辨率圖合并為密集 LiDAR BEV 特征 。
B. 像素點(diǎn)融合模塊
給定與模態(tài)無關(guān)的 BEV 表示 和 ,一個(gè)直觀的想法是將它們連接在一起以進(jìn)行多模態(tài)特征增強(qiáng)。 盡管如此,由于固有的異構(gòu)性,它很容易遭受空間錯(cuò)位,直接串聯(lián)或求和運(yùn)算通常會導(dǎo)致粗略的信息融合,而沒有完全的目標(biāo)語義監(jiān)督。 為此,我們設(shè)計(jì)了一個(gè)動(dòng)態(tài)通道融合(DCF)模塊,以通道方式利用圖像和 LiDAR 上下文信息,如圖 4 所示。更具體地說,我們根據(jù)索引連接每對像素點(diǎn)特征 ,并采用3×3卷積來探索有價(jià)值的語義和幾何線索,從而得到重新組織的特征。 為了突出目標(biāo)的可辨別性,將全局平均池算子 G AP(·) 應(yīng)用于特征通道,并進(jìn)一步利用具有 sigmoid 函數(shù) δ(·) 的多層感知器(MLP)來產(chǎn)生通道激活概率。 最后,我們將其與卷積特征 Fconv 相乘,生成每輛車的聯(lián)合特征圖 。 整個(gè)過程可以表述為等式 5:
總的來說,DCF 提供了一種有效的解決方案,可以在統(tǒng)一的自上而下平面中利用兩種模態(tài)的通道語義,并且由于其高效的設(shè)計(jì),這個(gè)簡單的模塊不會降低推理速度。
圖5 全局-局部transformer示意圖。 給定一組以自車為中心的特征圖,通道token混合器(CTM)通過池化算子生成“補(bǔ)丁×通道”表,經(jīng)過MLP模塊后,softmax函數(shù)σ(·)輸出全局響應(yīng)值,形成通道 -混合映射。 在位置感知注意融合(PAF)中,進(jìn)行標(biāo)記化以將嵌入劃分為一系列固定大小的窗口特征,并進(jìn)一步采用多頭自注意(MHSA)來探索每個(gè)聯(lián)網(wǎng)自車的空間相關(guān)性。請注意,附加的相對偏差 B 負(fù)責(zé)每個(gè)查詢鍵對的上下文關(guān)系編碼。
C. 全局-局部Transformer
對于每輛聯(lián)網(wǎng)車輛,我們開發(fā)了一種編碼器-解碼器架構(gòu),其中融合圖 被輸入到堆疊的 1 × 1 卷積中以進(jìn)行漸進(jìn)式數(shù)據(jù)壓縮,并相應(yīng)地執(zhí)行幾次反卷積以進(jìn)行特征恢復(fù),稱為 。 為了補(bǔ)償時(shí)空異步,我們還采用仿射變換 將不同的 CAV 特征投影到以自車為中心的視圖中,其中 表示使用傳感器校準(zhǔn)矩陣的扭曲函數(shù),k 是附近汽車的數(shù)量。 結(jié)果,我們在通信范圍內(nèi)的自車坐標(biāo)處獲得一組特征圖,其中表示目標(biāo)車輛。
以前的工作通常通過既不接收附近 CAV 的所有表示也不丟棄低相關(guān)性協(xié)同者提供的整個(gè)消息來增強(qiáng)單個(gè)特征圖,前者不可避免地會導(dǎo)致重疊區(qū)域中的特征冗余,而后者可能會導(dǎo)致車輛之間的信息交互不足。 為此,我們提出了一種新穎的全局局部transformer,其中包括用于通道語義過濾和在整體視圖中跨車輛間補(bǔ)丁進(jìn)行混合的通道token混合器(CTM),以及用于局部區(qū)域的空間相關(guān)性建模。 圖5說明了全局-局部transformer的整體結(jié)構(gòu)。
1)通道token混合器(CTM)
兩階段轉(zhuǎn)換可以參考token化和混合過程。 給定 CAV 特征圖 ,我們主要利用 3D 特征池算子(即全局最大池化 (GM P(·)) 和全局平均池化 ( G AP(·)) 分別反映通道信息的特殊性和共性。然后,通過將它們連接并扁平化 (flatten(·)) 為圖像標(biāo)記序列來進(jìn)行特征向量化,形成“patches×channels”表 。整個(gè)過程可以描述為等式 6:
隨后,Mixer 通過兩層 MLP 將線性特征投影到隱藏空間,然后進(jìn)行層歸一化和高斯誤差線性單元(GE LU(·))。 它作用于表 T 的行,映射 ,并在所有行之間共享信息,從而促進(jìn)通道通信。 最后,將 sofxmax 函數(shù)應(yīng)用于通道重要性評估,并以元素方式將其與 CAV 圖相乘,如等式 7 所示:
其中表示線性投影的權(quán)重,N是矩陣乘法,?表示特征通道上的算子,是隱藏層中的可調(diào)通道數(shù),表示 通道混合特征圖。 受益于 MLP 的強(qiáng)大功能,CTM 能夠動(dòng)態(tài)過濾不相關(guān)的表征(即重疊信號),同時(shí)捕獲分散在每個(gè)位置圖中的全局響應(yīng)。 更重要的是,它巧妙性地跨通道執(zhí)行特征混合,以增強(qiáng)有價(jià)值的信息表達(dá),并顯著節(jié)省內(nèi)存。
2)位置感知注意力融合(PAF)
為了進(jìn)一步捕獲車輛之間的遠(yuǎn)程依賴性,基于transformer的架構(gòu)被廣泛應(yīng)用,并使用自注意機(jī)制來探索每個(gè)自車網(wǎng)絡(luò)圖的空間關(guān)系。 盡管如此,它需要更長的訓(xùn)練周期才能收斂,并且密集的點(diǎn)積運(yùn)算帶來了難以承受的計(jì)算預(yù)算。 在這項(xiàng)工作中,我們設(shè)計(jì)了一個(gè)位置感知注意力融合(PAF)模塊,該模塊由基于稀疏窗口的標(biāo)記化和自注意力機(jī)制組成,具有針對所有位置的局部特征交互的相對偏移量。 形式上,通道混合映射 被線性投影到高維空間,以生成三個(gè)特征嵌入 (為了簡化,e = 1, 2, 3 和 ) 。 隨后,我們將它們分割成一系列大小分別為N×N的3D不重疊窗口,形成,和,它們的維度相同。 值得注意的是,窗口級劃分比逐像素圖上的密集計(jì)算可以達(dá)到有效的標(biāo)記化。 因此,每個(gè)標(biāo)記被展平以生成查詢(Q)、鍵(K)和值(V)的序列,并且我們進(jìn)一步引入具有相對偏差的多頭自注意力(M H S A(·))層來探索車輛內(nèi)和車輛間的空間相關(guān)性。 與位置嵌入(PE)類似, 是一個(gè)固定大小的窗口索引,負(fù)責(zé)從每個(gè)查詢鍵對中學(xué)習(xí)上下文關(guān)系。 從數(shù)學(xué)上講,PAF 過程可以描述為等式8-11:
其中 Window[·] 表示窗口級patch分區(qū)。 我們利用兩層自注意力操作來利用細(xì)粒度的位置信息,多車輛融合圖可以稱為 。 利用窗口級注意力的優(yōu)勢,PAF模塊不僅對位姿估計(jì)和偏移誤差具有魯棒性,而且輪廓感知屬性(例如邊緣和邊界)也可以提高難物體的檢測性能。
D. 預(yù)測頭
正如通常所做的那樣,聯(lián)合特征圖 被送到分類和回歸頭中,分別用于目標(biāo)類別和定位預(yù)測。 值得注意的是,采用非極大值抑制(NMS)的后處理來去除冗余建議。
模型訓(xùn)練時(shí),損失函數(shù)包含分類和回歸部分。 給定真實(shí)框 θ,其中 表示目標(biāo)中心, 定義 3D 框尺寸, θ是航向,我們采用焦點(diǎn)損失[56](F L(·))來平衡背景-前景樣本,并利用平滑的函數(shù)來監(jiān)督3D框大小。 詳細(xì)信息可以參考等式12-14:
其中β和β是權(quán)重參數(shù),α和γ是焦點(diǎn)損失的超參數(shù),是估計(jì)的softmax概率。 請注意,在平滑 計(jì)算之前,航向方向 θ由正弦函數(shù)(即 θθ ))編碼,其中 θ和 θ 分別表示真實(shí)角度和預(yù)測角度。
實(shí)驗(yàn)對比一覽
在本節(jié)中,我們對車輛間感知基準(zhǔn)進(jìn)行定量和定性實(shí)驗(yàn),以研究我們提出的框架及其組件的有效性。 詳細(xì)信息(即數(shù)據(jù)集、實(shí)施、消融研究等)將描述如下。
A 數(shù)據(jù)集
OPV2V是一個(gè)大規(guī)模的車車協(xié)同感知數(shù)據(jù)集,它建立在OpenCDA平臺和CARLA模擬器之上。 一般來說,它包含由四個(gè)車載攝像頭和一個(gè)64通道LiDAR傳感器生成的12k幀3D點(diǎn)云和RGB圖像,230k個(gè)3D框注釋覆蓋了完整的360°視圖。 在我們的實(shí)驗(yàn)中,沿 x、y 和 z 軸的檢測范圍分別設(shè)置為 [-64,64] m、[-40,40] m 和 [-3,1] m。 該模型使用 6765 個(gè)和 1980 個(gè)樣本進(jìn)行了訓(xùn)練和驗(yàn)證,我們在 2170 個(gè) Default 和 550 個(gè) Culver City 分割上測試了最終的協(xié)同性能。
V2X-Sim 2.0 是用于車輛到一切(V2X)感知評估的綜合多模態(tài)基準(zhǔn),由 CARLA 和微交通模擬器 SUMO 聯(lián)合仿真。 它由 3 個(gè) CARLA 城鎮(zhèn)交叉口的 20 秒交通流中的 100 個(gè)場景組成,包含 37.2k 訓(xùn)練數(shù)據(jù)、5k 驗(yàn)證數(shù)據(jù)和 5k 測試數(shù)據(jù)。 每個(gè)場景有 2-5 個(gè) CAV,配備 6 個(gè)攝像頭和 1 個(gè) 32 通道 LiDAR,以及 GPU 和 IMU 傳感器。 同樣,在我們的研究中,感知區(qū)域被限制為[-32,32]m×[-32,32]m×[-3,2]m。
B 實(shí)現(xiàn)細(xì)節(jié)
實(shí)驗(yàn)平臺基于8塊NVIDIA Tesla V100 GPU,我們默認(rèn)定義通信范圍為70m。 對于 OPV2V,我們引入課程學(xué)習(xí)策略來模仿人類認(rèn)知機(jī)制:模型在 sim 模式下訓(xùn)練 35 個(gè) epoch,并在真實(shí)設(shè)置(例如,定位誤差、異步開銷等)下訓(xùn)練另外 10 個(gè) epoch。由 Adam優(yōu)化,初始學(xué)習(xí)率為 0.0002,權(quán)重衰減為 0.02,余弦學(xué)習(xí)率調(diào)度器。 此外,還采用了一些技巧(即預(yù)熱和提前停止)來保證訓(xùn)練穩(wěn)定性,并將 NMS 后處理的分?jǐn)?shù)和 IoU 閾值分別設(shè)置為 0.6 和 0.15。 對于V2X-Sim 2.0,我們遵循DiscoNet設(shè)置。 NMS 過程的分?jǐn)?shù)和 IoU 閾值設(shè)置為 0.6 和 0.15。
將分辨率為520×520像素裁剪的圖像輸入ResNet-34編碼器進(jìn)行多尺度特征提取,生成的BEV網(wǎng)格為0.25m。 我們在分層 SCA 模塊中采用四個(gè)注意力頭 (h = 4),窗口大小 D = (8,8,16) 和 G = (16,16,32)。 此外,體素大小沿 x-y-z 軸設(shè)置為 (0.25, 0.25, 4),在全局局部變換器中,窗口大小 N 為 4。除非另有說明,我們報(bào)告 3D 檢測平均精度 (AP) 為 0.5, 0.7 IoU 閾值進(jìn)行公平比較。
C 定量結(jié)果
表 I 說明了我們提出的 V2VFormer++ 和四個(gè)對應(yīng)方案在 OPV2V Default 和Culver City上的協(xié)同感知結(jié)果。 一方面,我們從每個(gè)單視圖模塊中刪除相機(jī)流,并評估僅 LiDAR 的檢測性能,稱為 V2VFormer++-L。 據(jù)觀察,我們提出的方法在 Default 和 Culver City 集上優(yōu)于 CoBEVT 和Where2comm方法,性能提升了 2.3% ~ 7.5% 和 2.0% ~ 2.8% AP@0.7,這表明了其有效性 和優(yōu)越感。 另一方面,我們將相同的相機(jī)流附加到僅 LiDAR 的協(xié)同檢測器(即 V2VNet、CoBEVT、Where2comm)中,并評估多模態(tài)檢測精度。 我們提出的 V2VFormer++ 給出了最佳的協(xié)同感知性能:它在默認(rèn) IoU 閾值 0.5 和 0.7 下實(shí)現(xiàn)了 93.5% 和 89.5% AP,比三種替代方案高出 0.3% ~ 0.9% AP@0.5 和 0.1% ~ 1.7% AP@ 0.7。 此外,V2VFormer++在Culver City上與第一梯隊(duì)Where2comm相當(dāng)(僅落后0.2% AP),展示了其競爭力和適應(yīng)性。
表1:COBEVT [48]、WHERE2COMM [16]、V2VNET [14] 和 V2VFORMER++ 在 OPV2V 測試分割上取得的檢測結(jié)果,我們用粗體字體突出顯示 0.5 和 0.7 IOU 閾值時(shí)的最佳精度
表2:WHEN2COM、WHO2COM、V2VNET、DISCONET 和 V2VFORMER++ 在 V2X-SIM 2.0 測試集上取得的檢測結(jié)果。 此外,我們列出了上界和下界性能,并且還用粗體突出顯示了 0.5 和 0.7 IOU 閾值時(shí)的最佳精度
同時(shí),V2X-Sim 2.0測試集上的協(xié)同檢測結(jié)果也列于表II中,我們基于DiscoNet重現(xiàn)了不同的融合策略(例如早期、中期和后期)。 我們的 V2VFormer++ 實(shí)現(xiàn)了最先進(jìn)的協(xié)同檢測精度,分別為 72.7% AP@0.5 和 65.5 AP@0.7。 與其他中間對應(yīng)部分(例如 DiscoNet)相比,V2VFormer++ 在兩個(gè) IoU 閾值下都獲得了超過 10% 的 AP 提升,這意味著所提出的特征協(xié)同的進(jìn)步。 此外,它的表現(xiàn)比上限高出 9.4% AP@0.5 和 5.3% AP@0.7 。 我們認(rèn)為,由于原始點(diǎn)云噪聲較大,該模型無法利用相鄰 CAV 的有意義信息,而我們的中間表示提供了豐富的目標(biāo)語義和幾何信息,以合理地促進(jìn)協(xié)同感知性能。
D 消融研究
為簡單起見,將對 OPV2V Default 和 Culver City 進(jìn)行消融研究,以衡量我們提出的框架的有效性和穩(wěn)健性。
1)組件的有效性:為了澄清,我們選擇 V2VNet作為基準(zhǔn),在Default上達(dá)到 85.0% AP@0.5 和 72.0% AP@0.7%,在Culver City上達(dá)到 80.9% AP@0.5 和 64.0% AP@0.7, 分別如表III所示。 當(dāng)附加具有動(dòng)態(tài)通道融合(DCF)的相機(jī)分支時(shí),它在 0.5 和 0.7 IoU 閾值下提供 7.6% ~ 19.0% 的精度增益。 此外,我們用全局局部transformer取代了 V2VNet 提出的空間感知圖神經(jīng)網(wǎng)絡(luò)(GNN),以衡量其對協(xié)同感知的貢獻(xiàn)。 同樣,它在默認(rèn)情況下提供 10.0% AP@0.7 收益。 最后,V2VFormer++將具有全局局部transformer的DCF納入基線,并觀察到最佳性能,證明了每個(gè)組件的有效性。
為了進(jìn)一步研究單車視圖下的異構(gòu)數(shù)據(jù)融合,我們用相機(jī)流擴(kuò)展了僅 LiDAR 的檢測器(例如,V2VNet、CoBEVT 和Where2comm),并采用兩種相機(jī)-LiDAR 聚合方法 進(jìn)行比較。 如表IV所示,動(dòng)態(tài)通道融合(DCF)在不同協(xié)作框架之間提供了比串聯(lián)(Concate)更好的多模態(tài)特征組合:盡管性能略有下降,但它穩(wěn)定地在Default 和 Culver City上提供0.4%~1.0%AP@0.5和0.4% ~ 4.0% AP@0.7。 受益于通道池化和重新加權(quán)操作,DCF能夠充分利用來自各種模態(tài)的語義和幾何信息,并且富有表現(xiàn)力的多模態(tài)表示有利于協(xié)同性能的增強(qiáng)。
表3 各個(gè)組件對 OPV2V 測試分割的有效性的消融研究。 準(zhǔn)確度的提升/下降分別在括號中用不同的顏色突出顯示
表4 多模態(tài)融合方法對 OPV2V 測試分割的性能貢獻(xiàn)的消融研究。 準(zhǔn)確度的提升/下降分別在括號中用不同的顏色突出顯示
2)魯棒性測試:為了分析協(xié)同感知的魯棒性,我們首先對幾種多模態(tài)感知框架進(jìn)行課程學(xué)習(xí),并列出了OPV2V Default集在不同模式配置下的協(xié)同結(jié)果,如表五所示。 Sim/Real 定義了不帶/帶數(shù)據(jù)壓縮的理想/現(xiàn)實(shí)世界傳輸,而Perfect/Noisy 條件代表不帶/帶定位誤差(例如高斯噪聲)和通信延遲(超過 200ms 的均勻分布)的理想/損壞環(huán)境。
顯然,所提出的 V2VFormer++ 顯示了針對不同損壞的強(qiáng)大魯棒性:它在 Sim+Noisy 級別上實(shí)現(xiàn)了 84.9% AP@0.5 和 58.5% AP@0.7 的良好檢測精度,并在 Sim+Noisy 級別上提供了 6.0% 和 16.9% AP 增益。 當(dāng)在真實(shí)環(huán)境中從 Perfect 轉(zhuǎn)換到 Noisy 時(shí),所有協(xié)同的準(zhǔn)確度都會大幅下降,例如,V2VNet 中的 AP@0.5 為 6.3%,AP0.7 為 10.9%。 我們的 V2VFormer++ 報(bào)告可接受的性能下降為 2.1% AP@0.5 和 9.6% AP@0.7,表明具有良好的穩(wěn)定性和通用性。
我們進(jìn)一步添加高斯噪聲和均勻分布來模擬不同的真實(shí)干擾,并驗(yàn)證了抗位置誤差、航向誤差和通信延遲的能力,如圖6所示。顯然,在具有標(biāo)準(zhǔn)偏差 (std) σ 的高斯分布上的定位偏移量,我們提出的方法在對抗干擾方面表現(xiàn)出了顯著且有利的性能, 而對應(yīng)算法(例如 CoBEVT [48])隨著偏移值的增加而出現(xiàn)明顯的性能下降。 此外,它不易受到 std σ 變化航向噪聲的影響,并且在 [0, 400]ms 時(shí)延下也能保持良好的 AP 結(jié)果。 總體而言,表明V2VFormer++在面對嚴(yán)酷的實(shí)際場景時(shí)具有突出的魯棒性和抗干擾能力。 由于課程學(xué)習(xí)策略,該模型可以逐步探索固有的重要信息,我們認(rèn)為這些知識將有助于保持相當(dāng)大的感知性能。 更重要的是,全局-局部transformer協(xié)同策略將以自車為中心的視角與多視圖表示有機(jī)地結(jié)合在一起,這有助于在遮擋和超線區(qū)域中進(jìn)行硬采樣感知。
表5 針對 OPV2V 默認(rèn)分割上各種模式配置的模型魯棒性消融研究。 準(zhǔn)確度增益分別在括號中突出顯示
圖 6. 穩(wěn)健性測試的消融研究。 值得注意的是,所有實(shí)驗(yàn)都是在 OPV2V 默認(rèn)分割上進(jìn)行的。 左邊。 IoU閾值0.7時(shí)位置誤差與AP結(jié)果的關(guān)系; 中間。 IoU閾值0.7時(shí)航向誤差與AP結(jié)果的關(guān)系; 右邊。 時(shí)間延遲和AP結(jié)果之間的關(guān)系在0.7 IoU閾值下。
圖7.動(dòng)態(tài)通道融合(DCF)模塊激活的注意力圖的可視化結(jié)果。 從左到右隨機(jī)選擇四種常見場景(即直線、合并、曲線和交叉),并在每列中相應(yīng)列出一對激光雷達(dá)真值(GT)和注意力圖。 注意到激活值較大的點(diǎn)意味著該區(qū)域發(fā)生目標(biāo)的可能性較高。
圖8.全局-局部transformer協(xié)同策略激活的注意力圖的可視化結(jié)果。 從左到右隨機(jī)選擇四種常見場景(即直線、合并、曲線和交叉),并在每列中相應(yīng)列出一對激光雷達(dá)地面實(shí)況(GT)和注意圖。 注意到激活值較大的點(diǎn)意味著該區(qū)域發(fā)生目標(biāo)的可能性較高。
圖 9. OPV2V 測試分割中的檢測可視化。 從上到下,我們列出了原始相機(jī)圖像、LiDAR 真值(GT)以及 CoBEVT [48]、Where2comm [16] 和 V2VFormer++ 實(shí)現(xiàn)的感知結(jié)果。 注意到GT和預(yù)測框分別用紅色和綠色繪制,我們還用藍(lán)色圓圈突出了V2VFormer++的優(yōu)越性和先進(jìn)性。 顯然,與其他方法相比,我們提出的方法顯示出更準(zhǔn)確、更魯棒的協(xié)同檢測性能,即使在嚴(yán)重遮擋、盲點(diǎn)和超線區(qū)域也是如此。
E 定性結(jié)果
最后通過定性實(shí)驗(yàn)深入分析fuison模塊的效果。 我們還展示了協(xié)同檢測結(jié)果,以反映我們提出的 V2VFormer++ 的優(yōu)勢。
1)注意力圖:如圖7和圖8所示,我們在直線、合并、曲線、交叉點(diǎn)處分別展示了一對LiDAR真值(GT)和DCF在全局局部transformer協(xié)同后的激活圖評價(jià)。 得益于有效的 DCF 設(shè)計(jì),激活點(diǎn)可以大致對應(yīng) LiDAR GT 中的目標(biāo)區(qū)域,從而使模型能夠聚焦于物體的高電位或感興趣區(qū)域 (RoI)。 DCF 以動(dòng)態(tài)逐點(diǎn)方式探索特征通道語義,因此可以從相機(jī)和 LiDAR 模式中充分利用有價(jià)值的信息。 類似地,全局-局部transformer通過通道方式和位置感知重要性使用來自相鄰 CAV 的多視圖表示。 它將提供更廣泛和更長的探測范圍,并且突出顯示的點(diǎn)可以引導(dǎo)模型檢測被遮擋或很少看到的物體。
2)檢測可視化:如圖 9 所示,我們顯示了 V2VFormer++ 與 CoBEVT [48] 和Where2comm [16] 方法的比較可視化結(jié)果。 通常,我們提出的算法始終保持非常精確和穩(wěn)健的檢測結(jié)果,特別是在具有挑戰(zhàn)性和模糊性的場景中。 它在其他同類技術(shù)無法做到的難樣本(即遮擋、盲點(diǎn)和超線區(qū)域)中仍然表現(xiàn)出出色的感知能力,表明了其優(yōu)越性和先進(jìn)性。
V2VFormer++的潛力與優(yōu)勢
在本文中,我們首次嘗試了具有多模態(tài)表示的車車協(xié)同框架,稱為V2VFormer++。 對于單個(gè)車輛,提出了具有稀疏交叉注意(SCA)變換和動(dòng)態(tài)通道融合(DCF)的雙流架構(gòu),用于統(tǒng)一鳥瞰(BEV)空間下的相機(jī)-LiDAR特征聚合,從而利用語義 和完整的幾何信息。 為了更好地利用相鄰 CAV 的車輛間相關(guān)性,我們設(shè)計(jì)了一種兩階段全局-局部transformer協(xié)同策略,其中通道token混合器 (CTM) 捕獲分散在每個(gè)位置地圖和位置感知融合 (PAF) 中的全局響應(yīng)并從局部角度探索每個(gè)自車網(wǎng)絡(luò)對的空間關(guān)系。 在 OPV2V [19] 和 V2X-Sim 2.0 [20] 基準(zhǔn)上進(jìn)行了實(shí)證實(shí)驗(yàn),結(jié)果證明我們提出的 V2VFormer++ 我們的方案以大幅優(yōu)勢領(lǐng)先于所有同類方案,表明了其有效性和優(yōu)越性。 此外,消融研究和可視化分析進(jìn)一步揭示了其對現(xiàn)實(shí)場景中各種干擾的強(qiáng)大魯棒性。
未來的工作將繼續(xù)研究不利因素如何影響多智能體感知算法,例如延遲、有損包等。此外,如何優(yōu)化推理效率對于實(shí)際部署也相對重要。
原文鏈接:https://mp.weixin.qq.com/s/43PcnUS3DerA6WbKEAsmRQ