自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)3D再進化!DeepInteraction++:融合感知算法新SOTA(復(fù)旦)

人工智能 新聞
今天為大家分享復(fù)旦大學(xué)最新的多模態(tài)3D檢測工作—DeepInteraction!

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

目前隨著自動駕駛技術(shù)的快速發(fā)展,安全的自動駕駛車輛需要依賴可靠和準(zhǔn)確的場景感知,其中3D目標(biāo)檢測是非常核心的一項任務(wù)。自動駕駛中的感知模塊通過定位和識別周圍3D世界中的決策敏感物體,從而為下游的規(guī)控模塊做出準(zhǔn)確的決策提供保障。

自動駕駛車輛為了輸出準(zhǔn)確和可靠的感知結(jié)果,通常均會配備激光雷達、相機、毫米波雷達以及超聲波雷達等多種傳感器采集設(shè)備。為了增強自動駕駛車輛的感知能力,目前大多數(shù)自動駕駛汽車都同時部署了激光雷達和攝像頭傳感器,分別提供3D點云和RGB圖像。由于兩種傳感器的感知特性不同,它們自然表現(xiàn)出強烈的互補效應(yīng)。點云涉及必要的目標(biāo)定位和幾何信息,具有稀疏表示的特性,而2D圖像則以高分辨率的形式提供豐富的目標(biāo)外觀和語義信息。因此,跨模態(tài)的專用信息融合對于強大的場景感知尤為重要。

目前常用的多模態(tài)3D目標(biāo)檢測方法通常采用如下圖(a)圖的融合策略,將各個模態(tài)的表示組合成混合的特征。然而,這種融合方法在結(jié)構(gòu)上受到限制,由于信息融合到統(tǒng)一表示的過程中存在很大程度上的不完善,所以可能會丟失很大一部分特定模態(tài)的表示信息。

針對上述提到的相關(guān)問題,并為了克服上述提到的相關(guān)挑戰(zhàn),我們提出了一種新穎的模態(tài)交互策略,稱之為DeepInteraction++,相關(guān)的融合結(jié)構(gòu)如下圖的(b)圖所示。

圖片

各類不同的多模態(tài)融合感知算法架構(gòu)對比

我們工作的核心思路是學(xué)習(xí)和維護多種特定模態(tài)的特征表示,而不是得出單一模態(tài)的融合表示。我們提出的方法實現(xiàn)了模態(tài)間的交互,允許自發(fā)交換信息并保留特定模態(tài)的信息優(yōu)勢,同時最小化不同模態(tài)之間的干擾。具體來說,我們首先使用兩個獨立的特征提取主干網(wǎng)絡(luò),以并行的方式將3D空間的點云數(shù)據(jù)和2D平面的多視圖圖像映射到多尺度的LiDAR BEV特征和相機全景特征中。隨后,我們使用編碼器以雙邊方式交互異構(gòu)特征來進行漸進式表示學(xué)習(xí)和集成。為了充分利用每個模態(tài)的特征表達,我們設(shè)計了一個解碼器以級聯(lián)方式進行多模態(tài)預(yù)測交互,以產(chǎn)生更準(zhǔn)確的感知結(jié)果。大量實驗證明了我們提出的DeepInteraction++框架在3D目標(biāo)檢測和端到端自動駕駛?cè)蝿?wù)上均具有卓越的性能。

論文鏈接:https://www.arxiv.org/pdf/2408.05075

代碼鏈接:https://github.com/fudan-zvg/DeepInteraction

網(wǎng)絡(luò)模型的整體架構(gòu)和細節(jié)梳理

在詳細介紹本文提出的DeepInteraction++算法模型之前,下圖整體展示了提出的DeepInteraction++算法模型的網(wǎng)絡(luò)結(jié)構(gòu)。

圖片

提出DeepInteraction算法模型的整體框架圖

與現(xiàn)有技術(shù)相比,本文提出的算法模型在整個檢測流程中為激光雷達點云和相機圖像模態(tài)保留兩種不同的特征表示,同時通過多模態(tài)的交互策略實現(xiàn)了不同模態(tài)信息交換和聚合,而不是創(chuàng)建單一的模態(tài)融合表示。通過上圖的網(wǎng)絡(luò)結(jié)構(gòu)可以看出,提出的DeepInteraction++由兩個主要模塊組成:具有多模態(tài)表征交互的編碼器模塊和具有多模態(tài)預(yù)測交互的解碼器模塊。編碼器實現(xiàn)模態(tài)之間的信息交換和集成,同時通過多模態(tài)表征交互保持每個模態(tài)的單獨場景表達。解碼器從單獨的模態(tài)特定表示中聚合信息,并以統(tǒng)一的模態(tài)無關(guān)方式迭代細化檢測結(jié)果。

編碼器:實現(xiàn)多模態(tài)的表達交互

與通常將多個模態(tài)的輸入特征聚合到一個混合特征圖的傳統(tǒng)模態(tài)融合策略不同,我們設(shè)計的編碼器模塊采用了多輸入多輸出的結(jié)構(gòu),通過多模態(tài)表達交互的方式來維護和增強單個模態(tài)的特征,其編碼器的網(wǎng)絡(luò)結(jié)構(gòu)如上圖中的(a)圖所示。整體而言,編碼器模塊將激光雷達和圖像主干獨立提取的兩個特定模態(tài)場景表示特征作為輸入,并產(chǎn)生兩個精修的特征表達作為輸出。具體而言,編碼器模塊由堆疊多個多模態(tài)表征交互編碼器層組成。在每一層中,來自不同模態(tài)的特征參與多模態(tài)表征交互和模態(tài)內(nèi)表征學(xué)習(xí),以實現(xiàn)模態(tài)間和模態(tài)內(nèi)的交互過程。

雙流Transformer的交互編碼器模塊

在之前DeepInteraction算法模型的基礎(chǔ)上,為了進一步推動更高的可擴展性和降低計算開銷,我們通過將原始編碼器層替換為一對自定義的注意交互機制的Transformer層來實現(xiàn)。此外,多模態(tài)表達交互模塊中的并行模態(tài)內(nèi)和模態(tài)間表征學(xué)習(xí)現(xiàn)在用作重構(gòu)架構(gòu)中的自注意和交叉注意操作。這里,我們以激光雷達分支為例,每個Transformer層內(nèi)的計算可以表示為如下的情況:

其中公式中的FFN表示前饋網(wǎng)絡(luò)層,LN表示層歸一化,SA和CA分別為表示多模表達交互和模態(tài)內(nèi)表征學(xué)習(xí)。圖像分支中的Transformer 層遵循類似的設(shè)計。

多模態(tài)表達交互

模態(tài)內(nèi)表征學(xué)習(xí)

除了直接合并來自異構(gòu)模態(tài)的信息之外,模態(tài)內(nèi)推理還有助于更全面地整合這些表征。因此,在編碼器的每一層中,我們進行與多模態(tài)交互互補的模態(tài)內(nèi)表征學(xué)習(xí)。在本文中,我們利用可變形注意力進行模態(tài)內(nèi)表征學(xué)習(xí)。同時,考慮到透視投影引入的尺度差異,相比于固定局部鄰域內(nèi)的交叉注意力,具有更靈活感受野的交互操作更為合理,從而在保持原有高效局部計算的同時,實現(xiàn)了更靈活的感受野,并促進了多尺度的信息交互。

分組稀疏注意力實現(xiàn)高效交互

考慮到激光雷達點云固有的稀疏性,激光雷達點的數(shù)量在Pillar內(nèi)會根據(jù)其位置而變化,并且單個Pillar內(nèi)的點最多只能被兩個攝像頭看到。因此,為了在圖像到激光雷達的表示交互期間充分利用GPU的并行計算能力,我們仔細檢查每個Pillar中有效圖像標(biāo)記數(shù)量的分布,并將這些Pillar劃分為幾個區(qū)間,然后,我們通過將鍵和值的數(shù)量填充到間隔的上限來批量處理每個間隔內(nèi)的支柱,以進行注意力計算。通過仔細選擇間隔邊界,可顯著減少內(nèi)存消耗,而對并行性的影響可忽略不計。

解碼器:多模態(tài)預(yù)測交互

除了考慮表示層面的多模態(tài)交互之外,我們還引入了具有多模態(tài)預(yù)測交互的解碼器來進行預(yù)測,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

圖片多模態(tài)預(yù)測交互模塊網(wǎng)絡(luò)結(jié)構(gòu)圖

通過上圖的(a)圖可以看出,我們的核心思想是增強一種模態(tài)在另一種模態(tài)條件下的3D目標(biāo)檢測。具體來說,解碼器是通過堆疊多個多模態(tài)預(yù)測交互層來構(gòu)建的,其中部署預(yù)測交互以通過交替聚合來自增強圖像表示和增強BEV表示的信息來逐步細化預(yù)測過程。

端到端的自動駕駛

為了進一步證明我們提出的DeepInteraction++的可擴展性和優(yōu)越性,我們將DeepInteraction++擴展為端到端多任務(wù)框架,同時解決場景感知、運動預(yù)測和規(guī)劃任務(wù)。具體而言,在使用了現(xiàn)有的檢測頭之外,我們還使用了額外的任務(wù)頭來形成端到端框架,包括用于地圖分割的分割頭、用于估計被檢測物體運動狀態(tài)的預(yù)測頭和用于為自我車輛提供最終行動計劃的規(guī)劃頭??紤]到來自BEV和周圍視圖的特征圖用于深度交互式解碼,我們做了一些修改以利用這一優(yōu)勢。首先,與激光雷達點云相比,圖像上下文對于地圖表示更具辨別性,而大量的點云信息可能會反過來造成混淆。因此,我們通過LSS將周圍視圖特征投影到BEV上,然后將它們傳播到地圖分割頭中。隨后,預(yù)測和規(guī)劃頭將檢測和分割生成的結(jié)果作為輸入,并使用標(biāo)準(zhǔn)Transformer解碼器對其進行處理,從而實現(xiàn)端到端的自動駕駛?cè)蝿?wù)。

實驗

為了驗證我們提出算法模型的有效性,我們在nuScenes的驗證集和測試集上與其它SOTA算法模型進行了對比,相關(guān)的實驗結(jié)果如下圖所示。

圖片

不同算法模型在nuScenes數(shù)據(jù)集上的精度對比

通過上述的實驗結(jié)果可以看出,我們提出的DeepInteraction++算法模型實現(xiàn)了SOTA的感知性能。此外,為了進一步直觀的展現(xiàn)我們提出算法模型的效果,我們將模型的檢測結(jié)果進行了可視化,如下圖所示。

圖片算法模型的可視化結(jié)果

此外,為了展現(xiàn)我們提出的DeepInteraction++框架在端到端任務(wù)上的性能,我們也在nuScenes的驗證集上比較了SOTA算法模型的端到端的規(guī)劃性能,具體的性能指標(biāo)如下圖所示。

圖片

不同算法模型的planning性能

上述的實驗結(jié)果表明我們提出的算法框架在大多數(shù)評估指標(biāo)上顯著超越了現(xiàn)有的面向規(guī)劃的方法。除了提供更準(zhǔn)確的規(guī)劃軌跡外,DeepInteraction++ 還可以通過對交通參與者進行更精確、更全面的感知和預(yù)測來實現(xiàn)更低的碰撞率。為了更加直觀的展現(xiàn)我們模型的planning性能,我們也將相關(guān)的結(jié)果進行了可視化,如下圖所示。

圖片端到端planning任務(wù)的性能對比情況

通過上圖的可視化結(jié)果可以看出,通過整合多模態(tài)信息并采用有意義的融合策略,我們提出的方法可以全面理解和分析駕駛場景,從而即使在復(fù)雜而錯綜復(fù)雜的駕駛環(huán)境中也能做出更合理的規(guī)劃行為。此外,由于上游的精準(zhǔn)感知,DeepInteraction++能夠有效避免因累積誤差而導(dǎo)致的錯誤動作,如上圖中的第三行所示。

結(jié)論

在本文中,我們提出了一種新穎的多模態(tài)交互方法DeepInteraction++,用于探索自動駕駛?cè)蝿?wù)中內(nèi)在的多模態(tài)互補性及其各自模態(tài)的特性。大量的實驗結(jié)果表明,我們提出的方法在nuScenes數(shù)據(jù)集上的3D目標(biāo)檢測以及端到端任務(wù)上取得了最先進的性能。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-04-17 09:56:24

算法模型

2025-01-07 09:11:07

2025-02-12 10:20:00

2023-06-02 10:33:35

2023-06-20 16:19:00

機器3D

2024-04-19 12:38:20

3D檢測

2023-11-22 09:53:02

自動駕駛算法

2022-07-13 10:20:14

自動駕駛3D算法

2024-01-15 10:38:24

3D框架

2023-09-25 14:53:55

3D檢測

2024-04-24 11:23:11

3D檢測雷達

2024-09-30 09:52:39

2022-01-20 11:17:27

自動駕駛智能汽車

2023-10-07 09:29:09

2025-03-10 08:25:00

機器人AI模型

2025-01-26 11:00:00

2022-12-14 10:21:25

目標(biāo)檢測框架

2023-10-30 16:02:20

區(qū)塊鏈元宇宙

2023-12-04 13:40:09

AI訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號