自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文詳解自動(dòng)駕駛中的多模態(tài)融合感知算法

人工智能 智能汽車(chē)
本文全面調(diào)研了現(xiàn)有多模態(tài)自動(dòng)駕駛感知算法,傳感器包括LiDAR和相機(jī),聚焦于目標(biāo)檢測(cè)和語(yǔ)義分割,分析超過(guò)50篇文獻(xiàn)。同傳統(tǒng)融合算法分類(lèi)方法不同,本文從融合階段的不同將該領(lǐng)域分類(lèi)兩大類(lèi)、四小類(lèi)。此外,本文分析了當(dāng)前領(lǐng)域存在的問(wèn)題,對(duì)未來(lái)的研究方向提供參考。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

1 簡(jiǎn)介

多模態(tài)傳感器融合意味著信息互補(bǔ)、穩(wěn)定和安全,長(zhǎng)期以來(lái)都是自動(dòng)駕駛感知的重要一環(huán)。然而信息利用的不充分、原始數(shù)據(jù)的噪聲及各個(gè)傳感器間的錯(cuò)位(如時(shí)間戳不同步),這些因素都導(dǎo)致融合性能一直受限。本文全面調(diào)研了現(xiàn)有多模態(tài)自動(dòng)駕駛感知算法,傳感器包括LiDAR和相機(jī),聚焦于目標(biāo)檢測(cè)和語(yǔ)義分割,分析超過(guò)50篇文獻(xiàn)。同傳統(tǒng)融合算法分類(lèi)方法不同,本文從融合階段的不同將該領(lǐng)域分類(lèi)兩大類(lèi)、四小類(lèi)。此外,本文分析了當(dāng)前領(lǐng)域存在的問(wèn)題,對(duì)未來(lái)的研究方向提供參考。

2 為什么需要多模態(tài)?

這是因?yàn)閱文B(tài)的感知算法存在固有的缺陷。舉個(gè)例子,一般激光雷達(dá)的架設(shè)位置是高于相機(jī)的,在復(fù)雜的現(xiàn)實(shí)駕駛場(chǎng)景中,物體在前視攝像頭中可能被遮擋,此時(shí)利用激光雷達(dá)就有可能捕獲缺失的目標(biāo)。但是由于機(jī)械結(jié)構(gòu)的限制,LiDAR在不同的距離有不同的分辨率,而且容易受到極端惡劣天氣的影響,如暴雨等。雖然兩種傳感器單獨(dú)使用都可以做的很出色,但從未來(lái)的角度出發(fā),LiDAR和相機(jī)的信息互補(bǔ)將會(huì)使得自動(dòng)駕駛在感知層面上更安全。

近期,自動(dòng)駕駛多模態(tài)感知算法獲得了長(zhǎng)足的進(jìn)步,從跨模態(tài)的特征表示、更可靠的模態(tài)傳感器,到更復(fù)雜、更穩(wěn)定的多模態(tài)融合算法和技術(shù)。然而,只有少數(shù)的綜述[15, 81]聚焦于多模態(tài)融合的方法論本身,并且大多數(shù)文獻(xiàn)都遵循傳統(tǒng)分類(lèi)規(guī)則,即分為前融合、深度(特征)融合和后融合三大類(lèi),重點(diǎn)關(guān)注算法中特征融合的階段,無(wú)論是數(shù)據(jù)級(jí)、特征級(jí)還是提議級(jí)。這種分類(lèi)規(guī)則存在兩個(gè)問(wèn)題:首先,沒(méi)有明確定義每個(gè)級(jí)別的特征表示;其次,它從對(duì)稱(chēng)的角度處理激光雷達(dá)和相機(jī)這兩個(gè)分支,進(jìn)而模糊了LiDAR分支中提級(jí)級(jí)特征融合和相機(jī)分支中數(shù)據(jù)級(jí)特征融合的情況??偨Y(jié)來(lái)說(shuō),傳統(tǒng)分類(lèi)法雖然直觀,但已經(jīng)不適用于現(xiàn)階段多模態(tài)融合算法的發(fā)展,一定程度上阻礙了研究人員從系統(tǒng)的角度進(jìn)行研究和分析。

3 任務(wù)和公開(kāi)比賽

常見(jiàn)的感知任務(wù)包括目標(biāo)檢測(cè)、語(yǔ)義分割、深度補(bǔ)全和預(yù)測(cè)等。本文重點(diǎn)關(guān)注檢測(cè)和分割,如障礙物、交通信號(hào)燈、交通標(biāo)志的檢測(cè)和車(chē)道線(xiàn)、freespace的分割等。自動(dòng)駕駛感知任務(wù)如下圖所示:

常用的公開(kāi)數(shù)據(jù)集主要包含KITTI、Waymo和nuScenes,下圖匯總了自動(dòng)駕駛感知相關(guān)的數(shù)據(jù)集及其特點(diǎn)。

4 融合方法

多模態(tài)融合離不開(kāi)數(shù)據(jù)表達(dá)形式,圖像分支的數(shù)據(jù)表示較簡(jiǎn)單,一般均指RGB格式或灰度圖,但激光雷達(dá)分支對(duì)數(shù)據(jù)格式的依賴(lài)度較高,不同的數(shù)據(jù)格式衍生出完全不同的下游模型設(shè)計(jì),總結(jié)來(lái)說(shuō)包含三個(gè)大方向:基于點(diǎn)、基于體素和基于二維映射的點(diǎn)云表示。

傳統(tǒng)分類(lèi)方法將多模態(tài)融合分為以下三種:

  1. 前融合(數(shù)據(jù)級(jí)融合)指通過(guò)空間對(duì)齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)。
  2. 深度融合(特征級(jí)融合)指通過(guò)級(jí)聯(lián)或者元素相乘在特征空間中融合跨模態(tài)數(shù)據(jù)。
  3. 后融合(目標(biāo)級(jí)融合)指將各模態(tài)模型的預(yù)測(cè)結(jié)果進(jìn)行融合,做出最終決策。

本文則采用下圖的分類(lèi)方式,整體分為強(qiáng)融合和若融合,強(qiáng)融合進(jìn)一步細(xì)分為:前融合、深度融合、不對(duì)稱(chēng)融合和后融合。

本文使用KITTI的3D檢測(cè)任務(wù)和BEV檢測(cè)任務(wù)橫向?qū)Ρ雀鱾€(gè)多模態(tài)融合算法的性能,下圖是BEV檢測(cè)測(cè)試集的結(jié)果:

下圖是3D檢測(cè)測(cè)試集的結(jié)果:

5 強(qiáng)融合

根據(jù)激光雷達(dá)和相機(jī)數(shù)據(jù)表示的不同組合階段,本文將強(qiáng)融合細(xì)分為:前融合、深度融合、不對(duì)稱(chēng)融合和后融合。如上圖所示可以看出,強(qiáng)融合的每個(gè)子模塊都高度依賴(lài)于激光雷達(dá)點(diǎn)云,而不是相機(jī)數(shù)據(jù)。

前融合

與傳統(tǒng)的數(shù)據(jù)級(jí)融合定義不同,后者是一種在原始數(shù)據(jù)級(jí)別通過(guò)空間對(duì)齊和投影直接融合每種模態(tài)數(shù)據(jù)的方法,早期融合在數(shù)據(jù)級(jí)別融合LiDAR 數(shù)據(jù)和數(shù)據(jù)級(jí)別的相機(jī)數(shù)據(jù)或特征級(jí)。早期融合的一個(gè)例子可以是圖4中的模型。

與傳統(tǒng)分類(lèi)方法定義的前融合不同,本文定義的前融合是指在原始數(shù)據(jù)級(jí)別通過(guò)空間對(duì)齊和投影直接融合各個(gè)模態(tài)數(shù)據(jù)的方法,前融合在數(shù)據(jù)級(jí)指的是融合激光雷達(dá)數(shù)據(jù),在數(shù)據(jù)級(jí)或特征級(jí)融合圖像數(shù)據(jù),示意圖如下:

在LiDAR分支,點(diǎn)云具有多種表達(dá)形式,如反射圖、體素化張量、前視圖/距離視圖/BEV視圖以及偽點(diǎn)云等等。雖然這些數(shù)據(jù)結(jié)合不同主干網(wǎng)絡(luò)都有不同的內(nèi)在特征,但是除了偽點(diǎn)云之外[79],大多數(shù)數(shù)據(jù)都是通過(guò)一定的規(guī)則處理生成。此外,相比于特征空間嵌入,LiDAR的這些數(shù)據(jù)都有很強(qiáng)的可解釋性,均可以直接可視化。

在圖像分支,嚴(yán)格意義上的數(shù)據(jù)級(jí)定義應(yīng)該是RGB或灰度圖,但是這種定義缺乏通用性和合理性。因此本文擴(kuò)展了前融合階段的圖像數(shù)據(jù)的數(shù)據(jù)級(jí)定義,包含數(shù)據(jù)級(jí)和特征級(jí)數(shù)據(jù)。值得一提的是,本文將語(yǔ)義分割預(yù)測(cè)結(jié)果也作為前融合的一種(圖像特征級(jí)),一是因?yàn)橛欣?D目標(biāo)檢測(cè),二是因?yàn)檎Z(yǔ)義分割的“目標(biāo)級(jí)”特征與整個(gè)任務(wù)的最終目標(biāo)級(jí)提議不同。

深度融合

深度融合,也稱(chēng)特征級(jí)融合,是指在激光雷達(dá)分支的特征級(jí)融合多模態(tài)數(shù)據(jù),但在圖像分支的數(shù)據(jù)集和特征級(jí)進(jìn)行融合。例如一些方法使用特征提舉起分別獲取LiDAR點(diǎn)云和圖像的嵌入表示,并通過(guò)一系列下游模塊融合兩種模態(tài)的特征。然而,與其他強(qiáng)融合不同的是,深度融合有時(shí)會(huì)以級(jí)聯(lián)方式融合特征,這兩者都利用了原始和高級(jí)語(yǔ)義信息。示意圖如下:

后融合

后融合,也可叫作目標(biāo)級(jí)融合,指的是對(duì)多個(gè)模態(tài)的預(yù)測(cè)結(jié)果(或proposal)進(jìn)行融合。例如,一些后融合方法利用LiDAR點(diǎn)云和圖像的輸出進(jìn)行融合[55]。兩個(gè)分支的proposal的數(shù)據(jù)格式應(yīng)與最終結(jié)果一致,但是質(zhì)量、數(shù)量和精度存在一定差異。后融合可以看作是一種多模態(tài)信息優(yōu)化最終proposal的集成方法,示意圖如下所示:

不對(duì)稱(chēng)融合

強(qiáng)融合的最后一種是不對(duì)稱(chēng)融合,指的是融合一個(gè)分支的目標(biāo)級(jí)信息和其他分支的數(shù)據(jù)級(jí)或特征級(jí)信息。上述三種融合方法將多模態(tài)的各個(gè)分支平等對(duì)待,不對(duì)稱(chēng)融合則強(qiáng)調(diào)至少有一個(gè)分支占據(jù)主導(dǎo)地位,其他分支則提供輔助信息預(yù)測(cè)最終結(jié)果。下圖是不對(duì)稱(chēng)融合的示意圖,在proposal階段,不對(duì)稱(chēng)融合只有一個(gè)分支的proposal,而后融合則是所有分支的proposal。

6 弱融合

與強(qiáng)融合的區(qū)別在于,弱融合方法不直接從多模態(tài)分支中融合數(shù)據(jù)、特征或者目標(biāo),而是以其他形式處理數(shù)據(jù)。下圖展示了弱融合算法的基本框架。基于弱融合的方法通常使用基于一定規(guī)則的方法來(lái)利用一種模態(tài)的數(shù)據(jù)作為監(jiān)督信號(hào),以指導(dǎo)另一種模態(tài)的交互。例如,圖像分支中來(lái)自CNN的2D proposal可能會(huì)導(dǎo)致原始LiDAR點(diǎn)云中出現(xiàn)截?cái)?,弱融合直接將原始LiDAR 點(diǎn)云輸入到 LiDAR 主干中以輸出最終的proposal。

7 其他方式融合

還有一些工作不屬于上述任何一種范式,因?yàn)樗鼈冊(cè)谀P驮O(shè)計(jì)的框架中使用了多種融合方式,例如[39]結(jié)合了深度融合和后融合,[77]則結(jié)合了前融合。這些方法不是融合算法設(shè)計(jì)的主流方式,本文統(tǒng)一歸為其他融合方式。

8 多模態(tài)融合的機(jī)遇

近年來(lái),用于自動(dòng)駕駛感知任務(wù)的多模態(tài)融合方法取得了快速進(jìn)展,從更高級(jí)的特征表示到更復(fù)雜的深度學(xué)習(xí)模型。然而,還有一些懸而未決的問(wèn)題有待解決,本文總結(jié)了如下幾個(gè)未來(lái)可能的改進(jìn)方向 。

更先進(jìn)的融合方法

當(dāng)前的融合模型存在錯(cuò)位和信息丟失的問(wèn)題[13,67,98]。此外,平融合(flat fusion)操作也阻礙了感知任務(wù)性能的進(jìn)一步提高。總結(jié)如下:

  1. 錯(cuò)位和信息丟失:相機(jī)和LiDAR的內(nèi)外在差異很大,兩種模態(tài)的數(shù)據(jù)需要進(jìn)行坐標(biāo)對(duì)齊。傳統(tǒng)的前融合和深度融合方法利用標(biāo)定信息將所有LiDAR點(diǎn)直接投影到相機(jī)坐標(biāo)系,反之亦然。然而由于架設(shè)位置、傳感器噪聲,這種逐像素的對(duì)齊是不夠準(zhǔn)確的。因此,一些工作利用周?chē)畔⑦M(jìn)行補(bǔ)充以獲取更好的性能。此外,在輸入和特征空間的轉(zhuǎn)換過(guò)程中,還存在一些其他信息的丟失。通常,降維操作的投影不可避免地會(huì)導(dǎo)致大量信息丟失,如將3D LiDAR點(diǎn)云映射為2D BEV圖像中則損失了高度信息。因此,可以考慮將多模態(tài)數(shù)據(jù)映射到另一種專(zhuān)為融合設(shè)計(jì)的高維空間,進(jìn)而有效的利用原始數(shù)據(jù),減少信息損失。
  2. 更合理的融合操作:當(dāng)前許多方法使用級(jí)聯(lián)或者元素相乘的方式進(jìn)行融合。這些簡(jiǎn)單的操作可能無(wú)法融合分布差異較大的數(shù)據(jù),因此難以擬合兩個(gè)模態(tài)間的語(yǔ)義紅狗。一些工作試圖使用更復(fù)雜的級(jí)聯(lián)結(jié)構(gòu)來(lái)融合數(shù)據(jù)并提高性能。在未來(lái)的研究中,雙線(xiàn)性映射等機(jī)制可以融合具有不同特點(diǎn)的特征,也是可以考慮的方向。

多源信息利用

前視單幀圖像是自動(dòng)駕駛感知任務(wù)的典型場(chǎng)景。然而,大多數(shù)框架只能利用有限的信息,并未詳細(xì)設(shè)計(jì)輔助任務(wù)來(lái)促進(jìn)駕駛場(chǎng)景的理解??偨Y(jié)如下:

  1. 采用更多的潛在信息:現(xiàn)有方法缺乏對(duì)個(gè)維度和來(lái)源的信息的有效利用。大多數(shù)都將精力放在前視圖中的單幀多模態(tài)數(shù)據(jù)上。這就導(dǎo)致其他有意義的數(shù)據(jù)并未被充分利用,例如語(yǔ)義、空間和場(chǎng)景上下文信息。一些工作嘗試使用語(yǔ)義分割結(jié)果輔助任務(wù),而其他模型則有可能利用CNN主干的中間層特征。在自動(dòng)駕駛場(chǎng)景中,許多具有顯式語(yǔ)義信息的下游任務(wù)可能會(huì)極大的提高目標(biāo)檢測(cè)性能,例如車(chē)道線(xiàn)、交通燈和交通標(biāo)志的檢測(cè)。未來(lái)的研究可以結(jié)合下游任務(wù),共同構(gòu)建一個(gè)完整的城市場(chǎng)景的語(yǔ)義理解框架,來(lái)提升感知性能。此外,[63]結(jié)合了幀間信息提升性能。時(shí)間序列信息包含序列化的監(jiān)控信號(hào),與單幀方法相比,它可以提供更穩(wěn)定的結(jié)果。因此,未來(lái)的工作可以考慮更深入地利用時(shí)間、上下文和空間信息來(lái)實(shí)現(xiàn)性能突破。
  2. 自監(jiān)督表征學(xué)習(xí):互相監(jiān)督的信號(hào)自然存在于從同一個(gè)真實(shí)世界場(chǎng)景但不同角度采樣的跨模態(tài)數(shù)據(jù)中。然而,由于缺乏對(duì)數(shù)據(jù)的深入理解,目前的方法還無(wú)法挖掘各個(gè)模態(tài)間的相互關(guān)系。未來(lái)的研究可以集中在如何利用多模態(tài)數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),包括預(yù)訓(xùn)練、微調(diào)或者對(duì)比學(xué)習(xí)。通過(guò)這些最先進(jìn)的機(jī)制,融合算法將加深模型對(duì)數(shù)據(jù)更深層次的理解,同時(shí)取得更好的性能。

傳感器固有問(wèn)題

域偏差和分辨率與現(xiàn)實(shí)世界的場(chǎng)景和傳感器高度相關(guān)。這些缺陷阻礙了自動(dòng)駕駛深度學(xué)習(xí)模型的大規(guī)模訓(xùn)練和實(shí)時(shí)。

  1. 域偏差:在自動(dòng)駕駛感知場(chǎng)景中,不同傳感器提取的原始數(shù)據(jù)伴隨著嚴(yán)重的領(lǐng)域相關(guān)特征。不同的攝像頭有不同的光學(xué)特性,而LiDAR可能會(huì)從機(jī)械結(jié)構(gòu)到固態(tài)結(jié)構(gòu)而有所不同。更重要的是,數(shù)據(jù)本身會(huì)存在域偏差,例如天氣、季節(jié)或地理位置,即使它是由相同的傳感器捕獲的。這就導(dǎo)致檢測(cè)模型的泛化性受到影響,無(wú)法有效適應(yīng)新場(chǎng)景。這類(lèi)缺陷阻礙了大規(guī)模數(shù)據(jù)集的收集和原始訓(xùn)練數(shù)據(jù)的復(fù)用性。因此,未來(lái)可以聚焦于尋找一種消除域偏差并自適應(yīng)集成不同數(shù)據(jù)源的方法。
  2. 分辨率沖突:不同的傳感器通常有不同的分辨率。例如,LiDAR的空間密度明顯低于圖像的空間密度。無(wú)論采用哪種投影方式,都會(huì)因?yàn)檎也坏綄?duì)應(yīng)關(guān)系而導(dǎo)致信息損失。這可能會(huì)導(dǎo)致模型被一種特定模態(tài)的數(shù)據(jù)所主導(dǎo),無(wú)論是特征向量的分辨率不同還是原始信息的不平衡。因此,未來(lái)的工作可以探索一種與不同空間分辨率傳感器兼容的新數(shù)據(jù)表示系統(tǒng)。

9參考

[1] https://zhuanlan.zhihu.com/p/470588787
[2] Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

原文鏈接:https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-08-10 09:49:57

自動(dòng)駕駛視覺(jué)

2022-12-08 09:25:58

自動(dòng)駕駛技術(shù)

2023-06-16 09:55:29

2022-04-25 15:13:03

自動(dòng)駕駛傳感器

2022-02-25 10:56:08

自動(dòng)駕駛傳感器技術(shù)

2023-04-24 09:52:12

2017-07-21 10:42:27

自動(dòng)駕駛應(yīng)用機(jī)器學(xué)習(xí)

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2022-05-11 11:17:47

ODD自動(dòng)駕駛低速自動(dòng)駕駛

2021-11-05 12:15:18

自動(dòng)駕駛數(shù)據(jù)測(cè)試

2022-08-08 13:12:04

自動(dòng)駕駛決策

2022-01-18 10:51:09

自動(dòng)駕駛數(shù)據(jù)人工智能

2023-05-06 10:02:37

深度學(xué)習(xí)算法

2022-06-07 14:30:33

自動(dòng)駕駛技術(shù)測(cè)試

2023-04-13 10:08:29

自動(dòng)駕駛雷達(dá)

2023-07-19 08:46:00

導(dǎo)航地圖

2023-10-26 09:34:44

自動(dòng)駕駛技術(shù)

2022-08-29 10:16:00

自動(dòng)駕駛邊緣計(jì)算

2023-05-11 16:19:31

自動(dòng)駕駛

2022-12-30 09:57:54

自動(dòng)駕駛應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)