自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Mamba與元學(xué)習(xí)雙管齊下,打造新的語義補全方案!

人工智能 智能汽車
今天為大家分享普渡大學(xué)最新的工作!Mamba與元學(xué)習(xí)雙管齊下,打造新的語義補全方案。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面 && 筆者理解

傳統(tǒng)的自動駕駛框架下,現(xiàn)有感知而后又規(guī)控,所以可以說感知在這套框架下扮演著非常基礎(chǔ)性的工作。然而,動態(tài)交通參與者的突發(fā)性和可變性,加上靜態(tài)對象的較大的范圍和距離,給自動駕駛車輛在感知復(fù)雜駕駛場景時帶來了不小的挑戰(zhàn)。而在一眾提高感知能力的方法中,場景語義補全(Scene Semantic Completion,SSC) 作為一種同時推理駕駛場景的幾何形狀和語義的技術(shù)脫穎而出。如圖1所示,與傳統(tǒng)的依賴于單個目標(biāo)檢測和跟蹤的感知任務(wù)不同,SSC通過填補部分或遮擋傳感器輸入中缺失的信息,提供了對環(huán)境更全面的理解。當(dāng)傳感器如激光雷達或攝像頭被其他車輛或環(huán)境元素遮擋時,這種能力尤其關(guān)鍵。

圖片

不過,收集和標(biāo)注大規(guī)模真實世界數(shù)據(jù)集是一個昂貴且勞動密集型的過程,而且能夠收集到多樣的真實世界交通情況也是一件比較有挑戰(zhàn)的事情,比如一些像是車輛故障 or 行人碰撞的等長尾場景。所以,越來越多的研究人員愿意轉(zhuǎn)向高保真的模擬器,如:CARLA等,來生成一些數(shù)據(jù),雖然這些合成的數(shù)據(jù)與真實世界的數(shù)據(jù)還是存在一些domain gap。

當(dāng)前的SSC解決方案通常依賴于 3D CNNs 來編碼點云或RGB-D圖像等輸入數(shù)據(jù),這些數(shù)據(jù)包含了豐富的空間信息。然而,3D CNNs在捕獲細(xì)粒度場景表示或建模3D塊之間的長序列關(guān)系方面有些許挑戰(zhàn),而這兩者恰恰對于SSC任務(wù)至關(guān)重要。缺乏時間建模限制了它們跟蹤環(huán)境動態(tài)變化的能力。

  • 論文鏈接:https://arxiv.org/pdf/2411.03672v1

作者這篇工作旨在解決兩個關(guān)鍵gap:

  • 需要有效利用模擬數(shù)據(jù)以快速部署在真實世界場景中
  • 開發(fā)一種新的骨干網(wǎng)絡(luò),能夠捕獲長序列依賴關(guān)系和高分辨率空間信息。

所以,相應(yīng)的,這篇工作的主要貢獻主要總結(jié)如下:

  • 雙相訓(xùn)練與元學(xué)習(xí) 作者采用雙相訓(xùn)練策略,通過模型無關(guān)的元學(xué)習(xí)(MAML),在源域(由模擬器生成的數(shù)據(jù)集)上預(yù)訓(xùn)練模型,并在目標(biāo)域(真實世界數(shù)據(jù)集)上進行微調(diào)。這種方法通過在微調(diào)過程中快速學(xué)習(xí)特定于域的特征,加速了對真實世界環(huán)境的適應(yīng)。通過跨多個域的泛化,MAML減少了過擬合并提高了模型在新情況下的魯棒性。
  • 用于長序列建模的新型骨干網(wǎng)絡(luò) 作者引入了一種新的骨干架構(gòu),該架構(gòu)集成了Mamba(一種選擇性的狀態(tài)空間模型(SSM)),可變形卷積和大核注意(DLKA)。Mamba提供了一種結(jié)構(gòu)化機制,用于隨時間處理序列數(shù)據(jù),確保有效地捕獲3D體素網(wǎng)格內(nèi)的長距離依賴關(guān)系??勺冃尉矸e允許模型動態(tài)調(diào)整接受域,增強了檢測不同尺度物體的能力。同時,D-LKA增強了網(wǎng)絡(luò)的注意力機制,專注于場景的關(guān)鍵區(qū)域,這提高了空間意識和決策能力。

相關(guān)工作

3D semantic scene completion for autonomous driving

SSC 任務(wù)就是從不完整的傳感器輸入中,推斷大規(guī)模戶外環(huán)境的幾何形狀和語義。它提供了對駕駛場景的完整理解,并預(yù)測缺失的元素,這對于自動駕駛至關(guān)重要。

Roldao 等人提出了 LMSCNet,這是一個多尺度網(wǎng)絡(luò),結(jié)合了 2D U-Net 主干和 3D 分割頭。這種設(shè)計減少了全 3D 卷積的計算負(fù)擔(dān),同時保持了競爭性能。同樣,Yan 等人引入了一個多任務(wù)學(xué)習(xí)框架,其中語義分割(SS)和 SSC 被聯(lián)合訓(xùn)練。通過在兩個任務(wù)之間共享特征,模型改進了幾何和語義預(yù)測。這些方法使用單目 RGB 攝像頭與 LiDAR 相比,可以降低部署成本。然而,在這種像素到點的轉(zhuǎn)換過程中,可能會在 3D 空間的未占用區(qū)域引入虛假特征,降低模型性能。為了解決這些限制,最近的研究集中在改進像素到點的轉(zhuǎn)換和提煉特征融合技術(shù)。一些方法將深度估計納入 RGB 輸入,而其他方法使用注意力機制來選擇性增強相關(guān)特征。

Deformable large kernel attention

學(xué)習(xí) SSC 任務(wù)中不同體素之間相關(guān)性的兩種主要方法:

第一種方法使用大核和堆疊多層的 3D 卷積,使模型能夠捕獲 3D 空間中的長距離依賴。然而,隨著層數(shù)的增加,計算成本呈指數(shù)增長,大量的參數(shù)需要更多的內(nèi)存和訓(xùn)練時間。這些限制使其在實時應(yīng)用中不切實際,尤其是在效率至關(guān)重要的自動駕駛場景中。

第二種方法使用自注意力機制,有選擇地關(guān)注相關(guān)特征。自注意力在模擬遠(yuǎn)距離體素之間的關(guān)系方面提供了靈活性。然而,自注意力傾向于忽視場景的固有 3D 結(jié)構(gòu),將輸入數(shù)據(jù)更多地視為展平的序列而不是結(jié)構(gòu)化的空間信息。此外,自注意力不會動態(tài)適應(yīng)通道維度的變化,限制了其在駕駛環(huán)境中表示復(fù)雜變換的能力。這些限制,加上基于注意力模型的計算開銷,為在資源受限的系統(tǒng)中部署它們提出了挑戰(zhàn)。

為了解決這些問題,研究人員探索了可變形卷積,它引入了額外的偏移量,允許網(wǎng)絡(luò)自適應(yīng)地重新采樣空間特征。這種方法通過關(guān)注輸入最相關(guān)的區(qū)域來增強模型處理幾何變化的能力,在復(fù)雜場景中的魯棒性得到了提高。

Mamba on 3D semantic scene completion

Mamba 的精簡架構(gòu)減少了通常與 Transformer 相關(guān)的計算開銷,使其非常適合需要快速推理的應(yīng)用。它采用了輕量級設(shè)計,用更簡單的線性變換替換了多頭自注意力機制,同時仍然捕獲輸入元素之間的基本關(guān)系。

Zhu 等人開發(fā)了一個基于 Mamba 的通用視覺主干,用于模擬圖像塊之間的關(guān)系,展示了 Mamba 在計算機視覺任務(wù)中的潛力。通過有效地編碼圖像區(qū)域之間的關(guān)系,Mamba 為視覺處理中基于 Transformer 的模型提供了實用的替代方案。此外,Mamba 在 3D 建模任務(wù)中可能更加有效,其中 3D 塊的序列比 2D 圖像塊長得多,也復(fù)雜得多。這一洞見鼓勵研究人員探索將 Mamba 能力擴展到 2D 應(yīng)用之外的新方法。

方法論

之前的研究表明,在多任務(wù)學(xué)習(xí)框架中結(jié)合語義分割(SS)和場景語義補全(SSC)可以提升兩項任務(wù)的性能,其中 SS 提供詳細(xì)的語義特征,補充 SSC 捕獲的幾何理解,使得兩個模塊都能從共享的特征提取中受益。同時,一些方法通過使用歷史 LiDAR 掃描作為輔助監(jiān)督來增加語義標(biāo)簽的密度。盡管這些方法提高了模型捕獲細(xì)粒度語義的能力,但依賴歷史掃描增加了計算開銷,使得這些解決方案難以在實時自動駕駛場景中部署。

作者的方法不同,將 SS 作為預(yù)訓(xùn)練任務(wù)來學(xué)習(xí) SSC 的元知識。預(yù)訓(xùn)練步驟幫助模型更好地泛化于不同域,準(zhǔn)備處理真實世界的復(fù)雜性,如遮擋和傳感器噪聲。為了進一步增強監(jiān)督,作者從附近的 CAV 聚合語義信息,提供更密集的標(biāo)簽,擴展到更大的距離。這種從多輛車聚合的語義信息解決了單個傳感器的局限性,后者通常受到數(shù)據(jù)稀疏和遮擋的限制。它允許模型更有效地推理不完整的區(qū)域,從而獲得更全面的場景理解。

問題表述

雙相訓(xùn)練策略

基于 MAML,作者提出的方法,MetaSSC的工作流程如圖 3 所示,包括兩個主要階段:元預(yù)訓(xùn)練和適應(yīng)。這些階段使得 SSC-MDM 模型能夠?qū)⒅R從模擬環(huán)境轉(zhuǎn)移到真實世界駕駛場景,提高 3D SSC 任務(wù)的性能。

圖片

元預(yù)訓(xùn)練階段(圖 3-部分 A)旨在通過從模擬數(shù)據(jù)中學(xué)習(xí),為跨不同任務(wù)的泛化做準(zhǔn)備。源數(shù)據(jù)集 OPV2V 和 V2XSIM 提供了一系列 V2V 和 V2X 場景,幫助模型為動態(tài)環(huán)境開發(fā)魯棒特征。任務(wù)從這些數(shù)據(jù)集中采樣,每個任務(wù)包括一個支持集和一個查詢集。支持集用于內(nèi)循環(huán)中優(yōu)化任務(wù)特定的參數(shù),而查詢集評估模型的泛化性能。

具體元預(yù)訓(xùn)練的過程可以詳見 Algorithm1:

圖片

在適應(yīng)階段(圖 3-部分 B),元訓(xùn)練的 SSC MDM 模型被適應(yīng)到目標(biāo)真實世界數(shù)據(jù)集,SemanticKITTI。這個階段微調(diào)元學(xué)習(xí)參數(shù),使其與真實世界條件對齊,解決諸如傳感器噪聲、遮擋和環(huán)境變異性等挑戰(zhàn)。允許模型以多種分辨率(1:1、1:2、1:4 和 1:8)生成輸出,使其能夠捕獲駕駛環(huán)境的細(xì)節(jié)和大規(guī)模特征。

多尺度輸出對于平衡局部精度和全局場景理解至關(guān)重要。例如,像行人這樣的小物體在更細(xì)的尺度上被檢測,而像道路和建筑物這樣的大物體在更粗的分辨率上被識別。這種分層輸出結(jié)構(gòu)確保了模型即使在具有挑戰(zhàn)性的真實世界場景中也能提供準(zhǔn)確和全面的場景補全。

適應(yīng)階段利用元學(xué)習(xí)參數(shù)作為一個強大的起點,最小化了對廣泛重新訓(xùn)練的需求。這種高效的遷移學(xué)習(xí)框架加速了 SSC-MDM 模型在真實世界設(shè)置中的部署,確保了高性能和最小的計算開銷。適應(yīng)階段的過程被作者總結(jié)進 Algorithm2中:

圖片

D-LKA-M 架構(gòu)

D-LKA-M 架構(gòu)如圖 4 所示,源自 D-LKA 網(wǎng)絡(luò),集成了 Mamba 塊,有效地處理 3D 塊的長序列建模。該設(shè)計遵循與 LMSCNet 類似的層次結(jié)構(gòu),類似于 U-Net 架構(gòu)。層次結(jié)構(gòu)使模型能夠進行多尺度處理,允許模型捕獲來自 3D 場景的細(xì)粒度細(xì)節(jié)和更廣泛的上下文信息。

圖片

模型通過一系列 3D 模塊處理輸入數(shù)據(jù),不同階段進行下采樣和上采樣操作。每個下采樣層減少空間維度,壓縮輸入同時保留關(guān)鍵信息,每個上采樣層重建更高分辨率的輸出。這種結(jié)構(gòu)使其能夠以多種降低的分辨率輸出結(jié)果。這在 SSC 任務(wù)中特別有用,因為它在多個尺度上提供預(yù)測,提高了 SSC 的準(zhǔn)確性。

在輸入階段使用 Patch 嵌入模塊將原始 3D 數(shù)據(jù)劃分為可管理的部分。嵌入在 D-LKA 模塊中的 Mamba 塊增強了網(wǎng)絡(luò)對 3D 體素網(wǎng)格長距離依賴關(guān)系的建模能力,這對于理解復(fù)雜駕駛環(huán)境至關(guān)重要。這種集成確保了模型在計算效率和準(zhǔn)確性之間取得平衡,使其適合實時應(yīng)用。

可變形卷積

可變形卷積引入了一個偏移場來自適應(yīng)調(diào)整卷積核,這在自動駕駛中特別重要,因為行人、車輛和障礙物等對象通常不符合固定形狀或位置。傳統(tǒng)的固定核卷積難以有效捕獲這種不規(guī)則性,限制了模型準(zhǔn)確感知復(fù)雜駕駛環(huán)境的能力??勺冃尉矸e通過動態(tài)修改每個輸入位置的感受野來解決這個問題。該機制可以總結(jié)如下:

總之,可變形卷積為自動駕駛提供了顯著優(yōu)勢,通過提高模型對復(fù)雜場景的理解能力,這對于構(gòu)建在真實世界環(huán)境中安全可靠的自動駕駛系統(tǒng)至關(guān)重要。

大核注意力

總之,LKA 與可變形卷積的集成構(gòu)成了作者提出模型的主干。這個模塊在使模型在自動駕駛場景中有效執(zhí)行中起著至關(guān)重要的作用,其中局部細(xì)節(jié)和大規(guī)模上下文都是必需的。

Mamba

與 Vision Mamba不同,作者的方法直接處理來自 D-LKA 塊的特征,并與 Mamba 塊一起處理,以增強 3D 體素網(wǎng)格的長序列建模。這種直接集成使作者的模型能夠有效地捕獲來自 D-LKA 的局部特征和通過 Mamba 塊的長距離依賴關(guān)系,從而實現(xiàn)更強大的自動駕駛場景理解。這個過程的數(shù)學(xué)公式表示為:

總而言之,D-LKA 和 Mamba 模塊的集成使模型能夠有效地執(zhí)行局部和長序列建模,同時還能確保局部細(xì)節(jié)和全局背景之間的平衡,從而做出準(zhǔn)確的決策。

實驗及結(jié)論

作者在 SemanticKITTI上進行了實驗,將數(shù)據(jù)分割為訓(xùn)練、驗證和測試集,確保與以前研究的一致性。

與Baseline模型的比較

如表 1 所總結(jié)。所提出的 SSC-MDM 模型在場景補全的交并比(IoU)中排名第一,在精確度中排名第二。它還在 SSC 的平均交并比(mIoU)中排名第二,表明其在場景補全和語義場景補全任務(wù)中的優(yōu)越性能。

圖片

然而,SSC-MDM 的召回率低于 TS3D,這可以歸因于 TS3D 使用額外的 RGB 輸入。這一差異突出了 RGB 輔助性能與像 SSC-MDM 這樣的純 LiDAR 模型之間的權(quán)衡。作者的方法在常見類別如道路和建筑中特別出色,超過了其他模型。然而,對于出現(xiàn)頻率較低的類別,其性能相當(dāng)或略低,這突顯了解決數(shù)據(jù)集中類別不平衡問題的必要性。

消融分析

該分析旨在通過比較不同的變體架構(gòu),隔離和評估所提出模型的關(guān)鍵組件的影響。這四個變體模型,稱為 Multi-scaled、D-LKA、Transfer 和 Mamba,描述如下:

  1. Multi-scaled:LMSCNet 作為作者分析的基礎(chǔ)模型。這是一個輕量級模型,它在多個分辨率上學(xué)習(xí)特征,利用多尺度連接捕獲細(xì)粒度和廣泛的上下文信息。作者從這個模型開始逐步改進,以測試不同組件對最終性能的貢獻。
  2. D-LKA:在這個變體中,作者用可變形大核注意力網(wǎng)絡(luò)替換了 LMSCNet 主干,以增強特征提取。這一修改旨在提高網(wǎng)絡(luò)更準(zhǔn)確預(yù)測復(fù)雜 3D 場景的能力。
  3. Transfer:這個變體采用了前面討論的雙相訓(xùn)練策略,以提高模型性能并減少訓(xùn)練時間。通過在源數(shù)據(jù)集上預(yù)訓(xùn)練并在目標(biāo)數(shù)據(jù)集上微調(diào),"Transfer" 利用來自模擬域的知識來增強真實世界性能,確保更快的收斂和改進的泛化能力。
  4. Mamba:在這個最終變體中,作者將 Mamba 塊集成到 D-LKA 網(wǎng)絡(luò)中,以處理 3D 塊的長序列建模。Mamba 的優(yōu)勢在于其能夠有效地處理序列依賴性,這進一步增強了模型對 3D 空間結(jié)構(gòu)的理解,以實現(xiàn) SSC。

圖片

消融分析的結(jié)果總結(jié)在表 2 中。隨著作者從 "Multi-scaled" 進展到 "Mamba",所有指標(biāo)的性能要么提高要么保持一致,引入 DLKA 時召回率的下降除外。D-LKA 階段召回率的下降可以歸因于模型復(fù)雜性和泛化能力之間的權(quán)衡,因為 DLKA 專注于學(xué)習(xí)更豐富的特征,但可能需要更多的數(shù)據(jù)以獲得最佳的召回率。總體而言,結(jié)果證實了作者工作中使用的技術(shù)對 SSC 通常是有益的,顯示出在各種性能指標(biāo)上的一致改進。

圖片

此外,作者在圖 6 中可視化了四個模型在 SemanticKITTI 驗證數(shù)據(jù)集上的 mIoU 訓(xùn)練周期。"Multi-scaled" 和 "D-LKA" 變體直接在目標(biāo)數(shù)據(jù)集上訓(xùn)練,而 "Transfer" 和 "Mamba" 變體在源數(shù)據(jù)集上預(yù)訓(xùn)練并在目標(biāo)數(shù)據(jù)集上微調(diào)。值得注意的是,在微調(diào)過程中,僅在第一周期微調(diào)輸出層以穩(wěn)定早期訓(xùn)練。可視化清楚地表明,雙相訓(xùn)練策略加速了收斂,并在較少的訓(xùn)練周期內(nèi)獲得了更好的性能。這突出了轉(zhuǎn)移預(yù)訓(xùn)練知識并在較小的目標(biāo)數(shù)據(jù)集上微調(diào)以有效實現(xiàn)理想結(jié)果的有效性。

結(jié)論

本研究提出了一個基于元學(xué)習(xí)的框架,用于解決自動駕駛中的場景語義補全(SSC)任務(wù),重點關(guān)注從模擬環(huán)境到真實世界應(yīng)用的知識轉(zhuǎn)移。通過利用從模擬環(huán)境中獲取的元知識,框架減少了對大規(guī)模真實世界數(shù)據(jù)的依賴,顯著降低了部署成本并縮短了開發(fā)周期。本框架的關(guān)鍵創(chuàng)新在于其集成了大核注意力(LKA)機制和 Mamba 塊到主干模型中。這些組件使模型能夠有效地從 3D 體素網(wǎng)格提供的稀疏和不規(guī)則數(shù)據(jù)中提取多尺度、長序列關(guān)系。LKA 機制允許模型通過擴大感受野來捕獲局部細(xì)節(jié)和全局上下文,而不增加計算復(fù)雜性。同時,Mamba 塊提高了模型處理 3D 塊序列依賴性的能力,通過捕獲駕駛場景中的時間空間關(guān)系來增強 SSC 任務(wù)。

總之,元學(xué)習(xí)、先進的注意力機制和雙相訓(xùn)練的結(jié)合為自動駕駛中的 SSC 提供了一種可擴展且魯棒的解決方案。所提出的框架不僅提高了模型處理復(fù)雜和動態(tài)駕駛環(huán)境的能力,還降低了部署成本。這些結(jié)果為 SSC 的未來進步鋪平了道路,并為構(gòu)建更安全、更可靠的自動駕駛系統(tǒng)提供了寶貴的見解。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2015-09-18 13:19:39

VMware容器技術(shù)

2010-11-11 11:54:52

IT管理運維管理北塔

2013-05-29 09:47:54

2010-01-28 15:05:50

互聯(lián)網(wǎng)

2014-05-16 11:13:22

2015-09-29 15:56:33

2011-06-09 10:54:51

2010-02-25 14:27:59

Windows CE

2012-03-01 11:45:13

梭子魚云端IT

2016-09-21 15:15:00

APICloud

2012-01-04 16:01:28

2010-01-21 17:05:21

互聯(lián)網(wǎng)

2010-04-21 18:33:35

2022-07-20 13:48:58

蘋果裁員減緩招聘

2014-08-08 13:54:32

QQ瀏覽器

2021-11-16 10:14:35

數(shù)字化

2015-10-08 15:39:01

IT分銷商互聯(lián)網(wǎng)+

2020-12-28 10:41:21

黑客新冠病毒網(wǎng)絡(luò)攻擊
點贊
收藏

51CTO技術(shù)棧公眾號