自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Mamba和自動(dòng)駕駛結(jié)合會(huì)是未來(lái)的趨勢(shì)么?今年最前沿的十五篇文章一探現(xiàn)狀!

人工智能 新聞
今天為大家分享Mamba與自動(dòng)駕駛結(jié)合的十五篇文章,涉及3D檢測(cè)/跟蹤/點(diǎn)云/軌跡預(yù)測(cè)/端到端/Occ等多個(gè)方向!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面

近一個(gè)月Mamba文章集中爆發(fā),基于之前的發(fā)展,已經(jīng)開(kāi)始大規(guī)模應(yīng)用在相關(guān)的下游任務(wù)上。今天自動(dòng)駕駛之心就帶大家盤(pán)點(diǎn)一下Mamba在自動(dòng)駕駛相關(guān)任務(wù)中的應(yīng)用,涉及3D檢測(cè)、點(diǎn)云分割、跟蹤、軌跡預(yù)測(cè)、Occ、深度估計(jì)、檢測(cè)等多個(gè)方向!

從整體上看,Mamba在序列任務(wù)中的應(yīng)用更多;性能方面還未能超越Transformer的方法,但優(yōu)勢(shì)在于速度和精度的balance,值得未來(lái)更進(jìn)一步的探索!

MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders

  • 論文鏈接:https://arxiv.org/abs/2408.15101v1
  • 代碼鏈接:https://github.com/EnVision-Research/MTMamba

港科技的工作:多任務(wù)密集場(chǎng)景理解為多個(gè)密集預(yù)測(cè)任務(wù)訓(xùn)練模型,具有廣泛的應(yīng)用場(chǎng)景。捕捉長(zhǎng)期依賴性和增強(qiáng)跨任務(wù)交互對(duì)于多任務(wù)密集預(yù)測(cè)至關(guān)重要。本文提出了一種基于Mamba解碼器的多任務(wù)場(chǎng)景理解新架構(gòu)MTMamba++。它包含兩種類型的核心塊:自任務(wù)Mamba(STM)塊和跨任務(wù)Mama(CTM)塊。STM通過(guò)利用狀態(tài)空間模型來(lái)處理遠(yuǎn)程依賴性,而CTM顯式地對(duì)任務(wù)交互進(jìn)行建模,以促進(jìn)跨任務(wù)的信息交換。我們?cè)O(shè)計(jì)了兩種類型的CTM塊,即F-CTM和S-CTM,分別從特征和語(yǔ)義的角度增強(qiáng)跨任務(wù)交互。在NYUDv2、PASCAL Context和Cityscapes數(shù)據(jù)集上的實(shí)驗(yàn)表明,MTMamba++的性能優(yōu)于基于CNN和Transformer的方法。

圖片圖片

Enhanced Prediction of Multi-Agent Trajectories via Control Inference and State-Space Dynamics

  • 論文鏈接:https://arxiv.org/abs/2408.12609

在自動(dòng)系統(tǒng)領(lǐng)域,準(zhǔn)確預(yù)測(cè)附近車輛和行人的軌跡對(duì)于確保安全和運(yùn)營(yíng)效率至關(guān)重要。本文介紹了一種基于狀態(tài)空間動(dòng)態(tài)系統(tǒng)建模的軌跡預(yù)測(cè)新方法,該方法為智能體賦予了具有有形物理含義的模型。為了提高動(dòng)態(tài)系統(tǒng)中狀態(tài)估計(jì)的精度,本文還提出了一種新的控制變量建模技術(shù)。該技術(shù)利用了一種新引入的模型,稱為“Mixed Mamba”,來(lái)推導(dǎo)初始控制狀態(tài),從而提高了這些變量的預(yù)測(cè)精度。此外,所提出的方法巧妙地將圖神經(jīng)網(wǎng)絡(luò)與狀態(tài)空間模型相結(jié)合,有效地捕捉了多智能體交互的復(fù)雜性。這種組合為預(yù)測(cè)一系列場(chǎng)景中的多智能體軌跡提供了一個(gè)強(qiáng)大且可擴(kuò)展的框架。綜合評(píng)估表明,該模型在各種指標(biāo)和數(shù)據(jù)集上優(yōu)于幾個(gè)既定的基準(zhǔn),突顯了其在推進(jìn)自動(dòng)駕駛系統(tǒng)軌跡預(yù)測(cè)方面的巨大潛力。

圖片圖片

MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering

  • 論文鏈接:https://arxiv.org/abs/2408.11464v1
  • 項(xiàng)目主頁(yè):https://github.com/Hub-Tian/MambaOcc

中科院&美團(tuán)的工作:占用率預(yù)測(cè)引起了人們的廣泛關(guān)注,并在自動(dòng)駕駛系統(tǒng)的發(fā)展中顯示出巨大的優(yōu)勢(shì)。占用預(yù)測(cè)在幾何和語(yǔ)義信息方面帶來(lái)的細(xì)粒度環(huán)境表示,促進(jìn)了開(kāi)放場(chǎng)景下的一般感知和安全規(guī)劃。然而,在利用基于體素的三維密集表示和基于Transformer的二次注意力的現(xiàn)有工作中,它也帶來(lái)了高昂的計(jì)算成本和繁重的參數(shù)。為了應(yīng)對(duì)這些挑戰(zhàn),本文提出了一種基于Mamba的占用預(yù)測(cè)方法(MambaOcc),該方法采用BEV特征來(lái)減輕3D場(chǎng)景表示的負(fù)擔(dān),并采用線性Mamba風(fēng)格的注意力來(lái)實(shí)現(xiàn)高效的遠(yuǎn)程感知。此外,為了解決Mamba對(duì)序列順序的敏感性,我們提出了一種具有可變形卷積的局部自適應(yīng)重排序(LAR)機(jī)制,并設(shè)計(jì)了一種由卷積層和Mamba組成的混合BEV編碼器。對(duì)Occ3D nuScenes數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,MambaOcc在準(zhǔn)確性和計(jì)算效率方面都達(dá)到了最先進(jìn)的性能。例如,與FlashOcc相比,MambaOcc提供了更優(yōu)的結(jié)果,同時(shí)將參數(shù)數(shù)量減少了42%,計(jì)算成本減少了39%。

圖片圖片

MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation

  • 論文鏈接:https://arxiv.org/abs/2408.10602v1
  • 開(kāi)源鏈接:https://github.com/Chengjt1999/MV-MOS

南方科技大學(xué)&華南師范團(tuán)隊(duì)的工作:有效地總結(jié)密集的3D點(diǎn)云數(shù)據(jù)并提取運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)信息(運(yùn)動(dòng)目標(biāo)分割,MOS)對(duì)于自動(dòng)駕駛和機(jī)器人應(yīng)用至關(guān)重要。如何有效地利用運(yùn)動(dòng)和語(yǔ)義特征,避免3D-2D投影過(guò)程中的信息丟失,仍然是一個(gè)關(guān)鍵挑戰(zhàn)。本文通過(guò)融合點(diǎn)云不同二維表示的運(yùn)動(dòng)語(yǔ)義特征,提出了一種新的多視圖MOS模型(MV-MOS)。為了有效地利用互補(bǔ)信息,所提出模型的運(yùn)動(dòng)分支結(jié)合了鳥(niǎo)瞰圖(BEV)和距離圖(RV)表示的運(yùn)動(dòng)特征。此外引入了一個(gè)語(yǔ)義分支,以提供運(yùn)動(dòng)對(duì)象的補(bǔ)充語(yǔ)義特征。最后,利用Mamba模塊將語(yǔ)義特征與運(yùn)動(dòng)特征融合,為運(yùn)動(dòng)分支提供有效指導(dǎo)。我們通過(guò)綜合實(shí)驗(yàn)驗(yàn)證了所提出的多分支融合MOS框架的有效性,我們提出的模型在SemanticKITTI基準(zhǔn)上優(yōu)于現(xiàn)有的最先進(jìn)模型。

圖片圖片

MambaEVT: Event Stream based Visual Object Tracking using State Space Model

  • 論文鏈接:https://arxiv.org/abs/2408.10487
  • 開(kāi)源鏈接:https://github.com/Event-AHU/MambaEVT

近年來(lái),基于事件相機(jī)的視覺(jué)跟蹤因其獨(dú)特的成像原理和低能耗、高動(dòng)態(tài)范圍和高時(shí)間分辨率的優(yōu)點(diǎn)而受到越來(lái)越多的關(guān)注。由于使用視覺(jué)Transformer和靜態(tài)模板進(jìn)行目標(biāo)定位,當(dāng)前基于事件的跟蹤算法正逐漸遇到性能瓶頸。本文提出了一種新的基于Mamba的視覺(jué)跟蹤框架,該框架采用線性復(fù)雜度的狀態(tài)空間模型作為骨干網(wǎng)絡(luò)。搜索區(qū)域和目標(biāo)模板被饋送到視覺(jué)Mamba網(wǎng)絡(luò)中,以同時(shí)進(jìn)行特征提取和交互。搜索區(qū)域的輸出標(biāo)記將被輸入跟蹤頭進(jìn)行目標(biāo)定位。更重要的是,我們考慮使用Memory Mamba網(wǎng)絡(luò)在跟蹤框架中引入動(dòng)態(tài)模板更新策略。通過(guò)考慮目標(biāo)模板庫(kù)中樣本的多樣性并對(duì)模板存儲(chǔ)模塊進(jìn)行適當(dāng)調(diào)整,可以集成更有效的動(dòng)態(tài)模板。動(dòng)態(tài)和靜態(tài)模板的有效組合使我們基于Mamba的跟蹤算法能夠在多個(gè)大規(guī)模數(shù)據(jù)集(包括EventVOT、VisEvent和FE240hz)上實(shí)現(xiàn)精度和計(jì)算成本之間的良好平衡。

圖片

OccMamba: Semantic Occupancy Prediction with State Space Models

  • 論文鏈接:https://arxiv.org/abs/2408.09859

中科大&上海AI Lab等團(tuán)隊(duì)的工作:由于存在大量占用單元、嚴(yán)重遮擋、有限的視覺(jué)線索、復(fù)雜的駕駛場(chǎng)景等因素,訓(xùn)練用于語(yǔ)義占用預(yù)測(cè)的深度學(xué)習(xí)模型具有挑戰(zhàn)性。最近的方法通常采用基于Transformer的架構(gòu),因?yàn)樗鼈冊(cè)趯W(xué)習(xí)輸入條件權(quán)重和遠(yuǎn)程關(guān)系方面具有很強(qiáng)的能力。然而基于Transformer的網(wǎng)絡(luò)因其二次計(jì)算復(fù)雜性而讓人望而卻步,嚴(yán)重削弱了它們?cè)谡Z(yǔ)義占用預(yù)測(cè)中的有效性和部署。受Mamba架構(gòu)的全局建模和線性計(jì)算復(fù)雜性的啟發(fā),我們提出了第一個(gè)基于Mamba的語(yǔ)義占用預(yù)測(cè)網(wǎng)絡(luò),稱為OccMamba。然而,由于語(yǔ)言域和3D域之間固有的域差距,將Mamba架構(gòu)直接應(yīng)用于占用預(yù)測(cè)任務(wù)會(huì)產(chǎn)生不令人滿意的性能。為了緩解這個(gè)問(wèn)題,我們提出了一種簡(jiǎn)單而有效的3D-1D重排序操作,即高度優(yōu)先的2D Hilbert展開(kāi)。它可以最大限度地保留點(diǎn)云的空間結(jié)構(gòu),并促進(jìn)曼巴塊的處理。我們的OccMamba在三個(gè)流行的占用率預(yù)測(cè)基準(zhǔn)上達(dá)到了最先進(jìn)的性能,包括Openccupancy、SemanticKITTI和SemanticPOSS。值得注意的是,在Openccupancy上,我們的OccMamba分別比之前最先進(jìn)的Co-Occ高出3.1%的IoU和3.2%的mIoU。

圖片圖片

MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model

  • 論文鏈接:https://arxiv.org/abs/2408.09178

國(guó)防科大的工作:通過(guò)檢測(cè)進(jìn)行跟蹤一直是多目標(biāo)跟蹤(MOT)領(lǐng)域的主流范式。這些方法通常依賴于卡爾曼濾波器來(lái)估計(jì)目標(biāo)的未來(lái)位置,假設(shè)目標(biāo)是線性運(yùn)動(dòng)的。然而,在跟蹤舞蹈和體育等場(chǎng)景中表現(xiàn)出非線性和多樣化運(yùn)動(dòng)的目標(biāo)時(shí),它們卻做得不夠。此外,在MOT中使用基于學(xué)習(xí)的運(yùn)動(dòng)預(yù)測(cè)器的關(guān)注有限。為了應(yīng)對(duì)這些挑戰(zhàn),我們求助于探索數(shù)據(jù)驅(qū)動(dòng)的運(yùn)動(dòng)預(yù)測(cè)方法。受狀態(tài)空間模型(SSM)(如Mamba)在具有近線性復(fù)雜度的長(zhǎng)期序列建模中的巨大期望的啟發(fā),我們引入了一種名為Mamba-motion Predictor(MTP)的基于Mamba的運(yùn)動(dòng)模型。MTP旨在模擬舞者和運(yùn)動(dòng)員等目標(biāo)的復(fù)雜運(yùn)動(dòng)模式。具體來(lái)說(shuō),MTP將對(duì)象的時(shí)空位置動(dòng)態(tài)作為輸入,使用雙Mamba編碼層捕獲運(yùn)動(dòng)模式,并預(yù)測(cè)下一個(gè)運(yùn)動(dòng)。在現(xiàn)實(shí)世界中,對(duì)象可能會(huì)因遮擋或運(yùn)動(dòng)模糊而丟失,導(dǎo)致其軌跡過(guò)早終止。為了應(yīng)對(duì)這一挑戰(zhàn),我們進(jìn)一步擴(kuò)大了MTP的應(yīng)用范圍。我們以自回歸的方式使用它,通過(guò)利用它自己的預(yù)測(cè)作為輸入來(lái)補(bǔ)償缺失的觀測(cè)值,從而有助于更一致的軌跡。我們提出的跟蹤器MambaTrack在Dancetrack和SportsMOT等基準(zhǔn)測(cè)試中表現(xiàn)出了先進(jìn)的性能,這些基準(zhǔn)測(cè)試的特點(diǎn)是復(fù)雜的運(yùn)動(dòng)和嚴(yán)重的遮擋。

圖片

RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba

  • 論文鏈接:https://arxiv.org/abs/2408.08827v1

安徽大學(xué)的工作:現(xiàn)有的RGBT跟蹤方法通常設(shè)計(jì)各種交互模型來(lái)執(zhí)行每一層的跨模態(tài)融合,但由于計(jì)算量大,無(wú)法執(zhí)行所有層之間的特征交互,這在魯棒的多模態(tài)表示中起著至關(guān)重要的作用。為了解決這個(gè)問(wèn)題,本文提出了一種名為AINet的新型全層多模態(tài)交互網(wǎng)絡(luò),該網(wǎng)絡(luò)在漸進(jìn)融合Mamba中對(duì)所有模態(tài)和層進(jìn)行高效和有效的特征交互,以實(shí)現(xiàn)魯棒的RGBT跟蹤。盡管已知不同層中的模態(tài)特征包含不同的線索,但由于在平衡交互能力和效率方面存在困難,在每一層中構(gòu)建多模態(tài)交互總是具有挑戰(zhàn)性的。同時(shí),考慮到RGB和熱模態(tài)之間的特征差異在一定程度上反映了它們的互補(bǔ)信息,我們?cè)O(shè)計(jì)了一種基于差異的融合曼巴(DFM),以實(shí)現(xiàn)具有線性復(fù)雜度的不同模態(tài)的增強(qiáng)融合。當(dāng)與所有層的特征交互時(shí),涉及大量的令牌序列(本研究中為3840個(gè)令牌),因此計(jì)算負(fù)擔(dān)很大。為了解決這個(gè)問(wèn)題,我們?cè)O(shè)計(jì)了一個(gè)Order動(dòng)態(tài)融合Mamba(OFM),通過(guò)動(dòng)態(tài)調(diào)整Mamba中不同層的掃描順序來(lái)執(zhí)行所有層的高效和有效的特征交互。對(duì)四個(gè)公共RGBT跟蹤數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,AINet在現(xiàn)有最先進(jìn)的方法中取得了領(lǐng)先的性能。

圖片

DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba

  • 論文鏈接:https://arxiv.org/abs/2408.03601v2
  • 項(xiàng)目主頁(yè):https://chengran-yuan.github.io/DRAMA/

新加坡國(guó)立大學(xué)的工作:運(yùn)動(dòng)規(guī)劃是一項(xiàng)具有挑戰(zhàn)性的任務(wù),在高度動(dòng)態(tài)和復(fù)雜的環(huán)境中生成安全可行的軌跡,形成自動(dòng)駕駛汽車的核心能力。在本文中提出了DRAMA,這是第一個(gè)基于Mamba的自動(dòng)駕駛汽車端到端運(yùn)動(dòng)規(guī)劃器。DRAMA融合了相機(jī)、特征空間中的LiDAR鳥(niǎo)瞰圖圖像以及自車狀態(tài)信息,以生成一系列未來(lái)的自車軌跡。與傳統(tǒng)的基于Transformer的序列長(zhǎng)度二次注意力復(fù)雜度方法不同,DRAMA能夠?qū)崿F(xiàn)計(jì)算強(qiáng)度較低的注意力復(fù)雜度,顯示出處理日益復(fù)雜的場(chǎng)景的潛力。DRAMA利用本文提出的Mamba融合模塊,高效地融合了相機(jī)和激光雷達(dá)的功能。此外,我們引入了一個(gè)Mamba Transformer解碼器,可以提高整體規(guī)劃性能。該模塊普遍適用于任何基于Transformer的模型,特別是對(duì)于具有長(zhǎng)序列輸入的任務(wù)。我們進(jìn)一步引入了一種新的特征狀態(tài)丟棄,在不增加訓(xùn)練和推理時(shí)間的情況下提高了規(guī)劃器的魯棒性。廣泛的實(shí)驗(yàn)結(jié)果表明,與基線Transfuser相比,DRAMA在NAVSIM數(shù)據(jù)集上實(shí)現(xiàn)了更高的精度,參數(shù)更少,計(jì)算成本更低。

圖片

MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking

  • 論文鏈接:https://arxiv.org/abs/2408.07889

大連理工的工作:現(xiàn)有的RGB-T跟蹤算法通過(guò)利用Transformer架構(gòu)的全局交互能力和廣泛的預(yù)訓(xùn)練模型取得了顯著進(jìn)展。盡管如此,這些方法主要采用圖像對(duì)外觀匹配,并面臨著注意力機(jī)制固有的高二次復(fù)雜度的挑戰(zhàn),導(dǎo)致時(shí)間信息的利用受到限制。受最近出現(xiàn)的狀態(tài)空間模型Mamba的啟發(fā),該模型以其令人印象深刻的長(zhǎng)序列建模能力和線性計(jì)算復(fù)雜性而聞名,這項(xiàng)工作創(chuàng)新性地提出了一個(gè)基于純Mamba的框架(MambaVT),以充分利用時(shí)空上下文建模進(jìn)行魯棒的可見(jiàn)熱跟蹤。具體而言,我們?cè)O(shè)計(jì)了long-range跨幀集成組件,以全局適應(yīng)目標(biāo)外觀變化,并引入短期歷史軌跡提示,根據(jù)局部時(shí)間位置線索預(yù)測(cè)后續(xù)目標(biāo)狀態(tài)。廣泛的實(shí)驗(yàn)表明,視覺(jué)Mamba在RGB-T跟蹤方面具有巨大的潛力,MambaVT在四個(gè)主流基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能,同時(shí)需要更低的計(jì)算成本。我們的目標(biāo)是將這項(xiàng)工作作為一個(gè)簡(jiǎn)單而強(qiáng)大的基線,刺激該領(lǐng)域的未來(lái)研究。

圖片

MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection

  • 論文鏈接:https://arxiv.org/abs/2408.00438v1

重慶理工的工作:基于變換器的單目3D對(duì)象檢測(cè)技術(shù)的最新進(jìn)展在從單個(gè)2D圖像推斷3D屬性方面表現(xiàn)出了卓越的性能。然而,大多數(shù)現(xiàn)有方法依賴于資源密集型的轉(zhuǎn)換器架構(gòu),這通常會(huì)導(dǎo)致處理長(zhǎng)序列數(shù)據(jù)時(shí)計(jì)算效率和性能的顯著下降。為了應(yīng)對(duì)這些挑戰(zhàn)并推進(jìn)單目3D目標(biāo)檢測(cè)技術(shù),我們提出了一種創(chuàng)新的網(wǎng)絡(luò)架構(gòu)MonoMM,一種多尺度Mamba-Enhanced用于實(shí)時(shí)單目3D目標(biāo)檢測(cè)的網(wǎng)絡(luò)。這種設(shè)計(jì)良好的架構(gòu)主要包括以下兩個(gè)核心模塊:聚焦多尺度融合(FMF)模塊,該模塊側(cè)重于以較低的計(jì)算資源消耗有效地保存和融合來(lái)自不同尺度的圖像信息。通過(guò)精確調(diào)節(jié)信息流,F(xiàn)MF模塊增強(qiáng)了模型對(duì)尺度變化的適應(yīng)性和魯棒性,同時(shí)保持了圖像細(xì)節(jié)。深度感知特征增強(qiáng)Mamba(DMB)模塊:它利用圖像特征的融合特征作為輸入,并采用一種新穎的自適應(yīng)策略來(lái)全局整合深度信息和視覺(jué)信息。這種深度融合策略不僅提高了深度估計(jì)的準(zhǔn)確性,而且提高了模型在不同視角和環(huán)境條件下的性能。此外,MonoMM的模塊化設(shè)計(jì)提供了高度的靈活性和可擴(kuò)展性,便于根據(jù)特定的應(yīng)用需求進(jìn)行調(diào)整和優(yōu)化。在KITTI數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們的方法優(yōu)于以前的單目方法,實(shí)現(xiàn)了實(shí)時(shí)檢測(cè)。

圖片

LION: Linear Group RNN for 3D Object Detection in Point Clouds

  • 論文鏈接:https://arxiv.org/abs/2407.18232v1
  • 代碼鏈接:https://happinesslz.github.io/projects/LION/

華科&港大&百度的工作:在大規(guī)模3D點(diǎn)云感知任務(wù)(如3D對(duì)象檢測(cè))中,變換器的優(yōu)勢(shì)受到建模遠(yuǎn)程關(guān)系時(shí)二次計(jì)算成本的限制。相比之下,線性RNN具有較低的計(jì)算復(fù)雜度,適用于長(zhǎng)距離建模。為了實(shí)現(xiàn)這一目標(biāo),我們提出了一種基于LInear grOup RNN(即對(duì)分組特征執(zhí)行線性RNN)的簡(jiǎn)單有效的基于窗口的框架,用于精確的3D對(duì)象檢測(cè),稱為L(zhǎng)ION。關(guān)鍵屬性是允許在比基于變換器的方法大得多的組中進(jìn)行足夠的特征交互。然而,由于線性群RNN在處理空間建模方面的局限性,將其有效應(yīng)用于高度稀疏點(diǎn)云中的3D對(duì)象檢測(cè)并非易事。為了解決這個(gè)問(wèn)題,我們簡(jiǎn)單地引入了一個(gè)3D空間特征描述符,并將其集成到線性組RNN算子中,以增強(qiáng)它們的空間特征,而不是盲目地增加體素特征的掃描順序。為了進(jìn)一步解決高度稀疏點(diǎn)云中的挑戰(zhàn),我們提出了一種3D體素生成策略,利用線性群RNN作為自回歸模型的自然屬性來(lái)加密前景特征。大量實(shí)驗(yàn)驗(yàn)證了所提出的組件的有效性以及我們的LION在不同線性群RNN算子(包括Mamba、RWKV和RetNet)上的泛化能力。此外,值得一提的是,我們的LION Mamba在Waymo、nuScenes、Argoverse V2和ONCE數(shù)據(jù)集上達(dá)到了最先進(jìn)的水平。最后但同樣重要的是,我們的方法在小型但流行的KITTI數(shù)據(jù)集上支持各種高級(jí)線性RNN算子(例如RetNet、RWKV、Mamba、xLSTM和TTT),以便快速體驗(yàn)我們基于線性RNN的框架。

圖片

Serialized Point Mamba: A Serialized Point Cloud Mamba Segmentation Model

  • 論文鏈接:https://arxiv.org/abs/2407.12319v1

湖南大學(xué)的工作:點(diǎn)云分割對(duì)于機(jī)器人視覺(jué)感知和環(huán)境理解至關(guān)重要,可以實(shí)現(xiàn)機(jī)器人導(dǎo)航和3D重建等應(yīng)用。然而,處理點(diǎn)云數(shù)據(jù)的稀疏和無(wú)序特性給高效和準(zhǔn)確的分割帶來(lái)了挑戰(zhàn)。受Mamba模型在自然語(yǔ)言處理中的成功啟發(fā),我們提出了序列化點(diǎn)云Mamba分段模型(序列化點(diǎn)Mamba),該模型利用狀態(tài)空間模型動(dòng)態(tài)壓縮序列,減少內(nèi)存使用,提高計(jì)算效率。Serialized Point Mamba將局部全局建模功能與線性復(fù)雜性相結(jié)合,在室內(nèi)和室外數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。這種方法包括分階段點(diǎn)云序列學(xué)習(xí)、網(wǎng)格池和條件位置編碼等新技術(shù),促進(jìn)了不同點(diǎn)云任務(wù)的有效分割。我們的方法在Scannet上實(shí)現(xiàn)了76.8 mIoU,在S3DIS上實(shí)現(xiàn)了70.3 mIoU。在Scannetv2實(shí)例分段中,它記錄了40.0 mAP。它還具有最低的延遲和合理的內(nèi)存使用,使其成為基于曼巴的點(diǎn)語(yǔ)義分割模型中的SOTA。

Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

  • 論文鏈接:https://arxiv.org/abs/2406.10700v2

港理工&中科院等團(tuán)隊(duì)的工作:基于序列化的方法對(duì)3D體素進(jìn)行序列化,并在輸入到Transformers之前將其分組為多個(gè)序列,已證明其在3D對(duì)象檢測(cè)中的有效性。然而,將3D體素序列化為1D序列將不可避免地犧牲體素的空間接近度。由于具有特征大小的Transformer的二次復(fù)雜性,通過(guò)現(xiàn)有的基于序列化的方法擴(kuò)大組大小很難解決這個(gè)問(wèn)題。受狀態(tài)空間模型(SSM)最新進(jìn)展的啟發(fā),我們提出了一種體素SSM,稱為體素曼巴,它采用無(wú)組策略將整個(gè)體素空間序列化為單個(gè)序列。SSM的線性復(fù)雜性鼓勵(lì)了我們的無(wú)組設(shè)計(jì),減輕了體素空間接近度的損失。為了進(jìn)一步增強(qiáng)空間鄰近性,我們提出了一種雙尺度SSM塊來(lái)建立層次結(jié)構(gòu),在1D序列化曲線中實(shí)現(xiàn)更大的感受野,并在3D空間中實(shí)現(xiàn)更完整的局部區(qū)域。此外,我們通過(guò)位置編碼在無(wú)組框架下隱式地應(yīng)用窗口分割,這通過(guò)編碼體素位置信息進(jìn)一步增強(qiáng)了空間接近度。我們?cè)赪aymo Open Dataset和nuScenes數(shù)據(jù)集上的實(shí)驗(yàn)表明,Voxel Mamba不僅比最先進(jìn)的方法具有更高的精度,而且在計(jì)算效率方面也顯示出顯著的優(yōu)勢(shì)。

圖片

Mamba YOLO: SSMs-Based YOLO For Object Detection

  • 論文鏈接:https://arxiv.org/abs/2406.05835v1
  • 代碼鏈接:https://github.com/HZAI-ZJNU/Mamba-YOLOv1

在深度學(xué)習(xí)技術(shù)快速發(fā)展的推動(dòng)下,YOLO系列為實(shí)時(shí)目標(biāo)探測(cè)器設(shè)定了新的基準(zhǔn)。研究人員在YOLO的基礎(chǔ)上不斷探索重參數(shù)化、高效層聚合網(wǎng)絡(luò)和無(wú)錨技術(shù)的創(chuàng)新應(yīng)用。為了進(jìn)一步提高檢測(cè)性能,引入了基于Transformer的結(jié)構(gòu),顯著擴(kuò)展了模型的感受野,并實(shí)現(xiàn)了顯著的性能提升。然而,這種改進(jìn)是有代價(jià)的,因?yàn)樽晕谊P(guān)注機(jī)制的二次復(fù)雜性增加了模型的計(jì)算負(fù)擔(dān)。幸運(yùn)的是,狀態(tài)空間模型(SSM)作為一種創(chuàng)新技術(shù)的出現(xiàn)有效地緩解了二次復(fù)雜性帶來(lái)的問(wèn)題。鑒于這些進(jìn)展,我們介紹了一種基于SSM的新型目標(biāo)檢測(cè)模型Mamba YOLO。Mamba YOLO不僅優(yōu)化了SSM基礎(chǔ),而且專門(mén)適用于目標(biāo)檢測(cè)任務(wù)。鑒于SSM在序列建模中的潛在局限性,如感受野不足和圖像局部性弱,我們?cè)O(shè)計(jì)了LSBlock和RGBlock。這些模塊能夠更精確地捕獲局部圖像依賴關(guān)系,并顯著增強(qiáng)模型的魯棒性。在公開(kāi)的基準(zhǔn)數(shù)據(jù)集COCO和VOC上進(jìn)行的廣泛實(shí)驗(yàn)結(jié)果表明,Mamba YOLO在性能和競(jìng)爭(zhēng)力方面都超越了現(xiàn)有的YOLO系列,展示了其巨大的潛力和競(jìng)爭(zhēng)優(yōu)勢(shì)。

圖片圖片

MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation

  • 論文鏈接:https://arxiv.org/abs/2406.04532v1

在自監(jiān)督深度估計(jì)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和變換器傳統(tǒng)上占據(jù)主導(dǎo)地位。然而,由于其局部關(guān)注或計(jì)算需求,這兩種架構(gòu)都難以有效地處理長(zhǎng)期依賴關(guān)系。為了克服這一局限性,我們提出了MambaDepth,這是一種為自監(jiān)督深度估計(jì)量身定制的多功能網(wǎng)絡(luò)。我們從曼巴架構(gòu)的優(yōu)勢(shì)中汲取靈感,曼巴架構(gòu)以其對(duì)長(zhǎng)序列的熟練處理以及通過(guò)狀態(tài)空間模型(SSM)高效捕捉全球背景的能力而聞名,我們介紹了MambaDepth。這種創(chuàng)新的架構(gòu)將U-Net在自我監(jiān)督深度估計(jì)方面的有效性與Mamba的先進(jìn)功能相結(jié)合。MambaDepth是圍繞純粹基于Mamba的編碼器-解碼器框架構(gòu)建的,它結(jié)合了跳過(guò)連接來(lái)維護(hù)網(wǎng)絡(luò)各級(jí)的空間信息。這種配置促進(jìn)了廣泛的特征學(xué)習(xí)過(guò)程,能夠在深度圖中捕獲精細(xì)細(xì)節(jié)和更廣泛的上下文。此外,我們?cè)贛amba塊內(nèi)開(kāi)發(fā)了一種新的集成技術(shù),以促進(jìn)編碼器和解碼器組件之間不間斷的連接和信息流,從而提高深度精度。在已建立的KITTI數(shù)據(jù)集上進(jìn)行的全面測(cè)試表明,MambaDepth在自監(jiān)督深度估計(jì)任務(wù)中優(yōu)于領(lǐng)先的基于CNN和Transformer的模型,使其能夠?qū)崿F(xiàn)最先進(jìn)的性能。此外,MambaDepth在Make3D和Cityscapes等其他數(shù)據(jù)集上證明了其卓越的泛化能力。MambaDepth的性能預(yù)示著自監(jiān)督深度估計(jì)的有效遠(yuǎn)程依賴建模的新時(shí)代。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-08-29 10:20:00

3D自動(dòng)駕駛

2024-08-14 10:40:00

模型自動(dòng)駕駛

2022-02-21 18:45:31

自動(dòng)駕駛智能技術(shù)

2023-04-19 10:44:23

自動(dòng)駕駛

2019-11-25 09:55:34

自動(dòng)駕駛人工智能無(wú)人駕駛

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2023-07-18 15:57:23

自動(dòng)駕駛

2022-02-23 11:31:44

自動(dòng)駕駛汽車智能

2022-02-15 10:25:53

智能汽車自動(dòng)駕駛

2021-04-03 12:40:05

自動(dòng)駕駛科技交通

2023-09-07 10:20:38

自動(dòng)駕駛技術(shù)

2023-09-20 12:13:47

開(kāi)發(fā)模型

2020-10-13 18:51:11

自動(dòng)駕駛人工智能技術(shù)

2020-03-27 22:15:52

自動(dòng)駕駛物聯(lián)網(wǎng)大數(shù)據(jù)

2018-09-04 19:30:29

人工智能自動(dòng)駕駛機(jī)器學(xué)習(xí)

2023-02-08 11:04:59

自動(dòng)駕駛系統(tǒng)

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動(dòng)駕駛

2018-10-25 15:35:01

自動(dòng)駕駛人工智能

2022-01-06 10:21:56

自動(dòng)駕駛數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)