自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Panoptic-FlashOcc:目前速度和精度最優(yōu)的全景占用預(yù)測(cè)網(wǎng)絡(luò)

人工智能 新聞
本文介紹了Panoptic-FlashOcc,這是一種高效且易于部署的全景占用預(yù)測(cè)框架。它基于已建立的FlashOcc,通過(guò)整合centerness head和全景占用處理,將語(yǔ)義占用增強(qiáng)為全景占用。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

宣傳一下小伙伴最新的工作Panoptic-FlashOcc,這是一種高效且易于部署的全景占用預(yù)測(cè)框架(基于之前工作FlashOcc),在Occ3DnuScenes上不僅取得了最快的推理速度,也取得了最好的精度。

  • 論文地址:https://arxiv.org/pdf/2406.10527v1
  • 論文單位:后摩智能、清華、中科大、大連理工

全景占用(Panoptic occupancy)提出了一個(gè)新的挑戰(zhàn),它旨在將實(shí)例占用(instance occupancy)和語(yǔ)義占用(semantic occupancy)整合到統(tǒng)一的框架中。然而,全景占用仍然缺乏高效的解決方案。在本文中,我們提出了Panoptic-FlashOcc,這是一個(gè)簡(jiǎn)單、穩(wěn)健、實(shí)時(shí)的2D圖像特征框架?;贔lashOcc的輕量級(jí)設(shè)計(jì),我們的方法在單個(gè)網(wǎng)絡(luò)中同時(shí)學(xué)習(xí)語(yǔ)義占用和類別感知的實(shí)例聚類,聯(lián)合實(shí)現(xiàn)了全景占用。這種方法有效地解決了三維voxel-level中高內(nèi)存和計(jì)算量大的缺陷。Panoptic-FlashOcc以其簡(jiǎn)單高效的設(shè)計(jì),便于部署,展示了在全景占用預(yù)測(cè)方面的顯著成就。在Occ3D-nuScenes基準(zhǔn)測(cè)試中,它取得了38.5的RayIoU和29.1的mIoU,用于語(yǔ)義占用,運(yùn)行速度高達(dá)43.9 FPS。此外,它在全景占用方面獲得了16.0的RayPQ,伴隨著30.2 FPS的快速推理速度。這些結(jié)果在速度和準(zhǔn)確性方面都超過(guò)了現(xiàn)有方法的性能。源代碼和訓(xùn)練模型可以在以下github倉(cāng)庫(kù)找到:https://github.com/ Yzichen/FlashOCC。

1. Introduction

全景占用在多視圖感知中對(duì)自主機(jī)器人導(dǎo)航[10]、環(huán)境映射[27]和自動(dòng)駕駛系統(tǒng)[2, 29, 30, 34]起著至關(guān)重要的作用。由于全景質(zhì)量指標(biāo)[19]的引入,它最近受到了極大的關(guān)注。全景占用將3D場(chǎng)景從視覺(jué)圖像中劃分為結(jié)構(gòu)化的體素,每個(gè)體素都被分配了一個(gè)實(shí)例ID,其中“thing”類別中的每個(gè)體素都通過(guò)類別標(biāo)簽和實(shí)例ID來(lái)識(shí)別,而“stuff”類別中的體素僅用類別標(biāo)簽進(jìn)行標(biāo)記。

多視圖3D全景占用仍然是一個(gè)新興領(lǐng)域,并且仍然是一個(gè)開(kāi)放的研究問(wèn)題。由于其計(jì)算量大,到目前為止,只有一篇論文SparseOcc[19]以稀疏的方式解決了這個(gè)問(wèn)題。3D全景占用在網(wǎng)絡(luò)設(shè)計(jì)上提出了挑戰(zhàn),因?yàn)樗鼘?D體素的分割分類為語(yǔ)義分割區(qū)域,同時(shí)也區(qū)分了個(gè)別實(shí)例。此外,全景占用在文章開(kāi)頭提到的領(lǐng)域中找到了其主要應(yīng)用,所有這些領(lǐng)域都要求實(shí)時(shí)推理和高準(zhǔn)確性,同時(shí)能夠在各種邊緣芯片上部署。這些挑戰(zhàn)激勵(lì)我們尋找一個(gè)更合適的架構(gòu),能夠解決這些問(wèn)題,并在不犧牲準(zhǔn)確性的情況下實(shí)現(xiàn)快速推理速度。

受到2D圖像全景分割中bottom-up范式成功的啟發(fā),在這種范式中,通常首先獲得語(yǔ)義分割預(yù)測(cè),然后對(duì)"thing"像素進(jìn)行分組以形成聚類來(lái)識(shí)別實(shí)例[3, 7, 13, 26, 32],我們的目標(biāo)是開(kāi)發(fā)一個(gè)簡(jiǎn)單、有效且可部署的網(wǎng)絡(luò)來(lái)處理全景占用。我們將語(yǔ)義占用與類別感知的實(shí)例聚類結(jié)合起來(lái)處理全景占用。為了確保在不犧牲準(zhǔn)確性的情況下的推理速度,我們采用了FlashOcc[34]的架構(gòu)來(lái)估計(jì)語(yǔ)義占用。FlashOcc利用通道到高度的轉(zhuǎn)換有效地將扁平化的鳥瞰圖(BEV)特征轉(zhuǎn)換為3D占用預(yù)測(cè),無(wú)需使用計(jì)算成本高昂的3D體素級(jí)表示。然后,我們結(jié)合了一個(gè)輕量級(jí)的中心度頭,靈感來(lái)自Panoptic-DeepLab[3],以生成類別感知的實(shí)例中心。來(lái)自語(yǔ)義占用估計(jì)和中心度頭的預(yù)測(cè)通過(guò)全景占用處理融合,以生成最終的全景占用。這導(dǎo)致了一種高效的自下而上的全景占用網(wǎng)絡(luò)設(shè)計(jì),我們稱之為Panoptic-FlashOcc。

我們?cè)诰哂刑魬?zhàn)性的Occ3DnuScenes數(shù)據(jù)集上使用三個(gè)指標(biāo)評(píng)估了我們的方法:RayIoU、mIoU和RayPQ。得益于其高效的設(shè)計(jì),Panoptic-FlashOcc在沒(méi)有花哨功能的情況下實(shí)現(xiàn)了最先進(jìn)的性能,如圖1所示。它以38.5的RayIoU、31.6的mIoU和16.0的RayPQ達(dá)到了最高性能,同時(shí)保持了35.6、35.6和30.2 FPS的推理速度。此外,在RayIoU方面,它在保持最快推理速度43.9 FPS的同時(shí),達(dá)到了與最佳競(jìng)爭(zhēng)者相當(dāng)?shù)男阅堋?/p>

2. Related Work

Panoptic segmentation. 自從Kirillov等人[13]引入全景分割以來(lái),這一領(lǐng)域出現(xiàn)了眾多努力。最初,對(duì)現(xiàn)有網(wǎng)絡(luò)的調(diào)整包括添加語(yǔ)義[13]或?qū)嵗种3]到最先進(jìn)的模型,隨后是手工制作的后處理技術(shù)[18, 31, 32]。隨著Transformer集成到計(jì)算機(jī)視覺(jué)中,研究人員開(kāi)始探索能夠以更統(tǒng)一的方式處理全景分割任務(wù)的架構(gòu)。MaskFormer[4]利用queries預(yù)測(cè)object masks和stuff masks。Mask2Former[5]引入了masked-attention,通過(guò)掩蔽圖像中無(wú)關(guān)的部分,顯著提高了對(duì)小物體的性能。雖然基于Transformer的方法與以前的模型相比顯示出了優(yōu)越的性能,但它們?cè)诟鞣N邊緣芯片上的部署方面提出了挑戰(zhàn)。最近,高效的MaskConver[23]通過(guò)僅使用全卷積層學(xué)習(xí)"thing"和"stuff"類的實(shí)例中心,超越了上述基于Transformer的模型。這激勵(lì)我們尋找一個(gè)高效且易于部署的模型,該模型僅以buttom-up的全卷積方式運(yùn)行。

高效的全景占用。全景占用代表了一個(gè)新的方向,與全景分割的蓬勃發(fā)展相比,它仍然沒(méi)有得到充分的探索。Sparseocc[19]是第一個(gè)也是唯一一個(gè)專注于提高全景質(zhì)量和推理速度的研究。它使用A100 GPU提供了質(zhì)量和延遲的報(bào)告。由于語(yǔ)義占用是全景占用的一個(gè)子任務(wù),全景理解可以從語(yǔ)義占用中經(jīng)驗(yàn)性地?cái)U(kuò)展,我們還探索了語(yǔ)義占用以識(shí)別具有高效架構(gòu)的研究。許多工作[1, 16, 21, 29, 30]采用了密集的3D體素級(jí)表示來(lái)進(jìn)行占用計(jì)算,盡管這需要計(jì)算3D卷積或Transformer模塊。因此,一些研究旨在簡(jiǎn)化模型以減少計(jì)算時(shí)間。TPVFormer[12]提出使用三視角視圖表示來(lái)補(bǔ)充垂直結(jié)構(gòu)信息,其中體素級(jí)表示被簡(jiǎn)化。VoxFormer[15]利用稀疏到密集的MAE模塊通過(guò)從透視圖投射的稀疏查詢完成占用。SparseOcc進(jìn)一步以完全稀疏的方式優(yōu)化占用預(yù)測(cè)[19]。

然而,上述所有方法都采用了3D體素級(jí)表示的范式來(lái)進(jìn)行占用預(yù)測(cè),不可避免地依賴于3D特征或Transformer模塊。這種設(shè)計(jì)為在邊緣芯片上部署它們提出了挑戰(zhàn),除了Nvidia的解決方案。FlashOcc[34]引入了一個(gè)channel-to-height模塊,僅使用2D卷積將扁平化的BEV特征轉(zhuǎn)換為3D語(yǔ)義占用預(yù)測(cè),有著極高的運(yùn)行效率和可部署性。

3. Architecture

在本節(jié)中,我們概述了如何利用所提出的實(shí)例中心將全景屬性集成到語(yǔ)義占用任務(wù)中。我們首先在第3.1節(jié)提供架構(gòu)的概述。然后,我們?cè)诘?.2節(jié)深入到占用頭,它預(yù)測(cè)每個(gè)體素的分割標(biāo)簽。隨后,在第3.3節(jié)中,我們?cè)敿?xì)闡述了中心度頭,它被用來(lái)生成類別感知的實(shí)例中心。最后,在第3.4節(jié)中,我們描述了全景占用處理,它作為一個(gè)高效的后處理模塊,用于生成全景占用。

圖片

3.1. Overview Architecture

圖片圖片圖片

3.2. Semantic Occupancy Prediction

圖片

3.3. Centerness Head

我們框架中提出的centerness head,有兩個(gè)目的:

  1. 加強(qiáng)不同物體之間的區(qū)別。通過(guò)生成更清晰的語(yǔ)義邊界,centerness head作為輔助子模塊,提高了語(yǔ)義占用分支的性能。在僅執(zhí)行語(yǔ)義占用預(yù)測(cè)時(shí),這種增強(qiáng)在推理過(guò)程中不需要任何額外的計(jì)算資源。隨后的章節(jié)將討論這一實(shí)證驗(yàn)證。
  2. 提供全景占用處理的實(shí)例中心的類別標(biāo)簽和3D位置。在城市場(chǎng)景中,“thing”對(duì)象通常在扁平化的鳥瞰圖(BEV)感知中彼此分離,因此從BEV特征生成的“thing”中心與從3D體素特征中識(shí)別出的中心一致。

如圖2底部中心塊所示,中心度頭包括中心回歸頭和中心熱圖頭。兩個(gè)模塊都包含三個(gè)卷積層,搭配3×3的核心。

3.4. Panoptic Occupancy Processing

全景占用處理模塊充當(dāng)實(shí)例標(biāo)簽的分配模塊,設(shè)計(jì)得既簡(jiǎn)單又有效。它完全依賴于矩陣運(yùn)算和邏輯運(yùn)算,不包含任何可訓(xùn)練參數(shù)。這種設(shè)計(jì)使得全景占用處理的實(shí)現(xiàn)直接而高效。

圖片圖片圖片圖片圖片圖片圖片圖片圖片

4. Experiment

圖片圖片

總結(jié):本文介紹了Panoptic-FlashOcc,這是一種高效且易于部署的全景占用預(yù)測(cè)框架。它基于已建立的FlashOcc,通過(guò)整合centerness head和全景占用處理,將語(yǔ)義占用增強(qiáng)為全景占用。Panoptic-FlashOcc在具有挑戰(zhàn)性的Occ3DnuScenes測(cè)試中不僅取得了最快的推理速度,也取得了最好的精度。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-11-28 09:37:12

3D自動(dòng)駕駛

2024-01-08 09:33:28

自動(dòng)駕駛3D

2023-09-22 10:34:19

學(xué)習(xí)算法隨機(jī)森林Java

2022-12-13 10:13:09

智能駕駛

2024-07-31 09:30:00

2023-02-28 11:07:35

2024-06-18 09:22:40

2022-12-28 10:23:10

2022-12-28 10:15:26

2023-03-16 18:09:00

機(jī)器學(xué)習(xí)數(shù)據(jù)集

2025-01-10 00:21:43

2024-07-10 10:19:26

2020-12-06 12:48:31

隱私網(wǎng)絡(luò)安全Forrester

2020-02-15 17:03:25

網(wǎng)絡(luò)威脅網(wǎng)絡(luò)安全網(wǎng)絡(luò)釣魚

2023-10-07 08:12:05

DAMO-YOLO算法

2023-04-26 08:24:46

DAMO-YOLO算法

2019-06-24 08:00:00

5G網(wǎng)絡(luò)設(shè)備

2020-07-23 08:01:53

邊緣網(wǎng)絡(luò)速度網(wǎng)絡(luò)智能化

2009-10-27 15:35:08

2024-09-05 11:48:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)