自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

性能又高,耗時(shí)還??!為什么不試試最新3D占用網(wǎng)絡(luò)SGN呢?已開源

人工智能 新聞
今天汽車人為大家介紹了一個(gè)名為Sparse Guidance Network(SGN)的智能系統(tǒng),它使用一種特殊的方式來提升機(jī)器的這種“閱讀”能力。SGN通過某種方式讓機(jī)器更快地學(xué)習(xí)和辨認(rèn)周圍的物體,就像在拼圖游戲中找到正確的拼圖塊一樣。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

在這個(gè)信息化的時(shí)代,無人駕駛汽車和智能機(jī)器人正成為現(xiàn)實(shí)生活中的重要角色。為了讓這些機(jī)器更好地理解和導(dǎo)航我們的世界,它們需要能夠看到并理解它們周圍的環(huán)境。這就像是教機(jī)器“閱讀”現(xiàn)實(shí)世界的三維空間故事。今天汽車人為大家介紹了一個(gè)名為Sparse Guidance Network(SGN)的智能系統(tǒng),它使用一種特殊的方式來提升機(jī)器的這種“閱讀”能力。SGN通過某種方式讓機(jī)器更快地學(xué)習(xí)和辨認(rèn)周圍的物體,就像在拼圖游戲中找到正確的拼圖塊一樣。研究人員通過大量的測(cè)試,證明了SGN能夠在這個(gè)復(fù)雜的三維拼圖游戲中勝出,尤其是在一個(gè)叫做SemanticKITTI的挑戰(zhàn)中,這是一個(gè)檢驗(yàn)機(jī)器“視力”的考驗(yàn)。雖然SGN在幫助機(jī)器“看”得更清楚方面做得很好,但研究人員仍在尋找方法,使它變得更小、更快、更聰明,這樣未來無人駕駛汽車和智能機(jī)器人就可以更安全、更有效地幫助我們。

文章的主要思路

圖片

SGN探討了3D語義場(chǎng)景補(bǔ)全(SSC)的問題,這是一個(gè)在戶外駕駛場(chǎng)景中特別重要的研究領(lǐng)域。傳統(tǒng)上,這個(gè)問題主要依賴于昂貴的激光雷達(dá)(LiDAR)技術(shù)來捕獲周圍環(huán)境的三維信息。然而,近年來,研究開始轉(zhuǎn)向更經(jīng)濟(jì)的基于純視覺的SSC解決方案。先前的工作,如MonoScene、OccDepth、SurroundOcc和OccFormer等,大多采用了將二維圖像轉(zhuǎn)換為三維體積,再通過復(fù)雜的3D模型處理的方法。雖然這些方法在技術(shù)上有所創(chuàng)新,但它們通常依賴于重型的3D模型來處理提升的三維特征,這使得它們?cè)谇逦姆指钸吔绶矫姹憩F(xiàn)不足。

為了改進(jìn)這一點(diǎn),VoxFormer等方法提出了使用可見區(qū)域來完成不可見結(jié)構(gòu)的方法。這種方法采用兩階段框架:第一階段用于查詢proposal,第二階段用于密集化和分割。這種稀疏到密集的方法在效率和可擴(kuò)展性上優(yōu)于之前的密集處理方法,但它在查詢的類內(nèi)特征分離、查詢信息的準(zhǔn)確性以及全局信息考慮等方面仍存在限制。

針對(duì)這些限制,論文提出了一種新型的端到端基于純視覺的SSC框架,稱為Sparse Guidance Network(SGN)。SGN的核心思想是利用幾何先驗(yàn)和占用信息,從具有語義和占用意識(shí)的種子體素向整個(gè)場(chǎng)景擴(kuò)散語義。與傳統(tǒng)方法不同,SGN采用了一種密集-稀疏-密集的設(shè)計(jì),并引入了混合引導(dǎo)和有效的體素聚合來加強(qiáng)類內(nèi)特征的分離和加速語義擴(kuò)散的收斂。此外,SGN還利用了各向異性卷積來實(shí)現(xiàn)靈活的接收?qǐng)觯瑫r(shí)減少計(jì)算資源的需求。

這一創(chuàng)新方法在SemanticKITTI數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果顯示SGN在性能上優(yōu)于現(xiàn)有的最先進(jìn)方法。即使是SGN的輕量級(jí)版本SGN-L,也在內(nèi)存和參數(shù)量方面更為節(jié)省,同時(shí)在mIoU和IoU兩個(gè)重要指標(biāo)上取得了顯著的提升。這樣的效果得益于SGN在設(shè)計(jì)上的高效性和新穎性,特別是在處理稀疏數(shù)據(jù)和加速語義擴(kuò)散方面的創(chuàng)新,這使得SGN能夠在保持輕量級(jí)的同時(shí),提供強(qiáng)大的場(chǎng)景理解能力。

SGN方法詳解

圖片

概述

Sparse Guidance Network(SGN)的總體框架展現(xiàn)了一種密集-稀疏-密集的設(shè)計(jì),旨在通過幾何先驗(yàn)和占用信息,從具有語義和占用意識(shí)的種子體素將語義擴(kuò)散到整個(gè)場(chǎng)景中。具體步驟如下:SGN以RGB圖像為輸入,使用ResNet-50結(jié)合FPN來構(gòu)建圖像編碼器,以從RGB圖像中提取二維特征。這些提取的特征  為后續(xù)體素特征的形成提供了堅(jiān)實(shí)的基礎(chǔ),其中  是時(shí)間輸入的圖像數(shù)量, 是特征通道數(shù), 表示圖像分辨率。SGN通過3D-2D投影映射(使用純視覺參數(shù))對(duì)二維特征進(jìn)行采樣,構(gòu)建三維特征。這種簡(jiǎn)單的投影映射操作為后續(xù)的上下文建模提供了粗糙的體積場(chǎng)景表示。該映射過程比可學(xué)習(xí)的LSS和交叉注意力機(jī)制更簡(jiǎn)便和明確。數(shù)學(xué)上,三維特征  是從二維特征  采樣得到的。SGN基于深度預(yù)測(cè)生成稀疏體素提案,用于動(dòng)態(tài)索引種子體素。根據(jù)體素提案和三維特征,SGN設(shè)計(jì)了混合引導(dǎo)以注入語義和幾何線索,促進(jìn)特征學(xué)習(xí)。SGN開發(fā)了體素聚合層,形成信息豐富的體素特征,這些特征進(jìn)一步通過多尺度語義擴(kuò)散模塊進(jìn)行處理,以進(jìn)行最終的語義占用預(yù)測(cè)。

總的來說,SGN通過其創(chuàng)新的設(shè)計(jì)和流程,能夠有效地處理和解釋三維場(chǎng)景,提供準(zhǔn)確的語義場(chǎng)景補(bǔ)全。

Feature Learning with Hybrid Guidance

在"Feature Learning with Hybrid Guidance"這一部分中,SGN通過結(jié)合幾何引導(dǎo)和稀疏語義引導(dǎo),來增強(qiáng)信息豐富的體素特征。這種方法旨在解決直接處理視圖變換模塊產(chǎn)生的3D特征  的重型模型在獲取清晰分割邊界方面不夠鑒別力的問題。

  • Geometry Guidance:首先,在視圖變換模塊后接一個(gè)輔助的3D占用頭作為幾何引導(dǎo),以提供粗略的幾何意識(shí)。具體來說,利用各向異性卷積層和線性層構(gòu)建3D占用頭。這種各向異性卷積將3D卷積操作分解為三個(gè)連續(xù)的不同方向的1D卷積,并且每個(gè)1D卷積都配備了不同核大小的混合器,從而增強(qiáng)了模型從輸入數(shù)據(jù)中學(xué)習(xí)和提取有意義特征的能力。通過輔助頭對(duì)提升的3D特征  進(jìn)行3D占用  的預(yù)測(cè),對(duì)粗略場(chǎng)景表示應(yīng)用引導(dǎo),并為后續(xù)種子特征的語義預(yù)測(cè)和擴(kuò)散提供幾何先驗(yàn)。
  • Sparse Semantic Guidance:為了更有效和高效地從具有粗糙體積信息的3D特征中學(xué)習(xí)所有體素的語義,提出了從種子體素向整個(gè)場(chǎng)景傳播語義的方法。具體來說,生成稀疏體素提案來選擇種子體素,并鼓勵(lì)種子特征之間的類間可分性。
  • Sparse Voxel Proposal:設(shè)計(jì)了一個(gè)稀疏體素提案網(wǎng)絡(luò)(SVPN),以動(dòng)態(tài)選擇種子體素,從而進(jìn)行后續(xù)的語義上下文學(xué)習(xí)。SVPN包括深度估計(jì)和從粗到細(xì)的占用預(yù)測(cè)。
  • Semantic Guidance:在獲得占用預(yù)測(cè)  和場(chǎng)景體素坐標(biāo)  后,首先選擇初始種子體素特征  和種子坐標(biāo) ,然后將這些種子體素特征和相應(yīng)的體素索引輸入語義引導(dǎo)模塊進(jìn)行相互作用。該模塊具有兩個(gè)稀疏編碼器塊(SEB),一個(gè)融合層和一個(gè)輔助語義頭,每個(gè)編碼器塊包括一個(gè)稀疏特征編碼器和一個(gè)稀疏幾何特征編碼器,輸出具有多尺度上下文信息的特征。
  • Voxel Aggregation:如圖所示,進(jìn)一步將具有語義意識(shí)的種子特征  和具有占用意識(shí)的特征  與表示粗略幾何的3D特征  聚合,以構(gòu)建最終的鑒別性體素特征 。特別地,利用非種子體素的坐標(biāo)索引特征    中,然后將非

Multi-Scale Semantic Diffusion

在"Multi-Scale Semantic Diffusion"(多尺度語義擴(kuò)散)這一部分中,SGN通過結(jié)合幾何引導(dǎo)和稀疏語義引導(dǎo)學(xué)習(xí)特征,從而獲得具有豐富語義上下文和空間幾何線索的鑒別性體素特征。接著,設(shè)計(jì)了多尺度語義擴(kuò)散(MSSD)模塊,以基于幾何和空間占用線索,將語義信息從種子特征擴(kuò)散到整個(gè)場(chǎng)景。

MSSD模塊包含三個(gè)各向異性卷積層和ASPP模塊,這些構(gòu)成部分既輕量級(jí)又能有效捕獲不同大小實(shí)例的多尺度特征。之后,使用由線性層和softmax層組成的頭部來從擴(kuò)散的體素特征中預(yù)測(cè)最終的語義場(chǎng)景預(yù)測(cè) 

沿用MonoScene的做法,SGN在  的語義和幾何結(jié)果上采用Scene-Class Affinity Loss,以同時(shí)優(yōu)化類別精度、召回率和特異性度量。最終預(yù)測(cè)的整體損失函數(shù)表達(dá)為:

其中,   分別代表語義和幾何結(jié)果的Scene-Class Affinity Loss, 代表交叉熵?fù)p失。

通過這種設(shè)計(jì),MSSD模塊能夠有效地將語義信息從精選的種子體素?cái)U(kuò)散到整個(gè)場(chǎng)景,從而在保持模型輕量的同時(shí),實(shí)現(xiàn)對(duì)復(fù)雜三維環(huán)境的深入理解和準(zhǔn)確的語義場(chǎng)景補(bǔ)全。

實(shí)驗(yàn)結(jié)果

圖片

在SemanticKITTI隱藏測(cè)試集上,針對(duì)語義場(chǎng)景補(bǔ)全的性能比較中,SGN(Sparse Guidance Network)展示了卓越的實(shí)驗(yàn)表現(xiàn)。SGN的三個(gè)變體——SGN-S、SGN-L和SGN-T——均超越了先前方法的性能。特別地,SGN-T版本在多項(xiàng)個(gè)別類別上以及(mIoU)上都取得了最佳成績(jī)。

SGN-T在'road'(道路)類別上實(shí)現(xiàn)了最高的IoU,為60.40%,同時(shí)在較困難識(shí)別的類別,如'truck'(卡車)、'motorcyclist'(摩托車手)和'traffic sign'(交通標(biāo)志)上,也展現(xiàn)了出色的識(shí)別能力,分別達(dá)到了28.40%、4.50%和8.30%的IoU。這些成績(jī)不僅在單個(gè)類別上表現(xiàn)出色,而且在整體性能上,SGN-T以15.76%的mIoU率先于所有列出的方法,這反映了其在各個(gè)類別上的綜合性能強(qiáng)度。

SGN-L和SGN-S也表現(xiàn)出了不俗的性能,與SGN-T相比,它們?cè)谀承╊悇e上略有不足,但在'car'(汽車)、'bicyclist'(騎自行車的人)和'pole'(桿子)等類別上取得了傲視群雄的結(jié)果。這表明SGN框架在不同尺寸和參數(shù)設(shè)置下仍然能夠保持其語義理解的能力。

整體而言,SGN方法的優(yōu)異表現(xiàn)證明了其對(duì)于SemanticKITTI數(shù)據(jù)集上的3D語義場(chǎng)景補(bǔ)全任務(wù)的有效性,特別是在處理復(fù)雜場(chǎng)景和細(xì)粒度類別的識(shí)別上。SGN的成功歸因于其獨(dú)特的體素特征聚合和多尺度語義擴(kuò)散能力,這使得它能夠在3D空間中更加準(zhǔn)確地推斷和標(biāo)記各種類別。

關(guān)于SGN討論

圖片

在SGN中,提出的Sparse Guidance Network (SGN) 方法為三維語義場(chǎng)景補(bǔ)全問題提供了一種創(chuàng)新的解決方案。SGN的主要優(yōu)點(diǎn)在于其使用了一種高效的密集-稀疏-密集設(shè)計(jì),這種設(shè)計(jì)不僅優(yōu)化了計(jì)算資源的使用,還通過有效的語義和幾何引導(dǎo)提高了模型對(duì)于場(chǎng)景中物體邊界的鑒別能力。此外,SGN通過多尺度語義擴(kuò)散模塊有效地處理了不同尺寸的實(shí)例,進(jìn)一步提高了其在多個(gè)類別上的識(shí)別性能,尤其是在具有挑戰(zhàn)性的SemanticKITTI數(shù)據(jù)集上。

盡管SGN在多項(xiàng)指標(biāo)上表現(xiàn)出色,但也存在一些潛在的限制。首先,雖然SGN通過稀疏體素提案網(wǎng)絡(luò)動(dòng)態(tài)選擇種子體素,但這個(gè)過程可能會(huì)錯(cuò)過一些重要的特征,尤其是在場(chǎng)景中較為稀疏或難以區(qū)分的區(qū)域。其次,SGN在推斷過程中放棄了輔助3D頭,這可能會(huì)限制模型在捕捉復(fù)雜幾何形狀時(shí)的能力。此外,盡管SGN在效率和性能上取得了平衡,但如何進(jìn)一步減少模型的參數(shù)數(shù)量和內(nèi)存占用,以適應(yīng)資源受限的應(yīng)用場(chǎng)景,仍然是一個(gè)值得探討的問題。

未來,SGN的研究可以在以下幾個(gè)方面進(jìn)一步發(fā)展。首先,可以探索如何改進(jìn)稀疏體素提案網(wǎng)絡(luò),以更準(zhǔn)確地捕捉和利用場(chǎng)景中的重要特征。其次,可以研究新的網(wǎng)絡(luò)架構(gòu)或訓(xùn)練策略,以更好地利用在推斷過程中丟棄的輔助3D頭中的信息。此外,對(duì)于模型的輕量化和優(yōu)化也有很大的發(fā)展空間,例如,通過網(wǎng)絡(luò)剪枝或知識(shí)蒸餾來減小模型大小,提高在邊緣設(shè)備上的部署效率。最后,模型泛化能力的提升也是未來研究的一個(gè)重要方向,如何使模型能夠適應(yīng)不同的環(huán)境和條件,包括不同光照、天氣以及傳感器配置,將是推動(dòng)該領(lǐng)域進(jìn)一步發(fā)展的關(guān)鍵。通過解決這些問題,SGN及其未來的變體有望在三維語義理解和場(chǎng)景重建領(lǐng)域取得更廣泛的應(yīng)用。

結(jié)論

總結(jié)來說,作者提出了Sparse Guidance Network(SGN),這是一種新穎的端到端框架,用于基于純視覺的三維語義場(chǎng)景補(bǔ)全。SGN利用其密集-稀疏-密集的設(shè)計(jì),有效地結(jié)合了幾何和語義引導(dǎo),從而提高了語義分割的準(zhǔn)確性。通過在SemanticKITTI數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn),SGN證明了其在多個(gè)類別上的優(yōu)越性能,尤其是在mIoU指標(biāo)上,展示了其對(duì)于各種尺寸物體的鑒別能力。雖然SGN存在一些局限性,比如在處理稀疏區(qū)域時(shí)可能會(huì)錯(cuò)過一些特征,但它的整體表現(xiàn)表明了一個(gè)強(qiáng)大的框架,為未來三維語義場(chǎng)景補(bǔ)全的研究提供了新的方向。未來工作可以集中在進(jìn)一步優(yōu)化模型結(jié)構(gòu)、提高泛化能力和效率上,以實(shí)現(xiàn)更廣泛的應(yīng)用。

原文鏈接:https://mp.weixin.qq.com/s/JrxSaaeKJ656741vwBr5xA

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-04-24 16:25:47

3D開發(fā)

2012-08-13 17:11:37

Silverlight

2025-04-22 09:26:00

2021-06-18 05:59:37

Css前端CSS 特效

2017-07-11 15:00:04

前端CSS3D視角

2024-10-09 09:42:26

2024-05-16 09:24:17

3D技術(shù)

2020-08-26 10:37:21

阿里3D

2013-11-21 19:36:56

暢游游戲引擎Genesis-3D

2021-12-20 14:43:54

Goxel3D建模Linux

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2021-03-08 15:40:46

開源技術(shù) 軟件

2023-12-19 08:28:34

RabbitMQ消息隊(duì)列架構(gòu)

2009-12-15 16:13:11

3D圖像

2021-06-18 15:50:56

模型人工智能深度學(xué)習(xí)

2012-02-28 18:12:48

PowerSmart3D

2023-05-03 09:01:41

CanvasWebGL

2011-10-06 13:30:45

宏碁投影儀

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2012-11-26 12:51:44

木材3D打
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)