自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Diffusion-SS3D:用擴(kuò)散去噪革新半監(jiān)督3D檢測,偽標(biāo)簽更準(zhǔn),mAP提升6%!

人工智能
SemCity?是一種?基于三平面擴(kuò)散(Triplane Diffusion)?的?3D 語義場景生成模型,能夠在真實(shí)戶外環(huán)境?中進(jìn)行?場景生成、語義補(bǔ)全、場景擴(kuò)展(Outpainting)和修補(bǔ)(Inpainting),并在?SemanticKITTI 數(shù)據(jù)集?上顯著提升生成質(zhì)量。

1. 一眼概覽

SemCity 是一種 基于三平面擴(kuò)散(Triplane Diffusion) 的 3D 語義場景生成模型,能夠在 真實(shí)戶外環(huán)境 中進(jìn)行 場景生成、語義補(bǔ)全、場景擴(kuò)展(Outpainting)和修補(bǔ)(Inpainting),并在 SemanticKITTI 數(shù)據(jù)集 上顯著提升生成質(zhì)量。

2. 核心問題

背景問題:當(dāng)前 3D 擴(kuò)散模型大多專注于 單個物體 或 室內(nèi)合成場景,對于 真實(shí)戶外場景 仍然缺乏研究。此外,戶外數(shù)據(jù)由于傳感器局限性(空白區(qū)域較多),導(dǎo)致模型難以學(xué)習(xí) 完整的三維語義分布核心挑戰(zhàn):如何在 稀疏、不完整的真實(shí)戶外數(shù)據(jù) 中 生成完整、語義連貫的 3D 場景,并支持 對象添加、移除和擴(kuò)展?應(yīng)用價值:自動駕駛、智能城市建模、增強(qiáng)現(xiàn)實(shí)(AR)、機(jī)器人導(dǎo)航等都依賴 高質(zhì)量 3D 語義場景生成,提高 環(huán)境理解能力。

3. 技術(shù)亮點(diǎn)

  • 三平面擴(kuò)散(Triplane Diffusion)建模:采用 Triplane 表示 作為代理表示,解決 真實(shí)戶外場景數(shù)據(jù)稀疏問題,比 傳統(tǒng)體素方法(Voxel-based) 更高效。
  • 三平面編輯(Triplane Manipulation):實(shí)現(xiàn) 無縫的對象添加、移除、修改,支持 場景修補(bǔ)(Inpainting)、擴(kuò)展(Outpainting)和語義補(bǔ)全(SSC Refinement)。
  • 高質(zhì)量戶外場景生成:在 SemanticKITTI 數(shù)據(jù)集上大幅提升場景生成質(zhì)量,優(yōu)于當(dāng)前基于擴(kuò)散的 3D 生成方法。

4. 方法框架

圖片圖片

SemCity 采用 三平面擴(kuò)散模型(Triplane Diffusion),核心流程如下:

1)三平面編碼(Triplane Encoding)

? 采用 Triplane Autoencoder 將 3D 體素場景 轉(zhuǎn)換為 三平面表示(xy、xz、yz)。

? 該表示減少了不必要的空白信息,提高 數(shù)據(jù)表示效率。

2)三平面擴(kuò)散(Triplane Diffusion)

? 通過 去噪擴(kuò)散過程(Denoising Diffusion Probabilistic Models, DDPM)學(xué)習(xí) 三平面數(shù)據(jù)分布。

? 通過 反向擴(kuò)散 生成 新的三平面,再解碼成完整 3D 語義場景

3)三平面編輯(Triplane Manipulation)

場景修補(bǔ)(Inpainting):在 3D 空間中無縫 去除或添加物體,增強(qiáng) 語義一致性。

場景擴(kuò)展(Outpainting)向四周擴(kuò)展場景,可生成 城市級別 的 3D 場景。

語義補(bǔ)全(SSC Refinement):優(yōu)化 語義場景補(bǔ)全,提高 SSC 任務(wù)的 IoU 和 mIoU

5. 實(shí)驗(yàn)結(jié)果速覽

圖片圖片

SemCity 在 真實(shí)戶外數(shù)據(jù) 上取得 最佳 3D 語義場景生成性能

SemanticKITTI(真實(shí)數(shù)據(jù)集)

a.FID 下降 50%(從 112.82 → 56.55),表示生成場景更接近真實(shí)數(shù)據(jù)。

b.KID 下降 67%(從 0.12 → 0.04),生成質(zhì)量更穩(wěn)定。

c.mIoU 提升 6.64%,顯著改善 語義一致性。

CarlaSC(合成數(shù)據(jù)集)

FID 下降 54%(從 87.39 → 40.63),生成質(zhì)量更高。

KID 下降 78%,生成穩(wěn)定性提升。

SSC 任務(wù)提升

MonoScene + SemCity:mIoU 提升 5.58%(11.50 → 17.08

OccDepth + SemCity:mIoU 提升 3.95%(12.84 → 16.79

SCPNet + SemCity:mIoU 提升 0.64%(37.55 → 38.19

SSA-SC + SemCity:mIoU 提升 1.04%(24.54 → 25.58

6. 實(shí)用價值與應(yīng)用

SemCity 提供了 高效、靈活的真實(shí)戶外 3D 語義場景生成,適用于多個領(lǐng)域:

自動駕駛 ??:提升 3D 語義理解,幫助 感知系統(tǒng) 處理 不完整的激光雷達(dá)數(shù)據(jù)。

智能城市建模 ???:支持 城市級別 3D 場景生成,用于 數(shù)字孿生(Digital Twin) 和 城市規(guī)劃。

機(jī)器人導(dǎo)航 ??:提高 機(jī)器人在復(fù)雜環(huán)境中的導(dǎo)航能力,增強(qiáng) 自主感知。

增強(qiáng)現(xiàn)實(shí)(AR/VR) ??:在 AR/VR 應(yīng)用 中創(chuàng)建 更真實(shí)的交互式 3D 場景

開放問題

1. SemCity 在極端場景(如夜間或大霧環(huán)境)下的生成質(zhì)量如何?

2. 三平面擴(kuò)散的語義理解能力能否推廣到室內(nèi) 3D 場景?

3. 如何進(jìn)一步提升 SemCity 處理細(xì)粒度對象(如小型路牌)的能力?

4. 三平面擴(kuò)散模型是否可以與 NeRF 結(jié)合,提升 3D 生成質(zhì)量?

責(zé)任編輯:武曉燕 來源: 萍哥學(xué)AI
相關(guān)推薦

2023-12-07 13:07:59

3D模型訓(xùn)練

2023-12-29 13:18:23

模型NeRFTICD

2025-03-27 09:26:30

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2025-02-13 08:26:26

2011-10-06 13:30:45

宏碁投影儀

2021-09-16 07:52:18

SwiftUScroll效果

2023-11-17 09:55:41

2012-11-26 12:51:44

木材3D打

2013-07-31 14:19:06

Windows 8.1

2023-09-27 09:59:53

自動駕駛訓(xùn)練

2011-05-26 10:05:07

優(yōu)派投影機(jī)

2011-09-22 10:07:52

奧圖碼投影儀

2015-01-19 17:44:02

Cocos引擎3D特效

2011-08-26 14:50:23

2011-04-26 14:21:20

3DJVC投影機(jī)

2012-08-13 17:11:37

Silverlight

2023-03-03 21:42:18

鴻蒙

2011-05-25 16:07:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號