Diffusion-SS3D:用擴(kuò)散去噪革新半監(jiān)督3D檢測,偽標(biāo)簽更準(zhǔn),mAP提升6%!
1. 一眼概覽
SemCity 是一種 基于三平面擴(kuò)散(Triplane Diffusion) 的 3D 語義場景生成模型,能夠在 真實(shí)戶外環(huán)境 中進(jìn)行 場景生成、語義補(bǔ)全、場景擴(kuò)展(Outpainting)和修補(bǔ)(Inpainting),并在 SemanticKITTI 數(shù)據(jù)集 上顯著提升生成質(zhì)量。
2. 核心問題
背景問題:當(dāng)前 3D 擴(kuò)散模型大多專注于 單個物體 或 室內(nèi)合成場景,對于 真實(shí)戶外場景 仍然缺乏研究。此外,戶外數(shù)據(jù)由于傳感器局限性(空白區(qū)域較多),導(dǎo)致模型難以學(xué)習(xí) 完整的三維語義分布。核心挑戰(zhàn):如何在 稀疏、不完整的真實(shí)戶外數(shù)據(jù) 中 生成完整、語義連貫的 3D 場景,并支持 對象添加、移除和擴(kuò)展?應(yīng)用價值:自動駕駛、智能城市建模、增強(qiáng)現(xiàn)實(shí)(AR)、機(jī)器人導(dǎo)航等都依賴 高質(zhì)量 3D 語義場景生成,提高 環(huán)境理解能力。
3. 技術(shù)亮點(diǎn)
- 三平面擴(kuò)散(Triplane Diffusion)建模:采用 Triplane 表示 作為代理表示,解決 真實(shí)戶外場景數(shù)據(jù)稀疏問題,比 傳統(tǒng)體素方法(Voxel-based) 更高效。
- 三平面編輯(Triplane Manipulation):實(shí)現(xiàn) 無縫的對象添加、移除、修改,支持 場景修補(bǔ)(Inpainting)、擴(kuò)展(Outpainting)和語義補(bǔ)全(SSC Refinement)。
- 高質(zhì)量戶外場景生成:在 SemanticKITTI 數(shù)據(jù)集上大幅提升場景生成質(zhì)量,優(yōu)于當(dāng)前基于擴(kuò)散的 3D 生成方法。
4. 方法框架
圖片
SemCity 采用 三平面擴(kuò)散模型(Triplane Diffusion),核心流程如下:
1)三平面編碼(Triplane Encoding):
? 采用 Triplane Autoencoder 將 3D 體素場景 轉(zhuǎn)換為 三平面表示(xy、xz、yz)。
? 該表示減少了不必要的空白信息,提高 數(shù)據(jù)表示效率。
2)三平面擴(kuò)散(Triplane Diffusion):
? 通過 去噪擴(kuò)散過程(Denoising Diffusion Probabilistic Models, DDPM)學(xué)習(xí) 三平面數(shù)據(jù)分布。
? 通過 反向擴(kuò)散 生成 新的三平面,再解碼成完整 3D 語義場景。
3)三平面編輯(Triplane Manipulation):
? 場景修補(bǔ)(Inpainting):在 3D 空間中無縫 去除或添加物體,增強(qiáng) 語義一致性。
? 場景擴(kuò)展(Outpainting):向四周擴(kuò)展場景,可生成 城市級別 的 3D 場景。
? 語義補(bǔ)全(SSC Refinement):優(yōu)化 語義場景補(bǔ)全,提高 SSC 任務(wù)的 IoU 和 mIoU。
5. 實(shí)驗(yàn)結(jié)果速覽
圖片
SemCity 在 真實(shí)戶外數(shù)據(jù) 上取得 最佳 3D 語義場景生成性能:
? SemanticKITTI(真實(shí)數(shù)據(jù)集):
a.FID 下降 50%(從 112.82 → 56.55),表示生成場景更接近真實(shí)數(shù)據(jù)。
b.KID 下降 67%(從 0.12 → 0.04),生成質(zhì)量更穩(wěn)定。
c.mIoU 提升 6.64%,顯著改善 語義一致性。
? CarlaSC(合成數(shù)據(jù)集):
? FID 下降 54%(從 87.39 → 40.63),生成質(zhì)量更高。
? KID 下降 78%,生成穩(wěn)定性提升。
? SSC 任務(wù)提升:
? MonoScene + SemCity:mIoU 提升 5.58%(11.50 → 17.08)
? OccDepth + SemCity:mIoU 提升 3.95%(12.84 → 16.79)
? SCPNet + SemCity:mIoU 提升 0.64%(37.55 → 38.19)
? SSA-SC + SemCity:mIoU 提升 1.04%(24.54 → 25.58)
6. 實(shí)用價值與應(yīng)用
SemCity 提供了 高效、靈活的真實(shí)戶外 3D 語義場景生成,適用于多個領(lǐng)域:
? 自動駕駛 ??:提升 3D 語義理解,幫助 感知系統(tǒng) 處理 不完整的激光雷達(dá)數(shù)據(jù)。
? 智能城市建模 ???:支持 城市級別 3D 場景生成,用于 數(shù)字孿生(Digital Twin) 和 城市規(guī)劃。
? 機(jī)器人導(dǎo)航 ??:提高 機(jī)器人在復(fù)雜環(huán)境中的導(dǎo)航能力,增強(qiáng) 自主感知。
? 增強(qiáng)現(xiàn)實(shí)(AR/VR) ??:在 AR/VR 應(yīng)用 中創(chuàng)建 更真實(shí)的交互式 3D 場景。
開放問題
1. SemCity 在極端場景(如夜間或大霧環(huán)境)下的生成質(zhì)量如何?
2. 三平面擴(kuò)散的語義理解能力能否推廣到室內(nèi) 3D 場景?
3. 如何進(jìn)一步提升 SemCity 處理細(xì)粒度對象(如小型路牌)的能力?
4. 三平面擴(kuò)散模型是否可以與 NeRF 結(jié)合,提升 3D 生成質(zhì)量?