自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="dwgck"><track id="dwgck"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Diff2Scene：無須3D標(biāo)注，擴(kuò)散模型如何顛覆開放詞匯3D語義分割？

作者：萍哥學(xué)AI 2025-02-13 08:26:26

Diff2Scene 是一種利用文本-圖像擴(kuò)散模型進(jìn)行開放詞匯3D語義分割的新方法，無需任何標(biāo)注的3D數(shù)據(jù)，即可對(duì) 3D點(diǎn)云進(jìn)行語義理解，并在 ScanNet200 數(shù)據(jù)集上提升 12% 的 SOTA 性能。

一眼概覽

Diff2Scene 是一種利用文本-圖像擴(kuò)散模型進(jìn)行 開放詞匯3D語義分割 的新方法，無需任何標(biāo)注的3D數(shù)據(jù)，即可對(duì) 3D點(diǎn)云 進(jìn)行語義理解，并在 ScanNet200 數(shù)據(jù)集上提升 12% 的 SOTA 性能。

核心問題

背景問題：傳統(tǒng) 3D 語義分割依賴封閉集標(biāo)簽，無法處理新類別，且標(biāo)注 3D 數(shù)據(jù)極其昂貴?，F(xiàn)有 CLIP-based 方法在處理 細(xì)粒度類別和復(fù)雜文本查詢 時(shí)表現(xiàn)不佳。核心挑戰(zhàn)：如何在 無3D標(biāo)注 的情況下，實(shí)現(xiàn) 開放詞匯的 3D 語義分割和視覺錨定（visual grounding）？應(yīng)用價(jià)值：自動(dòng)駕駛、機(jī)器人導(dǎo)航、AR/VR 場(chǎng)景解析等場(chǎng)景需要無監(jiān)督、泛化性強(qiáng)的 3D 語義理解方法。

技術(shù)亮點(diǎn)

1. 擴(kuò)散模型特征提取：使用 Stable Diffusion 預(yù)訓(xùn)練的 文本-圖像生成模型 提取語義豐富的 2D 特征，比 CLIP 更擅長(zhǎng) 局部特征表示，有利于密集預(yù)測(cè)任務(wù)。

2. 多模態(tài)掩碼蒸餾（Mask Distillation）：創(chuàng)新性地設(shè)計(jì)了 2D-3D 掩碼蒸餾機(jī)制，通過 2D 語義掩碼作為分類器 預(yù)測(cè) 3D 語義，增強(qiáng)了 3D 語義理解能力。

3. 零樣本3D分割：完全 摒棄3D標(biāo)注數(shù)據(jù)，僅使用 2D-3D 對(duì)應(yīng)關(guān)系進(jìn)行 無監(jiān)督知識(shí)蒸餾，實(shí)現(xiàn)了端到端的 開放詞匯 3D 語義分割。

方法框架

Diff2Scene 采用 雙分支架構(gòu)，結(jié)合 2D 語義理解 和 3D 幾何感知，主要步驟如下：

1. 2D 語義解析：

? 采用 Stable Diffusion U-Net 作為特征提取器，從 RGB 圖像生成 2D 語義掩碼（Salient-aware Masks）。

? 這些掩碼包含了豐富的 文本-視覺信息，并作為 分類器 提供 3D 語義先驗(yàn)。

2. 3D 掩碼預(yù)測(cè)：

? 采用 稀疏 3D 卷積 U-Net 處理 點(diǎn)云數(shù)據(jù)，并結(jié)合 2D 掩碼提升 3D 預(yù)測(cè)能力。

? 生成 幾何感知掩碼（Geometric-aware Masks），提取 3D 空間信息。

3. 多模態(tài)掩碼蒸餾：

? 2D 語義掩碼 → 3D 語義掩碼 遷移，保證 2D 和 3D 語義的一致性。

? 采用 余弦相似度損失（Cosine Similarity Loss）約束 2D 和 3D 掩碼的分布一致性，實(shí)現(xiàn) 跨模態(tài)特征學(xué)習(xí)。

4. 開放詞匯推理：

? 采用 融合推理策略，將 Stable Diffusion 的生成特征 和 CLIP 的判別特征 結(jié)合，實(shí)現(xiàn) 靈活的語義查詢。

實(shí)驗(yàn)結(jié)果速覽

圖片

Diff2Scene 在多個(gè) 3D 語義分割基準(zhǔn)測(cè)試上超越 SOTA：

? ScanNet200（零樣本設(shè)置）：

a.整體 mIoU 提升 12%（從 34.2 → 46.2）

b.尾類 mIoU 提升 2.6%（從 11.9 → 12.9）

? Matterport3D：mIoU 提升 3.1%（從 42.6 → 45.5）

? Replica（通用化測(cè)試）：mIoU 提升 2.6%（從 14.9 → 17.5）

? 視覺錨定任務(wù)（Nr3D）：

? 在 “紅色短箱子”、“帶皺紋毛巾的架子” 等復(fù)雜文本查詢?nèi)蝿?wù)中，Diff2Scene 比 OpenScene 預(yù)測(cè)更加精準(zhǔn)。

實(shí)用價(jià)值與應(yīng)用

Diff2Scene 完全摒棄了 3D 數(shù)據(jù)標(biāo)注，在 真實(shí)世界開放環(huán)境 具有極大應(yīng)用潛力：

? 自動(dòng)駕駛：適用于 長(zhǎng)尾類別 識(shí)別（例如罕見的路障、動(dòng)物等）。

? 機(jī)器人感知：提供 無監(jiān)督的 3D 物體定位，提升 環(huán)境理解能力。

? 增強(qiáng)現(xiàn)實(shí)（AR）：基于文本語義進(jìn)行 3D 場(chǎng)景查詢與交互，提升用戶體驗(yàn)。

? 建筑和室內(nèi)設(shè)計(jì)：支持 自然語言搜索 3D 物品，簡(jiǎn)化 室內(nèi)規(guī)劃 任務(wù)。

開放問題

1. 在極端長(zhǎng)尾分布類別（如 ScanNet200 的“窗臺(tái)”）上，Diff2Scene 仍然容易誤分類，如何進(jìn)一步提升其魯棒性？

2. 當(dāng)前方法依賴 2D 預(yù)訓(xùn)練模型，未來是否可以探索端到端的 3D 擴(kuò)散模型，直接生成 3D 語義表示？

3. 擴(kuò)散模型的生成特征對(duì) 3D 語義分割是否真的比 CLIP 判別特征更有效？是否可以進(jìn)一步融合兩者的優(yōu)勢(shì)？

責(zé)任編輯：武曉燕來源：萍哥學(xué)AI

Diff2Scene 3D 語義

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="laoqm"><li id="laoqm"></li></p>

^{<blockquote id="laoqm"></blockquote>}