自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MegaSynth:用70萬合成數(shù)據(jù)突破3D場景重建瓶頸,PSNR提升1.8dB!

人工智能
MegaSynth 提出了一種基于非語義合成數(shù)據(jù)的大規(guī)模 3D 場景重建方法,生成 70 萬個(gè)合成場景數(shù)據(jù)集,訓(xùn)練大型重建模型(LRMs),相比使用真實(shí)數(shù)據(jù)訓(xùn)練的模型,PSNR 提升 1.2~1.8 dB,顯著增強(qiáng) 3D 場景重建的廣覆蓋能力。

1. 一眼概覽

MegaSynth 提出了一種基于非語義合成數(shù)據(jù)的大規(guī)模 3D 場景重建方法,生成 70 萬個(gè)合成場景數(shù)據(jù)集,訓(xùn)練大型重建模型(LRMs),相比使用真實(shí)數(shù)據(jù)訓(xùn)練的模型,PSNR 提升 1.2~1.8 dB,顯著增強(qiáng) 3D 場景重建的廣覆蓋能力。

2. 核心問題

當(dāng)前 3D 場景重建方法受限于:

  • 數(shù)據(jù)規(guī)模受限:現(xiàn)有真實(shí)數(shù)據(jù)集 DL3DV 僅 10K 場景,遠(yuǎn)小于物體級(jí)數(shù)據(jù)集(如 Objaverse 80 萬個(gè)實(shí)例)。
  • 數(shù)據(jù)分布不理想:現(xiàn)有數(shù)據(jù)集多為人工采集,難以確保場景多樣性,攝像機(jī)運(yùn)動(dòng)范圍受限,且可能包含噪聲和不精確標(biāo)注。
  • 計(jì)算成本高昂:現(xiàn)有優(yōu)化方法(如 3DGS)計(jì)算成本高,推理速度慢,難以應(yīng)用于大規(guī)模場景。

MegaSynth 通過合成數(shù)據(jù)突破數(shù)據(jù)瓶頸,使 3D 場景重建更高效、精準(zhǔn),并能泛化至真實(shí)數(shù)據(jù)。

3. 技術(shù)亮點(diǎn)

大規(guī)模非語義數(shù)據(jù)生成:提出 MegaSynth 數(shù)據(jù)集,通過程序化生成 70 萬個(gè)場景,無需建模語義信息(如物體屬性和布局),避免語義復(fù)雜性帶來的計(jì)算開銷。

合成數(shù)據(jù)+真實(shí)數(shù)據(jù)混合訓(xùn)練:通過 MegaSynth 預(yù)訓(xùn)練 + 真實(shí)數(shù)據(jù)微調(diào),提高模型泛化能力,實(shí)現(xiàn) 1.2~1.8 dB PSNR 提升。

新型 LRM 訓(xùn)練策略:基于 GS-LRM 和 Long-LRM 兩種模型,利用合成數(shù)據(jù)進(jìn)行高效重建,使模型性能與僅用真實(shí)數(shù)據(jù)訓(xùn)練的模型相當(dāng)。

4. 方法框架圖片

MegaSynth 通過以下步驟完成 3D 場景重建:

1)合成數(shù)據(jù)生成

場景布局:生成 3D 立方體空間,隨機(jī)分布幾何體(如立方體、球體、圓柱等)。

幾何和紋理生成:隨機(jī)組合幾何形狀并添加高度場擾動(dòng)。

光照建模:使用環(huán)境光、太陽光和發(fā)光物體生成多樣化光照條件。

2)數(shù)據(jù)訓(xùn)練策略

    ? 訓(xùn)練 GS-LRM 和 Long-LRM,分別基于 Transformer 和 Mamba 架構(gòu)。

    ? 混合訓(xùn)練:先用 MegaSynth 預(yù)訓(xùn)練,再用 DL3DV 真實(shí)數(shù)據(jù)微調(diào),以增強(qiáng)泛化能力。

   3) 損失優(yōu)化

      ? 渲染損失(Limg):基于 MSE 誤差和感知損失優(yōu)化 3D 紋理。

      ? 幾何損失(Lloc):基于合成數(shù)據(jù)提供的精準(zhǔn)幾何信息,優(yōu)化 3D 高斯中心位置,提高幾何精度。

5. 實(shí)驗(yàn)結(jié)果速覽

數(shù)據(jù)集

a.訓(xùn)練:MegaSynth(70 萬場景)+ DL3DV(7K 場景)

b.測試:DL3DV、Hypersim(高真實(shí)感渲染)、MipNeRF360、Tanks & Temples(真實(shí)世界數(shù)據(jù))

關(guān)鍵實(shí)驗(yàn)結(jié)論

a.訓(xùn)練包含 MegaSynth 數(shù)據(jù)的模型在 所有測試數(shù)據(jù)集 上均優(yōu)于僅用真實(shí)數(shù)據(jù)訓(xùn)練的模型,特別是在 Hypersim 和 MipNeRF360 這樣的跨域數(shù)據(jù)集上提升更明顯。

b.LRMs 僅用 MegaSynth 訓(xùn)練,性能接近于僅用真實(shí)數(shù)據(jù)訓(xùn)練的模型,表明 3D 場景重建的本質(zhì)是低層幾何建模,對(duì)語義信息的依賴較小。

6. 實(shí)用價(jià)值與應(yīng)用

MegaSynth 及其訓(xùn)練方法在多個(gè)領(lǐng)域有潛在應(yīng)用:

自動(dòng)駕駛:提升激光雷達(dá)與視覺融合的 3D 場景建模精度。

機(jī)器人導(dǎo)航:增強(qiáng)環(huán)境感知,提高路徑規(guī)劃可靠性。

增強(qiáng)現(xiàn)實(shí)(AR)與虛擬現(xiàn)實(shí)(VR):支持高質(zhì)量 3D 資產(chǎn)生成和交互式虛擬場景建模。

城市建模與測繪:基于大規(guī)模圖像數(shù)據(jù)進(jìn)行高精度 3D 重建,提高城市規(guī)劃與測繪效率。

7. 開放問題

1)合成數(shù)據(jù)的泛化性:MegaSynth 在多種數(shù)據(jù)集上表現(xiàn)良好,但在 超大規(guī)模室外場景 或 極端環(huán)境光照 下,是否仍能維持高性能?

2)與其他生成式方法的結(jié)合:是否可以結(jié)合擴(kuò)散模型或神經(jīng)輻射場(NeRF),進(jìn)一步優(yōu)化數(shù)據(jù)生成質(zhì)量?

3) 數(shù)據(jù)合成策略優(yōu)化:當(dāng)前 MegaSynth 采用 非語義建模,如果引入一定的高層語義控制(如物體語義標(biāo)簽),是否能進(jìn)一步提升泛化能力?

責(zé)任編輯:武曉燕 來源: 萍哥學(xué)AI
相關(guān)推薦

2025-03-26 09:55:14

2022-09-13 15:19:48

3D網(wǎng)絡(luò)

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2024-06-26 10:07:38

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2024-05-16 09:24:17

3D技術(shù)

2025-04-03 08:40:00

自動(dòng)駕駛AI模型

2023-08-21 10:57:17

3D模型

2025-01-26 10:19:21

2021-09-16 07:52:18

SwiftUScroll效果

2021-06-02 06:24:05

計(jì)算機(jī)視覺3D無人駕駛

2011-06-27 15:57:21

Qt 3D OpenGL

2015-04-27 15:35:42

Cocos3D場景編輯器

2020-07-27 10:23:10

開源技術(shù) 數(shù)據(jù)

2025-01-07 13:19:48

模型AI訓(xùn)練

2020-11-25 20:03:41

AI 機(jī)器人工智能

2023-04-24 16:25:47

3D開發(fā)

2025-03-27 10:54:06

2017-05-11 08:59:38

玻璃材質(zhì)3D打印

2018-06-20 09:52:42

MR混合現(xiàn)實(shí)醫(yī)學(xué)影像
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)