自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!

發(fā)布于 2025-4-7 09:19
瀏覽
0收藏

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.02261 

項目鏈接:https://wonderturbo.github.io/ 

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

從一幅圖像開始,用戶可以自由調(diào)整視角,交互式地控制 3D 場景的生成,每次交互只需 0.72 秒

亮點直擊

  • 提出了WonderTurbo,首個實時(推理耗時:0.72 秒)的 3D 場景生成方法,支持用戶交互式創(chuàng)建多樣化且連貫連接的場景。
  • 在幾何效率優(yōu)化方面,提出的StepSplat將前饋范式(feed-forward paradigm)擴展至交互式 3D 幾何表示,可在0.26 秒內(nèi)加速 3D 場景擴展。此外,引入QuickDepth以確保視角變化時的深度一致性。在外觀建模效率方面,提出FastPaint,僅需2 步推理即可完成圖像修復(fù)。
  • 通過全面實驗驗證,WonderTurbo在實現(xiàn)15 倍加速的同時,在幾何與外觀方面均優(yōu)于其他方法,可生成高質(zhì)量的 3D 場景。

總結(jié)速覽

解決的問題

  • 實時交互性不足:現(xiàn)有3D生成技術(shù)(如WonderWorld)更新單視角需近10秒,無法滿足實時交互需求。
  • 幾何建模效率低:傳統(tǒng)3D Gaussian Splattings(3DGS)等方法依賴迭代訓(xùn)練更新幾何表示,耗時較長。
  • 外觀建模速度慢:基于擴散模型的圖像修復(fù)方法需要大量推理步驟,計算開銷大。
  • 小視角局限性:現(xiàn)有單圖像新視角生成方法僅支持小幅視角變化,難以適應(yīng)動態(tài)交互需求。

提出的方案

  • StepSplat:動態(tài)更新高效3D幾何表示,單次更新僅需0.26秒,支持交互式幾何建模。
  • QuickDepth:輕量級深度補全模塊,為StepSplat提供一致深度先驗,提升幾何準(zhǔn)確性。
  • FastPaint:兩步擴散模型,專為實時外觀修復(fù)設(shè)計,保持空間一致性,顯著減少推理步驟。

應(yīng)用的技術(shù)

  • 幾何建模
  • 基于前饋式推理(feed-forward)的3D Gaussian Splattings(3DGS)加速,避免迭代訓(xùn)練。
  • 特征記憶模塊動態(tài)構(gòu)建cost volume,適應(yīng)視角變化。
  • 深度優(yōu)化:輕量級深度補全網(wǎng)絡(luò)(QuickDepth)提供穩(wěn)定深度輸入。
  • 外觀建模:高效擴散模型(FastPaint)僅需2步推理完成修復(fù),兼顧質(zhì)量與速度。

達到的效果

  • 速度突破
  • 單視角生成僅需0.72秒,較基線方法(如WonderWorld)加速15倍。
  • StepSplat幾何更新僅0.26秒,F(xiàn)astPaint外觀修復(fù)僅需2步推理。
  • 質(zhì)量與一致性
  • 在CLIP指標(biāo)和用戶評測中領(lǐng)先,保持高空間一致性和輸出質(zhì)量。
  • 支持大幅視角變化(如全景相機路徑和行走路徑)。
  • 應(yīng)用場景:適用于實時3D內(nèi)容創(chuàng)作、虛擬現(xiàn)實(VR)和交互式設(shè)計等場景。

效果展示

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

方法

WonderTurbo 的整體框架

交互式 3D 場景生成受限于計算效率,主要由于幾何與外觀建模的耗時問題。WonderWorld 提出了 FLAGS 以加速幾何建模,但仍需數(shù)百次迭代優(yōu)化幾何表示,且其外觀建模依賴預(yù)訓(xùn)練擴散模型,需數(shù)十步推理完成修復(fù)。相比之下,WonderTurbo 通過同時加速幾何與外觀建模,實現(xiàn)實時交互式 3D 場景生成。具體而言,提出 StepSplat 加速幾何建模,可在 0.26 秒 內(nèi)直接推斷 3DGS;在此框架下,QuickDepth 在 0.24 秒 內(nèi)補全缺失深度信息;針對外觀建模加速,引入 FastPaint,僅需 0.22 秒 完成圖像修復(fù)。

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

StepSplat

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

然后通過以下方式構(gòu)建投影到相同離散像素位置的全局高斯候選集:

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

StepSplat的訓(xùn)練傳統(tǒng)前饋式3DGS方法難以滿足交互式3D場景生成的需求,部分原因是數(shù)據(jù)集的多樣性有限(主要集中在自動駕駛或室內(nèi)環(huán)境等特定場景),且這些數(shù)據(jù)集的視角變化與交互式3D場景生成的要求存在顯著差距。本文利用3D生成模型創(chuàng)建包含模擬視角變化的數(shù)據(jù)集來訓(xùn)練StepSplat。訓(xùn)練時隨機選取圖像序列逐幀輸入模型,生成全局高斯表示,并基于該表示渲染新視角圖像,以RGB圖像作為監(jiān)督信號。

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

QuickDepth

現(xiàn)有深度補全方法雖取得顯著進展,但主要針對稀疏深度補全任務(wù),難以處理完全缺失深度信息的區(qū)域(交互式3D場景生成的關(guān)鍵需求)。WonderWorld提出免訓(xùn)練的引導(dǎo)深度擴散方法,但單張深度圖需3秒以上;Invisible Stitch因缺乏真實數(shù)據(jù)而采用教師蒸餾與自訓(xùn)練策略,但訓(xùn)練數(shù)據(jù)有限導(dǎo)致部分場景性能下降。本文提出QuickDepth——基于自建數(shù)據(jù)集訓(xùn)練的輕量級深度補全模型,具有強泛化能力,可適應(yīng)多樣化場景。


為適配交互式3D場景生成,本文構(gòu)建包含室內(nèi)外環(huán)境、漫畫與藝術(shù)作品等多樣化場景的數(shù)據(jù)集。不同于使用隨機掩碼或投影模擬交互場景的掩碼,本文設(shè)計了更符合交互需求的相機軌跡:

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

FastPaint

在3D場景生成中,圖像修復(fù)技術(shù)對3D外觀建模至關(guān)重要?,F(xiàn)有方法存在以下局限:

  1. 空間定位不足:如Pano2Room可從單輸入生成全景圖像,但難以在用戶指定位置生成內(nèi)容
  2. 效率瓶頸:WonderJourney和WonderWorld采用基于Stable Diffusion的微調(diào)修復(fù)模型,但存在:
  • 微調(diào)時的修復(fù)區(qū)域與3D場景生成需求不匹配,需額外模型驗證生成內(nèi)容
  • 擴散模型需多步推理(通常20+步)

本文提出FastPaint解決方案:

  • 推理加速:通過知識蒸餾結(jié)合ODE軌跡保持與重構(gòu)技術(shù),將推理步驟壓縮至2步
  • 領(lǐng)域適配:構(gòu)建專用訓(xùn)練數(shù)據(jù)集,其特點包括:
  • 相機位姿模擬交互式3D生成過程
  • 通過深度圖投影獲取掩碼(與StepSplat/QuickDepth共享軌跡生成邏輯)
  • 確保修復(fù)區(qū)域與實際應(yīng)用場景對齊

交互式3D生成數(shù)據(jù)集

單張圖像的交互式3D生成支持多樣化風(fēng)格圖像作為輸入,但現(xiàn)實數(shù)據(jù)往往局限于自動駕駛或室內(nèi)環(huán)境等特定場景。這種局限性導(dǎo)致當(dāng)前3D生成方法泛化能力不足。同時,部分方法直接采用預(yù)訓(xùn)練模型構(gòu)建流程,這些模型可能并非專為交互式3D場景生成設(shè)計,因此需要借助視覺語言模型(VLM)來驗證生成內(nèi)容是否符合場景風(fēng)格或文本要求。


為突破這一限制,本文基于現(xiàn)有3D場景生成方法構(gòu)建數(shù)據(jù)集,并利用該數(shù)據(jù)集訓(xùn)練所有模塊。采用多種3D場景生成方法來創(chuàng)建各方法擅長的3D場景,同時使用VLM模型驗證生成數(shù)據(jù)是否符合預(yù)設(shè)場景。最終數(shù)據(jù)集包含通過模擬交互軌跡渲染的600多萬幀畫面,涵蓋旋轉(zhuǎn)路徑、線性移動和混合軌跡三種運動模式,主要包含四大類場景:室內(nèi)環(huán)境(32%)、城市景觀(28%)、自然地形(25%)和風(fēng)格化藝術(shù)場景(15%)。


訓(xùn)練StepSplat時,對相鄰輸入幀的間距施加約束,避免使用間隔過近的幀,從而更好地契合3D交互生成的實際應(yīng)用需求。對于FastPaint和QuickDepth模塊,則利用相鄰幀的深度信息通過投影獲取對應(yīng)掩膜。

實驗

本節(jié)將介紹實驗設(shè)置(包括實現(xiàn)細(xì)節(jié)和評估指標(biāo)),隨后通過定量與定性結(jié)果證明WonderTurbo在性能和效率上的優(yōu)越性,最后通過消融實驗驗證各模塊的有效性。

實驗設(shè)置

基線方法:在對比分析中,本文選取了具有代表性的離線與在線3D生成方法。離線方法包括通過多視角圖像生成3D場景的LucidDreamer和Text2Room,以及直接生成全景圖再提升至3D的Pano2Room和DreamScene360。在線方法則評估了WonderJourney和WonderWorld。所有對比均采用各方法的官方代碼實現(xiàn)。


評估指標(biāo):遵循WonderWorld的設(shè)定,本文采用CLIP分?jǐn)?shù)(CS)、CLIP一致性(CC)、CLIP-IQA+(CIQA)、Q-Align和CLIP美學(xué)分?jǐn)?shù)(CA)作為評估指標(biāo),并輔以用戶研究收集視覺質(zhì)量的主觀反饋(詳見補充材料)。


實現(xiàn)細(xì)節(jié):為確保全面評估,本文使用LucidDreamer、WonderJourney和WonderWorld的輸入圖像,針對4組測試案例各生成8個場景(總計32個場景)。評估采用固定全景相機視角,并以相同視域內(nèi)場景生成時間作為效率對比指標(biāo)。

主要結(jié)果

生成速度:交互式3D生成的時間成本至關(guān)重要。如下表1所示,即便采用FLAGS加速,對比方法中最快的WonderWorld仍需超過10秒生成場景。LucidDreamer和Text2Room需為每個新場景生成多視角,顯著增加了外觀建模時間;而Pano2Room和DreamScene360雖無需多視角生成,但全景圖生成延遲和逐場景優(yōu)化需求嚴(yán)重制約效率。值得注意的是,WonderTurbo在幾何與外觀建模上均表現(xiàn)優(yōu)異,總體加速達15倍。

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

定量結(jié)果:下表2對比了WonderTurbo與多種3D生成方法。實驗表明,在線生成方法因更貼合用戶文本需求,其CLIP分?jǐn)?shù)和一致性優(yōu)于離線方法。WonderWorld在所有基線中領(lǐng)先,而WonderTurbo在加速15倍的同時仍保持與之相當(dāng)?shù)闹笜?biāo)性能。此外,由于針對交互任務(wù)微調(diào),WonderTurbo在CLIP分?jǐn)?shù)、一致性、CLIP-IQA+和美學(xué)分?jǐn)?shù)上均有提升。

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

用戶研究:下表3,用戶研究表明WonderTurbo在生成時間更低的情況下達到與WonderWorld相當(dāng)?shù)纳少|(zhì)量,并在用戶偏好度上顯著優(yōu)于其他方法。

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

定性結(jié)果:下圖5展示了相同設(shè)置下WonderTurbo與基線方法的生成效果對比??梢奧onderTurbo在顯著縮短生成時間的同時保持了競爭力:DreamScene360和Pano2Room因泛化能力有限出現(xiàn)幾何失真且美學(xué)表現(xiàn)不足;LucidDreamer和Text2Room則存在內(nèi)容錯位與提示細(xì)節(jié)缺失問題;而WonderTurbo與WonderWorld的結(jié)果質(zhì)量接近,均展現(xiàn)出優(yōu)異性能。

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

消融實驗

幾何建模:本文對比了FreeSplat、DepthSplat等幾何建模方法(均采用相同微調(diào)設(shè)置以確保公平)。如下表4所示,依賴無監(jiān)督深度估計的FreeSplat和DepthSplat在Q-Align和CLIP美學(xué)分?jǐn)?shù)上顯著劣于StepSplat。而StepSplat通過一致性深度圖指導(dǎo)代價體積構(gòu)建,實現(xiàn)了自適應(yīng)交互式3D場景生成。

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

StepSplat分析:針對深度引導(dǎo)代價體積(depth guided cost volume)與漸進融合(incremental infusion)的消融實驗如下表5所示。結(jié)果表明:深度引導(dǎo)代價體積是精確幾何建模與圖像質(zhì)量的關(guān)鍵;漸進融合則通過減少冗余高斯分布和避免浮點問題提升性能。

0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強勢登場,可實時交互!-AI.x社區(qū)

FastPaint驗證:與預(yù)訓(xùn)練修復(fù)模型的對比顯示,F(xiàn)astPaint顯著增強了3D外觀建模能力,各項指標(biāo)均有提升。

討論與結(jié)論

盡管單圖像3D場景生成取得進展,但耗時的幾何優(yōu)化與視角細(xì)化仍制約效率。為此,提出實時交互框架WonderTurbo:

  • 幾何加速:StepSplat可在0.26秒內(nèi)擴展3D場景并保持高視覺質(zhì)量,QuickDepth為代價體積構(gòu)建提供一致性深度先驗
  • 外觀建模:FastPaint僅需2步推理即可完成空間一致的外觀建模實驗表明,WonderTurbo能精準(zhǔn)實現(xiàn)文本到3D的生成,在CLIP指標(biāo)和用戶偏好率上均優(yōu)于基線方法,同時獲得15倍加速。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/f7fAmchNpaWGRlYX1MtAgg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦