StochSync:可在任意空間中生成高質(zhì)量360°全景圖和3D網(wǎng)格紋理
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
StochSync方法可以用于在任意空間中生成圖像,尤其是360°全景圖和3D網(wǎng)格紋理。該方法利用了預(yù)訓練的圖像擴散模型,以實現(xiàn)zero-shot生成,消除了對新數(shù)據(jù)收集和單獨訓練生成模型的需求。StochSync 結(jié)合了 Diffusion Synchronization(DS)和 Score Distillation Sampling(SDS)的優(yōu)點,能夠在條件較弱的情況下仍然生成高質(zhì)量的圖像。
使用 StochSync 生成的各類網(wǎng)格紋理和全景圖,包括背景中的一張(環(huán)境映射圖),它是一張 360°全景圖。StochSync 擴展了在方形空間中訓練的圖像擴散模型的能力,能夠在諸如圓柱體、球體、環(huán)面和網(wǎng)格表面等任意空間中生成圖像。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2501.15445v1
- 主頁:https://stochsync.github.io/
論文介紹
我們提出了一種名為 StochSync 的方法,用于生成任意空間中的圖像——例如 360°全景圖或 3D 表面上的紋理——該方法利用了一個預(yù)訓練的圖像擴散模型。主要的挑戰(zhàn)在于彌合擴散模型理解的二維圖像與圖像生成的目標空間之間的差距。與那些在缺乏強條件或缺乏精細細節(jié)的情況下難以取得成效的方法不同,StochSync 結(jié)合了擴散同步和得分蒸餾采樣的優(yōu)勢,即使在條件較弱的情況下也能有效運行。實驗表明 StochSync 比之前的基于微調(diào)的方法表現(xiàn)更出色,尤其是在 360°全景圖生成方面。
方法
StochSync方法的核心在于結(jié)合了Diffusion Synchronization和Score Distillation Sampling的優(yōu)勢,具體包括以下幾個方面:
- 最大隨機性:在同步過程中引入最大隨機性,優(yōu)化了樣本在不同實例空間之間的連貫性。這一策略通過調(diào)整噪聲預(yù)測的方式,幫助消除樣本間的接縫,提高了圖像的整體流暢性。
- 多步去噪計算:將傳統(tǒng)的單步去噪預(yù)測替換為多步去噪過程,以提高生成樣本的真實感和一致性。這種方法允許在每個時間步驟上進行更精確的樣本預(yù)測,進而提升生成圖像的細節(jié)。
- 非重疊視圖采樣:在每個步驟中采用非重疊的視圖采樣策略,確保樣本在時間上的同步,同時避免了由于視圖重疊導(dǎo)致的真實感下降。這種方法通過交替采樣不同的視圖,提高了生成圖像的質(zhì)量。
全景生成
使用 PanFusion 生成全景圖的定性結(jié)果提示。在左側(cè)列中呈現(xiàn)了與先前工作的比較結(jié)果,而在右側(cè)列中展示了與 StochSync 一起的消融測試案例。
L-MAGIC (Cai et al., 2024)和StochSync在水平特異性提示上的定性比較。
三維網(wǎng)格紋理的附加定性結(jié)果。