港理工&OPPO&Stability AI聯(lián)合發(fā)布一致且高效的3D場景編輯方法——SyncNoise
文章鏈接:https://arxiv.org/pdf/2406.17396
項目鏈接:https://lslrh.github.io/syncnoise.github.io/
一句話亮點直擊
- SyncNoise能夠?qū)崿F(xiàn)一致且高效的3D編輯,符合文本指令并保留編輯場景中的更多細節(jié)。
今天和大家一起學習港理工、OPPO和Stability AI聯(lián)合發(fā)的一篇關(guān)于3D場景編輯的工作,主打一個一致且高效,視頻demo非常贊,可以看看!基于文本的2D擴散模型在圖像生成和編輯方面展示了令人印象深刻的能力。同時,這些2D擴散模型在3D編輯任務中也表現(xiàn)出相當大的潛力。然而,實現(xiàn)多個視圖之間的一致編輯仍然是一個挑戰(zhàn)。盡管迭代數(shù)據(jù)集更新方法能夠?qū)崿F(xiàn)全局一致性,但其收斂速度緩慢且紋理過于平滑。本文提出了SyncNoise,一種新穎的幾何引導多視圖一致噪聲編輯方法,用于高保真3D場景編輯。SyncNoise在編輯多個視圖時同步使用2D擴散模型,同時強制多視圖噪聲預測在幾何上保持一致,從而確保語義結(jié)構(gòu)和低頻外觀的全局一致性。為了進一步增強高頻細節(jié)的局部一致性,本文設置了一組anchor視圖,并通過跨視圖重投影將它們傳播到相鄰幀。為了提高多視圖對應的可靠性,本文在訓練過程中引入深度監(jiān)督,以增強精確幾何結(jié)構(gòu)的重建。通過在噪聲和像素級別增強幾何一致性,本文的方法實現(xiàn)了高質(zhì)量的3D編輯效果,能夠很好地遵循文本指令,尤其是在具有復雜紋理的場景中。
demo視頻展示
方法
在這項工作中,通過借助2D擴散模型,專注于基于文本的3D場景編輯。給定原始3D表示(如NeRF或Gaussian Splatting)、多視圖圖像及其對應的相機姿態(tài),本文旨在根據(jù)自然語言指令生成編輯后的場景。
如下圖2所示,本文利用基于指令的2D擴散模型來編輯多視圖圖像,隨后使用編輯后的視圖作為監(jiān)督來優(yōu)化原始3D表示。確保多視圖一致編輯至關(guān)重要,因為視圖之間紋理的不一致可能會導致不理想的平滑效果。為此,本文首先利用3D幾何建立精確的多視圖對應關(guān)系。其次在整個去噪(編輯)過程中對噪聲預測施加多視圖一致性約束,以增強視圖間的語義和外觀一致性。此外,為了保留更多的高頻細節(jié),本文采用跨視圖投影,將編輯效果從anchor視圖傳播到其鄰近視圖,以實現(xiàn)像素級的多視圖一致編輯。
可靠的幾何引導對應關(guān)系
為了在多個視圖之間建立可靠的對應關(guān)系,本文引入了深度監(jiān)督來增強重建的幾何形狀。此外,本文利用重新投影的深度和循環(huán)一致性約束來過濾掉不可靠的匹配點,確保匹配的準確性。
深度監(jiān)督。隱式3D表示(例如 NeRF)在擬合幾何形狀方面表現(xiàn)有限,特別是在視圖稀疏的情況下。因此,NeRF 預測的深度往往不可靠。如下圖 3(a) 所示,從參考視圖重新投影到其他視圖時存在顯著偏差。為了解決這一限制,本文在 NeRF 的訓練過程中引入深度監(jiān)督。具體來說,從通過運行 Structure-from-Motion (SfM) 解算器獲得的 3D 關(guān)鍵點派生深度監(jiān)督,并添加深度損失以強制估計的深度匹配關(guān)鍵點的深度。如下圖 3(b) 所示,通過添加深度監(jiān)督,能夠估計出更精確的深度,從而能夠在不同視圖之間建立密集且準確的對應關(guān)系。
幾何一致的噪聲預測
在上一章節(jié)構(gòu)建的精確幾何對應關(guān)系的基礎(chǔ)上,本節(jié)旨在確保從T到 0 步的整個去噪過程中多視圖的編輯結(jié)果是一致的。實現(xiàn)這一目標的一個簡單有效的方法是對多視圖之間的對應潛在特征進行平均。然而,這種方法有兩個主要局限性。一方面,直接操作潛在圖會導致生成圖像出現(xiàn)平滑的結(jié)果,如下圖 4(b) 所示。另一方面,由于視圖之間的匹配點質(zhì)量不一,對不同視圖賦予相同的權(quán)重是不合理的,這會使模型偏向于質(zhì)量較差的視圖。
先前的研究已經(jīng)表明,噪聲預測器(U-Net)的中間特征不僅捕捉語義信息,還影響圖像的最終外觀。這啟發(fā)本文在 U-Net 特征而不是潛在圖上增強多視圖一致性。如上圖 4(d) 所示,通過在 U-Net 的中間解碼器特征上強制一致性,可以實現(xiàn)多視圖一致的編輯結(jié)果而不會引入模糊偽影。當將約束應用于跳躍特征時,影響相對較小,如上圖 4(c) 所示。有關(guān) U-Net 結(jié)構(gòu)和對齊 U-Net 不同層效果的詳細信息,請參考原文附錄。
此外,為了在不修改無關(guān)區(qū)域的情況下實現(xiàn)更精確的前景編輯,本文引入了掩碼來限制匹配和編輯的區(qū)域。本文只保留掩碼內(nèi)的對應關(guān)系,并過濾掉來自不相關(guān)區(qū)域的多余關(guān)聯(lián)。此外,在每個去噪步驟中應用一個掩碼來限制文本指導的區(qū)域,并修改噪聲估計方程如下:
跨視角像素級投影
本文已經(jīng)對來自多個視角的初始噪聲和U-Net的噪聲預測進行了對齊,這種方法可以比迭代細化策略更有效地實現(xiàn)全局一致的編輯。然而,如下圖5(b)所示,噪聲級別的對齊只能確保語義結(jié)構(gòu)和低頻紋理的一致性,但無法保證高頻細節(jié)的一致性。即使在這些細節(jié)上的輕微不對齊最終也會導致3D編輯中的平滑紋理。
3D表示優(yōu)化
多視角同步噪聲預測在結(jié)構(gòu)和外觀上實現(xiàn)了一致的編輯,而跨視角像素級投影進一步增強了相鄰視角之間的一致性?;谒幸暯堑木庉嫿Y(jié)果,本文首先對3D模型進行1000-2000次迭代的訓練,具體取決于場景的復雜性,以將2D編輯注入到3D表示中。隨后采用一個迭代的細化方法進一步增強3D表示。需要注意的是,本文的方法在一個關(guān)鍵方面與IN2N 不同。在 IN2N 中,在早期的優(yōu)化步驟中,多視角圖像編輯顯示出顯著的不一致性,導致3D編輯過度平滑。相反,本文的方法首先生成多視角一致的2D編輯,以確保3D幾何和外觀的整體一致性,然后采用迭代細化過程來調(diào)整更精細的細節(jié)。
實驗
實現(xiàn)細節(jié)。在編輯過程中,本文首先編輯80個多視角圖像,同時強制保持在U-Net的第5層和第8層特征上的一致性(詳見文章最后的圖10)。隨后,在anchor視角選擇方面,本文每隔10個相鄰視角選擇具有最高CLIP方向分數(shù)的視角作為anchor視圖,并將它們重新投影到大約80%重疊的相鄰視角上。
評估。本文使用三個指標來衡量與文本指令的對齊度,即 CLIP相似性分數(shù),CLIP文本-圖像方向相似性,以及CLIP時間方向相似性。此外,本文還使用兩個無參考圖像質(zhì)量評估指標,即CLIP-IQA 和MUSIQ 。
定性結(jié)果
在圖1中,本文展示了使用不同文本提示進行的一些編輯結(jié)果。從“Batman”和“Robot”提示的編輯中可以觀察到,即使原始場景的幾何形狀發(fā)生明顯變化,本文的方法仍然展現(xiàn)出多視角一致性。此外,本文可以在“Hulk”的頭發(fā)、“Spiderman”的手臂和“Thor”的服裝中看到更精細的細節(jié)。這是因為本文通過像素級投影在相鄰幀之間強制實現(xiàn)了一致性。
在下圖6中,本文針對提出的 SyncNoise 與兩種代表性的基于指令的方法,InstructNerf2Nerf 和GaussianEditor 進行了比較。本文使用它們的官方代碼和默認參數(shù)重現(xiàn)了這些方法的結(jié)果。本文的 SyncNoise 實現(xiàn)了符合輸入文本指令的逼真和一致的編輯。在“Turn the table into a rainbow table”的示例中,本文的編輯展示了比其他兩種方法更好的多視角一致性。IN2N 由于每次迭代中的不一致編輯而出現(xiàn)了顏色混合問題。對于指令“turn him into a wood carving”,本文的 SyncNoise 成功地編輯了頭發(fā)并產(chǎn)生了細膩的紋理。此外,本文的結(jié)果嚴格遵循了編輯提示“turn him into Iron Man wearing the helmet”,并生成了高度逼真的頭盔。然而,GaussianEditor幾乎沒有改變?nèi)四樀耐庥^,因為它限制了舊高斯點的更新,從而影響了它們對文本的編輯保真度。本文的方法通過在噪聲級別實現(xiàn)全局結(jié)構(gòu)和外觀一致性,并在像素級別改善局部紋理一致性,實現(xiàn)了更優(yōu)越的編輯效果。詳細的定性結(jié)果請參考原文附錄。
定量比較
如下表1所示,本文提供了 SyncNoise 與 Instruct-Nerf2Nerf (IN2N) 、Efficient-Nerf2Nerf (EN2N) 和GaussianEditor 的定量比較結(jié)果。本文在總共四個場景(即“bear”、“face”、“fangzhou”和“person”)和10個不同的文本提示上評估了所有比較方法??梢钥闯?,本文的方法不僅在編輯保真度上表現(xiàn)出色,而且在視覺質(zhì)量上也表現(xiàn)優(yōu)異。與 IN2N 相比,本文的方法在編輯指令遵循性和時間一致性上表現(xiàn)更好,而且編輯時間僅需一半。此外,本文的方法在 CLIP 文本-圖像方向相似度分數(shù)和 MUSIQ 指標上分別比 GaussianEditor 高出了1.27%和2.243,表明本文生成的編輯圖像更加忠實于給定的指令,同時不犧牲視覺質(zhì)量。由于 GaussianEditor限制了原始場景部分3D高斯點的更新,因此它無法很好地遵循指令。此外,通過引入像素級一致性,SyncNoise 進一步提高了對指令的忠實度和視覺質(zhì)量,在不同視角下實現(xiàn)了更精細的編輯細節(jié)。
消融研究
本文研究了pipeline 中兩個關(guān)鍵組件的作用,即噪聲對齊和跨視圖重投影。如下圖7所示,僅使用噪聲對齊時,編輯在幾何上對齊,但丟失了一些細節(jié)。僅使用跨視圖重投影時,保持了相鄰幀的局部一致性,但編輯缺乏全面的覆蓋和完整性。例如,蝙蝠俠的角很小,骷髏的角沒有被編輯。通過將這兩個組件結(jié)合在一起,本文在全局結(jié)構(gòu)和局部紋理上實現(xiàn)了更好的一致性。
結(jié)論
今天分享的這篇工作專注于實現(xiàn)3D場景編輯中的多視角一致性編輯。提出了一種名為SyncNoise的新方法,利用幾何引導的多視角一致性來增強編輯場景的連貫性。通過使用2D擴散模型同步編輯多個視角,并在噪聲預測器的特征上強制執(zhí)行幾何一致性,避免了模糊的結(jié)果。鄰近視角之間的像素級重投影進一步幫助生成更精細的細節(jié)。本文的實驗結(jié)果表明,SyncNoise在實現(xiàn)高質(zhì)量的3D編輯并遵循文本指令方面優(yōu)于現(xiàn)有方法。
局限性。本文的方法嚴重依賴于2D擴散模型,這限制了3D編輯的質(zhì)量和提示的靈活性。此外,SyncNoise在編輯外觀方面表現(xiàn)出色,但在修改3D形狀和幾何方面的能力有限。這一限制也存在于IN2N中。此外,SyncNoise可能在復雜場景中遇到困難,特別是那些具有復雜幾何結(jié)構(gòu)的場景。需要進一步的研究來解決這些挑戰(zhàn),這將是本文未來的重點關(guān)注。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
