ECCV 2024 | NVIDIA DiPIR:無縫地將3D目標插入任何自動場景
原標題:Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
論文鏈接:https://arxiv.org/pdf/2408.09702
項目主頁:https://research.nvidia.com/labs/toronto-ai/DiPIR/
作者單位:NVIDIA 多倫多大學 Vector Institute
論文思路:
將虛擬物體正確插入到真實場景的圖像中,需要對場景的光照、幾何形狀和材質(zhì),以及圖像形成過程有深入的理解。盡管最近的大規(guī)模擴散模型在生成和修復圖像方面表現(xiàn)出了強大的能力,但本文發(fā)現(xiàn)當前的模型還不足以“理解”單張圖片中的場景,從而無法在保持合成物體的身份和細節(jié)的同時生成一致的光照效果(陰影、明亮的反射等)。本文提出使用個性化的大型擴散模型作為物理基礎(chǔ)逆向渲染過程的指導(guidance)。本文的方法恢復了場景光照和色調(diào)映射參數(shù),從而允許在單幀圖像或室內(nèi)外場景的視頻中進行真實感的任意虛擬物體合成。本文的物理基礎(chǔ)流程(physically based pipeline)進一步支持自動材質(zhì)和色調(diào)映射的優(yōu)化。
論文設(shè)計:
虛擬物體插入能夠?qū)崿F(xiàn)從虛擬制作到互動游戲和合成數(shù)據(jù)生成的一系列應用。為了生成真實感的插入效果,必須忠實地模擬虛擬物體與環(huán)境之間的相互作用,例如準確的鏡面高光和陰影。
標準的虛擬物體插入流程通常包括三個關(guān)鍵步驟:i) 從輸入圖像中估計光照,ii) 創(chuàng)建3D代理幾何模型,iii) 在渲染引擎中進行合成圖像渲染。然而,第一個也是最重要的一步仍然是一個開放的研究問題。光照估計在處理有限輸入(如使用低動態(tài)范圍的消費設(shè)備拍攝的單張圖像)時尤為具有挑戰(zhàn)性。實際上,逆向渲染本質(zhì)上是一個病態(tài)問題(ill-posed problem)。
為了限制其解空間,以往的研究要么試圖定義手工設(shè)計的先驗知識 [9,18,31,78],要么從數(shù)據(jù)中學習這些先驗知識 [15–17,22,23,32,36,58,64,65,80]。然而,前者在應用于真實場景時往往效果不佳,而后者則由于缺乏真實數(shù)據(jù)而受到限制。因此,這些算法通常高度針對特定領(lǐng)域進行優(yōu)化,例如室內(nèi)場景 [15–17,52,65] 或室外場景 [22, 23, 58, 64, 80]。
為了解決這些挑戰(zhàn),本文提出利用大型擴散模型(DMs) [48] 學習到的強大圖像生成先驗知識來指導逆向渲染。與通常特定于某個領(lǐng)域的手工設(shè)計或監(jiān)督數(shù)據(jù)驅(qū)動先驗不同,DMs 是在大規(guī)模數(shù)據(jù)集上訓練的,并展示出對世界及其背后物理概念的顯著“理解”(“understanding”)。雖然 DMs 在生成過程中仍然常常無法產(chǎn)生準確的光照效果(如陰影和反射) [51],但本文觀察到,當它們與基于物理的渲染器結(jié)合并適應場景時,可以提供有價值的指導。
具體來說,本文提出了用于逆向渲染的擴散先驗(Diffusion Prior for Inverse Rendering)(DiPIR),基于以下三大主要貢獻。首先,本文使用基于物理的渲染器來準確模擬光線與3D資產(chǎn)之間的相互作用,以生成最終的合成圖像。本文還考慮了未知的色調(diào)映射曲線,以模仿相機傳感器的響應。其次,本文提出了一種基于輸入圖像和插入資產(chǎn)類型的預訓練DM的輕量化個性化方案。第三,本文設(shè)計了一種SDS損失 [46] 的變體,利用這種個性化并提高訓練的穩(wěn)定性。
在 DiPIR 中,DM 類似于人類評估者。它將編輯后的圖像作為輸入,并通過可微渲染將反饋信號傳播到基于物理的場景屬性,從而實現(xiàn)端到端優(yōu)化。本文的實驗表明,DiPIR 在室內(nèi)和室外數(shù)據(jù)集上用于物體插入的光照估計方面優(yōu)于現(xiàn)有的最先進方法。
圖1:本文提出了DiPIR,這是一種基于物理的方法,用于從單張圖像中恢復光照,能夠?qū)⑷我馓摂M物體合成到室內(nèi)和室外場景中,同時進行材質(zhì)和色調(diào)映射優(yōu)化。
圖2:方法概述。給定輸入圖像,本文首先構(gòu)建一個包含虛擬物體和代理平面的虛擬3D場景。本文的基于物理的渲染器隨后可微地模擬可優(yōu)化環(huán)境貼圖與插入虛擬物體的相互作用及其對背景場景(陰影)的影響(左)。在每次迭代中,渲染圖像會被擴散并通過個性化的擴散模型(中)。適應后的Score Distillation公式的梯度通過可微渲染器傳播回環(huán)境貼圖和色調(diào)映射曲線。在收斂時,本文恢復光照和色調(diào)映射參數(shù),從而實現(xiàn)從單張圖像中對虛擬物體的真實感合成(右)。
圖3:帶有概念保留的個性化。
圖4:在 PolyHaven 裁剪的HDRIs中插入物體的對比。
圖5:在 Waymo 駕駛場景中插入汽車資產(chǎn)。請注意插入汽車的陰影方向和清晰度,以及整體亮度、顏色和高光反射。
實驗結(jié)果:
圖6:本文設(shè)計選擇的定性消融研究。
圖7:本文的基于物理的逆向渲染流程解鎖了更多應用,如材質(zhì)優(yōu)化、局部發(fā)光和色調(diào)映射優(yōu)化。
表1:戶外街景的定量用戶研究。對于每個場景,用戶會看到兩個結(jié)果——一個是由本文的方法生成的,另一個是由基線方法生成的——并選擇哪個更逼真。本文報告了在3組用戶研究中,每組9名用戶的平均結(jié)果。本文的方法在所有基線方法中表現(xiàn)更好(> 50%),并且在幾乎所有光照條件下都更受歡迎。
表2:PolyHaven場景的定量評估。本文報告了類似于表1的用戶研究偏好評分。度量值是相對于“參考”圖像計算的,其中虛擬物體由真實環(huán)境貼圖照亮。
表3:戶外駕駛場景的消融研究 [57]。本文報告了用戶更喜歡DiPIR相對于其消融版本的圖像百分比。本文的完整流程生成的結(jié)果比其消融版本更受用戶青睞。
應用:
由于本文的方法恢復了基于物理的光照信息,因此在優(yōu)化后可以插入任意新的虛擬物體,如圖2所示。DiPIR還可以優(yōu)化其他場景屬性,如材質(zhì)和局部光照。本文在這一方向進行了初步實驗。
材質(zhì)優(yōu)化。結(jié)合可微渲染,DMs(擴散模型)可以為材質(zhì)屬性提供引導信號,如圖7所示。給定一個純漫反射的汽車,并將金屬度和粗糙度屬性設(shè)為可優(yōu)化參數(shù),擴散引導可以優(yōu)化并使汽車看起來更加閃亮。通過將文本提示更改為“一輛胭脂紅的汽車”,并將汽車的基色設(shè)為可優(yōu)化參數(shù),本文展示了DM可以將文本條件傳播到PBR(基于物理渲染)屬性并將汽車顏色更改為紅色。當將局部發(fā)光設(shè)為可優(yōu)化參數(shù)時,擴散模型還可以在夜間場景中打開汽車的大燈。
色調(diào)映射調(diào)整。本文通過一個控制實驗進一步評估DMs(擴散模型)對色調(diào)映射的理解能力。如圖7所示,本文固定估算的環(huán)境貼圖,并對背景圖像應用手動色調(diào)調(diào)整。通過擴散引導來優(yōu)化色調(diào)曲線,使插入的物體在最終合成結(jié)果中與周圍背景相匹配。
總結(jié):
本文的方法利用了大型擴散模型固有的場景理解能力,作為物理基礎(chǔ)逆向渲染流程的指導。本文設(shè)計了一種具有場景特定個性化的擴散引導信號,并結(jié)合可微的逆向渲染流程來恢復光照和色調(diào)映射參數(shù)。本文的方法不僅能夠?qū)⑻摂M物體插入場景中,還可以優(yōu)化其他場景參數(shù),例如插入物體的材質(zhì)或解決相機之間的色調(diào)映射不匹配問題。本文相信,這種將可微渲染過程與數(shù)據(jù)驅(qū)動的先驗知識相結(jié)合的方法,可以成功應用于許多其他內(nèi)容創(chuàng)作領(lǐng)域,如重新照明和動畫制作。
局限性和未來工作。本文的基于球面高斯函數(shù)的光照表示對于一般物體是足夠的[35],但對于高度鏡面反射的材料可能不夠真實。對于更復雜的光照表示,添加環(huán)境貼圖上的生成先驗[41]是一個值得探索的方向。渲染公式可以擴展,以考慮場景本身對插入物體的反射效果(例如顏色滲透),但這可能會引入更多的不確定性,并需要了解代理幾何體的材料(參見補充材料C.4中的失敗案例)。最后,雖然DM個性化顯著提高了結(jié)果的質(zhì)量,但它增加了流程的開銷和復雜性。最近的一些個性化方法不需要測試時微調(diào)[54],可以用來減輕這一負擔。