CVPR 2025:無需物理引擎,一個模型搞定圖像渲染與分解
無需物理引擎,單個模型也能實(shí)現(xiàn)“渲染+逆渲染”了!
在計算機(jī)圖形和視覺領(lǐng)域,渲染是指將3D模型變成逼真的2D圖片,逆渲染則是從2D圖片分析出3D模型的各種屬性(如材質(zhì)、光照等)。
現(xiàn)在,從材質(zhì)分解(逆渲染)——材質(zhì)編輯——物體渲染的整個流程,都被統(tǒng)一到了一個框架中,且在性能方面達(dá)到了新SOTA。
該研究出自港科大廣州以及趣丸科技,他們首創(chuàng)雙流擴(kuò)散框架Uni-Renderer,將渲染(生成圖像)與逆渲染(分解材質(zhì)、光照、幾何)統(tǒng)一到單一擴(kuò)散框架,實(shí)現(xiàn)“生成即分解”的閉環(huán)能力。
相關(guān)成果已被CVPR 2025接收,代碼與數(shù)據(jù)全面開源。
研究團(tuán)隊表示,這一成果未來將重塑影視、游戲、AR/VR等產(chǎn)業(yè)的視覺生成管線。
首創(chuàng)雙流擴(kuò)散框架
正如開頭提到,渲染是通過光線追蹤或路徑追蹤,生成高質(zhì)量的圖像;逆渲染是在RGB圖像中提取出對象屬性,比如金屬度、粗糙度以及光照細(xì)節(jié)。
傳統(tǒng)方法需獨(dú)立建模訓(xùn)練渲染器與逆渲染器,計算成本高效率低泛化差,兩個過程也缺乏聯(lián)系,精度和屬性分解效果都有限。
而Uni-Renderer的雙流擴(kuò)散架構(gòu)將兩個過程建模為雙條件生成任務(wù),生成時以材質(zhì)、光照為條件輸出圖像,分解時以圖像為條件反推內(nèi)在屬性:
其中渲染流負(fù)責(zé)生成RGB圖像:以VAE編碼材質(zhì)、法線、光照為條件,通過擴(kuò)散過程生成圖像,支持動態(tài)調(diào)整粗糙度/金屬值(如“光滑棒球”秒變“金屬質(zhì)感”)。
而逆渲染流負(fù)責(zé)處理內(nèi)在屬性:以圖像為輸入,通過噪聲預(yù)測網(wǎng)絡(luò)分解屬性, 并在網(wǎng)絡(luò)內(nèi)部進(jìn)行跨流交互,實(shí)現(xiàn)信息傳遞融合優(yōu)化協(xié)同。
此外,團(tuán)隊還采用了差異化的timestep調(diào)度策略,通過不同的timestep使模型區(qū)分渲染和逆渲染的映射關(guān)系,讓這兩者能更好協(xié)同。
最后,鑒于傳統(tǒng)逆渲染因“材質(zhì)-光照-幾何”耦合性導(dǎo)致分解模糊。
因此,他們將逆渲染分解得到的屬性,再次輸入到渲染模塊進(jìn)行再渲染,并借助循環(huán)約束確保分解結(jié)果可重新生成一致圖像,徹底告別“分解即失真”。
實(shí)測對比,性能碾壓SOTA
1、材質(zhì)編輯
對比Subias(過曝)、InstructPix2Pix(背景錯誤),Uni-Renderer精準(zhǔn)控制高光與漫反射,如下圖中“金屬橙子”表面反射環(huán)境光照,細(xì)節(jié)逼真。
2、重光照
如下圖所示,輸入單張圖像,直接替換環(huán)境光為“夕陽/霓虹”,模型自動調(diào)整漫反射與鏡面反射,光影過渡自然,超越NvDiffRec的生硬效果。
3、真實(shí)場景
下圖中,“水壺”逆渲染成功解析高頻環(huán)境光,金屬質(zhì)感與粗糙度誤差僅3%。
概括而言,通過在生成階段,以材質(zhì)、光照為條件輸出圖像;分解階段,以圖像為條件反推內(nèi)在屬性,效率提升了200%。
同時,Uni-Renderer強(qiáng)制內(nèi)在屬性與圖像的一致性,在公開測試集上材質(zhì)估計誤差降低40%,光照分解PSNR提升30%。
另外,研究基于Objaverse構(gòu)建業(yè)界最大規(guī)模多材質(zhì)合成數(shù)據(jù)集,涵蓋20萬3D對象、121種材質(zhì)/光照組合,支持高分辨率(1024×1024)訓(xùn)練。模型在未見過的真實(shí)場景中(如金屬水壺、手機(jī)支架)仍能精準(zhǔn)分解高光、粗糙度與復(fù)雜光照。
在渲染任務(wù)中,PSNR達(dá)30.72(對比基線28.09),逆渲染任務(wù)中,材質(zhì)估計MSE僅0.118(優(yōu)化方法0.316);重光照效果超越GaussianShader等方案,真實(shí)感拉滿。
開源即用
目前團(tuán)隊對Uni-renderer同步進(jìn)行了開源,包括:
- 代碼庫:支持一鍵訓(xùn)練/推理,兼容PyTorch生態(tài);
- 合成數(shù)據(jù)集:20萬對象+百萬級材質(zhì)-光照組合,涵蓋數(shù)理化生多領(lǐng)域;
- 預(yù)訓(xùn)練模型:即插即用于游戲資產(chǎn)生成、影視后期、工業(yè)設(shè)計等場景。
這項研究的作者為陳知非, 許添碩以及葛汶杭,他們是來自于香港科技大學(xué)(廣州)ENVISION實(shí)驗室的博士生,師從陳穎聰教授。
(ENVISION實(shí)驗室專注于視覺生成模型的研究,致力于探索其基本原理,以提高模型的質(zhì)量、效率、多樣性和可控性。)
小結(jié)一下,Uni-Renderer的提出,標(biāo)志著視覺生成與解析從“分而治之”邁入“統(tǒng)一智能”時代。
其雙流架構(gòu)與循環(huán)約束機(jī)制,為跨任務(wù)聯(lián)合優(yōu)化提供了全新范式。
未來,團(tuán)隊將進(jìn)一步融合真實(shí)數(shù)據(jù),攻克復(fù)雜動態(tài)場景,讓人工智能成為“全能視覺工程師”。
論文鏈接:https://arxiv.org/pdf/2412.15050
GitHub代碼:https://yuevii.github.io/unirenderer-page/