自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2025:無需物理引擎,一個模型搞定圖像渲染與分解

人工智能 新聞
Uni-Renderer的提出,標(biāo)志著視覺生成與解析從“分而治之”邁入“統(tǒng)一智能”時代。

無需物理引擎,單個模型也能實(shí)現(xiàn)“渲染+逆渲染”了!

在計算機(jī)圖形和視覺領(lǐng)域,渲染是指將3D模型變成逼真的2D圖片,逆渲染則是從2D圖片分析出3D模型的各種屬性(如材質(zhì)、光照等)。

現(xiàn)在,從材質(zhì)分解(逆渲染)——材質(zhì)編輯——物體渲染的整個流程,都被統(tǒng)一到了一個框架中,且在性能方面達(dá)到了新SOTA。

圖片

該研究出自港科大廣州以及趣丸科技,他們首創(chuàng)雙流擴(kuò)散框架Uni-Renderer,將渲染(生成圖像)與逆渲染(分解材質(zhì)、光照、幾何)統(tǒng)一到單一擴(kuò)散框架,實(shí)現(xiàn)“生成即分解”的閉環(huán)能力。

相關(guān)成果已被CVPR 2025接收,代碼與數(shù)據(jù)全面開源。

研究團(tuán)隊表示,這一成果未來將重塑影視、游戲、AR/VR等產(chǎn)業(yè)的視覺生成管線。

圖片

首創(chuàng)雙流擴(kuò)散框架

正如開頭提到,渲染是通過光線追蹤或路徑追蹤,生成高質(zhì)量的圖像;逆渲染是在RGB圖像中提取出對象屬性,比如金屬度、粗糙度以及光照細(xì)節(jié)。

傳統(tǒng)方法需獨(dú)立建模訓(xùn)練渲染器與逆渲染器,計算成本高效率低泛化差,兩個過程也缺乏聯(lián)系,精度和屬性分解效果都有限。

而Uni-Renderer的雙流擴(kuò)散架構(gòu)將兩個過程建模為雙條件生成任務(wù),生成時以材質(zhì)、光照為條件輸出圖像,分解時以圖像為條件反推內(nèi)在屬性:

圖片

其中渲染流負(fù)責(zé)生成RGB圖像:以VAE編碼材質(zhì)、法線、光照為條件,通過擴(kuò)散過程生成圖像,支持動態(tài)調(diào)整粗糙度/金屬值(如“光滑棒球”秒變“金屬質(zhì)感”)。

圖片

逆渲染流負(fù)責(zé)處理內(nèi)在屬性:以圖像為輸入,通過噪聲預(yù)測網(wǎng)絡(luò)分解屬性, 并在網(wǎng)絡(luò)內(nèi)部進(jìn)行跨流交互,實(shí)現(xiàn)信息傳遞融合優(yōu)化協(xié)同。

此外,團(tuán)隊還采用了差異化的timestep調(diào)度策略,通過不同的timestep使模型區(qū)分渲染和逆渲染的映射關(guān)系,讓這兩者能更好協(xié)同。

最后,鑒于傳統(tǒng)逆渲染因“材質(zhì)-光照-幾何”耦合性導(dǎo)致分解模糊。

因此,他們將逆渲染分解得到的屬性,再次輸入到渲染模塊進(jìn)行再渲染,并借助循環(huán)約束確保分解結(jié)果可重新生成一致圖像,徹底告別“分解即失真”。

實(shí)測對比,性能碾壓SOTA

1、材質(zhì)編輯

對比Subias(過曝)、InstructPix2Pix(背景錯誤),Uni-Renderer精準(zhǔn)控制高光與漫反射,如下圖中“金屬橙子”表面反射環(huán)境光照,細(xì)節(jié)逼真。

圖片

2、重光照

如下圖所示,輸入單張圖像,直接替換環(huán)境光為“夕陽/霓虹”,模型自動調(diào)整漫反射與鏡面反射,光影過渡自然,超越NvDiffRec的生硬效果。

圖片

3、真實(shí)場景

下圖中,“水壺”逆渲染成功解析高頻環(huán)境光,金屬質(zhì)感與粗糙度誤差僅3%。

圖片

概括而言,通過在生成階段,以材質(zhì)、光照為條件輸出圖像;分解階段,以圖像為條件反推內(nèi)在屬性,效率提升了200%。

同時,Uni-Renderer強(qiáng)制內(nèi)在屬性與圖像的一致性,在公開測試集上材質(zhì)估計誤差降低40%,光照分解PSNR提升30%。

另外,研究基于Objaverse構(gòu)建業(yè)界最大規(guī)模多材質(zhì)合成數(shù)據(jù)集,涵蓋20萬3D對象、121種材質(zhì)/光照組合,支持高分辨率(1024×1024)訓(xùn)練。模型在未見過的真實(shí)場景中(如金屬水壺、手機(jī)支架)仍能精準(zhǔn)分解高光、粗糙度與復(fù)雜光照。

在渲染任務(wù)中,PSNR達(dá)30.72(對比基線28.09),逆渲染任務(wù)中,材質(zhì)估計MSE僅0.118(優(yōu)化方法0.316);重光照效果超越GaussianShader等方案,真實(shí)感拉滿。

圖片

開源即用

目前團(tuán)隊對Uni-renderer同步進(jìn)行了開源,包括:

  • 代碼庫:支持一鍵訓(xùn)練/推理,兼容PyTorch生態(tài);
  • 合成數(shù)據(jù)集:20萬對象+百萬級材質(zhì)-光照組合,涵蓋數(shù)理化生多領(lǐng)域;
  • 預(yù)訓(xùn)練模型:即插即用于游戲資產(chǎn)生成、影視后期、工業(yè)設(shè)計等場景。

這項研究的作者為陳知非, 許添碩以及葛汶杭,他們是來自于香港科技大學(xué)(廣州)ENVISION實(shí)驗室的博士生,師從陳穎聰教授。

(ENVISION實(shí)驗室專注于視覺生成模型的研究,致力于探索其基本原理,以提高模型的質(zhì)量、效率、多樣性和可控性。)

圖片

圖片

小結(jié)一下,Uni-Renderer的提出,標(biāo)志著視覺生成與解析從“分而治之”邁入“統(tǒng)一智能”時代。

其雙流架構(gòu)與循環(huán)約束機(jī)制,為跨任務(wù)聯(lián)合優(yōu)化提供了全新范式。

未來,團(tuán)隊將進(jìn)一步融合真實(shí)數(shù)據(jù),攻克復(fù)雜動態(tài)場景,讓人工智能成為“全能視覺工程師”。

論文鏈接:https://arxiv.org/pdf/2412.15050
GitHub代碼:https://yuevii.github.io/unirenderer-page/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-11-26 18:52:36

AI 數(shù)據(jù)人工智能

2024-11-18 08:15:00

2024-02-19 00:21:45

開源圖片

2010-12-10 17:23:56

IBMIaaS

2022-05-26 10:42:30

數(shù)據(jù)權(quán)限注解

2016-12-08 10:57:08

渲染引擎前端優(yōu)化

2023-01-05 13:11:20

模型

2022-01-24 15:51:58

AI模型數(shù)據(jù)

2022-06-14 10:47:27

項目日志PUT

2025-02-24 13:40:00

模型生成訓(xùn)練

2024-10-30 14:10:00

圖像生成模型

2022-06-27 08:36:27

分布式事務(wù)XA規(guī)范

2025-04-08 09:30:00

模型AI機(jī)器人

2024-11-05 14:25:00

AI模型

2018-06-11 17:27:56

APP流量華為

2025-01-14 13:51:18

2022-06-06 08:42:04

spring-boo開發(fā)接口防盜刷

2010-08-02 16:08:39

ibmdwJava搜索引擎

2023-11-29 18:56:43

圖像搜索FAISS
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號