自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2025:?jiǎn)螆D秒變專業(yè)影棚,幾何/材質(zhì)/光影全搞定,數(shù)據(jù)訓(xùn)練代碼全開源

人工智能 新聞
近日,由香港中文大學(xué)、上海人工智能實(shí)驗(yàn)室 及南洋理工大學(xué)的研究團(tuán)隊(duì)聯(lián)合研發(fā)的論文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。

如何從一張普通的單幅圖像準(zhǔn)確估計(jì)物體的三維法線和材質(zhì)屬性,是計(jì)算機(jī)視覺與圖形學(xué)領(lǐng)域長(zhǎng)期關(guān)注的難題。

這種單圖逆渲染任務(wù)存在嚴(yán)重的不確定性,傳統(tǒng)方法通常需要多角度或多光源的拍攝條件,難以在日常場(chǎng)景中普遍應(yīng)用。 

近日,由香港中文大學(xué)、上海人工智能實(shí)驗(yàn)室及南洋理工大學(xué)的研究團(tuán)隊(duì)聯(lián)合研發(fā)的論文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。

圖片

其成果已被計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR 2025正式接收。

圖片

核心立意

Neural LightRig創(chuàng)新性地提出利用圖像擴(kuò)散模型(如Stable Diffusion)的強(qiáng)大先驗(yàn)信息,生成虛擬的多光照?qǐng)D像,從而有效解決單圖估計(jì)法線和PBR材質(zhì)過程中存在的不確定性問題。

圖片

研究團(tuán)隊(duì)首次提出通過微調(diào)預(yù)訓(xùn)練的圖像擴(kuò)散模型,生成不同光照條件下的一致性多光照?qǐng)D像序列,這種方法有效減少了單圖估計(jì)過程中的內(nèi)在不確定性。

混合條件策略:通過通道級(jí)別的圖像拼接與參考注意力機(jī)制的結(jié)合,引入輸入圖像的先驗(yàn)信息,有效保證了生成圖像的顏色和紋理細(xì)節(jié)的一致性。

雙階段微調(diào)策略:首先僅微調(diào)擴(kuò)散模型的初始卷積層及注意力層,以穩(wěn)定早期訓(xùn)練;隨后以較低學(xué)習(xí)率微調(diào)整個(gè)模型,進(jìn)一步提升模型生成多光照?qǐng)D像的質(zhì)量。圖片2. 基于U-Net的大型G-buffer重建模型

利用擴(kuò)散模型生成的多光照?qǐng)D像作為輔助信息,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于U-Net架構(gòu)的回歸模型,以實(shí)現(xiàn)對(duì)物體表面法線和PBR材質(zhì)屬性(包括反照率、粗糙度、金屬性)的高效精確估計(jì)。

顯式光照條件輸入:通過對(duì)光源位置進(jìn)行球面坐標(biāo)編碼,使模型能顯式地關(guān)聯(lián)不同光照方向下的圖像變化,更有效地預(yù)測(cè)物體表面屬性。

優(yōu)化目標(biāo)設(shè)計(jì):采用余弦相似度損失和均方誤差(MSE)聯(lián)合優(yōu)化法線估計(jì),材質(zhì)估計(jì)則采用簡(jiǎn)單而有效的均方誤差損失。

數(shù)據(jù)增強(qiáng)策略:針對(duì)擴(kuò)散模型生成圖像與真實(shí)渲染圖像之間的領(lǐng)域差異,提出隨機(jī)降質(zhì)、亮度調(diào)整、光照方向擾動(dòng)和數(shù)據(jù)混合策略,以提高模型的泛化能力與穩(wěn)定性。

實(shí)驗(yàn)表現(xiàn)

在自主構(gòu)建的大規(guī)模數(shù)據(jù)集LightProp上的實(shí)驗(yàn)結(jié)果表明,Neural LightRig在各項(xiàng)指標(biāo)上全面超越現(xiàn)有先進(jìn)方法:

  • 法線估計(jì):平均角度誤差顯著降低至6.413°,大幅提高估計(jì)精度(詳見論文表1和圖5);
  • 材質(zhì)估計(jì)與新光照下渲染效果:實(shí)現(xiàn)了對(duì)反照率、粗糙度和金屬性等材質(zhì)屬性的精準(zhǔn)估計(jì),并能夠生成逼真的單圖重光照效果(詳見論文表2與圖6圖7)。

圖片

圖片

此外,該方法在真實(shí)世界圖像中的泛化表現(xiàn)突出,展現(xiàn)出良好的實(shí)際應(yīng)用潛力,適用于增強(qiáng)現(xiàn)實(shí)(AR)、虛擬現(xiàn)實(shí)(VR)和數(shù)字內(nèi)容創(chuàng)作等廣泛領(lǐng)域。

法線估計(jì)圖片材質(zhì)估計(jì)

圖片

新光照渲染圖片

開源與資源為促進(jìn)研究與應(yīng)用,研究團(tuán)隊(duì)已公開了相關(guān)資源,歡迎社區(qū)同行積極使用和探索:

代碼開源地址:https://github.com/ZexinHe/Neural-LightRig 

數(shù)據(jù)集開源地址: https://huggingface.co/datasets/zxhezexin/NLR-LightProp-Objaverse-Renderings 

預(yù)訓(xùn)練模型地址: https://huggingface.co/zxhezexin/neural-lightrig-mld-and-recon 

論文鏈接: https://arxiv.org/abs/2412.09593

項(xiàng)目主頁(yè): https://projects.zxhezexin.com/neural-lightrig/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-03-29 10:37:35

開源技術(shù) 開發(fā)

2025-04-01 10:11:12

2025-03-17 09:20:00

視覺生成模型

2009-05-04 07:54:08

Linux全開源顯卡引導(dǎo)

2016-10-13 14:50:26

開源代碼安全

2017-12-03 21:47:07

開源工具JavaScript

2025-02-10 14:30:00

模型數(shù)據(jù)開源

2025-04-08 03:00:00

SpringDocker容器

2025-03-11 09:20:00

2023-08-01 14:14:14

2025-03-31 01:45:00

2025-04-02 09:00:00

模型開源AI

2024-05-06 08:48:18

nestjava?MVC?

2022-06-06 10:54:18

模型訓(xùn)練開源

2025-01-16 10:05:00

3D模型代碼

2022-07-28 11:13:08

人工智能模型

2024-12-19 09:30:00

2025-04-15 08:57:00

3D生成AI

2018-03-08 11:43:18

PandasTB級(jí)數(shù)據(jù)Spark
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)