自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

高真實(shí)感、全局一致、外觀精細(xì),面向模糊目標(biāo)的NeRF方案出爐

新聞 機(jī)器學(xué)習(xí)
自 NeRF 被提出后,有多項(xiàng)研究對(duì)其加以改進(jìn)。在本篇論文中,上??萍即髮W(xué)的研究者提出了首個(gè)將顯式不透明監(jiān)督和卷積機(jī)制結(jié)合到神經(jīng)輻射場框架中以實(shí)現(xiàn)高質(zhì)量外觀的方案。

 [[402913]]

模糊復(fù)雜目標(biāo)的高真實(shí)感建模和渲染對(duì)于許多沉浸式 VR/AR 應(yīng)用至關(guān)重要,其中物體的亮度與顏色和視圖強(qiáng)相關(guān)。在本文中,來自上海科技大學(xué)的研究者提出了一種使用卷積神經(jīng)渲染器為模糊目標(biāo)生成不透明輻射場的新方案,這是首個(gè)將顯式不透明監(jiān)督和卷積機(jī)制結(jié)合到神經(jīng)輻射場框架中以實(shí)現(xiàn)高質(zhì)量外觀的方案,并以任意新視角生成全局一致的 alpha 蒙版。

具體而言,該研究提出了一種有效的采樣策略以及攝像機(jī)光線和圖像平面,從而能夠進(jìn)行有效的輻射場采樣,并以 patch-wise 的方式學(xué)習(xí)。同時(shí),該研究還提出了一種新型的體積特征集成方案,該方案會(huì)生成 per-patch 混合特征嵌入,以重建視圖一致的精細(xì)外觀和不透明輸出。

此外,該研究進(jìn)一步采用 patch-wise 對(duì)抗訓(xùn)練方案,以在自監(jiān)督框架中同時(shí)保留高頻外觀和不透明細(xì)節(jié)。該研究還提出了一種高效的多視圖圖像捕獲系統(tǒng),以捕獲挑戰(zhàn)性模糊目標(biāo)的高質(zhì)量色彩和 alpha 圖。在現(xiàn)有數(shù)據(jù)集和新的含有挑戰(zhàn)性模糊目標(biāo)的數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,該研究提出的新方法可以對(duì)多種模糊目標(biāo)實(shí)現(xiàn)高真實(shí)感、全局一致、外觀精細(xì)的不透明自由視角渲染。

高真實(shí)感、全局一致、外觀精細(xì),面向模糊目標(biāo)的NeRF方案出爐

論文地址:https://arxiv.org/abs/2104.01772

該研究的主要貢獻(xiàn)包括:

  • 提出了一種新型卷積神經(jīng)輻射場生成方案,用于重建高頻和新視圖中模糊目標(biāo)的全局一致的外觀和不透明度,并顯著超越了此前的 SOTA 性能;
  • 為了啟用卷積機(jī)制,該研究提出了高效的采樣策略,混合特征融合以及用于 patch-wise 輻射場學(xué)習(xí)的自監(jiān)督對(duì)抗訓(xùn)練方案;
  • 提出了一種高效的多視圖系統(tǒng),以捕獲顏色和 alpha 圖,以應(yīng)對(duì)具有挑戰(zhàn)性的模糊目標(biāo),該研究的捕獲數(shù)據(jù)集可用于激發(fā)進(jìn)一步的研究。

方法框架

研究者在論文中詳細(xì)介紹了新提出的卷積神經(jīng)不透明輻射場(convolutional neural opacity radiance field, ConvNeRF)。該模型基于捕獲系統(tǒng)的 RGBA 輸入,能夠在新視圖中實(shí)現(xiàn)高真實(shí)感、全局一致的外觀和不透明渲染,如下圖所示:

高真實(shí)感、全局一致、外觀精細(xì),面向模糊目標(biāo)的NeRF方案出爐

端到端 ConvNeRF pipeline 概覽

給定多視圖 RGBA 圖像,研究者使用 SFS(Shape-From-Silhouette)來為高效射線采樣推斷代理幾何。對(duì)于體積空間中的每個(gè)樣本點(diǎn),位置和方向都會(huì)饋入到一個(gè)基于多層感知機(jī)(MLP)的特征預(yù)測網(wǎng)絡(luò),以在全局水平上表征對(duì)象。然后,研究者將附近的射線合并為局部特征 patch,并使用卷積體渲染器將其解碼為 RGB 和蒙版。他們在最終輸出上使用對(duì)抗訓(xùn)練策略,以促成精細(xì)的表面細(xì)節(jié)。在 reference 階段,該方法一次渲染整個(gè)圖像,而不是渲染每個(gè) patch。

該方法的主要思想是使用空間卷積機(jī)制對(duì)不透明信息進(jìn)行顯式編碼,以改進(jìn)神經(jīng)輻射場方法(NeRF),對(duì)高頻細(xì)節(jié)進(jìn)行建模。受 NeRF 啟發(fā),研究者采用了類似的隱式神經(jīng)輻射場來表征使用多層感知器的場景,以及沿投射射線方向預(yù)測密度和顏色值的體融合(volumetric integration)。

不同的是,ConvNeRF 通過空間卷積設(shè)計(jì)進(jìn)一步顯式編碼不透明度,以顯著改進(jìn)神經(jīng)輻射場重建。為此,研究者首先提出一種高效的采樣策略,不僅利用沿?cái)z像機(jī)光線的先驗(yàn)固有輪廓,還要編碼整個(gè)圖像平面上的空間信息。接著采用一種全局幾何表征法將 3D 位置映射成高級(jí)輻射特征,并通過一種新型體融合方案生成 per-patch 混合特征嵌入,這樣一來分別對(duì)外觀和不透明度的特征進(jìn)行建模,從而以 patch-wise 的方式進(jìn)行更高效的輻射場學(xué)習(xí)。

最后,研究者使用一個(gè)輕量級(jí)的 U-Net 來將特征 patch 解碼為視圖一致的外觀和不透明度輸出,并進(jìn)一步采用了一種 patch-wise 對(duì)抗訓(xùn)練方案,以在自監(jiān)督框架中保留高頻外觀和不透明度細(xì)節(jié)。

捕獲系統(tǒng)

該研究用到的捕獲系統(tǒng)(capture system)能夠生成高質(zhì)量的多視圖 RGBA 圖像,用于對(duì)具有挑戰(zhàn)性的模糊目標(biāo)進(jìn)行顯式不透明度建模。

如下捕獲系統(tǒng)概覽圖所示,該方法的 pipeline 配備了易于使用的捕獲設(shè)備以及穩(wěn)定的校驗(yàn)和自動(dòng)摳圖方法。

高真實(shí)感、全局一致、外觀精細(xì),面向模糊目標(biāo)的NeRF方案出爐

實(shí)驗(yàn)結(jié)果

該研究在多種毛茸茸物體上評(píng)估了 ConvNeRF。定量和定性評(píng)估實(shí)驗(yàn)的結(jié)果表明:與之前的工作相比,該方法可以更好地保留高保真外觀細(xì)節(jié),并在任意新視圖中生成全局一致的 alpha 蒙版。該研究進(jìn)一步進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證該方法的設(shè)計(jì)選擇。

如下圖 6 所示,在 Cat、Girl、Wolf 數(shù)據(jù)集上,研究者對(duì)該方法與 IBOH、NOPC、和 NeRF 的自由視點(diǎn) RGB 進(jìn)行了對(duì)比。結(jié)果發(fā)現(xiàn),該方法能夠在保留幾何全局視圖一致性的同時(shí)重建幾何和外觀上的精細(xì)細(xì)節(jié),例如貓的毛皮紋理、女孩靴子上的圖案以及狼毛的幾何細(xì)節(jié)。IBOH 表現(xiàn)出重影和混疊,NOPC 存在過度模糊和幾何細(xì)節(jié)的損失,而 NeRF 則表現(xiàn)出過多的噪聲和模糊。

下圖 7 展示了在 Cat、Hairstyle 2 數(shù)據(jù)集上,該方法與 IBOH、NOPC 和 NeRF 的自由視點(diǎn) Alpha 效果比較。結(jié)果發(fā)現(xiàn),該方法可以從視線不一致的 alpha 蒙版中恢復(fù)缺失的部分不透明度,例如貓的胡須,如第一行所示,而 IBOH 則會(huì)失敗,并出現(xiàn)嚴(yán)重的偽影。該方法可以產(chǎn)生比 NOPC 更銳利(sharp)的 alpha 蒙版,后者會(huì)在頭發(fā)周圍產(chǎn)生嚴(yán)重的偽影。而 NeRF 在富有挑戰(zhàn)性的 Hairstyle 2 數(shù)據(jù)集上失敗了。

高真實(shí)感、全局一致、外觀精細(xì),面向模糊目標(biāo)的NeRF方案出爐

在定量評(píng)估方面,研究者使用 PSNR、LPIPS 和 SSIM 作為指標(biāo)定量評(píng)估了幾種方法。如下表 1 和表 2 所示,ConvNeRF 在 RGB 和 alpha 結(jié)果上都實(shí)現(xiàn)了顯著的性能提升。

高真實(shí)感、全局一致、外觀精細(xì),面向模糊目標(biāo)的NeRF方案出爐

下表 3 展示了在半透明(即 0 < α < 1)區(qū)域上,所有數(shù)據(jù)集的平均 PSNR,該方法實(shí)現(xiàn)了 SOTA 性能。

高真實(shí)感、全局一致、外觀精細(xì),面向模糊目標(biāo)的NeRF方案出爐

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2024-04-24 11:29:54

模型雷達(dá)

2025-04-09 08:23:49

2011-04-27 13:25:56

佳能傳真機(jī)用戶體驗(yàn)

2012-06-26 10:05:40

程序員

2023-12-13 13:49:00

模型訓(xùn)練

2020-05-06 21:52:19

蘋果iPhone 11手機(jī)

2023-04-25 17:13:03

模型AI

2013-07-23 09:38:09

外包女程序員感受

2025-01-13 12:31:40

2024-07-22 09:49:39

C#代碼XAML文件汽車動(dòng)態(tài)速度表盤

2024-01-10 08:01:55

高并發(fā)場景悲觀鎖

2022-12-20 10:58:49

數(shù)據(jù)集工具

2024-12-11 09:16:38

2017-07-25 14:38:56

數(shù)據(jù)庫一致性非鎖定讀一致性鎖定讀

2017-03-24 16:54:52

PhxSQL微信開源MySQL

2021-06-06 12:45:41

分布式CAPBASE

2023-05-09 10:59:33

緩存技術(shù)派MySQL

2025-04-18 09:21:00

2017-09-22 12:08:01

數(shù)據(jù)庫分布式系統(tǒng)互聯(lián)網(wǎng)

2022-12-14 08:23:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)