自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

神還原物體復(fù)雜、高頻細(xì)節(jié),4K-NeRF高保真視圖合成來了

人工智能 新聞
與現(xiàn)代 NeRF 方法的定量和定性比較表明,本文方法可以顯著提高渲染質(zhì)量以保留高頻細(xì)節(jié),在 4K 超高分辨率場景下實(shí)現(xiàn)最先進(jìn)的視覺質(zhì)量。

超高分辨率作為記錄和顯示高質(zhì)量圖像、視頻的一種標(biāo)準(zhǔn)受到眾多研究者的歡迎,與較低分辨率(1K 高清格式)相比,高分辨率捕獲的場景通常細(xì)節(jié)十分清晰,像素的信息被一個個小 patch 放大。但是,想要將這種技術(shù)應(yīng)用于圖像處理和計算機(jī)視覺還面臨很多挑戰(zhàn)。

本文中,來自阿里巴巴的研究者專注于新的視圖合成任務(wù),提出了一個名為 4K-NeRF 的框架,其基于 NeRF 的體積渲染方法可以實(shí)現(xiàn)在 4K 超高分辨率下高保真視圖合成。

圖片

論文地址:https://arxiv.org/abs/2212.04701

項(xiàng)目主頁:https://github.com/frozoul/4K-NeRF

話不多說,我們先來看看效果(以下視頻均進(jìn)行了降采樣處理,原版 4K 視頻請參考原項(xiàng)目)。

方法

接下來我們來看看該研究是如何實(shí)現(xiàn)的。

4K-NeRF pipeline(如下圖):使用基于 patch 的射線采樣技術(shù),聯(lián)合訓(xùn)練 VC-Encoder(View-Consistent)(基于 DEVO)在一個較低分辨率的空間中編碼三維幾何信息,之后經(jīng)過一個 VC-Decoder 實(shí)現(xiàn)針對高頻細(xì)高質(zhì)量的渲染與視圖一致性的增強(qiáng)。

圖片

該研究基于 DVGO [32] 中定義的公式實(shí)例化編碼器,學(xué)習(xí)到的基于體素網(wǎng)格的表示來顯式地編碼幾何結(jié)構(gòu):

圖片

對于每個采樣點(diǎn),密度估計的三線性插值配備了一個 softplus 激活函數(shù)用于生成該點(diǎn)的體密度值:

圖片

顏色則是用一個小型的 MLP 估計算:

圖片

這樣可以通過累積沿著設(shè)線 r 的采樣點(diǎn)的特征來得到每個射線(或像素)的特征值:

圖片

為了更好地利用嵌入在 VC-Encoder 中的幾何屬性,該研究還通過估計每條射線 r 沿采樣射線軸的深度生成了一個深度圖。估計的深度圖為上面 Encoder 生成的場景三維結(jié)構(gòu)提供了強(qiáng)有力的指導(dǎo):

圖片

之后經(jīng)過的網(wǎng)絡(luò)是通過疊加幾個卷積塊(既不使用非參數(shù)歸一化,也不使用降采樣操作)和交錯的升采樣操作來建立的。特別是,該研究不是簡單地將特征 F 和深度圖 M 連接起來,而是加入了深度圖中的深度信號,并通過學(xué)習(xí)變換將其注入每個塊來調(diào)制塊激活。

圖片

不同于傳統(tǒng)的 NeRF 方法中的像素級機(jī)制,該研究的方法旨在捕獲射線(像素)之間的空間信息。因此,這里不適合采用 NeRF 中隨機(jī)射線采樣的策略。因此該研究提出了一種基于 patch 的射線采樣訓(xùn)練策略,以方便捕獲射線特征之間的空間依賴性。訓(xùn)練中,首先將訓(xùn)練視圖的圖像分割成大小為 N_p×N_p 的 patch p,以確保像素上的采樣概率是均勻的。當(dāng)圖像空間維數(shù)不能被 patch 大小精確分割時,需要截斷 patch 直到邊緣,得到一組訓(xùn)練 patch。然后從集合中隨機(jī)抽取一個 (或多個) patch,通過 patch 中像素的射線形成每次迭代的 mini-batch。

為了解決對精細(xì)細(xì)節(jié)產(chǎn)生模糊或過度平滑視覺效果的問題,該研究添加了對抗性損失和感知損失來規(guī)范精細(xì)細(xì)節(jié)合成。感知損失圖片通過預(yù)先訓(xùn)練的 19 層 VGG 網(wǎng)絡(luò)來估計特征空間中預(yù)測的 patch圖片和真值 p 之間的相似性:

圖片

該研究使用圖片損失而不是 MSE 來監(jiān)督高頻細(xì)節(jié)的重建

圖片

此外,該研究還添加了一個輔助 MSE 損失,最后總的 loss 函數(shù)形式如下:

圖片

實(shí)驗(yàn)效果

定性分析

實(shí)驗(yàn)對 4K-NeRF 與其他模型進(jìn)行了比較,可以看到基于普通 NeRF 的方法有著不同程度的細(xì)節(jié)丟失、模糊現(xiàn)象。相比之下,4K-NeRF 在這些復(fù)雜和高頻細(xì)節(jié)上呈現(xiàn)了高質(zhì)量的逼真渲染,即使是在訓(xùn)練視野有限的場景上。

圖片

圖片

定量分析

該研究與目前幾個方法在 4k 數(shù)據(jù)的基準(zhǔn)下去做對比,包括 Plenoxels、DVGO、JaxNeRF、MipNeRF-360 和 NeRF-SR。實(shí)驗(yàn)不但以圖像恢復(fù)的評價指標(biāo)作為對比,還提供了推理時間和緩存內(nèi)存,以供全面評估參考。結(jié)果如下:

圖片

雖然與一些方法的結(jié)果在一些指標(biāo)上相差不大,但是得益于他們基于體素的方法在推理效率和內(nèi)存成本上都取得了驚人的性能,允許在 300 ms 內(nèi)渲染一個 4K 圖像。

圖片

總結(jié)及未來展望

該研究探討了 NeRF 在精細(xì)細(xì)節(jié)建模方面的能力,提出了一個新穎的框架來增強(qiáng)其在以極高分辨率的場景中恢復(fù)視圖一致的細(xì)微細(xì)節(jié)的表現(xiàn)力。此外,該研究還引入了一對保持幾何一致性的編解碼器模塊,在較低的空間中有效地建模幾何性質(zhì),并利用幾何感知特征之間的局部相關(guān)性實(shí)現(xiàn)全尺度空間中的視圖一致性的增強(qiáng),并且基于 patch 的抽樣訓(xùn)練框架也允許該方法集成來自面向感知的正則化的監(jiān)督。該研究希望將框架合并到動態(tài)場景建模中的效果,以及神經(jīng)渲染任務(wù)作為未來的方向。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-04-14 14:50:27

計算機(jī)模型 技術(shù)

2021-04-14 15:03:16

數(shù)據(jù)性能存儲

2021-01-06 10:51:56

量子互聯(lián)網(wǎng)網(wǎng)絡(luò)安全

2024-11-25 08:50:00

2023-08-21 12:10:08

算法AI

2021-11-16 14:11:59

語音合成微軟人工智能

2024-11-26 09:43:37

2024-05-22 16:01:32

2023-12-09 14:29:32

AI算法

2023-06-20 16:26:21

2021-08-06 08:20:38

微軟Teams音樂傳輸

2023-12-05 13:48:00

數(shù)據(jù)訓(xùn)練

2023-04-25 17:13:03

模型AI

2025-02-20 09:36:45

2023-10-19 13:05:39

2022-09-15 09:59:55

火山語音語音建模

2015-11-18 10:16:38

OC代碼

2025-04-03 10:17:23

2020-09-07 06:30:00

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號