自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

只需訓練一次,即可生成3D新場景!谷歌「光場神經(jīng)渲染」進化史

人工智能 新聞
NeRF的泛化性難題再被Google攻克!

視圖合成(view synthesis)是計算機視覺和計算機圖形學交叉領域的一個重點難題,指的是從一個場景的多張圖片中創(chuàng)建該場景的新視圖。

要準確地合成一個場景的新視圖,一個模型需要從一小部分參考圖片中捕捉多種類型的信息,比如詳細的三維結(jié)構(gòu)、材料和光照等。

自2020年研究人員提出神經(jīng)輻射場(NeRF)模型以來,這個問題也受到了越來越多的關注,大大推動了新視圖合成的性能。

圖片

其中一個超級大玩家就是Google,在NeRF領域也發(fā)表了諸多論文,本文將為大家介紹兩篇Google發(fā)表在CVPR 2022和ECCV 2022上的論文,講述光場神經(jīng)渲染模型的進化

第一篇論文提出一個基于Transformer的兩階段模型來學習組合參考像素顏色,首先獲得沿對極線(epipolar lines)的特征,然后獲得沿參考視圖的特征以產(chǎn)生目標射線的顏色,極大提升了視圖重現(xiàn)的準確率。

圖片

論文鏈接:?https://arxiv.org/pdf/2112.09687.pdf?

經(jīng)典光場渲染(Light Field Rendering)可以準確地再現(xiàn)與視圖有關的效應,如反射、折射和半透明,但需要對場景進行密集的視圖采樣?;趲缀沃亟ǖ姆椒ㄖ恍枰∈璧囊晥D,但不能準確地模擬non-Lambertian效應,即非理想散射。

圖片

文中提出的新模型結(jié)合了這兩個方向的優(yōu)勢并緩解了其局限性,通過對光場的四維表示進行操作,模型可以學會準確地表示與視圖有關的效應。通過在訓練和推理過程中強制執(zhí)行幾何約束,場景幾何被隱含地從一組稀疏的視圖中學習。

圖片

該模型在多個正向和360°數(shù)據(jù)集上的表現(xiàn)優(yōu)于最先進的模型,并且在具有嚴重的視線依賴性變化的場景上有較大的余地。

另一篇論文通過使用具有規(guī)范化(canonicalized)位置編碼的Transformer序列來解決合成未見過的場景的泛化性問題。模型在一組場景上訓練后就可以用來合成新場景的視圖。

圖片

論文鏈接:?https://arxiv.org/pdf/2207.10662.pdf?

文中提出了一個不同的范式,不需要深度特征和類似NeRF的體積渲染,該方法只需從場景中取樣patch集合就能直接預測新場景中目標射線的顏色。

首先利用對極幾何學,沿著每個參考視圖的對極線提取patch,并將每個patch都線性地投射到一個一維特征向量中,然后由一系列的Transformer處理這個集合。

對于位置編碼,研究人員采用和光場表示方法類似的方式對射線進行參數(shù)化,區(qū)別在于坐標是相對于目標射線的規(guī)范化,也使得該方法獨立于參考框架并提高了通用性。

圖片

模型的創(chuàng)新點在于,它是進行基于圖像的渲染,結(jié)合參考圖像的顏色和特征來渲染新的視圖,而且純粹是基于Transformer的,在圖像patch集上操作。并且它們利用4D光場表示來進行位置編碼,有助于模擬與視圖相關的效果。

最后實驗結(jié)果表明,該方法在未見過的場景的新視圖合成方面優(yōu)于其他方法,即使在用比少得多的數(shù)據(jù)進行訓練時也是如此。

光場神經(jīng)渲染

模型的輸入包括一組參考圖像、相應的相機參數(shù)(焦距、位置和空間方向),以及用戶想要確定其顏色的目標射線的坐標。

為了生成一個新的圖像,我們需要從輸入圖像的相機參數(shù)開始,先獲得目標射線的坐標(每一個都對應一個像素),并為每一個坐標進行模型查詢。

研究人員的解決方法是,不完全處理每張參考圖像,而只看可能影響目標像素的區(qū)域。這些區(qū)域可以通過對極幾何學確定,將每個目標像素映射到每個參考框架上的一條線。

為了穩(wěn)妥起見,需要在對極線上的一些點周圍選取小區(qū)域,從而形成將被模型實際處理的patch集合,然后將Transformer作用于這組patch上以獲得目標像素的顏色。

圖片

Transformer在這種情況下特別有用,因為其中的自注意力機制可以自然地將patch集合作為輸入,注意力權重本身就可以用來結(jié)合參考視圖顏色和特征來預測輸出像素的顏色。

在光場神經(jīng)渲染(LFNR)中,研究人員使用兩個Transformer序列將patch集合映射到目標像素顏色。

第一個Transformer沿著每條對極線聚合信息,第二個Transformer沿著每張參考圖像聚合信息。

這種方法可以把第一個Transformer解釋為在每個參考幀上尋找目標像素的潛在對應關系,而第二個Transformer則是對遮擋和視線依賴效應的推理,這也是基于圖像的渲染的常見難題。

圖片

LFNR在最流行的視圖合成基準(NeRF的Blender和Real Forward-Facing場景以及NeX的Shiny)上相比sota模型在峰值信噪比(PSNR)的提升幅度高達5dB,相當于將像素級的誤差減少了1.8倍。

LFNR可以重現(xiàn)一些NeX/Shiny數(shù)據(jù)集中比較難的視線依賴性效果,比如CD上的彩虹和反射,瓶子上的反射、折射和半透明。

圖片

與之前的方法如NeX和NeRF相比,它們就沒辦法重現(xiàn)與視線相關的效果,如NeX/Shiny數(shù)據(jù)集中的實驗室場景中的試管的半透明性和折射率。

圖片

一次訓練,泛化新場景

但LFNR也有局限性。

第一個Transformer對每個參考圖像獨立地沿每條對極線折疊信息,這也意味著模型只能根據(jù)每個參考圖像的輸出射線坐標和patch來決定要保留哪些信息,這在單一場景的訓練中效果很好(和大多數(shù)神經(jīng)渲染方法一樣),但它無法泛化到不同場景中。

可通用的模型很重要,因為可以直接應用于新的場景而不需要重新訓練。

研究人員提出可通用的基于patch的神經(jīng)渲染(GPNR)模型解決了LFNR的這個缺陷。

圖片

通過在模型中增加一個Transfomre,使其在其他兩個Transformer之前運行,并在所有參考圖像的相同深度的點之間交換信息。

圖片

GPNR由三個Transformer序列組成,這些Transformer將沿對極線提取的一組patch映射為像素顏色。圖像patch通過線性投影層被映射到初始特征,然后這些特征被模型連續(xù)細化和聚合,最終形成特征和顏色。

舉個例子,第一個Transformer從「公園長椅」上提取出patch序列后,新模型可以使用在兩個視圖中出現(xiàn)在相應深度的「花」這樣的線索,表明存在潛在的匹配。

圖片

這項工作的另一個關鍵idea就是根據(jù)目標射線將位置編碼規(guī)范化,因為想要在不同的場景中進行泛化,就必須以相對而非絕對的參照系來表示quantities

為了評估模型的泛化性能,研究人員在一組場景上訓練GPNR,并在新場景上進行測試。

GPNR在幾個基準(遵照IBRNet和MVSNeRF協(xié)議)上平均提高了0.5-1.0 dB,尤其是在IBRNet基準上,GPNR 在只使用11%的訓練場景的情況下,就超過了基線模型。

圖片

GPNR在NeX/Shiny和LLFF的保持場景上生成的視圖細節(jié),沒有進行任何微調(diào)。與IBRNet相比,GPNR可以更準確地再現(xiàn)葉片上的細節(jié)和通過鏡頭的折射。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-10 15:17:11

2024-07-16 12:02:11

2014-09-01 16:29:34

2011-12-21 16:44:00

信息圖手機進化史

2021-12-27 15:25:24

神經(jīng)網(wǎng)絡AI算法

2023-05-16 14:17:00

數(shù)字人

2023-04-13 13:25:40

ChatGPTGPT神經(jīng)網(wǎng)絡

2010-07-27 14:04:52

2011-11-03 15:25:07

Android

2011-09-01 09:34:21

架構(gòu)

2011-11-29 09:54:20

Google進化史

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2018-08-22 17:58:01

數(shù)據(jù)平臺數(shù)據(jù)倉庫架構(gòu)

2010-01-21 16:08:26

C++語言

2010-10-09 14:46:20

2024-09-21 10:43:15

數(shù)據(jù)技術信息

2018-03-23 12:20:25

數(shù)據(jù)中心網(wǎng)絡數(shù)據(jù)

2010-04-07 14:54:20

Unix操作系統(tǒng)

2023-07-14 09:41:01

3DAI

2021-04-08 09:14:24

js前端函數(shù)
點贊
收藏

51CTO技術棧公眾號