自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新視角圖像生成:討論基于NeRF的泛化方法

人工智能 新聞
?最近一段時間,神經(jīng)輻射場(NeRF)已經(jīng)成為表示場景和合成照片逼真圖像的有效范例,其最直接的應(yīng)用就是NVS。

新視角圖像生成(NVS)是計算機(jī)視覺的一個應(yīng)用領(lǐng)域,在1998年SuperBowl的比賽,CMU的RI曾展示過給定多攝像頭立體視覺(MVS)的NVS,當(dāng)時這個技術(shù)曾轉(zhuǎn)讓給美國一家體育電視臺,但最終沒有商業(yè)化;英國BBC廣播公司為此做過研發(fā)投入,但是沒有真正產(chǎn)品化。

在基于圖像渲染(IBR)領(lǐng)域,NVS應(yīng)用有一個分支,即基于深度圖像的渲染(DBIR)。另外,在2010年曾很火的3D TV,也是需要從單目視頻中得到雙目立體,但是由于技術(shù)的不成熟,最終沒有流行起來。當(dāng)時基于機(jī)器學(xué)習(xí)的方法已經(jīng)開始研究,比如Youtube曾經(jīng)用圖像搜索的方法來合成深度圖。

幾年前我曾介紹過深度學(xué)習(xí)在NVS的應(yīng)用:基于深度學(xué)習(xí)的新視角圖像生成方法

?最近一段時間,神經(jīng)輻射場(NeRF)已經(jīng)成為表示場景和合成照片逼真圖像的有效范例,其最直接的應(yīng)用就是NVS。傳統(tǒng)NeRF的一個主要限制是,通常無法在訓(xùn)練視點(diǎn)顯著不同的新視點(diǎn)生成高質(zhì)量的渲染。下面以此展開討論NeRF的泛化方法,這里忽略基礎(chǔ)的NeRF原理介紹。有興趣的請參考綜述論文:

  • 神經(jīng)渲染的進(jìn)展綜述
  • 神經(jīng)體繪制:NeRF及其以外方法

    ?

    論文【2】提出了一種通用的深度神經(jīng)網(wǎng)絡(luò)MVSNeRF,實(shí)現(xiàn)跨場景泛化,推斷從僅三個附近的輸入視圖重建輻射場。該方法利用平面掃描成本體(廣泛用于多視圖立體視覺)進(jìn)行幾何感知場景推理,并與基于物理的體渲染相結(jié)合,用于神經(jīng)輻射場重建。

該方法利用深度MVS的成功,在成本體上應(yīng)用3D卷積來訓(xùn)練用于3D重建任務(wù)的可泛化神經(jīng)網(wǎng)絡(luò)。與MVS方法不同的是,MVS方法僅對這樣的成本體進(jìn)行深度推斷,而該網(wǎng)絡(luò)對場景幾何和外觀進(jìn)行推理,并輸出神經(jīng)輻射場,從而實(shí)現(xiàn)視圖合成。具體而言,利用3D CNN,重建(從成本體)神經(jīng)場景編碼體,由編碼局部場景幾何和外觀信息的體素神經(jīng)特征組成。然后,多層感知器(MLP)在編碼體內(nèi)用三線性插值的神經(jīng)特征對任意連續(xù)位置處的體密度和輻射度進(jìn)行解碼。本質(zhì)上,編碼體是輻射場的局部神經(jīng)表征;其一旦估計,可直接用于(丟棄3D CNN)可微分光線行進(jìn)(ray-marching)進(jìn)行最終渲染。

與現(xiàn)有的MVS方法相比,MVSNeRF啟用可微分神經(jīng)渲染,在無3D監(jiān)督的情況下進(jìn)行訓(xùn)練,并優(yōu)化推斷時間,以進(jìn)一步提高質(zhì)量。與現(xiàn)有的神經(jīng)渲染方法相比,類似MVS的體系結(jié)構(gòu)自然能夠進(jìn)行跨視圖的對應(yīng)推理,有助于對未見測試場景進(jìn)行泛化,引向更好的神經(jīng)場景重建和渲染。

如圖1是MVSNeRF的概覽:(a)基于攝像頭參數(shù),首先將2D圖像特征warp(單應(yīng)變換)到一個平面掃描(plane sweep)上,構(gòu)建成本體;這種基于方差的成本體編碼了不同輸入視圖之間的圖像外觀變化,解釋了由場景幾何和視圖相關(guān)明暗效果引起的外觀變化;(b)然后,用3D CNN重建逐體素神經(jīng)特征的一個神經(jīng)編碼體;3D CNN 是一個3D UNet,可以有效地推斷和傳播場景外觀信息,從而產(chǎn)生有意義的場景編碼體;注:該編碼體是無監(jiān)督預(yù)測的,并在端到端訓(xùn)練中用體渲染進(jìn)行推斷;另外,還將原圖像像素合并到下一個體回歸階段,這樣可恢復(fù)下采樣丟失的高頻;(c)用MLP,通過編碼體插值的特征,在任意位置回歸體密度和RGB輻射度,這些體屬性由可微分光線行進(jìn)做最終的渲染。

論文【3】提出立體視覺輻射場(SRF),一種端到端訓(xùn)練的神經(jīng)視圖合成方法,可泛化到新場景,并且在測試時只需要稀疏視圖。其核心思想是一種受經(jīng)典多視圖立體視覺(MVS)方法啟發(fā)的神經(jīng)架構(gòu),在立體圖像中找到相似的圖像區(qū)域來估計表面點(diǎn)。輸入編碼器網(wǎng)絡(luò)10個視圖,提取多尺度特征。多層感知器(MLP)替換經(jīng)典的圖像塊或特征匹配,輸出相似性分?jǐn)?shù)的集成。在SRF中,每個3D點(diǎn)給定輸入圖像中立體視覺對應(yīng)的一個編碼,預(yù)先預(yù)測其顏色和密度。通過成對相似性的集成,該編碼被隱式地學(xué)習(xí)——模擬經(jīng)典立體視覺。

已知攝像頭參數(shù),給定一組N個參考圖像, SRF預(yù)測3D點(diǎn)的顏色和密度。構(gòu)造SRF模型f,類似于經(jīng)典的多視圖立體視覺方法:(1)為了編碼點(diǎn)的位置,將其投影到每個參考視圖中,并構(gòu)建局部特征描述符;(2) 如果在一個表面上并且照片一致,,特征描述符應(yīng)該互相匹配;用一個學(xué)習(xí)的函數(shù)模擬特征匹配,對所有參考視圖的特征進(jìn)行編碼;(3) 該編碼由一個學(xué)習(xí)的解碼器進(jìn)行解碼,成為NeRF表征。如圖2給出SRF的概覽:(a)提取圖像特征;(b)通過一個學(xué)習(xí)的相似度函數(shù)模擬尋找照片一致性的過程,得到一個立體特征矩陣(SFM);(c)聚集信息,獲取多視圖特征矩陣(MFM);(d)最大池化獲取對應(yīng)和顏色的緊湊編碼,解碼后得到顏色和體密度。

論文【4】提出DietNeRF,一個從幾個圖像估計的3D神經(jīng)場景表征。其引入一種輔助語義一致性損失,鼓勵新姿態(tài)進(jìn)行真實(shí)的渲染。

當(dāng)NeRF只有少數(shù)視圖可用時,渲染問題是未約束的;除非嚴(yán)格正則化,否則NeRF通常會出現(xiàn)退化解。如圖3所示:(A) 從均勻采樣的姿態(tài)中對一個目標(biāo)進(jìn)行了100次觀察時,NeRF估計一個詳細(xì)而準(zhǔn)確的表征,允許純粹從多視圖一致性進(jìn)行高質(zhì)量視圖合成;(B) 在只有8個視圖的情況下,將目標(biāo)放置在訓(xùn)練攝像頭的近場中,相同的NeRF過擬合,導(dǎo)致在訓(xùn)練攝像頭附近的姿態(tài)出現(xiàn)目標(biāo)錯位,并退化;(C) 當(dāng)正則化、簡化、調(diào)整和手工重新初始化時,NeRF可以收斂,但不再捕獲精細(xì)細(xì)節(jié);(D) 如果沒有關(guān)于類似目標(biāo)的先驗(yàn)知識,單場景視圖合成無法合理地完成未觀察區(qū)域。

如圖4是DietNeRF工作示意圖:基于“從任何角度看,一個物體都是那個物體”的原則,DietNeRF監(jiān)控任意姿態(tài)的輻射場(DietNeRF攝像頭);計算語義一致性損失,是在捕獲高級場景屬性的特征空間中,而不是在像素空間中;所以用CLIP這個視覺Transformer提取渲染的語義表征,然后最大化與真值視圖表征的相似性。

實(shí)際上,單視圖2D圖像編碼器學(xué)習(xí)的場景語義先驗(yàn)知識,就可以約束一個3D表征。DietNeRF在自然語言監(jiān)督下,從網(wǎng)絡(luò)挖掘的數(shù)億單視圖2D照片集進(jìn)行訓(xùn)練:(1)給定來自相同姿態(tài)的給定輸入視圖,可正確地渲染,(2)不同隨機(jī)姿態(tài)下匹配高級語義屬性。語義損失函數(shù)能夠從任意姿態(tài)監(jiān)督DietNeRF模型。

論文【5】提出DS-NeRF,采用一種學(xué)習(xí)輻射場的損失,利用現(xiàn)成的深度圖監(jiān)督,如圖5所示。有這樣一個事實(shí),即當(dāng)前的NeRF流水線需要具有已知攝像頭姿態(tài)的圖像,這些姿態(tài)通常通過運(yùn)動恢復(fù)結(jié)構(gòu)(SFM)來估計。至關(guān)重要的是,SFM還產(chǎn)生了稀疏的3D點(diǎn),在訓(xùn)練期間用作“自由”深度監(jiān)督:增加一個損失,鼓勵一個光線的終止深度分布與一個給定的3D關(guān)鍵點(diǎn)相匹配,包括深度不確定性。


論文【6】提出pixelNeRF,一個基于一或多輸入圖像預(yù)測連續(xù)神經(jīng)場景表征的學(xué)習(xí)框架。其引入一種全卷積方式在圖像輸入上調(diào)節(jié)NeRF架構(gòu),使得網(wǎng)絡(luò)能夠跨多場景進(jìn)行訓(xùn)練來學(xué)習(xí)一個場景的先驗(yàn)知識,從而能夠從稀疏的一組視圖(最少就一個)以前饋方式進(jìn)行新視圖合成。利用NeRF的體渲染方法,pixelNeRF可以直接從圖像中訓(xùn)練,無需額外的3D監(jiān)督。

具體地講,pixelNeRF首先從輸入圖像計算全卷積圖像特征網(wǎng)格(feature grid),在輸入圖像上調(diào)節(jié)NeRF。然后,對于視圖坐標(biāo)系中感興趣的每個3D查詢空間點(diǎn)x和視圖方向d,通過投影和雙線性插值采樣相應(yīng)的圖像特征。查詢規(guī)范與圖像特征一起發(fā)送到輸出密度和顏色的NeRF網(wǎng)絡(luò),其中空間圖像特征作為一個殘差饋送到每個層。當(dāng)有多個圖像可用時,首先將輸入編碼為每個攝像頭坐標(biāo)系的潛表征,在預(yù)測顏色和密度之前將其合并在中間層中。該模型訓(xùn)練基于一個真值圖像和一個體渲染視圖之間的重建損失。

pixelNeRF框架如圖6所示:對于沿視圖方向d、一個目標(biāo)攝像頭光線的一個3D查詢點(diǎn)x,通過投影和插值從特征體W提取對應(yīng)的圖像特征;然后將該特征與空間坐標(biāo)一起傳遞到NeRF網(wǎng)絡(luò)f中;輸出RGB和密度值被用于體渲染,并與目標(biāo)像素值進(jìn)行比較;坐標(biāo)x和d在輸入視圖的攝像頭坐標(biāo)系中。

可以看出,PixelNeRF和SRF用從輸入圖像提取的局部CNN特征,而MVSNeRF通過image warping獲得3D成本體,然后由3D CNN處理。這些方法需要許多不同場景的多視圖圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,獲取成本可能很高。此外,盡管預(yù)訓(xùn)練階段很長,但大多數(shù)方法都需要在測試時微調(diào)網(wǎng)絡(luò)權(quán)重,并且當(dāng)測試域發(fā)生變化時,新視圖的質(zhì)量很容易下降。

當(dāng)然,DS-NeRF增加額外的深度監(jiān)督來提高重建精度。Diet-NeRF比較了CLIP在低分辨率下渲染的未見視點(diǎn)嵌入。這種語義一致性損失只能提供高級信息,不能改善稀疏輸入的場景幾何。

論文【7】提出的IBRNet,其核心包括MLP和光線transformer(經(jīng)典Transformer架構(gòu):位置編碼和自注意),用于估計連續(xù)5D位置(3D空間位置和2D觀看方向)的輻射度和體密度,并從多個源視圖實(shí)時渲染外觀信息。

在渲染時,該方法可以追溯到經(jīng)典的基于圖像渲染IBR)工作。不同于神經(jīng)場景表征,其為渲染優(yōu)化每個場景函數(shù),IBRNet學(xué)習(xí)一種通用的視圖插值函數(shù),可泛化到新場景。還是經(jīng)典的體渲染來合成圖像,其完全可微分,并且用多視圖姿態(tài)圖像作為監(jiān)督來訓(xùn)練。

光線transformer沿整個光線考慮這些密度特征來計算每個樣本的標(biāo)量密度值,實(shí)現(xiàn)更大空間尺度上的可見性推理(visibility reasoning)。單獨(dú)地,一個顏色調(diào)和(color blending)模塊用2D特征和源視圖的視線向量導(dǎo)出每個樣本的視圖相關(guān)顏色。最后,體渲染為每條光線計算最終顏色值。

如圖7是IBRNet概覽:1) 為渲染目標(biāo)視圖(標(biāo)記“?”圖像),首先識別一組相鄰的源視圖(例如,標(biāo)記為A和B的視圖)并提取圖像特征;2) 然后,對目標(biāo)視圖中的每條光線,用IBRNet(黃色陰影區(qū)域)計算沿光線的一組樣本顏色和密度;具體而言,對每個樣本從相鄰源視圖中聚合相應(yīng)的信息(圖像顏色、特征和觀看方向),生成其顏色c和密度特征;然后,將ray transformer應(yīng)用于光線上所有樣本的密度特征,預(yù)測密度值。3) 最后,用體渲染沿光線累積顏色和密度。在重建圖像顏色上,可進(jìn)行端到端的L2損失訓(xùn)練。

如圖8是IBRNet用于連續(xù)5D位置的顏色+體密度預(yù)測工作:首先將所有源視圖中提取的2D圖像特征輸入到類似PointNet的MLP中,聚合局部和全局信息,產(chǎn)生多視圖感知特征和池化權(quán)重,用權(quán)重來集中特征,進(jìn)行多視圖可見性推理,獲得密度特征;這里沒有直接從預(yù)測單個5D樣本的密度σ,而是用ray transformer模塊聚集沿光線的所有樣本信息;ray transformer模塊為光線上的所有樣本獲取密度特征,并預(yù)測其密度;ray transformer模塊能夠在更長的范圍進(jìn)行幾何推理,并改進(jìn)密度預(yù)測;對于顏色預(yù)測,將多視圖感知特征,與查詢光線相對于源視圖的觀看方向,連接輸入一個小網(wǎng)絡(luò)預(yù)測一組調(diào)和權(quán)重,輸出顏色c是源視圖的圖像顏色加權(quán)平均。

這里補(bǔ)充一點(diǎn):與采用絕對觀看方向的NeRF不同,IBRNet考慮相對于源視圖的觀看方向,即d和 ?di 之間的差異, ?Δd=d?di 。 ?Δd 較小,通常意味著目標(biāo)視圖的顏色與源視圖i相應(yīng)顏色相似的可能性較大,反之亦然。

論文【8】提出的通用輻射場(GRF),僅從2D觀察中表征和渲染3D目標(biāo)和場景。該網(wǎng)絡(luò)將3D幾何建模為一個通用輻射場,以一組2D圖像、攝像機(jī)外參姿態(tài)和內(nèi)參為輸入,為3D空間每個點(diǎn)構(gòu)建內(nèi)部表征,然后渲染從任意位置觀察的相應(yīng)外觀和幾何。其關(guān)鍵是學(xué)習(xí)2D圖像每個像素的局部特征,然后將這些特征投影到3D點(diǎn),從而生成通用和豐富的點(diǎn)表征。此外,集成一個注意機(jī)制來聚合多個2D視圖的像素特征,從而隱式地考慮視覺遮擋問題。

如圖9是GRF的示意圖:GRF將每個3D點(diǎn)p投影到M個輸入圖像的每一個,從每個視圖收集每個像素的特征,聚集并饋送到MLP,推斷出p的顏色和體密度。

GRF由四部分組成:1)每個2D像素的特征提取器,一個基于CNN的編碼器-解碼器;2) 2D特征轉(zhuǎn)換為3D空間的重投影;3) 獲取3D點(diǎn)通用特征的基于注意聚合器;4)神經(jīng)渲染器NeRF。

由于沒有與RGB圖像配對的深度值,因此無法確定像素特征屬于哪個特定的3D表面點(diǎn)。在重投影模塊中,將像素特征視為3D空間中光線沿線每個位置的表征。形式上,給定一個3D點(diǎn)、一個觀察2D視圖以及攝像機(jī)姿態(tài)和內(nèi)參,相應(yīng)的2D像素特征可以通過重投影操作進(jìn)行檢索。

在特征聚合器中,注意機(jī)制學(xué)習(xí)所有輸入特征的唯一權(quán)重,然后聚合在一起。通過一個MLP,3D點(diǎn)的顏色和體密度可以被推斷。

論文【9】提出RegNeRF,對未觀測視點(diǎn)渲染的圖像塊幾何和外觀進(jìn)行正則化,并在訓(xùn)練期間對光線采樣空間進(jìn)行退火。此外,用歸一化流模型正則化未觀測視點(diǎn)的顏色。

如圖10是RegNeRF模型的概覽:給定一組輸入圖像集合(藍(lán)色攝像頭),NeRF優(yōu)化重建損失;然而,對于稀疏輸入,這會導(dǎo)致退化解;這項(xiàng)工作對未觀察的視圖(紅色攝像頭)進(jìn)行采樣,并正則化從這些視圖渲染的圖像塊幾何和外觀;更具體地說,對于給定的輻射場,通過場景投射光線,并從未觀察的視點(diǎn)渲染圖像塊;然后,通過訓(xùn)練的歸一化流模型,將預(yù)測的RGB圖像塊饋送,并最大化預(yù)測的對數(shù)似然,從而正則化外觀;對渲染的深度圖塊強(qiáng)制一個平滑度損失,可正則化幾何;該方法導(dǎo)致3D一致性表征,甚至對渲染真實(shí)新視圖的稀疏輸入來說,也是如此。

論文【10】研究了一種新視圖外推而不是少樣本圖像合成的方法,即(1)訓(xùn)練圖像可以很好地描述目標(biāo),(2)訓(xùn)練視點(diǎn)和測試視點(diǎn)的分布之間存在顯著差異,其稱為RapNeRF(RAy Priors NeRF)。

論文【10】的見解是,3D曲面任意可見投影的固有外觀應(yīng)該是一致的。因此,其提出一種隨機(jī)光線投射(random ray casting)策略,允許用已見的視圖訓(xùn)練未見的視圖。此外,根據(jù)沿著觀測光線的視線方向預(yù)先計算的光線圖集,可以進(jìn)一步提高外推視圖的渲染質(zhì)量。一個主要的限制是RapNeRF利用多視圖一致性去消除視圖強(qiáng)相關(guān)效應(yīng)。

隨機(jī)光線投射(random ray casting)策略直觀解釋如圖11所示:左圖中,有兩個觀察3-D點(diǎn)v的光線,r1位于訓(xùn)練空間,r2遠(yuǎn)離訓(xùn)練光線;考慮到NeRF的分布漂移和映射函數(shù) ?Fc:(r,f)→c ,其沿r2的一些樣本輻射將是不精確的;與像素顏色相比,沿r2的輻射累積操作更有可能提供v的反顏色估計;中圖是一個簡單的虛擬視圖重投影,其遵循NeRF公式計算所涉及的像素光線,從訓(xùn)練光線池中找到擊中同一3D點(diǎn)的虛擬光線所對應(yīng)的光線,實(shí)踐中很不方便;右圖中,對于特定的訓(xùn)練光線(從o投射并穿過v),隨機(jī)光線投射(RRC)策略在一個圓錐內(nèi)隨機(jī)生成一條未見過的虛擬光線(從o′投射并穿過v),然后基于訓(xùn)練光線在線指定一個偽標(biāo)簽;RRC支持用見過的光線訓(xùn)練未見過的光線。

RRC策略允許以在線方式為隨機(jī)生成的虛擬光線分配偽標(biāo)簽。具體地說,對于一個訓(xùn)練圖像I中的一個感興趣像素,給出其世界坐標(biāo)系中的觀察方向d、相機(jī)原點(diǎn)o和深度值 ?tz ,并且光線 ?r=o+td 。這里,使用預(yù)訓(xùn)練的NeRF對?tz預(yù)計算和存儲。

設(shè) ?v=o+tzd 表示r命中的最近3D曲面點(diǎn)。在訓(xùn)練階段,將v視為新原點(diǎn),并在圓錐內(nèi)從v隨機(jī)投射一條光線,其中心線為矢量 ?voˉ=?tzd 。這可以輕松實(shí)現(xiàn),只要將 ?voˉ 轉(zhuǎn)換到球形空間并引入一些隨機(jī)干擾?φ和?θ到φ和θ。這里,φ和θ分別是?voˉ的方位角和仰角。?φ和?θ從預(yù)定義間隔 [?η, η] 均勻采樣。由此得到 ?θ′=θ+Δθ 和?φ′=φ+Δφ。因此,可以從一個隨機(jī)原點(diǎn)o'投射一個也通過v的虛擬光線。這樣,可以將顏色強(qiáng)度 ?I(r) 真值視為 ?I~(r′) 的偽標(biāo)記。

基礎(chǔ)NeRF利用“方向嵌入”來編碼場景的照明效果。場景擬合過程使得訓(xùn)練的顏色預(yù)測MLP嚴(yán)重依賴于視線方向。對于新視圖內(nèi)插,這不是問題。然而,由于訓(xùn)練和測試光線分布之間存在一些差異,這可能不適合于新視圖外推。一個天真的想法是直接移除方向嵌入(表示為“NeRF w/o dir”)。然而,這通常會產(chǎn)生偽影圖像,如意外的波紋和非平滑的顏色。這意味著光線的觀察方向也可能與表面平滑度有關(guān)。

論文【10】計算了一個光線圖集(ray atlas),并表明它可以進(jìn)一步提高外插視圖的渲染質(zhì)量,同時不涉及內(nèi)插視圖的問題。光線圖集類似于一個紋理圖集,但它存儲每個3D頂點(diǎn)的全局光線方向。

特別是,對于每個圖像(例如,圖像I),對所有空間位置抓取其光線的觀察方向,從而生成一個光線圖。從預(yù)訓(xùn)練的NeRF中提取一個粗糙的3D網(wǎng)格(R3DM),并將光線方向映射到3D頂點(diǎn)。以頂點(diǎn)V=(x,y,z)為例,其全局光線方向 ?dˉV 應(yīng)表示為

其中K是攝像頭內(nèi)參, ?Γw2c(Ii) 是圖像 ?Ii 的攝像頭-世界坐標(biāo)系轉(zhuǎn)換矩陣, ?Vuv(Ii) 是頂點(diǎn)V在圖像?Ii的2-D投影位置,L是在頂點(diǎn)V重建中訓(xùn)練圖像數(shù)。對于一個任意攝像頭姿態(tài)的每個像素,投影具有光線圖紋理的3D網(wǎng)格(R3DM)到2D可獲得一個全局光線先驗(yàn) ?dˉ 。

如圖12就是光線圖集的示意圖:即從訓(xùn)練光線中捕獲一個光線圖集并用之對椅子的粗糙3D網(wǎng)格(R3DM)附加紋理;?R(Ii)是訓(xùn)練圖像?Ii的光線圖。

在訓(xùn)練RapNeRF時,用感興趣像素I(r)的?dˉ 來替換其在?Fc中的d,進(jìn)行顏色預(yù)測。這種替代機(jī)制發(fā)生的概率為0.5。在測試階段,樣本x的輻射度c近似為:

其中映射函數(shù)?Fσ(x):x→(σ,f)。

原始NeRF獨(dú)立地優(yōu)化每個場景表征,不需要探索場景之間的共享信息,而且耗時。為了解決這一問題,研究人員提出了PixelNeRF和MVSNeRF 等模型,這些模型接收多個觀察者視圖作為條件輸入,學(xué)習(xí)通用的神經(jīng)輻射場。遵循分而治之(divide-and-conquer)的設(shè)計原則,其包括兩個獨(dú)立的組件:用于單個圖像的CNN特征提取器和作為NeRF網(wǎng)絡(luò)的MLP。對于單視圖立體視覺,在這些模型中,CNN將圖像映射到特征網(wǎng)格,MLP將查詢5D坐標(biāo)及其對應(yīng)的CNN特征映射到單個體密度和依賴于視圖的RGB顏色。對于多視圖立體視覺,由于CNN和MLP無法處理任意數(shù)量的輸入視圖,因此首先獨(dú)立處理每個視圖坐標(biāo)系中的坐標(biāo)和相應(yīng)特征,并獲得每個視圖的圖像條件中間表征。接下來,用基于輔助池化的模型聚合這些NeRF網(wǎng)絡(luò)內(nèi)的視圖中間表征。在3D理解任務(wù)中,多視圖提供場景的附加信息。

論文【11】提出一個編碼器-解碼器Transformer框架TransNeRF,表征神經(jīng)輻射場場景。TransNeRF可以探索多視圖之間的深層關(guān)系,并通過單個基于Transformer的NeRF注意機(jī)制將多視圖信息聚合到基于坐標(biāo)的場景表征中。此外,TransNeRF考慮光線投射空間和周視空間的相應(yīng)信息來學(xué)習(xí)場景中形狀和外觀的局部幾何一致性。

如圖13所示,TransNeRF在一個目標(biāo)視線(target viewing ray)渲染所查詢的3D點(diǎn),TransNeRF包括:1)在周視空間中,密度-視圖解碼器(Density-ViewDecoder)和顏色-視圖解碼器(Color-ViewDecoder)將源視圖和查詢空間信息((x,y,z),d)融合到3D查詢點(diǎn)的潛密度和顏色表征中;2) 在光線投射空間中,用密度光線解碼器(Density-RayDecoder)和顏色光線解碼器(Color-RayDecoder),考慮沿目標(biāo)視圖光線的相鄰點(diǎn)來增強(qiáng)查詢密度和顏色表征。最后,從TransNeRF獲得在目標(biāo)視線上查詢3D點(diǎn)的體密度和方向顏色。


論文【12】提出一種稀疏輸入的可泛化NVS方法,稱為FWD,實(shí)時提供高質(zhì)量的圖像合成。通過顯式深度和可差分渲染,F(xiàn)WD實(shí)現(xiàn)130-1000倍的速度和更好的感知質(zhì)量。如果在訓(xùn)練或推理期間有傳感器深度的無縫集成,可提高圖像質(zhì)量同時保持實(shí)時速度。

其關(guān)鍵見解是,顯式表征每個輸入像素的深度允許用可微分點(diǎn)云渲染器對每個輸入視圖應(yīng)用forward warping。這避免了NeRF類方法昂貴的體采樣,實(shí)現(xiàn)了實(shí)時速度,同時保持了高圖像質(zhì)量。

SynSin【1】為單圖像新視圖合成(NVS)使用可微分點(diǎn)云渲染器。論文【12】將SynSin擴(kuò)展到多輸入,并探索了融合多視圖信息的有效方法。

FWD估計每個輸入視圖的深度,構(gòu)建潛特征的點(diǎn)云,然后通過點(diǎn)云渲染器合成新視圖。為了緩解來自不同視點(diǎn)觀測之間的不一致問題,將視點(diǎn)相關(guān)的特征MLP引入到點(diǎn)云中,對視點(diǎn)相關(guān)結(jié)果進(jìn)行建模。另外一種基于Transformer的融合模塊,有效地組合來自多輸入的特征。一個細(xì)化模塊,可以修復(fù)(inpaint)缺失區(qū)域并進(jìn)一步提高合成質(zhì)量。整個模型經(jīng)過端到端訓(xùn)練,最小化光度和感知損失、學(xué)習(xí)能優(yōu)化合成質(zhì)量的深度和特征。

如圖14為FWD的概覽:給定一組稀疏圖像,用特征網(wǎng)絡(luò)f(基于BigGAN架構(gòu))、視圖相關(guān)特征MLP ?ψ 和深度網(wǎng)絡(luò)d為每個圖像 ?Ii 構(gòu)建點(diǎn)云(包括視圖的幾何和語義信息)?Pi;除圖像外,d將MVS(基于PatchmatchNet)估計的深度或傳感器深度作為輸入,并回歸細(xì)化的深度;基于圖像特征?Fi和相對視圖變化 ?Δv (基于歸一化視角方向?vi和?vt,即從點(diǎn)到輸入視圖i和目標(biāo)視圖t的中心),通過f?ψ回歸逐像素特征?Fi′;采用可微分點(diǎn)云渲染器 ?π (splatting)將點(diǎn)云投影和渲染到目標(biāo)視圖,即 ?F~i ;渲染前不是直接聚合視圖點(diǎn)云,而是Transformer T融合來自任意數(shù)量輸入的渲染結(jié)果,并應(yīng)用細(xì)化模塊R解碼生成最終圖像結(jié)果,即以語義和幾何的方式修復(fù)輸入看不見的區(qū)域,糾正由不準(zhǔn)確深度引起的局部誤差,并基于特征圖所包含的語義提高感知質(zhì)量;模型訓(xùn)練使用光度損失和內(nèi)容損失。

現(xiàn)有用局部圖像特征重建3D目標(biāo)的方法,在查詢3D點(diǎn)上投影輸入圖像特征來預(yù)測顏色和密度,從而推斷3D形狀和外觀。這些圖像條件模型可以很好地渲染接近輸入視角的目標(biāo)視角圖。然而,當(dāng)目標(biāo)視角過多移動時,這種方法會導(dǎo)致輸入視圖的顯著遮擋,渲染質(zhì)量急劇下降,呈現(xiàn)模糊預(yù)測。

為了解決上面的問題,論文【13】提出一種方法,利用全局和局部特征形成一個壓縮的3D表征。全局特征從視覺Transformer中學(xué)習(xí),而局部特征從2D卷積網(wǎng)絡(luò)中提取。為了合成一個新視圖,訓(xùn)練了一個MLP網(wǎng)絡(luò),根據(jù)學(xué)習(xí)的3D表征實(shí)現(xiàn)體渲染。這種表征能夠重建未見過的區(qū)域,無需如對稱或規(guī)范坐標(biāo)系的強(qiáng)制約束。

給定攝像頭s處的單個圖像Is,任務(wù)是在攝像頭t處合成新視圖It。如果一個3D點(diǎn)x在源圖像中可見,可以直接用其顏色I(xiàn)s(π(x)),其中π代表在源視圖進(jìn)行投影,表示該點(diǎn)在一個新視圖可見。如果x被遮擋,就求助于在投影π(x)顏色以外的信息。如圖15所示,得到此類信息有三種可能的解決方案:(a)一般NeRF 基于1D潛代碼的方法,在1D向量中編碼3D目標(biāo)信息,由于不同3D點(diǎn)共享同一個代碼,歸納偏差被限制;(b) 基于2D圖像的方法,從逐像素圖像特征重建任何3D點(diǎn),這樣的表征鼓勵可見區(qū)域更好的渲染質(zhì)量,計算也更有效,但是對未見區(qū)域渲染變得模糊;(c) 基于3D體素的方法將3-D目標(biāo)視為體素的一個集合,并應(yīng)用3-D卷積生成顏色RGB和密度向量σ,這樣渲染較快,也充分利用3D先驗(yàn)去渲染未見的幾何,但是由于體素大小和有限的感受野原因限制了渲染分辨率。

如圖6是全局-局部混合渲染方法【13】的總覽圖:首先將輸入圖像劃分為N=8×8個圖像塊P;每個圖像塊扁平化并線性投影到圖像標(biāo)記(token)P1;transformer編碼器將圖像標(biāo)記和可學(xué)習(xí)位置嵌入e作為輸入,提取全局信息作為一組潛特征f;然后,用卷積解碼器將潛特征解碼為多級特征圖 ?WG ;除了全局特征,用另一個2D CNN 模型獲取局部圖像特征;最后,用NeRF MLP模型對體渲染的特征進(jìn)行采樣。

論文【14】提出Point-NeRF,結(jié)合NeRF和MVS這兩種方法的優(yōu)點(diǎn),用神經(jīng)3D點(diǎn)云以及相關(guān)的神經(jīng)特征對輻射場建模。在基于光線行進(jìn)的渲染流水線中聚集場景表面附近的神經(jīng)點(diǎn)特征,可以有效地渲染Point-NeRF。此外,一個預(yù)訓(xùn)練的深度網(wǎng)絡(luò)直接推斷可初始化Point-NeRF,生成一個神經(jīng)點(diǎn)云;該點(diǎn)云可進(jìn)行微調(diào),超過NeRF的視覺質(zhì)量,訓(xùn)練時間快30倍。Point-NeRF與其他3D重建方法相結(jié)合,并采用生長和修剪機(jī)制,即在高體密度區(qū)域生長和在低體密度修剪,對重建點(diǎn)云數(shù)據(jù)進(jìn)行優(yōu)化。

Point-NeRF概覽如圖17所示:(a) 從多視圖圖像中,Point-NeRF用基于成本體的3D CNN 為每個視圖生成深度,并通過2D CNN 從輸入圖像中提取2D特征;聚集深度圖后,獲得基于點(diǎn)的輻射場,其中每個點(diǎn)具有空間位置、置信度和未投影的圖像特征;(b) 為合成一個新視圖,進(jìn)行可微分光線行進(jìn),并只在神經(jīng)點(diǎn)云附近計算明暗;在每個明暗位置,Point-NeRF聚集來自其K個神經(jīng)點(diǎn)鄰居的特征,并計算輻射率和體密度,然后用體密度累積求和輻射度。整個過程端到端可訓(xùn)練,基于點(diǎn)的輻射場可以通過渲染損失進(jìn)行優(yōu)化。

GRAF(Generative Radiance Field)【18】是一種輻射場的生成模型,通過引入基于多尺度patch的鑒別器,實(shí)現(xiàn)高分辨率3D-覺察圖像的合成,同時模型的訓(xùn)練僅需要未知姿態(tài)攝像頭拍攝的2D圖像。

目標(biāo)是學(xué)習(xí)一個模型,通過對未經(jīng)處理的圖像進(jìn)行訓(xùn)練來合成新的場景。更具體地說,利用一個對抗性框架來訓(xùn)練一個輻射場的生成模型(GRAF)。

圖18顯示了GRAF模型的概述:生成器采用攝像機(jī)矩陣K、攝像機(jī)姿態(tài)ξ、2D采樣模式ν和形狀/外觀代碼作為輸入并預(yù)測一個圖像patch P′;鑒別器將合成的patch P′與從真實(shí)圖像I中提取的patch P進(jìn)行比較;在推理時,為每個圖像像素預(yù)測一個顏色值;然而在訓(xùn)練時間這個操作太貴,因此預(yù)測一個大小為K×K像素的固定patch,其隨機(jī)縮放和旋轉(zhuǎn),為整個輻射場提供梯度。

決定要生成虛擬K×K patch 的中心和尺度s。隨機(jī)patch中心來自一個圖像域Ω的均勻分布,而patch尺度s來自一個均勻分布,其中,其中W和H表示目標(biāo)圖像的寬度和高度。形狀和外觀變量的采樣分別來自形狀和外觀分布和。在實(shí)驗(yàn)中,和都使用標(biāo)準(zhǔn)高斯分布。

輻射場由深度全連接的神經(jīng)網(wǎng)絡(luò)表示,其中參數(shù)θ映射3D位置x的位置編碼和觀察方向d到RGB顏色值c和體密度σ:

這里 ?gθ 取決于兩個附加潛代碼:一個是形狀代碼?zs決定目標(biāo)形狀,一個表觀代碼?za決定外觀。這里稱?gθ為條件輻射場,其結(jié)構(gòu)如圖19所示:首先根據(jù)x的位置編碼和形狀代碼計算形狀編碼h;密度頭?σθ將此編碼轉(zhuǎn)換為體密度σ;為預(yù)測3D位置x處的顏色c,將hd的位置編碼以及表觀代碼?za連接起來,并將結(jié)果向量傳遞給顏色頭?cθ;獨(dú)立于視點(diǎn)d和外觀代碼計算σ,鼓勵多視圖一致性,同時形狀與外觀進(jìn)行分離;這個鼓勵網(wǎng)絡(luò)用兩個潛代碼分別對形狀和外觀建模,并允許在推理過程中做分別處理。

鑒別器實(shí)現(xiàn)為一個卷積神經(jīng)網(wǎng)絡(luò),將預(yù)測的patch P′與從數(shù)據(jù)分布 ?pD 真實(shí)圖像I中提取的patch P進(jìn)行比較。為了從真實(shí)圖像I提取K×K patch,首先從用于提取上述生成器patch的同一分布?pv中提取v=(u,s);然后,通過雙線性插值在2D圖像坐標(biāo)P(u,s)處查詢I,采樣真實(shí)patch P。用 ?Γ(I,v) 表示這種雙線性采樣操作。

實(shí)驗(yàn)發(fā)現(xiàn)一個有共享權(quán)重的單鑒別器足以用于所有patch,即使這些patch在不同尺度隨機(jī)位置采樣。注: 尺度決定patch的感受野。因此,為了促進(jìn)訓(xùn)練,從更大的接受野patch開始去捕捉全局上下文。然后,逐步采樣具有較小感受野的patch細(xì)化局部細(xì)節(jié)。

GIRAFFE【19】用于在原始非結(jié)構(gòu)化圖像進(jìn)行訓(xùn)練時以可控和真實(shí)感的方式生成場景。主要貢獻(xiàn)有兩個方面:1) 將組合3D場景表征直接納入生成模型,實(shí)現(xiàn)更可控的圖像合成。2) 將這種明確的3D表征與一個神經(jīng)渲染流水線相結(jié)合,實(shí)現(xiàn)更快的推理和更逼真的圖像。為此,場景表征為組合生成神經(jīng)特征場,如圖20所示:對于一個隨機(jī)采樣的攝像頭,基于單獨(dú)特征場對場景的一個特征圖像進(jìn)行體渲染;2D神經(jīng)渲染網(wǎng)絡(luò)將特征圖像轉(zhuǎn)換為RGB圖像;訓(xùn)練時只采用原始圖像,在測試時能夠控制圖像形成過程,包括攝像頭姿勢、目標(biāo)姿勢以及目標(biāo)的形狀和外觀;此外,該模型擴(kuò)大到訓(xùn)練數(shù)據(jù)范圍之外,例如,可以合成包含比訓(xùn)練圖像中更多目標(biāo)的場景。

將場景體渲染為分辨率相對較低的特征圖像,可節(jié)省時間和計算。神經(jīng)渲染器處理這些特征圖像并輸出最終渲染。通過這種方式,該方法可以獲得高質(zhì)量的圖像并尺度化到真實(shí)場景。當(dāng)在原始非結(jié)構(gòu)化圖像集合上進(jìn)行訓(xùn)練時,這個方法允許單目標(biāo)和多目標(biāo)場景的可控圖像合成。

場景組合時,要考慮兩種情況:N固定和N變化(其中最后一個是背景)。在實(shí)踐中,像目標(biāo)那樣,背景用相同的表征法,不同的是橫跨整個場景把尺度和平移參數(shù)固定,并以場景空間原點(diǎn)為中心。

2D渲染算子的權(quán)重把特征圖像映射到最后合成圖像,可以參數(shù)化為一個帶泄漏ReLU激活的2D CNN,和3x 3卷積和最近鄰域上采樣結(jié)合可增加空域分辨率。最后一層應(yīng)用sigmoid操作,得到最后的圖像預(yù)測。其示意圖如圖21所示。

鑒別器也是一個帶泄漏ReLU激活的CNN。

責(zé)任編輯:張燕妮 來源: 知乎
相關(guān)推薦

2024-11-08 14:30:00

自動駕駛AI

2021-09-14 09:52:56

ToB小程序生態(tài)評估

2023-01-31 12:30:26

模型代碼

2015-09-10 13:28:51

暢享網(wǎng)

2023-06-05 12:49:27

神經(jīng)網(wǎng)絡(luò)AI

2022-03-02 13:44:10

3D模型數(shù)據(jù)

2009-03-12 08:52:12

瀏覽器競爭

2012-10-16 10:41:31

云計算應(yīng)用架構(gòu)

2022-12-18 19:49:45

AI

2024-09-26 16:51:33

2024-09-10 09:36:26

2023-10-16 09:51:47

模型視覺

2024-09-18 09:50:00

大模型AI

2023-05-16 08:00:00

開源項(xiàng)目MONAI醫(yī)學(xué)圖像

2024-02-05 09:31:40

仿真駕駛模型

2024-09-18 13:03:52

AI視頻生成

2023-01-07 14:48:09

3D信息

2022-02-25 10:28:30

人工智能圖像模型

2022-05-28 16:08:04

前端

2017-09-20 08:57:22

大數(shù)據(jù)犯罪防控法治建設(shè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號