用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
生成輻射場(chǎng)的發(fā)展推動(dòng)了3D感知圖像合成的發(fā)展。由于觀察到3D對(duì)象從多個(gè)視點(diǎn)看起來(lái)十分逼真,這些方法引入了多視圖約束作為正則化,以從2D圖像學(xué)習(xí)有效的3D輻射場(chǎng)。盡管取得了進(jìn)展,但由于形狀-顏色的模糊性,它們往往無(wú)法捕獲準(zhǔn)確的3D形狀,從而限制了在下游任務(wù)中的適用性。在這項(xiàng)研究工作中,來(lái)自馬普所和港中文大學(xué)的學(xué)者通過(guò)提出一種新的著色引導(dǎo)生成隱式模型ShadeGAN來(lái)解決這種模糊性,它學(xué)習(xí)了一種改進(jìn)的形狀表示。
論文地址:https://arxiv.org/pdf/2110.15678.pdf代碼地址:https://github.com/xingangpan/shadegan關(guān)鍵在于,精確的3D形狀還應(yīng)在不同的照明條件下產(chǎn)生逼真的渲染效果。多重照明約束通過(guò)顯式建模照明和在各種照明條件下執(zhí)行著色實(shí)現(xiàn)。梯度是通過(guò)將合成圖像饋送到鑒別器得到的。為了補(bǔ)償計(jì)算曲面法線的額外計(jì)算負(fù)擔(dān),研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了通過(guò)曲面跟蹤的高效體繪制策略,將訓(xùn)練和推理時(shí)間分別減少24%和48%。在多個(gè)數(shù)據(jù)集上實(shí)驗(yàn)表明,在捕獲精確的底層三維形狀的同時(shí),ShadeGAN做到了實(shí)現(xiàn)具備真實(shí)感的三維感知圖像合成。他們還展示了該方法在三維形狀重建方面相對(duì)于現(xiàn)有方法的改進(jìn)性能,在圖像重照明方面亦有適用性。
1.介紹
高級(jí)深度生成模型,例如StyleGAN和BigGAN,在自然圖像合成方面取得了巨大成功。但這些基于2D表示的模型無(wú)法以3D一致性方式合成實(shí)例新視圖。它們也無(wú)法表示明確的三維物體形狀。為了克服這些限制,研究人員提出了新的深度生成模型,將3D場(chǎng)景表示為神經(jīng)輻射場(chǎng)。3D感知生成模型可以顯式控制視點(diǎn),同時(shí)在圖像合成過(guò)程中保持3D一致性。它們展示了在無(wú)監(jiān)督情況下從一組無(wú)約束的2D圖像中學(xué)習(xí)3D形狀的巨大潛力。如果可以訓(xùn)練出學(xué)習(xí)精確3D物體形狀的3D感知生成模型,各種下游應(yīng)用就可以的到拓展,如3D形狀重建和圖像重照明。現(xiàn)有3D感知圖像合成嘗試傾向于學(xué)習(xí)不準(zhǔn)確且有噪聲的粗略3D形狀,如下圖所示。研究發(fā)現(xiàn),這種不準(zhǔn)確是由于方法所采用的訓(xùn)練策略不可避免地存在模糊性。特別是一種正則化,稱之為“多視圖約束”,用于強(qiáng)制三維表示,使其從不同的視點(diǎn)看起來(lái)更逼真。這種約束通常首先將生成器的輸出(例如,輻射場(chǎng))投影到隨機(jī)采樣視點(diǎn),然后將它作為假圖像提供給鑒別器進(jìn)行訓(xùn)練。雖然這種約束使模型能夠以3D感知的方式合成圖像,但會(huì)受到形狀-顏色模糊關(guān)聯(lián)的影響,即便有微小的形狀變化也能生成類似的RGB圖像,這些圖像在鑒別器看來(lái)同樣可信,因?yàn)樵S多物體顏色是局部平滑的。因此,不準(zhǔn)確的形狀仍然隱藏在這個(gè)約束下。
在本文中,研究團(tuán)隊(duì)提出了一種新的著色引導(dǎo)生成隱式模型(ShadeGAN)來(lái)解決上述歧義。特別是,ShadeGAN通過(guò)顯式建模著色(即照明和形狀的交互)學(xué)習(xí)更精確的3D形狀。一個(gè)精確的3D形狀不僅應(yīng)該從不同的角度看起來(lái)很逼真,在不同的照明條件下也應(yīng)該十分逼真,即滿足“多重照明約束”。這一想法與光度立體有著相似的直覺(jué),它表明可以從不同照明條件下拍攝的圖像中恢復(fù)精確表面法線。請(qǐng)注意,多重照明約束是可行的,因?yàn)橛糜谟?xùn)練的真實(shí)圖像通常是在各種照明條件下拍攝的。為了滿足此約束,ShadeGAN采用可重新照明的顏色場(chǎng)作為中間表示,近似反照率,但不一定滿足視點(diǎn)獨(dú)立性。渲染期間,顏色場(chǎng)在隨機(jī)采樣的照明條件下著色。由于通過(guò)這種著色處理的圖像外觀強(qiáng)烈依賴于曲面法線,因此與早期的著色不可知生成模型相比,不準(zhǔn)確的3D形狀表示將更清晰地顯示出來(lái)。通過(guò)滿足多重照明約束,可以鼓勵(lì)ShadeGAN推斷更精確的3D形狀,如上圖中右下所示。上述著色處理需要通過(guò)反向傳播來(lái)通過(guò)生成器計(jì)算法線方向,并且在3D體繪制中,對(duì)于單個(gè)像素的計(jì)算需要重復(fù)幾十次,從而引入額外的計(jì)算開(kāi)銷。
現(xiàn)有高效體繪制技術(shù)主要針對(duì)靜態(tài)場(chǎng)景,面對(duì)動(dòng)態(tài)特性無(wú)法直接應(yīng)用于生成模型。為了提高ShadeGAN的渲染速度,研究團(tuán)隊(duì)建立了一個(gè)有效的曲面跟蹤網(wǎng)絡(luò),以評(píng)估基于潛在代碼的渲染對(duì)象曲面。這使他們能夠通過(guò)僅查詢預(yù)測(cè)曲面附近的點(diǎn)來(lái)節(jié)省渲染計(jì)算,從而在不影響渲染圖像質(zhì)量的情況下減少24%和48%的訓(xùn)練和推理時(shí)間。通過(guò)多個(gè)數(shù)據(jù)集上進(jìn)行綜合實(shí)驗(yàn)驗(yàn)證ShadeGAN的有效性。結(jié)果表明,與之前的生成方法相比,本文提出的方法能夠合成照片級(jí)真實(shí)感圖像,同時(shí)捕獲更精確的底層三維形狀。學(xué)習(xí)到的三維形狀分布能夠?qū)崿F(xiàn)各種下游任務(wù),比如三維形狀重建,其中ShadeGAN明顯優(yōu)于BFM數(shù)據(jù)集上的其他基線。對(duì)著色過(guò)程進(jìn)行建模,可以顯式控制照明條件,實(shí)現(xiàn)圖像重照明效果。
ShadeGAN可以總結(jié)如下:1)使用滿足多重照明約束的著色引導(dǎo)生成模型,從而解決現(xiàn)有三維感知圖像合成中形狀-顏色模糊問(wèn)題。ShadeGAN能夠?qū)W習(xí)更精確的3D形狀,從而更好地進(jìn)行圖像合成。2) 通過(guò)曲面跟蹤設(shè)計(jì)了一種高效的繪制技術(shù),這大大節(jié)省了基于體繪制生成模型的訓(xùn)練和推理時(shí)間。3)ShadeGAN學(xué)會(huì)了將陰影和顏色分離,更接近反照率,在圖像合成中達(dá)到了自然重新照明效果
2.ShadeGAN 神經(jīng)體繪制
從神經(jīng)輻射場(chǎng)(NeRF)的開(kāi)創(chuàng)性工作開(kāi)始,神經(jīng)體繪制在表示3D場(chǎng)景和合成新視圖方面得到了廣泛的應(yīng)用。通過(guò)基于坐標(biāo)神經(jīng)網(wǎng)絡(luò)與體繪制相結(jié)合,NeRF以3D一致性完成高保真視圖合成。目前已經(jīng)提出了一些嘗試擴(kuò)展或改進(jìn)NeRF。比如進(jìn)一步模擬照明,然后學(xué)習(xí)在給定對(duì)齊多視圖、多照明圖像情況下,將反射與著色分離。此外,許多研究從空間稀疏性、建筑設(shè)計(jì)或高效渲染角度加速了靜態(tài)場(chǎng)景的渲染。這些照明和加速技術(shù)應(yīng)用于基于體繪制的生成模型并非易事,因?yàn)樗鼈兺ǔ臑槎ㄎ?、未配?duì)的圖像中學(xué)習(xí),表示相對(duì)于輸入潛在編碼變化的動(dòng)態(tài)場(chǎng)景。研究團(tuán)隊(duì)首次嘗試在基于體繪制的生成模型中對(duì)照明進(jìn)行建模,作為精確三維形狀學(xué)習(xí)的正則化。并進(jìn)一步為方法設(shè)計(jì)了高校的渲染技術(shù),它具有相似的見(jiàn)解,但不依賴于通過(guò)真實(shí)深度進(jìn)行訓(xùn)練,也不限于視點(diǎn)小范圍。
生成三維感知圖像合成
生成對(duì)抗網(wǎng)絡(luò)(GANs)可以生成高分辨率的真實(shí)照片圖像,但對(duì)攝像機(jī)視點(diǎn)的明確控制卻很匱乏。為了能夠以3D感知的方式合成圖像,許多最新方法研究了如何將3D表示合并到GANs中。有些研究直接從3D數(shù)據(jù)中學(xué)習(xí),但在本文中,研究團(tuán)隊(duì)關(guān)注的是只能訪問(wèn)無(wú)約束2D圖像方法,因?yàn)檫@是更實(shí)際的設(shè)置。研究團(tuán)隊(duì)多次嘗試采用3D體素特征和學(xué)習(xí)神經(jīng)渲染,雖然產(chǎn)生了逼真的3D感知合成,但3D體素不可解釋,無(wú)法轉(zhuǎn)換為3D形狀。NeRF可以成功促使在GANs中使用輻射場(chǎng)作為中間3D表示,是有一些令人印象深刻、具有多視圖一致性的3D感知圖像合成,但這些方法提取的3D形狀通常不精確且有噪聲。在本文中,研究團(tuán)隊(duì)的主要目標(biāo)是通過(guò)在渲染過(guò)程中顯式地建模照明來(lái)解決不準(zhǔn)確形狀。這項(xiàng)創(chuàng)新有助于實(shí)現(xiàn)更好的3D感知圖像合成,將具有更廣泛的應(yīng)用。
從2D圖像進(jìn)行無(wú)監(jiān)督的3D形狀學(xué)習(xí)
ShadeGAN涉及無(wú)監(jiān)督方法,即從無(wú)約束單目視圖2D圖像中學(xué)習(xí)3D物體形狀。雖然一些方法使用外部3D形狀模板或2D關(guān)鍵點(diǎn)作為弱監(jiān)督,但本文考慮了更有難度的設(shè)置——只有2D圖像是可用的。大多數(shù)方法采用“綜合分析”范式,就是設(shè)計(jì)了照片幾何自動(dòng)編碼器,以在重建損失情況下推斷每個(gè)圖像的三維形狀和視點(diǎn)。這是可以學(xué)習(xí)一些對(duì)象類的3D形狀,只是通常依賴正則化來(lái)防止瑣碎的解決方案,如常用的對(duì)象形狀對(duì)稱假設(shè)。這種假設(shè)傾向于產(chǎn)生對(duì)稱結(jié)果,可能忽略對(duì)象的不對(duì)稱方面。最近,GAN2Shape表明,可以為2D GAN生成的圖像恢復(fù)3D形狀。但這種方法需要低效的實(shí)例特定訓(xùn)練,并恢復(fù)深度貼圖,而不是完整的三維表示。本文提出的三維感知生成模型也可以作為無(wú)監(jiān)督三維形狀學(xué)習(xí)的有力方法。與上述基于自動(dòng)編碼器的方法相比,基于GAN的方法避免了推斷每個(gè)圖像的視點(diǎn)需求,而且不依賴于強(qiáng)正則性。通過(guò)實(shí)驗(yàn)更加證明了與最新、最先進(jìn)的方法Unsp3d和GAN2Shape相比,ShadeGAN具有更高的性能。
3.ShadeGAN方法論
ShadeGAN通過(guò)無(wú)約束和未標(biāo)記的 2D 圖像學(xué)習(xí)考慮3D 感知圖像合成問(wèn)題。在生成隱式模型中建模著色,也就是照明和形狀的交互,實(shí)現(xiàn)對(duì)更精確三維對(duì)象形狀的無(wú)監(jiān)督學(xué)習(xí)。接下來(lái)會(huì)先提供關(guān)于神經(jīng)輻射場(chǎng)(NeRF)的初步介紹,然后詳細(xì)介紹著色引導(dǎo)生成隱式模型。
3.1 神經(jīng)輻射場(chǎng)的初步研究
作為一種深度隱式模型,NeRF使用MLP網(wǎng)絡(luò)將3D場(chǎng)景表示為輻射場(chǎng)。取三維坐標(biāo)
和觀察方向
作為輸入,并輸出體積密
和顏色
。為了在給定的相機(jī)姿勢(shì)下渲染圖像,通過(guò)沿其對(duì)應(yīng)的相機(jī)光線
的體繪制獲得圖像的每個(gè)像素顏色C,如下所示:
實(shí)踐中,這種體繪制是使用分層和分層采樣的離散形式實(shí)現(xiàn)的。由于該渲染過(guò)程是可微分的,因此通過(guò)靜態(tài)場(chǎng)景的姿勢(shì)圖像直接優(yōu)化NeRF。經(jīng)過(guò)訓(xùn)練后,NeRF允許在新的相機(jī)姿勢(shì)下渲染圖像,實(shí)現(xiàn)高質(zhì)量新穎視圖合成。
3.2著色引導(dǎo)生成隱式模型
開(kāi)發(fā)生成隱式模型是十分有趣的,它可以為3D感知圖像合成顯式著色過(guò)程建模。研究團(tuán)隊(duì)對(duì)NeRF中的MLP網(wǎng)絡(luò)進(jìn)行了兩個(gè)擴(kuò)展。首先,與大多數(shù)深度生成模型類似,它進(jìn)一步取決于從先驗(yàn)分布中采樣的潛在編碼z。其次,它不直接輸出顏色c,而是輸出可重新點(diǎn)亮的前余弦顏色項(xiàng)
。
它在概念上類似于反照率,在給定的光照條件下,它可以被遮蔽。雖然反照率是獨(dú)立于視點(diǎn)的,但在這項(xiàng)工作中,為了解釋數(shù)據(jù)集偏差,并沒(méi)有嚴(yán)格地對(duì)一個(gè)數(shù)據(jù)集實(shí)現(xiàn)這種獨(dú)立性。因此,本文的生成器取坐標(biāo)x、觀察方向d和潛在方向編碼z作為輸入,并輸出體積密度σ和前余弦顏色a。注意,這里σ獨(dú)立于d,而a對(duì)d的依賴是可選的。為了獲得相機(jī)光線
的顏色C,近界和遠(yuǎn)界
和
,研究團(tuán)隊(duì)通過(guò)以下方式計(jì)算最終的前余弦顏色A:
研究團(tuán)隊(duì)還使用以下公式計(jì)算法向n:
是體積密度σ相對(duì)于其輸入坐標(biāo)的導(dǎo)數(shù),它自然捕捉局部法線方向,并可通過(guò)反向傳播計(jì)算。然后通過(guò)Lambertian著色獲得最終顏色C,如下所示:
是照明方向,
和
是環(huán)境系數(shù)和漫反射系數(shù)。
攝像機(jī)和照明采樣等式(2-4)描述了給定相機(jī)光線r(t)和照明條件渲染像素顏色的過(guò)程。生成完整圖像
要求除潛在編碼z外,還需對(duì)攝像姿勢(shì)
和照明條件μ進(jìn)行采樣,即
。
在設(shè)置中,攝像姿態(tài)可以用俯仰角和偏航角來(lái)描述,并從先前的高斯分布或均勻分布
中采樣,正如在以前的工作中所做的一樣。在訓(xùn)練過(guò)程中隨機(jī)采樣相機(jī)姿勢(shì)將激發(fā)學(xué)習(xí)的3D場(chǎng)景從不同角度看起來(lái)逼真。雖然這種多視圖約束有利于學(xué)習(xí)有效的三維表示,但它通常不足以推斷準(zhǔn)確的三維對(duì)象形狀。
因此,在本文中,研究團(tuán)隊(duì)還通過(guò)從先驗(yàn)分布中隨機(jī)采樣照明條件μ來(lái)進(jìn)一步引入多重照明約束。實(shí)際上,可以使用現(xiàn)有方法從數(shù)據(jù)集估算
。在實(shí)驗(yàn)中,一個(gè)簡(jiǎn)單且手動(dòng)調(diào)整的先驗(yàn)分布也可以產(chǎn)生合理結(jié)果。由于等式(4)中的漫反射項(xiàng)
導(dǎo)致著色過(guò)程對(duì)法線方向敏感,該多重照明約束將使模型正則化,學(xué)習(xí)產(chǎn)生自然著色的更精確3D形狀。
訓(xùn)練生成模型遵循GANs范例,生成器與參數(shù)為φ的鑒別器D一起以對(duì)抗的方式進(jìn)行訓(xùn)練。在訓(xùn)練期間,生成器通過(guò)相應(yīng)的先驗(yàn)分布pz、和
中采樣潛在編碼z、相機(jī)姿勢(shì)
和照明條件μ來(lái)生成假圖像
讓l表示從數(shù)據(jù)分布pI中采樣的真實(shí)圖像。用
正則化的非飽和GAN損耗來(lái)訓(xùn)練ShadeGAN模型:
公式中
λ 控制正則化強(qiáng)度。
探討在等式(2-4)中,研究團(tuán)隊(duì)通過(guò)體繪制獲得A和n之后執(zhí)行著色。另一種方法是在每個(gè)局部空間點(diǎn)執(zhí)行著色,其中:是局部正常。然后可以使用c(r(t), z) 執(zhí)行體積排序,從而獲得最終的像素顏色。在實(shí)踐中,研究團(tuán)隊(duì)觀察到該公式獲得了次優(yōu)結(jié)果。直觀原因是,在此公式中,法線方向在每個(gè)局部點(diǎn)處歸一化,忽略了
在物體表面附近趨于較大。
本文使用的Lambertian著色近似于真實(shí)照明場(chǎng)景。雖然作為改進(jìn)學(xué)習(xí)的三維形狀的良好正則化,但它可能會(huì)在生成圖像的分布和真實(shí)圖像的分布之間引入額外的間隙。為了補(bǔ)償這種風(fēng)險(xiǎn),可以選擇將預(yù)測(cè)的a調(diào)節(jié)到光照條件,即a = a(r(t), d, μ, z)。在照明條件偏離實(shí)際數(shù)據(jù)分布的情況下,生成器可以學(xué)習(xí)調(diào)整a值并減小上述間隙。
3.3通過(guò)曲面跟蹤實(shí)現(xiàn)高效體繪制
與NeRF類似,研究團(tuán)隊(duì)使用離散積分實(shí)現(xiàn)體繪制,這通常需要沿?cái)z影機(jī)光線采樣幾十個(gè)點(diǎn),如圖所示。在本文中,還需要在等式(3)中對(duì)生成器執(zhí)行反向傳播,以獲得每個(gè)點(diǎn)的法線方向,這會(huì)大大增加計(jì)算成本。為了實(shí)現(xiàn)更高效的體繪制,一個(gè)自然的想法是利用空間稀疏性。通常,體繪制中的權(quán)重T (t, z)σ(r(t), z)在訓(xùn)練過(guò)程中會(huì)集中在物體表面位置上。如果在渲染之前知道粗糙曲面的位置,就可以在曲面附近采樣點(diǎn)以節(jié)省計(jì)算。對(duì)于靜態(tài)場(chǎng)景,將這種空間稀疏性存儲(chǔ)在稀疏體素網(wǎng)格中,但這種技術(shù)不能直接應(yīng)用于我們的生成模型,因?yàn)?D場(chǎng)景相對(duì)于輸入的潛在編碼不斷變化。
為了在生成隱式模型中實(shí)現(xiàn)更高效的體繪制,研究團(tuán)隊(duì)進(jìn)一步提出了一種曲面跟蹤網(wǎng)絡(luò)S,該網(wǎng)絡(luò)學(xué)習(xí)模仿以潛在編碼為條件的曲面位置。特別是,體渲染自然允許通過(guò)以下方式對(duì)對(duì)象曲面進(jìn)行深度估計(jì):
T (t, z)的定義方式與(2)中的方式相同。因此,給定相機(jī)姿態(tài)和潛在編碼z,可以渲染全深度貼圖
。如上圖(b)所示,使用表面跟蹤網(wǎng)絡(luò)
模擬
,這是一個(gè)以z,
為輸入并輸出深度圖的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。深度模擬損失為:
其中,Prec是促使更好地捕捉表面邊緣的感知損失。在訓(xùn)練過(guò)程中,
與發(fā)生器和鑒別器一起進(jìn)行優(yōu)化。每次在采樣一個(gè)潛在編碼z和一個(gè)相機(jī)姿勢(shì)
之后,可以得到深度貼圖的初始猜測(cè)
。
然后,對(duì)于具有預(yù)測(cè)深度s像素,可以在等式(2,3,6)中執(zhí)行體繪制,且近邊界和遠(yuǎn)界
,
是體積渲染的間隔,該間隔隨著訓(xùn)練迭代i的增長(zhǎng)而減小。
具體來(lái)說(shuō),我們從一個(gè)大的間隔開(kāi)始并減小到
。像
減少時(shí),用于渲染m的點(diǎn)數(shù)也相應(yīng)減少。與生成器相比,高效的曲面跟蹤網(wǎng)絡(luò)的計(jì)算成本是微乎其微的,因?yàn)榍罢咧恍枰淮吻跋蜻^(guò)程來(lái)渲染圖像,而后者將被查詢H × W × m 次。因此,m的減少將顯著加快ShadeGAN的訓(xùn)練和推理速度。
4.實(shí)驗(yàn)
實(shí)驗(yàn)表明,ShadeGAN學(xué)習(xí)的3D形狀比以前的方法精確得多,同時(shí)允許對(duì)照明條件進(jìn)行顯式控制。使用的數(shù)據(jù)集包括CelebA、BFM和CAT,它們都只包含無(wú)約束的2D RGB圖像。在模型結(jié)構(gòu)方面,我們采用了基于SIREN的MLP作為生成器,卷積神經(jīng)網(wǎng)絡(luò)作為鑒別器。對(duì)于光照條件的先驗(yàn)分布,使用Unsup3d估計(jì)真實(shí)數(shù)據(jù)的光照條件,然后擬合的多元高斯分布作為先驗(yàn)。消融研究中還包括手工制作的先驗(yàn)分布。除非另有說(shuō)明,否則在所有實(shí)驗(yàn)中,讓前余弦顏色a取決于照明條件μ以及觀察方向d。
與基線進(jìn)行比較
將ShadeGAN與兩種最先進(jìn)的生成隱式模型(GRAF和pi-GAN)進(jìn)行比較。具體地,圖4包括合成圖像以及它們對(duì)應(yīng)的3D網(wǎng)格,其通過(guò)在體積密度σ上執(zhí)行 marching cubes而獲得。雖然GRAF和pi-GAN可以合成具有可控姿勢(shì)的圖像,但它們學(xué)習(xí)到的3D形狀不準(zhǔn)確且有噪聲。相比之下,本文的方法不僅合成真實(shí)感的3D一致圖像,而且還學(xué)習(xí)更精確的3D形狀和曲面法線,這表明所提出的多重照明約束作為正則化的有效性。圖5中包含了更多的合成圖像及其相應(yīng)的形狀。除了更精確的3D形狀外,ShadeGAN還可以從本質(zhì)上了解反照率和漫反射著色組件。如圖所示,盡管并不完美,ShadeGAN已成功以令人滿意的質(zhì)量分離陰影和反照率,因?yàn)檫@種分離是多照明約束的自然解決方案。
在BFM數(shù)據(jù)集上對(duì)學(xué)習(xí)的3D形狀的質(zhì)量進(jìn)行定量評(píng)估。具體來(lái)說(shuō),使用每個(gè)生成隱式模型生成50k圖像及其相應(yīng)的深度貼圖。來(lái)各個(gè)模型的圖像深度對(duì)被用作訓(xùn)練數(shù)據(jù),來(lái)訓(xùn)練額外的卷積神經(jīng)網(wǎng)絡(luò)(CNN),這個(gè)網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)輸入圖像的深度圖。然后,在BFM測(cè)試集上測(cè)試每個(gè)經(jīng)過(guò)訓(xùn)練的CNN,并將其預(yù)測(cè)與真實(shí)深度圖進(jìn)行比較,作為對(duì)所學(xué)3D形狀質(zhì)量的測(cè)量。本文報(bào)告了尺度不變深度誤差(SIDE)和平均角度偏差(MAD)度量。其中ShadeGAN的表現(xiàn)明顯優(yōu)于GRAF和pi GAN。ShadeGAN還優(yōu)于其他先進(jìn)的無(wú)監(jiān)督3D形狀學(xué)習(xí)方法,包括unsupervised和GAN2Shape,在無(wú)監(jiān)督3D形狀學(xué)習(xí)都有著巨大潛力。不同模型合成的圖像的FID分?jǐn)?shù)上,其中ShadeGAN的FID分?jǐn)?shù)略差于BFM和CelebA中的pi GAN。直觀地說(shuō),這是由近似著色(即朗伯著色)和真實(shí)照明之間的差距造成的,可以通過(guò)采用更真實(shí)的著色模型和改進(jìn)之前的照明來(lái)避免。
消融研究
研究團(tuán)隊(duì)進(jìn)一步研究了ShadeGAN中幾種設(shè)計(jì)選擇的影響。首先,執(zhí)行局部點(diǎn)特定的著色。如圖所示,局部著色策略的結(jié)果明顯比原始策略差,這表明考慮是有益的。
為了驗(yàn)證所提出的高效體繪制技術(shù)的有效性,研究團(tuán)隊(duì)將其對(duì)圖像質(zhì)量和訓(xùn)練/推理時(shí)間的影響包含在選項(xiàng)中。據(jù)觀察,高效體繪制對(duì)性能影響不大,但ShadeGAN的訓(xùn)練和推理時(shí)間分別顯著減少了24%和48%。此外,在下圖中可視化了曲面跟蹤網(wǎng)絡(luò)預(yù)測(cè)的深度圖和通過(guò)體繪制獲得的深度圖。結(jié)果表明,在不同的身份和相機(jī)姿態(tài)下,曲面跟蹤網(wǎng)絡(luò)可以一致地預(yù)測(cè)非常接近真實(shí)曲面位置的深度值,因此可以在不犧牲圖像質(zhì)量的情況下采樣預(yù)測(cè)曲面附近的點(diǎn)進(jìn)行渲染。
光照感知圖像合成
由于ShadeGAN對(duì)著色過(guò)程進(jìn)行建模,因此在設(shè)計(jì)上允許對(duì)照明條件進(jìn)行顯式控制。下圖提供了這樣的照明感知圖像合成結(jié)果,其中ShadeGAN在不同的照明方向下生成有希望的圖像。在預(yù)測(cè)的a以照明條件μ為條件的情況下,a會(huì)略微改變w.r.t.照明條件,如在陰影過(guò)暗的區(qū)域,a會(huì)更亮,最終圖像更自然。我們還可以在等式4(即Blinn Phong著色,其中h是視點(diǎn)和照明方向之間角度的平分線)中選擇性地添加鏡面反射項(xiàng),以創(chuàng)建鏡面反射高光效果。
GAN反演
ShadeGAN還可以通過(guò)執(zhí)行GAN反演來(lái)重建給定的目標(biāo)圖像。如下圖所示,這種反演允許我們獲得圖像的幾個(gè)因素,包括3D形狀、表面法線、近似反照率和陰影。此外,我們還可以通過(guò)更改視點(diǎn)和照明條件來(lái)進(jìn)一步執(zhí)行視圖合成和重新照明。
討論
由于使用的朗伯陰影近似于真實(shí)照明,因此ShadeGAN學(xué)習(xí)的反照率并沒(méi)有完全分離。本文的方法不考慮對(duì)象的空間變化的材料特性。在未來(lái),研究團(tuán)隊(duì)打算結(jié)合更復(fù)雜的著色模型,以更好地了解分離的生成反射場(chǎng)。
5.結(jié)論
本文提出的ShadeGAN是一種新的生成隱式模型,用于形狀精確的3D感知圖像合成。并證實(shí)在ShadeGAN中通過(guò)顯式光照建模實(shí)現(xiàn)的多重光照約束顯著有助于從2D圖像學(xué)習(xí)精確的3D形狀。ShadeGAN還可以在圖像合成過(guò)程中控制照明條件,實(shí)現(xiàn)自然的圖像重新照明效果。為了降低計(jì)算成本,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了一種輕量級(jí)曲面跟蹤網(wǎng)絡(luò),它為生成隱式模型提供了一種高效的體繪制技術(shù),顯著加快了訓(xùn)練和推理速度。