僅做兩項修改，蘋果就讓StyleGANv2獲得了3D生成能力

作者：機器之心 2022-07-27 15:00:32

來自蘋果和伊利諾伊大學厄巴納 - 香檳分校的研究者發(fā)現(xiàn)只需兩項修改就能讓 2D GAN 獲得 3D 生成能力。

如何讓一個已有的 2D GAN 變成 3D 級別？這是一個有趣且實用的問題。

為了解決這個問題，來自蘋果和伊利諾伊大學厄巴納 - 香檳分校的研究者試圖盡可能少地修改經(jīng)典 GAN，即 StyleGANv2。該研究發(fā)現(xiàn)只有兩個修改是絕對必要的：1）一個多平面圖像樣式生成器分支，它產(chǎn)生一組以深度為條件的 alpha 圖；2）一個以位姿為條件的鑒別器。

論文地址：https://arxiv.org/abs/2207.10642

該研究將生成的輸出結(jié)果稱為「生成型多平面圖像（GMPI）」。GMPI 方法不僅渲染質(zhì)量高，還能保證視圖一致。更重要的是，alpha 映射的數(shù)量可以動態(tài)調(diào)整，并且可以在訓練和推理階段有所變化，從而減輕內(nèi)存問題，在不到半天的時間內(nèi)以 1024^2 的分辨率快速訓練 GMPI。

首先來看一下 GMPI 方法在三個具有挑戰(zhàn)性的常見高分辨率數(shù)據(jù)集（FFHQ、AFHQv2 和 MetFaces）上的效果：

方法簡介

該研究通過添加「alpha 分支」來修改經(jīng)典生成器，并結(jié)合簡單高效的 alpha 合成渲染。

GMPI 生成方法的框架如下圖所示，其中生成器和 alpha 合成渲染器負責生成圖像 I_v_tgt，該圖像以用戶指定的位姿 v_tgt 生成目標對象。保證為不同位姿生成的圖像是視圖一致的。

「alpha 分支」使用中間表征來生成多平面圖像表征 M，其中除了單個圖像之外還包含不同深度的 alpha 映射。

更具體地說，該研究為 StyleGANv2 開發(fā)了一個新的生成器分支，它產(chǎn)生一組正面平行的 alpha 映射，在本質(zhì)上類似于多平面圖像 (MPI)。該研究首次證明 MPI 可以用作無條件 3D 感知生成模型的場景表征。這個新的 alpha 分支是從頭開始訓練的，同時針對常規(guī) StyleGANv2 生成器和鑒別器進行微調(diào)。將生成的 alpha 映射與 StyleGANv2 的單個標準圖像輸出相結(jié)合，進行端到端的可微多平面樣式渲染，該研究實現(xiàn)了不同視圖的 3D 感知生成，并保證了視圖的一致性。盡管 alpha 映射處理遮擋的能力有限，但渲染非常有效。此外，alpha 映射的數(shù)量可以動態(tài)調(diào)整，甚至可以在訓練和推理期間有所不同，從而減輕內(nèi)存負擔。

該研究發(fā)現(xiàn)：為了實現(xiàn) 3D 感知，根據(jù)具體位姿調(diào)整鑒別器（discriminator）是絕對必要的。另一方面，根據(jù) alpha 映射的深度來調(diào)整模型也是非常必要的。該研究通過添加額外的 alpha 分支對原始 StyleGANv2 網(wǎng)絡進行了簡單的修改，如下圖 3 所示。

為了獲得表現(xiàn)出預期 3D 結(jié)構(gòu)的 alpha 映射，該研究發(fā)現(xiàn)需要對 StyleGANv2 進行兩次調(diào)整：（a）MPI 中任何平面的 alpha 映射預測必須以平面的深度或可學習的 token 為條件；(b) 鑒別器必須以相機位姿為條件。雖然這兩個調(diào)整似乎很直觀，但令人驚訝的是，這兩項調(diào)整對于 3D 感知歸納偏置來說已經(jīng)足夠了。

另一種改進 alpha 映射的歸納偏置是包含陰影的 3D 渲染。盡管有用，但該研究發(fā)現(xiàn)這種歸納偏置對于獲得 3D 感知不是必要的。此外，研究者還發(fā)現(xiàn)一些經(jīng)典的 2D GAN 評估指標可能會造成有誤導性的結(jié)果。