人工智能根據(jù)正臉生成多個側(cè)臉,利用生成對抗網(wǎng)絡(luò)生成多角度側(cè)臉摘要:從單視圖輸入生成多視圖圖像是一個基本而又具有挑戰(zhàn)性的問題。它在視覺,圖形和機(jī)器人方面有廣泛的應(yīng)用。我們的研究表明,廣泛使用的生成對抗網(wǎng)絡(luò)(GAN)可能由于單路徑框架而學(xué)習(xí)“不完整”表示:編碼器 - 解碼器網(wǎng)絡(luò),后面是鑒別器網(wǎng)絡(luò)。我們提出CR-GAN來解決這個問題。除了單一的重構(gòu)路徑之外,我們還引入了一代代,以保持學(xué)習(xí)嵌入空間的完整性。這兩種學(xué)習(xí)途徑以參數(shù)共享的方式進(jìn)行協(xié)作和競爭,從而顯著提高了對“未見”數(shù)據(jù)集的泛化能力。更重要的是,雙路徑框架可以將標(biāo)記和未標(biāo)記數(shù)據(jù)結(jié)合起來進(jìn)行自我監(jiān)督學(xué)習(xí),進(jìn)一步豐富了實際世代的嵌入空間。實驗結(jié)果證明CR-GAN明顯優(yōu)于最先進(jìn)的方法,特別是在野外條件下從“看不見的”輸入產(chǎn)生時。
人工智能根據(jù)正臉生成多個側(cè)臉,利用生成對抗網(wǎng)絡(luò)生成多角度側(cè)臉簡介:從單視圖輸入生成多視圖圖像是視覺,圖形和機(jī)器人中廣泛應(yīng)用的一個有趣問題。然而,這是一個具有挑戰(zhàn)性的問題,因為1)計算機(jī)需要“想象”在應(yīng)用3D旋轉(zhuǎn)后給定對象的樣子; 2)多視圖生成應(yīng)該保留相同的“身份”。一般來說,此問題的先前解決方案包括模型驅(qū)動的綜合[Blanz和Vetter,1999],數(shù)據(jù)驅(qū)動的生成[Zhu et al。,2014; Yan et al。,2016],以及兩者的結(jié)合[Zhu et al。,2016; Rezende等,2016]。最近,生成對抗網(wǎng)絡(luò)(GANs)[Goodfellow et al。,2014]在多視圖生成中顯示出令人印象深刻的結(jié)果[Tran et al。,2017;趙等人,2017]。
人工智能根據(jù)正臉生成多個側(cè)臉,利用生成對抗網(wǎng)絡(luò)生成多角度側(cè)臉貢獻(xiàn):這些基于GAN的方法通常具有單路徑設(shè)計:編碼器 - 解碼器網(wǎng)絡(luò)之后是鑒別器網(wǎng)絡(luò)。編碼器(E)將輸入圖像映射到潛在空間(Z),其中嵌入首先被操縱然后被饋送到解碼器(tt)以生成新穎的視圖。然而,我們的實驗表明,這種單通道設(shè)計可能存在嚴(yán)重的問題:它們只能學(xué)習(xí)“不完整”的表示,對“看不見”或無約束的數(shù)據(jù)產(chǎn)生有限的泛化能力。以圖1為例。在訓(xùn)練期間,E的輸出僅構(gòu)成Z的子空間,因為我們通常具有有限數(shù)量的訓(xùn)練樣本。這將使tt僅“看到”Z的一部分。在測試期間,E極有可能在子空間之外映射“看不見的”輸入。結(jié)果,由于意外的嵌入,tt可能產(chǎn)生差的結(jié)果。
為了解決這個問題,我們建議CR-GAN學(xué)習(xí)多視圖生成的完整表示。主要思想是,除了重建路徑之外,我們引入另一代路徑來從Z中隨機(jī)采樣的嵌入創(chuàng)建視圖特定圖像。請參考圖2進(jìn)行說明。這兩條路徑共享相同的tt。換句話說,在生成路徑中學(xué)習(xí)的tt將指導(dǎo)重建路徑中的E和D的學(xué)習(xí),反之亦然。 E被迫成為tt的倒數(shù),產(chǎn)生完整Z空間的完整表示。更重要的是,雙路徑學(xué)習(xí)可以很容易地利用標(biāo)記和未標(biāo)記的數(shù)據(jù)進(jìn)行自我監(jiān)督學(xué)習(xí),這可以在很大程度上豐富自然世代的Z空間??傊?,我們有以下貢獻(xiàn):
據(jù)我們所知,我們是第一個研究GAN模型的“完整表示”的人;我們建議使用雙路徑學(xué)習(xí)方案學(xué)習(xí)“完整”表示的CR-GAN;CR-GAN可以利用未標(biāo)記的數(shù)據(jù)進(jìn)行自我監(jiān)督學(xué)習(xí),從而提高生成質(zhì)量;CR-GAN可以在野外條件下從甚至“看不見的”數(shù)據(jù)集生成高質(zhì)量的多視圖圖像。
人工智能根據(jù)正臉生成多個側(cè)臉,利用生成對抗網(wǎng)絡(luò)生成多角度側(cè)臉提出的方法:不完整表示的玩具示例,單路徑網(wǎng)絡(luò),即跟隨鑒別器網(wǎng)絡(luò)的編碼器 - 解碼器網(wǎng)絡(luò),可能具有學(xué)習(xí)“不完整”表示的問題。如圖2左側(cè)所示,編碼器E和解碼器tt只能“觸摸”Z的子空間,因為我們通常具有有限數(shù)量的訓(xùn)練數(shù)據(jù)。當(dāng)使用“未見”數(shù)據(jù)作為輸入時,這將導(dǎo)致測試中的嚴(yán)重問題。 E很可能將新的輸入映射到子空間之外,這不可避免地導(dǎo)致窮人的世代,因為tt從未“看到”嵌入。玩具示例用于解釋這一點(diǎn)。我們使用Multi-PIE [Gross et al。,2010]來訓(xùn)練單通路網(wǎng)絡(luò)。如圖1的頂部所示,只要輸入圖像被映射到學(xué)習(xí)的子空間,網(wǎng)絡(luò)就可以在Multi-PIE(第一行)上生成逼真的結(jié)果。然而,當(dāng)測試來自IJB-A [Klare等人,2015]的“看不見的”圖像時,網(wǎng)絡(luò)可能產(chǎn)生不令人滿意的結(jié)果(第二行)。在這種情況下,新圖像被映射到學(xué)習(xí)的子空間之外。
這個事實激勵我們訓(xùn)練可以“覆蓋”整個Z空間的E和tt,這樣我們就可以學(xué)習(xí)完整的表示。我們通過引入單獨(dú)的生成路徑來實現(xiàn)這一目標(biāo),其中生成器專注于將整個Z空間映射到高質(zhì)量圖像。圖2說明了單通路和雙通路網(wǎng)絡(luò)之間的比較。請參閱圖3(d),了解我們的方法。
人工智能根據(jù)正臉生成多個側(cè)臉,利用生成對抗網(wǎng)絡(luò)生成多角度側(cè)臉實驗:CR-GAN的目標(biāo)是在床上空間學(xué)習(xí)完整的表現(xiàn)形式。我們通過將雙路架構(gòu)與自我監(jiān)督學(xué)習(xí)相結(jié)合來實現(xiàn)這一目標(biāo)。我們進(jìn)行實驗以分別評估這兩個貢獻(xiàn)。然后我們將我們的CR-GAN與DR-GAN進(jìn)行比較[Tran et al。,2017],顯示了嵌入空間中的視覺結(jié)果和t-SNE可視化。我們還將CR-GAN和BiGAN與圖像重建任務(wù)進(jìn)行比較。
實驗設(shè)置,數(shù)據(jù)集。我們在有和沒有視圖標(biāo)簽的數(shù)據(jù)集上評估CR-GAN。 Multi-PIE [Gross et al。,2010]是在受限環(huán)境下收集的標(biāo)記數(shù)據(jù)集。我們使用了第一次會話的250個主題,其中包括60個內(nèi)的9個姿勢,20個照明和兩個表達(dá)。前200個科目用于培訓(xùn),其余50個用于測試。 300wLP [Zhu et al。,2016]通過面部剖析方法[Zhu et al。,2016]從300W增加[Sagonas et al。,2013],其中也包含視圖標(biāo)簽。我們采用偏航角為60°到+ 60°的圖像,并將它們分成9個間隔。
為了評估未標(biāo)記的數(shù)據(jù)集,我們使用CelebA [Liu等人,2015年]和IJB-A [Klare等人,2015]。 CelebA包含大量具有不平衡視點(diǎn)分布的名人圖像。因此,我們收集了72,000張圖像的子集,其范圍從60°到+ 60°。請注意,CelebA中圖像的視圖標(biāo)簽僅用于收集子集,而在培訓(xùn)過程中不使用視圖或標(biāo)識標(biāo)簽。我們還使用包含5,396個圖像的IJB-A進(jìn)行評估。該數(shù)據(jù)集具有挑戰(zhàn)性,因為存在廣泛的身份和姿勢變化。