在本文中,提出了一種用單眼強(qiáng)度圖像進(jìn)行面部深度圖估計(jì)的對(duì)抗架構(gòu)。 通過遵循圖像到圖像的方法,我們結(jié)合了監(jiān)督學(xué)習(xí)和對(duì)抗訓(xùn)練的優(yōu)勢(shì),提出了一個(gè)有條件的生成對(duì)抗網(wǎng)絡(luò),有效地學(xué)習(xí)將強(qiáng)度人臉圖像轉(zhuǎn)換為相應(yīng)的深度圖。 兩個(gè)公共數(shù)據(jù)集,即Biwi數(shù)據(jù)庫(kù)和Pandora數(shù)據(jù)集,被用來(lái)證明所提出的模型生成高質(zhì)量的合成深度圖像,無(wú)論是在視覺外觀和信息內(nèi)容方面。 此外,我們證明該模型能夠通過深度模型測(cè)試生成的深度圖來(lái)預(yù)測(cè)獨(dú)特的面部細(xì)節(jié),深度模型是在真實(shí)的深度圖上進(jìn)行面部驗(yàn)證任務(wù)的訓(xùn)練。
人工智能利用單眼強(qiáng)度圖像進(jìn)行面部深度圖估計(jì)的對(duì)抗架構(gòu)簡(jiǎn)介:深度估計(jì)是一項(xiàng)任務(wù),在這個(gè)任務(wù)中,由于存在兩個(gè)高質(zhì)量的立體相機(jī)(即人眼)和一個(gè)特殊的學(xué)習(xí)工具(即人類大腦),人類會(huì)自然而然地獲益。什么讓人類在評(píng)估單個(gè)單眼圖像的深度方面如此卓越以及這種學(xué)習(xí)過程如何發(fā)生?一個(gè)假設(shè)是,我們通過過去的視覺經(jīng)驗(yàn)來(lái)開發(fā)教師來(lái)估計(jì)世界的三維結(jié)構(gòu),這包括與觸覺刺激(對(duì)于小物體)和運(yùn)動(dòng)(對(duì)于更寬的空間)相關(guān)的大量觀察結(jié)果)[43]。這個(gè)過程允許人類開發(fā)推測(cè)他們所看到的物體和場(chǎng)景的結(jié)構(gòu)模型的能力,甚至可以從單眼圖像中推斷出來(lái)。
盡管深度估計(jì)是一種自然的人類大腦活動(dòng),但由于不同的三維地圖可能會(huì)生成相同的二維圖像,因此該任務(wù)在計(jì)算機(jī)視圖環(huán)境中是一個(gè)不適合的問題。此外,由于屬于強(qiáng)度圖像和深度圖的極其不同的信息來(lái)源,紋理和形狀數(shù)據(jù)分別在這兩個(gè)域之間進(jìn)行翻譯是非常困難的。傳統(tǒng)上,計(jì)算機(jī)視覺界廣泛地以不同的方式解決了深度估計(jì)問題,如立體相機(jī)[16,40],運(yùn)動(dòng)結(jié)構(gòu)[4,6],以及來(lái)自陰影和光擴(kuò)散的深度[35,37]。所提及的方法遭受不同的問題,如深度均勻性和缺失值(導(dǎo)致深度圖像中的空洞)。其他具有挑戰(zhàn)性的元素與攝像機(jī)校準(zhǔn),設(shè)置和后處理步驟相關(guān),這些步驟可能會(huì)耗費(fèi)大量時(shí)間和計(jì)算成本。最近,由于深度神經(jīng)網(wǎng)絡(luò)的進(jìn)步,研究團(tuán)隊(duì)已經(jīng)從強(qiáng)度圖像中研究了單一深度估計(jì)任務(wù),以克服以前報(bào)告的問題。
人工智能利用單眼強(qiáng)度圖像進(jìn)行面部深度圖估計(jì)的對(duì)抗架構(gòu)貢獻(xiàn):本文提出了一個(gè)從人臉單眼強(qiáng)度圖像生成深度圖的框架。采用對(duì)抗方法[12,28]來(lái)有效地訓(xùn)練完全卷積自動(dòng)編碼器,該編碼器能夠根據(jù)相應(yīng)的灰度級(jí)圖像估計(jì)面部深度圖。為了訓(xùn)練和測(cè)試所提出的方法,利用由大量成對(duì)深度和強(qiáng)度圖像組成的兩個(gè)公共數(shù)據(jù)集,即Pandora [3]和Biwi Kinect Head Pose [9]數(shù)據(jù)集。就我們所知,這是通過與全球深度場(chǎng)景估計(jì)不同的對(duì)抗性方法來(lái)嘗試解決這一任務(wù)的最初嘗試之一,它涉及小尺寸物體和充滿細(xì)節(jié)的人臉:人臉。***,我們研究如何有效地衡量系統(tǒng)的性能,引入各種按像素指標(biāo)。此外,我們引入了一個(gè)人臉驗(yàn)證模型,對(duì)原始人臉深度圖像進(jìn)行訓(xùn)練,以檢查生成的圖像是否保持原始人物的面部特征,不僅在人類視覺檢查時(shí),而且在深度卷積網(wǎng)絡(luò)處理時(shí)。
人工智能利用單眼強(qiáng)度圖像進(jìn)行面部深度圖估計(jì)的對(duì)抗架構(gòu)深度學(xué)習(xí)結(jié)構(gòu):在本節(jié)中,我們提出了用于人臉強(qiáng)度圖像深度估計(jì)的模型,詳細(xì)描述了cGAN體系結(jié)構(gòu),其訓(xùn)練過程和采用的預(yù)處理人臉裁剪算法(第3.2節(jié))。 該模型的實(shí)施遵循[12]中提出的指導(dǎo)方針。在Goodfellow等人的工作之后。 [12]和米爾扎等人。 [28],所提出的體系結(jié)構(gòu)由一個(gè)生成網(wǎng)絡(luò)tt和一個(gè)判別網(wǎng)絡(luò)d tt對(duì)應(yīng)于一個(gè)估計(jì)函數(shù),該函數(shù)預(yù)測(cè)給定人臉灰度圖像強(qiáng)度的深度圖Igen = tt(Igray) 圖像作為輸入并估計(jì)相應(yīng)的深度圖。(目標(biāo)韓函數(shù)包含對(duì)抗損失和mse損失)。