如何利用深度學(xué)習(xí)制作專業(yè)水準(zhǔn)的照片?
機(jī)器學(xué)習(xí) (ML) 在許多目標(biāo)明確的領(lǐng)域都表現(xiàn)卓越。答案非對(duì)即錯(cuò)的任務(wù)有助于訓(xùn)練過(guò)程,也可使算法實(shí)現(xiàn)其預(yù)期目標(biāo),無(wú)論是正確識(shí)別圖像中的物體,還是將一種語(yǔ)言適當(dāng)?shù)胤g成另一種語(yǔ)言。不過(guò),有些領(lǐng)域并沒(méi)有客觀的評(píng)估標(biāo)準(zhǔn)。例如,一張照片是否美麗要按其美學(xué)價(jià)值進(jìn)行衡量,而美學(xué)價(jià)值是一個(gè)非常主觀化的概念。
▲ 一張加拿大賈斯珀國(guó)家公園的專業(yè)照片
為了探究機(jī)器學(xué)習(xí)能否學(xué)習(xí)主觀性概念,我們引入了一個(gè)用于藝術(shù)內(nèi)容創(chuàng)作的實(shí)驗(yàn)性深度學(xué)習(xí)系統(tǒng):
https://arxiv.org/abs/1707.03491
該系統(tǒng)可模仿一個(gè)專業(yè)攝影師的工作流程,瀏覽來(lái)自 Google 街景的全景照片,并搜索最佳構(gòu)圖,然后進(jìn)行各種后期處理操作以制作一張具有美感的圖像。我們的虛擬攝影師“瀏覽”了大約 4 萬(wàn)張全景照片(拍攝地為阿爾卑斯山、加拿大班夫公園和賈斯珀國(guó)家公園、加利福尼亞州大蘇爾以及黃石公園等),并據(jù)此制作出令人印象深刻的照片,根據(jù)專業(yè)攝影師的評(píng)判,有些照片甚至接近專業(yè)水準(zhǔn)。
訓(xùn)練模型
盡管可使用 AVA 等數(shù)據(jù)集對(duì)美學(xué)進(jìn)行建模,但單純用它來(lái)提升照片品質(zhì)可能會(huì)使照片欠缺某些美感,如照片過(guò)度飽和。不過(guò),利用監(jiān)督式學(xué)習(xí)正確地學(xué)習(xí)美學(xué)的多個(gè)要素可能需要一個(gè)標(biāo)注數(shù)據(jù)集,而該數(shù)據(jù)集很難收集。
我們的方法只依賴于專業(yè)品質(zhì)的照片集,無(wú)需在之前/之后進(jìn)行圖像比對(duì),也無(wú)需任何額外的標(biāo)簽。該方法自動(dòng)將美學(xué)分解成多個(gè)要素,每個(gè)要素都通過(guò)一個(gè)耦合的圖像操作產(chǎn)生的反面示例進(jìn)行單獨(dú)學(xué)習(xí)。通過(guò)使這些圖像操作保持“半正交”,我們可以通過(guò)快速并且可分離的優(yōu)化來(lái)改善照片的構(gòu)圖、飽和度/HDR 水平及戲劇性光線。
全景照片
上圖是一張全景照片 (a) 被剪裁成 (b),飽和度和 HDR 強(qiáng)度在 (c) 中得到提升,(d) 中則應(yīng)用了戲劇性蒙版。每一步都根據(jù)所學(xué)習(xí)的一個(gè)美學(xué)要素完成。
傳統(tǒng)圖像濾鏡可用于生成飽和度、HDR 細(xì)節(jié)和構(gòu)圖的反面訓(xùn)練示例。我們也引入了一個(gè)名為戲劇性蒙版的特殊操作,它是在學(xué)習(xí)戲劇性光線的概念時(shí)創(chuàng)建的。反面示例是通過(guò)應(yīng)用一組圖像濾鏡(隨機(jī)修改專業(yè)照片的亮度,降低照片質(zhì)量)而生成的。我們使用生成式對(duì)抗網(wǎng)絡(luò) (GAN) 進(jìn)行訓(xùn)練,其中生成式模型創(chuàng)建一個(gè)蒙版來(lái)修復(fù)反面示例的光照,而判別式模型則設(shè)法區(qū)分已提升品質(zhì)的照片和真正的專業(yè)水準(zhǔn)照片。與固定形狀的濾鏡(如 vignette)不同,戲劇性蒙版可感知照片內(nèi)容并據(jù)此相應(yīng)地調(diào)節(jié)照片亮度。GAN 訓(xùn)練的競(jìng)爭(zhēng)特性將促使這些建議逐步改善。您可以閱讀我們的論文,了解此訓(xùn)練的詳細(xì)信息:
https://arxiv.org/abs/1707.03491
成果
下面展示了我們的系統(tǒng)通過(guò) Google 街景制作的一些照片。正如您所看到的,通過(guò)應(yīng)用經(jīng)過(guò)訓(xùn)練的美學(xué)濾鏡產(chǎn)生了一些戲劇性效果(包括本文開(kāi)頭所使用的圖片!)
▲ 加拿大賈斯珀國(guó)家公園
▲ 瑞士因特拉肯
▲ 意大利 Park Parco delle Orobie Bergamasche。
▲ 加拿大賈斯珀國(guó)家公園
專業(yè)評(píng)估
為了判斷我們的算法有多么成功,我們?cè)O(shè)計(jì)了一個(gè)類似“圖靈測(cè)試”的實(shí)驗(yàn):我們將我們制作的照片與其他不同品質(zhì)的照片混在一起,并將它們展示給多位專業(yè)攝影師。要求這些攝影師為每張照片的品質(zhì)打分,評(píng)分標(biāo)準(zhǔn)如下:
- 隨手一拍的照片,根本不考慮構(gòu)圖和光線等。
- 沒(méi)有攝影背景的普通大眾拍攝的好照片。沒(méi)有突出的藝術(shù)特色。
- 半專業(yè)水準(zhǔn)。有明顯藝術(shù)性的優(yōu)秀照片。拍照者正朝著專業(yè)攝影師發(fā)展。
- 專業(yè)水準(zhǔn)。
下圖中,每條曲線分別顯示了專業(yè)攝影師給預(yù)測(cè)分?jǐn)?shù)在特定范圍內(nèi)的照片的評(píng)分。對(duì)于我們制作的預(yù)測(cè)分?jǐn)?shù)很高的照片,約有 40% 的照片獲得的評(píng)分在“半專業(yè)水準(zhǔn)”到“專業(yè)水準(zhǔn)”之間。
▲ 專業(yè)攝影師為具有不同預(yù)測(cè)分?jǐn)?shù)的照片給出的評(píng)分
未來(lái)工作
街景全景照片可作為我們項(xiàng)目的測(cè)試平臺(tái)。將來(lái),這種技術(shù)甚至能夠幫助您在現(xiàn)實(shí)世界里拍出更好的照片。我們編譯了一個(gè)照片展示平臺(tái),用以展示令我們滿意的照片:
https://google.github.io/creatism
如果您看到您喜歡的照片,您點(diǎn)擊它即可顯示附近街景的全景照片。假如您當(dāng)時(shí)就在那里舉著相機(jī),您能拍出相同水準(zhǔn)的照片嗎?
致謝
這項(xiàng)工作由 Google Research 的機(jī)器感知工程師 Hui Fang 和 Meng Zhang 合作完成。我們?cè)诖烁兄x Vahid Kazemi,感謝他前期在使用 Inception 網(wǎng)絡(luò)預(yù)測(cè) AVA 分?jǐn)?shù)方面的工作,也感謝 Sagarika Chalasani、Nick Beato、Bryan Klingner 和 Rupert Breheny,感謝他們?cè)谔幚?Google 街景全景照片方面給予的幫助。同時(shí)我們要感謝 Peyman Milanfar、Tomas Izo、Christian Szegedy、Jon Barron 和 Sergey Ioffe,感謝他們建設(shè)性的評(píng)價(jià)和評(píng)論。最后我們?nèi)f分感謝匿名的專業(yè)攝影師們,感謝他們的無(wú)私奉獻(xiàn)!
【本文是51CTO專欄機(jī)構(gòu)“谷歌開(kāi)發(fā)者”的原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者(微信公眾號(hào):Google_Developers)】