自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

新聞 人工智能
一種新的神經(jīng)風(fēng)格畫筆能夠生成矢量形式的繪畫作品,在統(tǒng)一框架下支持油畫、馬克筆、水彩畫等多種筆觸,并可進(jìn)一步風(fēng)格化。

在 CVPR 2021 的一篇論文中,來自網(wǎng)易伏羲和密歇根大學(xué)的研究者提出了一種圖像到繪畫的轉(zhuǎn)換方法,可以生成生動(dòng)逼真且風(fēng)格可控的畫作。目前該方法的實(shí)現(xiàn)代碼已開源。

論文地址:
https://arxiv.org/abs/2011.08114

Github 地址:
https://github.com/jiupinjia/stylized-neural-painting

不同于此前風(fēng)格遷移方法在逐像素預(yù)測框架下生成繪畫,該方法在矢量空間下生成具有物理意義的序列畫筆參數(shù),且該參數(shù)可以進(jìn)一步用于渲染。由于畫筆本身是不可微的,該研究設(shè)計(jì)了一種新的神經(jīng)渲染器,以模擬畫筆的行為,并將畫筆預(yù)測問題轉(zhuǎn)化成參數(shù)空間內(nèi)的搜索問題,從而最大化渲染輸出和輸入圖像之間的相似度。該研究揭示了搜索過程中的零梯度問題并提出從最優(yōu)搬運(yùn)的角度解決這一問題。

此外,該研究還揭示了此前神經(jīng)渲染器存在參數(shù)耦合的問題,并重新設(shè)計(jì)了渲染網(wǎng)絡(luò)。新的網(wǎng)絡(luò)包含一個(gè)柵格化網(wǎng)絡(luò)和一個(gè)著色網(wǎng)絡(luò),能夠更好地對(duì)形狀和顏色解耦合。實(shí)驗(yàn)表明該研究提出的方法在全局和局部紋理層面上具有更高的真實(shí)度。另外,該方法還可以在神經(jīng)風(fēng)格遷移框架下聯(lián)合優(yōu)化以進(jìn)一步遷移其他畫作的視覺效果。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 1:該研究提出了一種基于畫筆渲染的方法,可以生成逼真的繪畫作品。圖中畫作是在矢量格式下生成的,還可以進(jìn)一步優(yōu)化渲染成不同的風(fēng)格。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

生成一幅向日葵畫作。

該研究的主要貢獻(xiàn)包括:

提出一種全新的基于畫筆的圖像到繪畫轉(zhuǎn)換方法,將畫筆預(yù)測問題轉(zhuǎn)化為參數(shù)搜索問題來求解。該方法還可以進(jìn)一步在神經(jīng)風(fēng)格遷移框架下聯(lián)合優(yōu)化以實(shí)現(xiàn)風(fēng)格化效果。

揭示了參數(shù)搜索中存在的零梯度問題,并從最優(yōu)搬運(yùn)視角來看待畫筆優(yōu)化問題。該研究引入了可微的搬運(yùn)損失函數(shù)改善畫筆收斂性和繪畫效果。

設(shè)計(jì)了一種新的神經(jīng)渲染框架,該框架包含雙通道的渲染管線(柵格化 + 著色)。新的渲染器可以更好地處理畫筆形狀和顏色的解耦合,性能優(yōu)于此前的神經(jīng)渲染器。

神經(jīng)風(fēng)格畫筆

該研究主要由 3 個(gè)功能模塊組成:1)可以根據(jù)輸入畫筆參數(shù)生成畫筆圖像的神經(jīng)渲染器;2)可以將多個(gè)畫筆組合在一起的可微畫筆混合器;3)用于度量輸入輸出圖像相似度的模塊。

神經(jīng)風(fēng)格畫筆解決了藝術(shù)繪畫參數(shù)化的問題。對(duì)于給定的一張空白畫布 h_0,該方法逐步地將畫筆疊加到該畫布上。例如在第 t 步時(shí),一個(gè)訓(xùn)練好的神經(jīng)渲染器G會(huì)將一組畫筆參數(shù)X_t 渲染成前景圖像 s_t 和對(duì)應(yīng)的透明度遮罩,然后該方法利用軟混合(soft blending)的方式將當(dāng)前畫布、新增畫筆、對(duì)應(yīng)遮罩進(jìn)行疊加并保證整個(gè)過程是可微的:

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

其中。最終該方法將全部T步的畫筆參數(shù)收集在一起,并在自監(jiān)督方式下搜索畫筆參數(shù)的最優(yōu)解,即最終渲染輸出 h_T 需要與輸入圖像盡可能相似:

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

其中表示從畫筆參數(shù)到渲染畫布的遞歸映射。表示所有T步的畫筆參數(shù)集合。

假定是用于度量畫 h_T 和輸入圖像相似度的損失函數(shù),該方法直接在參數(shù)空間內(nèi)優(yōu)化所有的輸入畫筆并最小化相似度損失函數(shù),并利用梯度下降來更新畫筆參數(shù):

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

其中是預(yù)定義的學(xué)習(xí)率。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 2:該研究從一張空白畫布開始,逐個(gè)對(duì)畫筆進(jìn)行渲染,并利用軟混合的方式將畫筆疊加起來。該方法利用梯度下降法來尋找最優(yōu)的畫筆參數(shù)集合,從而使生成的畫作與輸入圖像盡可能相似。圖中黑色箭頭表示前向傳播,紅色箭頭表示梯度反向傳播。

神經(jīng)渲染器

神經(jīng)風(fēng)格畫筆中的核心模塊是神經(jīng)渲染器。以往的神經(jīng)渲染器只能夠在比較簡單渲染場景中工作,但當(dāng)遇到如過渡色和畫筆紋理等更復(fù)雜的渲染場景時(shí),上述渲染器將難以很好地表達(dá)耦合在一起的畫筆形狀和顏色。該研究借鑒了傳統(tǒng)的渲染管線并設(shè)計(jì)了一個(gè)雙通道的神經(jīng)渲染器,該渲染器可以很好地解決顏色 / 形狀 / 材質(zhì)的耦合問題。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 3:該研究設(shè)計(jì)了一種雙通道神經(jīng)渲染器,該渲染器由一個(gè)著色網(wǎng)絡(luò) G_s 和一個(gè)柵格化網(wǎng)絡(luò) G_r 組成,它能夠?qū)⑤斎氲漠嫻P參數(shù)集合渲染成柵格化的前景圖像和對(duì)應(yīng)的透明度遮罩。

新的神經(jīng)渲染器由兩個(gè)子網(wǎng)絡(luò)組成:一個(gè)著色網(wǎng)絡(luò)G_s和一個(gè)柵格化網(wǎng)絡(luò) G_r,輸入的畫筆參數(shù)X則被分成了三組:顏色、形狀和透明度。著色網(wǎng)絡(luò) G_s由一組堆疊的轉(zhuǎn)置卷積層(transposed convolution layer)構(gòu)成,用來將輸入的顏色和形狀參數(shù)生成具有可靠前景顏色的畫筆。柵格化網(wǎng)絡(luò) G_r被設(shè)計(jì)為位置編碼器 + 像素解碼器的形式,它忽略了顏色信息但因此能夠生成具有銳利邊緣的畫筆輪廓。最終,畫筆前景圖像 s 可以根據(jù)輪廓圖像對(duì)顏色圖像進(jìn)行掩膜得到,而透明度遮罩則可以利用輸入的透明度對(duì)輪廓圖像進(jìn)行縮放得到。

該研究利用標(biāo)準(zhǔn)的逐像素回歸損失函數(shù)對(duì)上述渲染器進(jìn)行訓(xùn)練:

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

其中和表示利用圖形引擎渲染出的前景圖像和透明度遮罩真值。表示從畫筆參數(shù)空間中隨機(jī)采樣得到的畫筆參數(shù)。

像素相似度和零梯度問題

神經(jīng)風(fēng)格畫筆作畫的關(guān)鍵在于相似度的定義,例如逐像素的和損失函數(shù)就可以直接用于定義渲染結(jié)果和輸入圖像之間的相似度。然而神經(jīng)風(fēng)格畫筆并非是僅在像素空間中進(jìn)行優(yōu)化,而是需要進(jìn)一步優(yōu)化畫筆參數(shù),此時(shí)逐像素?fù)p失函數(shù)并非總是能夠保證梯度的有效下降。特別是當(dāng)渲染的畫筆和其真值不重疊時(shí),就會(huì)造成零梯度問題。該研究進(jìn)一步引入了最優(yōu)搬運(yùn)損失函數(shù)來解決該問題,如圖 4 和圖 5 所示。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 4:一個(gè)簡單的實(shí)例可以解釋為什么逐像素?fù)p失函數(shù)在畫筆參數(shù)優(yōu)化時(shí)可能存在零梯度問題()。

如圖 4(a)所示,當(dāng)沿著方向移動(dòng)一個(gè)正方形畫筆A到目標(biāo)B時(shí),它的逐像素梯度始終為一個(gè)常數(shù),特別是當(dāng)AB沒有交集時(shí),就會(huì)出現(xiàn)零梯度的情況,如圖 4(b)所示。作為對(duì)比,如圖 4(c)所示,該研究提出的最優(yōu)搬運(yùn)損失函數(shù)不存在上述問題,且可以很好地描述AB之間的物理距離。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 5:逐像素?fù)p失函數(shù)(第一行)和最優(yōu)搬運(yùn)損失函數(shù)(第二行)在將畫筆從其初始值推向目標(biāo)位置的對(duì)比。

利用最優(yōu)搬運(yùn)損失函數(shù),畫筆可以很好地收斂到目標(biāo)位置,而逐像素?fù)p失函數(shù)則由于零梯度問題未能收斂。

最優(yōu)搬運(yùn)損失函數(shù)

該研究定義最小搬運(yùn)功(即 Wasserstein distance)作為畫布和輸入圖像間的相似度度量。對(duì)于給定的畫布 h和輸入圖像,它們的歸一化像素值和被定義為概率邊際函數(shù)。表示聯(lián)合概率矩陣,其中第(i,j)個(gè)元素表示 h 中的第 i 個(gè)像素和中的第 j 個(gè)像素的聯(lián)合概率,n 表示圖像中的像素?cái)?shù)目。D表示成本矩陣,其第(i,j)個(gè)元素表示 h 中的第 i 個(gè)像素和中的第 j 個(gè)像素之間的歐氏距離。因此矩陣D列出了從 h 中的一個(gè)位置到中的另一個(gè)位置移動(dòng)單位質(zhì)量所需要消耗的人力成本。在離散的情況下,經(jīng)典的最優(yōu)搬運(yùn)距離可以寫成一個(gè)線性優(yōu)化問題,其中

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

在該研究中,研究者提供了一個(gè)經(jīng)典最優(yōu)搬運(yùn)距離的平滑版本,即著名的 Sinkhorn distance。該距離具有良好的數(shù)學(xué)性質(zhì),并且相比于原始的版本能夠大幅度降低計(jì)算成本。通過引入拉格朗日乘子和額外的熵約束,上述優(yōu)化問題可以進(jìn)一步寫為如下形式:

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫
有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

基于上述形式,最優(yōu)搬運(yùn)損失函數(shù)可以輕易地整合進(jìn)參數(shù)搜索流程并且和其他損失函數(shù)聯(lián)合優(yōu)化。因此,神經(jīng)風(fēng)格畫筆的總相似度損失函數(shù)定義如下:

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

其中用于平衡兩個(gè)目標(biāo)函數(shù)。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 7:上圖展示了逐畫筆的繪畫結(jié)果,其中第一行基于馬克筆生成,第二行基于油畫筆生成。右側(cè)圖像展示了優(yōu)化過程中的損失函數(shù)曲線。

與神經(jīng)風(fēng)格遷移聯(lián)合優(yōu)化

由于神經(jīng)風(fēng)格畫筆是在參數(shù)搜索范式下實(shí)現(xiàn)的,因此該方法天然地適合神經(jīng)風(fēng)格遷移框架。由于神經(jīng)風(fēng)格遷移被設(shè)計(jì)為通過更新圖像像素來最小化內(nèi)容損失函數(shù)(content loss)和風(fēng)格損失函數(shù)(style loss),因此研究者進(jìn)一步將風(fēng)格損失函數(shù)融入神經(jīng)風(fēng)格畫筆中,以實(shí)現(xiàn)風(fēng)格化的輸出。擴(kuò)展后的相似度度量函數(shù)可以定義為如下形式:

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

其中為相似度損失函數(shù),該研究中采用與 Gatys 等人相同的形式,即計(jì)算基于 VGG-19 所提取特征的 Gram 矩陣。

實(shí)驗(yàn)

風(fēng)格化繪畫生成實(shí)驗(yàn)

得益于聯(lián)合損失函數(shù)的設(shè)計(jì),神經(jīng)風(fēng)格畫筆不僅可以生成逼真的藝術(shù)畫作,還可以生成風(fēng)格化的渲染結(jié)果。此外,由于畫筆參數(shù)具有明確的物理意義,因此在風(fēng)格化輸出時(shí)還可以進(jìn)一步控制風(fēng)格化的范圍(顏色 or 材質(zhì))。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 8:(a)—(c) 中展示了神經(jīng)風(fēng)格畫筆的繪畫結(jié)果。(d)中展示了高度抽象的卡通人物畫像。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 9:基于神經(jīng)風(fēng)格畫筆的風(fēng)格遷移結(jié)果。

對(duì)比實(shí)驗(yàn)

此前的繪畫參數(shù)化方法主要依靠增強(qiáng)學(xué)習(xí)來實(shí)現(xiàn),如 “Learning-to-Paint” 算法,而神經(jīng)風(fēng)格畫筆通過引入神經(jīng)渲染器很好地解決了畫筆不可微的問題。因此相比基于 RL 的方法,神經(jīng)風(fēng)格畫筆可以生成更加逼真的結(jié)果。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 10:神經(jīng)風(fēng)格畫筆與 Learning-to-Paint 算法對(duì)比

除了與此前的方法進(jìn)行對(duì)比,研究者還與人工畫作進(jìn)行了比較,同樣取得了較好的生成效果。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 11:藝術(shù)家(Adam Lister)繪畫結(jié)果和自動(dòng)生成的結(jié)果

受控實(shí)驗(yàn)

研究者還分別研究了搬運(yùn)損失函數(shù)和雙通道神經(jīng)渲染器的作用。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 12:使用最優(yōu)搬運(yùn)損失函數(shù)前后的結(jié)果對(duì)比。最優(yōu)搬運(yùn)損失函數(shù)可以有效地恢復(fù)圖像中的更多細(xì)節(jié),特別是當(dāng)畫筆初始化的位置與目標(biāo)區(qū)域不重合的時(shí)候。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 13:不同神經(jīng)渲染器的驗(yàn)證集精度(包括 DCGAN-G,UNet,PxlShuffleNet)。該研究提出的雙通道神經(jīng)渲染器可以有效地提高驗(yàn)證集精度,并加快收斂速度。

有了這支矢量神經(jīng)風(fēng)格畫筆,無需GAN也可生成精美繪畫

圖 14:不同神經(jīng)渲染器渲染的可視化結(jié)果對(duì)比

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-11-02 09:25:00

AI 數(shù)據(jù)人工智能

2016-03-10 20:40:29

2023-09-11 06:51:41

2021-03-22 10:05:03

算法可視化大數(shù)據(jù)

2009-07-06 15:15:15

運(yùn)維管理網(wǎng)管系統(tǒng)摩卡

2012-09-19 14:18:32

素材Web開發(fā)

2019-07-09 08:44:00

DeepfakeGAN人工智能

2021-12-22 10:04:11

模型人工智能3D

2021-07-20 10:16:24

人工智能自然語言技術(shù)

2020-10-23 20:35:15

機(jī)器人

2017-12-04 10:46:23

2025-02-28 10:05:00

AI生成

2022-05-18 18:31:28

機(jī)器人自然語言編程

2014-06-24 09:24:24

密碼身份驗(yàn)證

2019-09-27 14:40:58

戴爾

2021-12-24 10:52:03

微軟操作系統(tǒng)Windows

2023-06-08 14:09:00

研究訓(xùn)練

2011-12-18 18:12:25

蘋果

2021-08-16 10:02:02

AI 數(shù)據(jù)人工智能

2020-05-28 10:45:36

機(jī)器學(xué)習(xí)人工智能 PyTorch
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)