自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華人團(tuán)隊(duì)用Transformer做風(fēng)格遷移,速度快、可試玩,網(wǎng)友卻不買賬

新聞
利用神經(jīng)網(wǎng)絡(luò)進(jìn)行風(fēng)格遷移是一項(xiàng)非常常見(jiàn)的任務(wù),方法也很多,比如基于優(yōu)化和基于 RL 的方法。最近,來(lái)自百度 VIS 團(tuán)隊(duì)的研究者提出了一種基于 Transformer 的風(fēng)格遷移框架,速度快于基線方法,實(shí)現(xiàn)效果也不錯(cuò)。然而,研究遭到了網(wǎng)友的質(zhì)疑,這是為什么呢?

在圖像渲染領(lǐng)域,神經(jīng)繪畫(Neural painting)指的是為一張給定圖像生成一系列筆畫(stroke),并借助神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行非真實(shí)性重建。如下圖第一行每張圖像的左下角為真實(shí)圖像,以及重建后的非真實(shí)圖像;第二行為漸進(jìn)的繪畫過(guò)程。

[[424987]]

對(duì)于神經(jīng)繪畫任務(wù),雖然基于強(qiáng)化學(xué)習(xí)(RL)的智能體可以一步步地生成筆畫序列,但訓(xùn)練一個(gè)穩(wěn)健的 RL 智能體并不容易。另一方面,筆畫優(yōu)化方法在一個(gè)大的搜索空間中迭代地搜索一系列筆畫參數(shù)。因此,這種低效率的搜索方法極大地限制了基于 RL 方法的泛化性和實(shí)用性。

上個(gè)月,在一篇 ICCV 2021 Oral 論文中,來(lái)自百度 VIS 團(tuán)隊(duì)和羅格斯大學(xué)等機(jī)構(gòu)的研究者將神經(jīng)繪畫視作一個(gè)集合預(yù)測(cè)問(wèn)題,提出了全新的、基于 Transformer 的框架——Paint Transformer,從而利用前饋網(wǎng)絡(luò)來(lái)預(yù)測(cè)筆畫集合的參數(shù)。就其效果而言,研究者提出的模型可以并行地生成一系列筆畫,并幾乎能夠?qū)崟r(shí)地得到尺寸為 512×512 的重建繪畫。

更重要的是,由于訓(xùn)練 Paint Transformer 沒(méi)有可用的數(shù)據(jù)集,研究者設(shè)計(jì)了一個(gè)自訓(xùn)練的 pipeline,這樣既可以在不使用任何現(xiàn)成數(shù)據(jù)集的情況下訓(xùn)練,又依然能夠?qū)崿F(xiàn)極好的泛化能力。實(shí)驗(yàn)結(jié)果表明,Paint Transformer 在訓(xùn)練和推理成本更低的情況下,實(shí)現(xiàn)了較以往方法更好的性能。

  • 論文地址: https:// arxiv.org/pdf/2108.0379 8.pdf
  • 項(xiàng)目地址: https:// github.com/wzmsltw/Pain tTransformer

研究者在 Hugging Face 上提供了一個(gè)試玩界面,用戶只需上傳圖像即可生成動(dòng)態(tài)重建過(guò)程和重建后的繪畫。小編也嘗試上傳了一張圖像,生成效果如下所示:

原圖與重建后的繪畫。

動(dòng)態(tài)重建過(guò)程如下:

試玩地址: https:// huggingface.co/spaces/a khaliq/PaintTransformer

不過(guò),雖然 Paint Transformer 的效果不錯(cuò),但一些 reddit 網(wǎng)友似乎并不買賬。有人認(rèn)為,「這么簡(jiǎn)單的任務(wù)根本不需要使用機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)來(lái)解決?!?/p>

更有網(wǎng)友表示,「我曾使用 Processing,僅用 50 行 Scala 代碼就實(shí)現(xiàn)了類似的結(jié)果?!?/p>

方法

研究者將神經(jīng)繪畫視作一個(gè)漸進(jìn)的筆畫預(yù)測(cè)過(guò)程。在每一步并行地預(yù)測(cè)多個(gè)筆畫,以前饋的方式最小化當(dāng)前畫布和目標(biāo)圖像之間的差異。就其結(jié)構(gòu)而言,Paint Transformer 由兩個(gè)模塊組成,分別是筆畫預(yù)測(cè)器(Stroke Predictor)和筆畫渲染器(Stroke Renderer)。

圖 2Paint Transformer 的自訓(xùn)練 pipeline。

如上圖 2 所示,給定一張目標(biāo)圖像 I_t 和中間畫布圖像 I_c,筆畫預(yù)測(cè)器生成一系列參數(shù)以確定當(dāng)前筆畫集合 S_r。接著,筆畫渲染器在 S_r 中為每個(gè)筆畫生成筆畫圖像,并將它們畫在畫布 I_c 上,從而生成結(jié)果圖像 I_r。這一過(guò)程可以用以下公式(1)來(lái)描述:

在 Paint Transformer 中,只有筆畫預(yù)測(cè)器包含可訓(xùn)練的參數(shù),而筆畫渲染器是無(wú)參數(shù)和可微的模塊。為了訓(xùn)練筆畫預(yù)測(cè)器,研究者提出了一個(gè)利用隨機(jī)合成筆畫的自訓(xùn)練 pipeline。

筆畫定義與渲染器

該研究主要考慮了直線筆畫,這種筆畫可以通過(guò)形狀參數(shù)和顏色參數(shù)來(lái)表征。如下圖 3 所示,一個(gè)筆畫的形狀參數(shù)包括:中心點(diǎn)坐標(biāo) X 和 Y,高度 h,寬度 w 和渲染角θ。

筆畫渲染器和參數(shù)定義。

對(duì)于神經(jīng)繪畫任務(wù)而言,可微渲染是基于筆畫參數(shù)合成筆畫圖像并由此實(shí)現(xiàn)筆畫預(yù)測(cè)器端到端訓(xùn)練的一個(gè)重要問(wèn)題。但是,對(duì)于該研究中的特定筆畫定義,研究者沒(méi)有采用神經(jīng)網(wǎng)絡(luò),而是使用了基于筆畫渲染器的幾何變換,從而如預(yù)期一樣不需要訓(xùn)練并且是可微的。筆畫渲染器可以用以下公式(3)來(lái)描述:

筆畫預(yù)測(cè)器

筆畫預(yù)測(cè)器的目標(biāo)是為了預(yù)測(cè)一系列「cover 中間畫布圖像和目標(biāo)圖像之間差異」的筆畫。此外,為了達(dá)到可以模擬真實(shí)繪畫過(guò)程的抽象程度,研究者希望筆畫預(yù)測(cè)器在預(yù)測(cè)很少筆畫的同時(shí),依然可以 cover 大部分的差異區(qū)域。

為了實(shí)現(xiàn)這一目標(biāo),他們?cè)?DETR 的啟發(fā)下,提出了一個(gè)基于 Transformer 的預(yù)測(cè)器。該預(yù)測(cè)器輸入 I_c 和 I_t,生成一個(gè)筆畫集合,可以用以下公式(5)來(lái)描述:

如下圖 4 所示,筆畫預(yù)測(cè)器以 I_c 和 I_t ∈ R^3×P ×P 作為輸入,首先采用兩個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取它們的特征映射 F_c 和 F_t ∈ R^C×P/4×P/4。

損失函數(shù)

研究者介紹了像素?fù)p失、筆畫之間差異的測(cè)量以及筆畫損失。

首先是像素?fù)p失。神經(jīng)繪畫的一個(gè)直觀目標(biāo)是重新創(chuàng)建目標(biāo)圖像。因此,I_r 和 I_t 之間的像素?fù)p失 L_pixel 在圖像級(jí)別受到懲罰:

然后是筆畫損失。訓(xùn)練期間,有效真值筆畫的數(shù)量是變化的。因此,按照 DETR,在預(yù)定義最大筆畫數(shù) N 的情況下,研究者首先需要在 N 筆畫的預(yù)測(cè)集 ¯S_r 和真值集 S_g 之間生成匹配機(jī)制以計(jì)算損失。

推理

為了模仿人類畫家,研究者設(shè)計(jì)了一種從粗到精(coarse-to-fine)的算法,在推理過(guò)程中生成繪畫結(jié)果。Paint Transformer 的推理算法如下所示:

實(shí)驗(yàn)

定性比較。如下圖 5 所示,研究者將 Paint Transformer 分別與基于優(yōu)化和基于強(qiáng)化學(xué)習(xí)的 SOTA 筆畫繪畫生成方法進(jìn)行了比較。其中,相較于基于優(yōu)化的方法,Paint Transformer 可以生成渲染力更強(qiáng)、更清晰的結(jié)果。不過(guò),Paint Transformer 的生成效果明顯不如基于強(qiáng)化學(xué)習(xí)的方法。

定量比較。如下表 1 所示,定量比較的結(jié)果與定性比較保持一致。借助生動(dòng)的畫筆紋理,Paint Transformer 能夠較基于優(yōu)化的方法更好地表征原始內(nèi)容。Zhewei Huang 等人論文《 Learning to paint with model-based deep reinforcement learning 》中提出的方法實(shí)現(xiàn)了最佳內(nèi)容保真度,但在抽象處理上較弱。

數(shù)值結(jié)果表明,Paint Transformer 可以成功地預(yù)測(cè)筆畫,并優(yōu)于其他方法。

效率比較。如下表 2 所示,研究者在一個(gè)英偉達(dá) 2080Ti 上評(píng)估了訓(xùn)練與推理時(shí)間。在推理期間,Paint Transformer 以前饋的方式并行地生成一系列筆畫,因而運(yùn)行速度明顯快于優(yōu)化基線方法,也略快于強(qiáng)化學(xué)習(xí)基線方法;對(duì)于訓(xùn)練而言,研究者僅需要幾個(gè)小時(shí)就可以訓(xùn)練一個(gè)筆畫預(yù)測(cè)器,從總訓(xùn)練時(shí)長(zhǎng)方面比基于優(yōu)化和強(qiáng)化學(xué)習(xí)的方法更方便。并且,無(wú)模型筆畫渲染器和無(wú)數(shù)據(jù)筆畫預(yù)測(cè)器可以高效和方便地使用。

消融實(shí)驗(yàn)結(jié)果如下圖 6 所示:

風(fēng)格化繪畫。Paint Transformer 可以方便地與藝術(shù)風(fēng)格遷移方法融合,從而生成更吸引人和風(fēng)格化的繪畫。研究者使用 LapStyle 和 AdaAttN 等現(xiàn)有風(fēng)格遷移方法,在風(fēng)格化內(nèi)容圖像上生成自然的繪畫。如下圖 8 所示,借助這種富有想象力的方式,研究者生成了具有豐富顏色和紋理的風(fēng)格化繪畫。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-02-29 13:08:50

2023-06-25 12:46:24

GPT-4人工智能

2013-08-19 09:12:07

云價(jià)格戰(zhàn)基礎(chǔ)架構(gòu)即服務(wù)IaaS

2023-07-16 23:04:10

GPT-4OpenAIMOE

2023-07-04 10:18:25

開源模型

2010-11-05 09:48:28

ZendCon 201PHP云計(jì)算

2014-09-05 11:03:42

智能家居

2013-05-23 10:50:12

Windows 8Modern應(yīng)用

2021-07-27 23:00:11

微信設(shè)備功能

2019-09-04 10:00:07

手機(jī)人臉識(shí)別

2009-03-27 09:51:21

百度貼吧改版

2009-03-27 13:42:39

2023-09-11 08:27:21

Windows微軟

2022-12-15 18:20:46

ClickHouse存儲(chǔ)引擎

2021-08-18 15:48:03

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2017-11-13 12:18:09

創(chuàng)可帖縫針繃帶

2024-10-30 09:42:43

固態(tài)硬盤SSD閃存

2015-11-10 10:57:18

流量不清零運(yùn)營(yíng)商

2022-05-30 10:42:14

模型谷歌數(shù)據(jù)

2018-09-18 14:43:30

HBase查詢數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)