自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

新聞 人工智能
這是來自布拉格捷克理工大學(xué)和Snap研究所的黑科技——**只需要2個(gè)特定的幀,就能實(shí)時(shí)變換視頻中對象的顏色、風(fēng)格甚至是樣式。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

動(dòng)畫,動(dòng)畫,就是你動(dòng)你的,我我的。

就像下面這張GIF,左邊是張靜態(tài)圖片,隨著畫者一點(diǎn)一點(diǎn)為其勾勒色彩,右邊的動(dòng)圖也在實(shí)時(shí)地變換顏色。

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

這就是來自布拉格捷克理工大學(xué)和Snap研究所的黑科技——**只需要2個(gè)特定的幀,就能實(shí)時(shí)變換視頻中對象的顏色、風(fēng)格甚至是樣式。

當(dāng)然,更厲害的還在后面。

拿一張你的卡通頭像圖片,隨意對其修改,頂著這張頭像,坐在鏡頭前的你,也會(huì)實(shí)時(shí)發(fā)生改變。

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

甚至,你還可以一邊畫自己,一邊欣賞自己慢慢變成動(dòng)畫效果的過程。

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

真可謂是這邊動(dòng)著,那邊著,動(dòng)畫就出來了。

而且整個(gè)過程無需冗長的訓(xùn)練過程,也不需要大規(guī)模訓(xùn)練數(shù)據(jù)集,研究也提交至SIGGRAPH 2020。

那么,這么神奇的效果到底是如何做到的呢?

交互式視頻風(fēng)格化

首先,輸入一個(gè)由 N 幀組成的視頻序列 I。

如下圖所示,對于任何一幀 Ii,可以選擇用蒙版 Mi來劃定風(fēng)格遷移的區(qū)域,或者是對整一幀進(jìn)行風(fēng)格遷移。

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

用戶需要做的是提供風(fēng)格化的關(guān)鍵幀 Sk,其風(fēng)格會(huì)被以在語義上有意義的方式傳遞到整個(gè)視頻序列中。

與此前方法不同的是,這種風(fēng)格遷移是以隨機(jī)順序進(jìn)行的,不需要等待順序靠前的幀先完成風(fēng)格化,也不需要對來自不同關(guān)鍵幀的風(fēng)格化內(nèi)容進(jìn)行顯式合并。

也就是說,該方法實(shí)際上是一種翻譯過濾器,可以快速從幾個(gè)異構(gòu)的手繪示例 Sk 中學(xué)習(xí)風(fēng)格,并將其“翻譯”給視頻序列 I 中的任何一幀。

這個(gè)圖像轉(zhuǎn)換框架基于 U-net 實(shí)現(xiàn)。并且,研究人員采用基于圖像塊(patch-based)的訓(xùn)練方式和抑制視頻閃爍的解決方案,解決了少樣本訓(xùn)練和時(shí)間一致性的問題。

基于圖像塊的訓(xùn)練策略

關(guān)鍵幀是少樣本數(shù)據(jù),為了避免過擬合,研究人員采用了基于圖像塊的訓(xùn)練策略。

從原始關(guān)鍵幀(Ik)中隨機(jī)抽取一組圖像塊(a),在網(wǎng)絡(luò)中生成它們的風(fēng)格化對應(yīng)塊(b)。

然后,計(jì)算這些風(fēng)格化對應(yīng)塊(b)相對于從風(fēng)格化關(guān)鍵幀(Sk)中取樣對應(yīng)圖像塊的損失,并對誤差進(jìn)行反向傳播。

這樣的訓(xùn)練方案不限于任何特定的損失函數(shù)。本項(xiàng)研究中,采用的是L1損失、對抗性損失和VGG損失的組合。

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

超參數(shù)優(yōu)化

解決了過擬合之后,還有一個(gè)問題,就是超參數(shù)的優(yōu)化。不當(dāng)?shù)某瑓?shù)可能會(huì)導(dǎo)致推理質(zhì)量低下。

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

研究人員使用網(wǎng)格搜索法,對超參數(shù)的4維空間進(jìn)行采樣:Wp——訓(xùn)練圖像塊的大?。籒b——一個(gè)batch中圖像塊的數(shù)量;α——學(xué)習(xí)率;Nr——ResNet塊的數(shù)量。

對于每一個(gè)超參數(shù)設(shè)置:(1)執(zhí)行給定時(shí)間訓(xùn)練;(2)對不可見幀進(jìn)行推理;(3)計(jì)算推理出的幀(O4)和真實(shí)值(GT4)之間的損失。

而目標(biāo)就是將這個(gè)損失最小化。

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

提高時(shí)間一致性

訓(xùn)練好了翻譯網(wǎng)絡(luò),就可以在顯卡上實(shí)時(shí)或并行地實(shí)現(xiàn)視頻風(fēng)格遷移了。

不過,研究人員發(fā)現(xiàn)在許多情況下,視頻閃爍仍很明顯。

第一個(gè)原因,是原始視頻中存在時(shí)態(tài)噪聲。為此,研究人員采用了在時(shí)域中運(yùn)行的雙邊濾波器的運(yùn)動(dòng)補(bǔ)償變體。

第二個(gè)原因,是風(fēng)格化內(nèi)容的視覺歧義。解決方法是,提供一個(gè)額外的輸入層,以提高網(wǎng)絡(luò)的判別能力。

該層由一組隨機(jī)2維高斯分布的稀疏集合組成,能幫助網(wǎng)絡(luò)識(shí)別局部上下文,并抑制歧義。

一邊動(dòng),一邊畫,自己就變二次元:實(shí)時(shí)交互式視頻風(fēng)格化

不過,研究人員也提到了該方法的局限性:

當(dāng)出現(xiàn)新的沒有被風(fēng)格化的特征時(shí),該方法通常不能為其生成一致的風(fēng)格化效果。需要提供額外的關(guān)鍵幀來使風(fēng)格化一致。

處理高分辨率(如4K)關(guān)鍵幀比較困難

使用運(yùn)動(dòng)補(bǔ)償?shù)碾p邊濾波器,以及隨機(jī)高斯混合層的創(chuàng)建,需要獲取多個(gè)視頻幀,對計(jì)算資源的要求更高,會(huì)影響實(shí)時(shí)視頻流中實(shí)時(shí)推理的效果。(Demo的實(shí)時(shí)捕獲會(huì)話中,沒有采用提高時(shí)間一致性的處理方法)

研究團(tuán)隊(duì)

[[329288]]

這項(xiàng)研究一作為Ondřej Texler,布拉格捷克理工大學(xué)計(jì)算機(jī)圖形與交互系的三年級博士生。

本科和碩士也均畢業(yè)于此。主要研究興趣是計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)視覺和深度學(xué)習(xí)。

[[329289]]

除了一作之外,我們還發(fā)現(xiàn)一位華人作者——柴蒙磊。博士畢業(yè)于浙江大學(xué),目前為Snap Research創(chuàng)意視覺(Creative Vision)組的資深研究科學(xué)家。

主要從事計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)的研究,主攻人類數(shù)字化、圖像處理、三維重建和基于物理的動(dòng)畫。

傳送門

項(xiàng)目地址:

https://ondrejtexler.github.io/patch-based_training/

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-01-30 21:43:13

理想汽車自動(dòng)駕駛

2018-11-26 12:34:48

2019-06-10 15:58:30

數(shù)據(jù)分析流量采集

2017-12-29 10:04:16

互聯(lián)網(wǎng)

2009-05-12 10:24:16

華為任正非灰色管理

2018-01-11 14:50:30

2022-04-21 18:00:00

Linux斯托曼

2014-10-14 16:10:20

小米印度Google

2013-09-24 10:58:00

編程生活方式

2021-12-15 10:30:27

互聯(lián)網(wǎng)裁員福利

2017-06-15 16:41:44

云計(jì)算公有云混合云

2018-03-30 14:46:41

AI 生態(tài)

2017-02-07 20:54:24

大數(shù)據(jù)

2019-01-29 17:56:38

2011-12-10 19:34:05

webOS

2021-07-27 12:41:16

通信服務(wù)智慧城市沃達(dá)豐

2011-08-30 17:54:12

Doodle Budd

2021-01-31 18:28:13

二次元Python開發(fā)

2013-03-29 10:10:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)