視頻PS神器!人物隱身、水印去除,這項(xiàng)登上CVPR的研究剛剛開(kāi)源了
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
讓一個(gè)人的蹤影從視頻中消失,總是一個(gè)難題。
畢竟,你永遠(yuǎn)不知道,錄好的節(jié)目里,哪個(gè)明星藝人會(huì)突然翻車,形象大跌,后期團(tuán)隊(duì)被迫緊急加班,用各種方式掩蓋他們的痕跡。
比如,某衛(wèi)視春晚,強(qiáng)行讓一位背上罵名的主持人消失:
以及某綜藝節(jié)目,把言行不當(dāng)?shù)乃嚾烁某闪丝ㄍㄈ宋铮?/p>
要是有個(gè)AI,能一鍵把這些人物都刪掉,還讓觀眾看不出紕漏就好了。
現(xiàn)在,一項(xiàng)CVPR 2019上的研究,讓這個(gè)需求變成了現(xiàn)實(shí)。
拿美隊(duì)3舉個(gè)例子,機(jī)場(chǎng)大戰(zhàn)中,飛舞的紅色小人就是被標(biāo)記出來(lái)的蜘蛛俠,他正在用蜘蛛絲把蟻人綁起來(lái)。
現(xiàn)在,AI出馬,蜘蛛俠不見(jiàn)了,留下蟻人獨(dú)自被被蜘蛛絲捆綁糾纏,仿佛這些蜘蛛絲擁有了自動(dòng)捆綁功能。
再比如,《瘋狂動(dòng)物城》里的兔兔朱迪,也被用紅色標(biāo)注了。它本來(lái)在冰面上奔跑,爬上冰山,耐不住滑溜溜的冰面,掉進(jìn)了水里。
在AI出手之后,朱迪就免去了爬冰之苦,鏡頭里只有他留在冰面上的影子。
原本人物的位置,被修復(fù)的非常完美,壓根看不出來(lái)曾經(jīng)有只兔兔被摳了出去,就好像電影的動(dòng)畫(huà)團(tuán)隊(duì)把這個(gè)鏡頭重新做了一遍。
看到這樣的效果,不知道上面那兩部節(jié)目的后期會(huì)不會(huì)哭暈:長(zhǎng)期加班搞出來(lái)的效果,別人家的AI就自動(dòng)完成了,而且毫無(wú)違和感,讓人物消失的無(wú)影無(wú)蹤。
另外,估計(jì)拍vlog的視頻播主們也會(huì)開(kāi)心的不行:再也不擔(dān)心網(wǎng)紅打卡地遍地都是人了,直接用AI刪掉多方便!
背后的AI,是名叫光流引導(dǎo) (Flow-Guided) 的視頻修復(fù)算法。它主要來(lái)自商湯港中大聯(lián)合實(shí)驗(yàn)室和商湯南洋理工聯(lián)合實(shí)驗(yàn)室,有周博磊大神參與,中選了CVPR 2019。
GitHub預(yù)告鏈接放出許久之后,這項(xiàng)研究的代碼,剛剛開(kāi)源。
而在放出之前,也已經(jīng)有245位GitHub用戶標(biāo)了星,翹首以待。
那么問(wèn)題來(lái)了,在一片熱鬧的景象里,抹掉一個(gè)劇烈運(yùn)動(dòng)的人物,怎么會(huì)這般輕松自如?
追光者
就像開(kāi)頭提到的那樣,隱身術(shù)是用光流 (Optical Flow) 煉成的。
所謂光流,視覺(jué)上長(zhǎng)這樣:
△ 左邊是遮擋版,右邊是AI補(bǔ)全版
事實(shí)上,它是描述物體運(yùn)動(dòng)情況的一個(gè)概念,James Gibson在1950年就提出了:
指的是空間運(yùn)動(dòng)的物體在觀察平面上,像素運(yùn)動(dòng)的瞬時(shí)速度。觀察者嘛,可以是人類的肉眼,也可以是攝像機(jī)。
在攝像機(jī)拍下的視頻里,幀與幀之間是有時(shí)間順序的,這樣就可以從相鄰兩幀之間算出光流,那就是物體的運(yùn)動(dòng)信息。
學(xué)到這樣的信息,可以用來(lái)做目標(biāo)檢測(cè),也可以用來(lái)修改視頻。
團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)兩步的算法:
第一步,估計(jì)光流。第二步,用光流來(lái)指導(dǎo)修復(fù)。
△ 上為第一步,下為第二步
現(xiàn)在,把這兩步拆解一下。
第一步,光流估計(jì),把視頻上的某個(gè)部分擋住,AI要把這一部分的光流補(bǔ)充完整。
比如,下圖的紅色就是遮擋部分。
團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做DFC-Net的網(wǎng)絡(luò),學(xué)著把不完整的光流補(bǔ)充完整。
而在AI的訓(xùn)練數(shù)據(jù)里,遮擋是隨機(jī)生成的,對(duì)照完整的視頻來(lái)學(xué)習(xí):
左邊是隨機(jī)遮擋;右邊是遮擋之后 (用簡(jiǎn)單填充算法初始化得到) 的光流,等待補(bǔ)全;中間是標(biāo)答。
DFC-Net有三個(gè)子網(wǎng)絡(luò)。第一個(gè)子網(wǎng)絡(luò),負(fù)責(zé)在一個(gè)粗糙尺度上補(bǔ)全光流;把結(jié)果交給第二個(gè)子網(wǎng)絡(luò),細(xì)化一下。再交給第三個(gè)網(wǎng)絡(luò),進(jìn)一步細(xì)化:
這樣,就有了最終的光流補(bǔ)全結(jié)果。
第二步,就該根據(jù)光流來(lái)修復(fù)視頻了。
原理是,某一幀里被遮擋的信息,在其他幀里可能是存在的。根據(jù)光流提供的運(yùn)動(dòng)信息,就可以用其他幀里的已知像素,來(lái)填補(bǔ)當(dāng)前幀的未知像素了。
當(dāng)然,還有一些信息,整段視頻都沒(méi)顯示。這一部分,就要靠傳統(tǒng)圖像修復(fù)網(wǎng)絡(luò)Deepfill來(lái)腦補(bǔ)了。
講完原理,來(lái)全方位觀察一下,算法的功效究竟如何。
完美消失的馬術(shù)選手
新的方法怎樣,要和優(yōu)秀的前輩比一場(chǎng)才知道。
對(duì)手有兩位,一是來(lái)自CVPR 2018的Deepfill,二是Huang et al出品、中選SIGGRAPH 2016的算法。
這是第一題,把馬術(shù)選手和ta的馬,從視頻里面抹掉:
Deepfill (右上) 單靠腦補(bǔ),馬的痕跡十分明顯;Huang et al (左下) 自然了許多,但依然有些灰蒙蒙的殘留;相比之下,新算法修過(guò)的視頻,只留下了地上的影子。
還有第二題,把輪滑妹子面前的水印去掉:
下面是Huang et al前輩的結(jié)果,當(dāng)妹子跳過(guò)水印原本的位置,依然看得出不少灰色的污跡:
而本文主角修復(fù)的結(jié)果,幾乎看不出視頻曾經(jīng)有過(guò)水印:
當(dāng)然,不止是肉眼觀察的結(jié)果,這只新的AI在YouTube-VOS和DAVIS兩大數(shù)據(jù)集上,得分都比前輩更勝一籌:
另外,研究者們還找了30名吃瓜群眾,仔細(xì)測(cè)試人類的觀感。
首先在目標(biāo)移除方面,將近80%的用戶認(rèn)為第一名應(yīng)當(dāng)是這項(xiàng)研究 (藍(lán)色部分) 。
而在背景填充方面,也有近七成用戶認(rèn)為這項(xiàng)研究的填充效果是最好的。
港中大&商湯聯(lián)合出品
研究人員中,有三位來(lái)自港中大商湯聯(lián)合實(shí)驗(yàn)室,一位來(lái)自南洋理工大學(xué)。
一作徐瑞和二作李曉瀟都是港中大商湯聯(lián)合實(shí)驗(yàn)室的博士,李曉瀟曾在分別在2017年和2018年的DAVIS Challenge on Video Object Segmentation贏得了冠軍和亞軍。
第三位作者周博磊目前是港中大信息工程系助理教授,他去年剛從MIT博士畢業(yè),現(xiàn)在h-index就高達(dá)25了,曾獲得MSRA和Facebook的獎(jiǎng)金。
Places2和ADE20K兩個(gè)數(shù)據(jù)集都是他參與的作品,Network Dissection和Class Activation Mapping也是他的代表作品。
最后一位作者呂健勤(Chen Change Loy),博士畢業(yè)于倫敦瑪麗女王大學(xué),現(xiàn)在是南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的副教授,他同時(shí)還是港中大的客座副教授,此前也一直在港中大多媒體實(shí)驗(yàn)室任教。
呂健勤教授帶領(lǐng)團(tuán)隊(duì)進(jìn)行了許多和計(jì)算機(jī)視覺(jué)、圖像處理相關(guān)的研究。近兩年,他還在CVPR 2019、BMVC 2019、ECCV 2018和BMVC 2018幾場(chǎng)頂會(huì)擔(dān)任區(qū)域主席,他也是IJCV雜志副主編。
一個(gè)彩蛋
你看,刻苦練習(xí)之后,身為一只兔子的朱迪,用優(yōu)秀的彈跳能力彌補(bǔ)了身高劣勢(shì),反超隊(duì)友:
但實(shí)力還是可以隱藏的,于是她又把自己融進(jìn)了雪水:
論文:
Deep Flow-Guided Video Inpainting
Rui Xu, Xiaoxiao Li, Bolei Zhou, Chen Change Loy
https://arxiv.org/abs/1905.02884
項(xiàng)目主頁(yè):
https://nbei.github.io/video-inpainting.html
開(kāi)源代碼:
https://github.com/nbei/Deep-Flow-Guided-Video-Inpainting