自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

兩張照片就能轉(zhuǎn)視頻!Google提出FLIM幀插值模型

人工智能 新聞
傳統(tǒng)的幀插值通常都是在兩張極其相似之間生成圖像。最近Google提出的FLIM模型能夠?qū)幼髯兓容^大的兩張照片進(jìn)行幀插值來生成視頻:首次引入Gram損失,不僅銳度提升,細(xì)節(jié)也拉滿!

幀插值(Frame Interpolation)是計算機視覺領(lǐng)域的一項關(guān)鍵任務(wù),模型需要根據(jù)給定的兩個幀,來預(yù)測、合成平滑的中間圖像,在現(xiàn)實世界中也有極大的應(yīng)用價值。

  

常見的幀插值應(yīng)用場景就是對提升一些幀率不夠的視頻,一些設(shè)備都配有專門的硬件對輸入視頻的幀率進(jìn)行采樣,使得低幀率的視頻也可以在高幀率顯示上進(jìn)行流暢地播放,不用「眨眼補幀」了。

隨著深度學(xué)習(xí)模型越來越強大,幀插值技術(shù)可以從正常幀率的錄像中合成慢動作視頻,也就是合成更多的中間圖像。 

在智能手機不斷普及的情況下,數(shù)字?jǐn)z影對幀插值技術(shù)也有了新需求。

正常情況下,我們拍照片通常都是在幾秒鐘之內(nèi)連續(xù)拍下幾張照片,然后再從這些照片中選出更好的「照騙」。

這類圖片有一個特點:場景基本重復(fù),主體人物只有少量的動作、表情變化。

如果在這類圖片下進(jìn)行幀插值就會產(chǎn)生一個神奇的效果:照片動了起來,變成了視頻!通常情況下視頻都要比照片更加有代入感和時刻感。 

是不是有種「實況照片」的感覺。

  

但幀插值的一個主要問題就是沒辦法有效地處理大型場景的運動。 

傳統(tǒng)的幀插值都是對幀率進(jìn)行上采樣,基本上就是對近乎重復(fù)的照片進(jìn)行插值,如果兩張圖片的時間間隔超過了1秒,甚至更多,那就需要幀插值模型能夠了解物體的運動規(guī)律,也是目前幀插值模型的主要研究內(nèi)容。

  

最近,Google Research團(tuán)隊提出了一個新的幀插值模型FLIM,能夠?qū)\動差別比較大的兩張圖片進(jìn)行幀插值。 

 

之前的幀插值模型往往很復(fù)雜,需要多個網(wǎng)絡(luò)來估計光流(optical flow)或者深度,還需要一個單獨的網(wǎng)絡(luò)專門用于幀合成。而FLIM只需要一個統(tǒng)一網(wǎng)絡(luò),使用多尺度的特征提取器,在所有尺度上共享可訓(xùn)練的權(quán)重,并且可以只需要幀就可以訓(xùn)練,不需要光流或者深度數(shù)據(jù)。 

FLIM的實驗結(jié)果也證明了其優(yōu)于之前的研究成果,能夠合成高質(zhì)量的圖像,并且生成的視頻也更連貫。代碼和預(yù)訓(xùn)練模型都已開源。 

論文地址:https://arxiv.org/pdf/2202.04901代碼地址:https://github.com/google-research/frame-interpolation

模型架構(gòu)

FLIM模型的架構(gòu)中包含三個主要的階段。 

 

1. 尺度無關(guān)的特征抽?。╯cale-agnostic feature extraction) 

FLIM的特征抽取器的主要特點就是在流預(yù)測階段(flow prediction stage)權(quán)重共享,能夠同時在粗粒度和細(xì)粒度的分辨率下得到權(quán)重。 

首先對兩個輸入圖像創(chuàng)建一個圖像金字塔,然后在每層圖像金字塔使用一個共享的UNet編碼器構(gòu)建特征金字塔,并且使用卷積層抽取了4個尺度的特征。 需要注意的是,在同一個深度的金字塔層級上,都使用相同的卷積權(quán)重以創(chuàng)建兼容的多尺度特征(compatible multiscale features)。 

特征提取器的最后一步通過連接不同深度但空間維度相同的特征圖,構(gòu)建了尺度無關(guān)的特征金字塔。最細(xì)粒度的特征只能聚合一個特征圖,次細(xì)粒度是兩個,其余的可以聚合三個共享特征圖。 

2. 運動/流估計(motion/flow estimation) 

提取特征金字塔后,需要用它們來計算每個金字塔的雙向運動,和之前的研究相同,從最粗粒度的一層開始進(jìn)行運動估計。與其他方法不同的是,F(xiàn)LIM從中間幀到輸入,直接預(yù)測面向任務(wù)的流。 

如果按照常規(guī)的訓(xùn)練方法,使用ground truth光流來計算兩個輸入幀之間的光流是無法實現(xiàn)的,因為無法從尚待計算的中間幀預(yù)測光流。但在端到端的幀插值系統(tǒng)中,網(wǎng)絡(luò)實際上已經(jīng)能夠基于輸入幀和對應(yīng)的特征金字塔很好地預(yù)測了。 

所以在每個層級上計算面向任務(wù)的光流就是從更粗的粒度上預(yù)測的殘余和上采樣的流之和。 最后,F(xiàn)LIM在中間時間t創(chuàng)建一個特征金字塔。 

3. 融合:輸出結(jié)果圖像(fusion) 

FILM的最后階段在每個金字塔層級處將時間t處的尺度無關(guān)的特征圖和雙向運動連接起來,然后將其送入UNet-like解碼器以合成最終的中間幀。 

在損失函數(shù)的設(shè)計上,F(xiàn)LIM只使用圖像合成損失(image synthesis losses)來監(jiān)督訓(xùn)練最終的輸出,沒有在中間階段使用輔助的損失項。 

首先使用一個L1重構(gòu)損失,最小化插入幀和標(biāo)準(zhǔn)幀之間像素級RGB的差別。但如果只用L1損失,生成的插入幀通常都是比較模糊的,使用其他相似的損失函數(shù)訓(xùn)練也會產(chǎn)生類似結(jié)果。 

所以FLIM添加了第二個損失函數(shù)感知損失(perceptual loss)來增加圖像的細(xì)節(jié),使用VGG-19高級別特征L1正則表示。由于每層的感受區(qū),感知損失在每個輸出像素周圍的小范圍內(nèi)強制執(zhí)行結(jié)構(gòu)相似性,實驗也證明了感知損失有助于減少各種圖像合成任務(wù)中的模糊偽影(blurry artifacts)。 

 

第三個損失為風(fēng)格損失(Style loss),也稱為Gram矩陣損失,能夠進(jìn)一步擴(kuò)大VGG損失中的優(yōu)勢。

  

FLIM也是第一個將Gram矩陣損失應(yīng)用于幀插值的工作。研究人員發(fā)現(xiàn)這種損失能有效地解決圖像的銳度,以及在不透明的情況下保留圖像細(xì)節(jié),還能夠在具有大運動量的序列中消除干擾。 為了達(dá)到高基準(zhǔn)分?jǐn)?shù)以及高質(zhì)量的中間幀合成,最終的loss同時使用三個損失加權(quán)求和,具體每個loss的權(quán)重由研究人員經(jīng)驗性地設(shè)置。在前150萬輪迭代的權(quán)重為(1, 1, 0),在后150萬輪迭代的權(quán)重為(1, 0.25, 40) ,超參數(shù)通過grid search自動調(diào)參獲得。  

實驗部分

研究人員從指標(biāo)量化和生成質(zhì)量兩方面來評估FLIM網(wǎng)絡(luò)。 使用的數(shù)據(jù)集包括Vimeo-90K , UCF101 和 Middle- bury,以及最近提出的大運動數(shù)據(jù)集 Xiph。

研究人員使用Vimeo-90K作為訓(xùn)練數(shù)據(jù)集。 量化指標(biāo)包括峰值信號噪聲比(PSNR)和結(jié)構(gòu)相似性圖像(SSIM),分?jǐn)?shù)越高代表效果越好。

  

感知-失真權(quán)衡表明,僅靠最小化失真指標(biāo),如PSNR或SSIM,會對感知質(zhì)量產(chǎn)生不利影響。幀插值研究的多重目標(biāo)是實現(xiàn)低失真、高感知質(zhì)量和時間上連貫的視頻。因此,研究人員使用文中提出的基于Gram矩陣損失LS來優(yōu)化模型,對失真和感官質(zhì)量都有好處。 

當(dāng)包括對感知敏感的損失時,F(xiàn)ILM在Vimeo-90K上的表現(xiàn)優(yōu)于最先進(jìn)的SoftSplat。在Middlebury和UCF101上也取得了最高分。 

 

在質(zhì)量的對比上,首先從銳度(Sharpness)來看,為了評估基于Gram矩陣的損失函數(shù)在保持圖像清晰度方面的有效性,將FLIM生成的結(jié)果與用其他方法呈現(xiàn)的圖像進(jìn)行了視覺比較。與其他方法相比,F(xiàn)LIM合成的結(jié)果非常好,面部圖像細(xì)節(jié)清晰,并保留了手指的關(guān)節(jié)。 

 

在幀插值中,大部分的遮擋的像素應(yīng)該在輸入幀中是可見的。一部分像素,取決于運動的復(fù)雜度,可能無法從輸入中獲得。因此,為了有效地掩蓋像素,模型必須學(xué)習(xí)適當(dāng)?shù)倪\動或生成出新的像素。結(jié)果可以看到,與其他方法相比,F(xiàn)ILM 在保持清晰度的同時正確地繪制了像素。它還保留了物體的結(jié)構(gòu),例如紅色玩具車。而SoftSplat則變形了,ABME產(chǎn)生了模糊的畫中畫 。

 

大運動(large motion)是幀插值中最具難的部分之一。為了擴(kuò)大運動搜索范圍,模型通常采用多尺度的方法或密集的特征圖來增加模型的神經(jīng)能力。其他方法通過訓(xùn)練大型運動數(shù)據(jù)集來實現(xiàn)。實驗結(jié)果可以看到,SoftSplat和ABME能夠捕捉到狗鼻子附近的運動,但是它們在地面上產(chǎn)生了很大的偽影。FILM的優(yōu)勢在于能夠很好地捕捉到運動并保持背景細(xì)節(jié)。 


責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-11-24 09:46:50

算法開源視頻

2022-08-16 08:37:09

視頻插幀深度學(xué)習(xí)

2020-05-15 08:37:35

喬布斯 Google照片

2022-01-27 07:40:27

iOS微信朋友圈

2025-01-27 09:32:23

2022-03-02 13:44:10

3D模型數(shù)據(jù)

2021-09-30 11:27:58

模型人工智能神經(jīng)網(wǎng)絡(luò)

2024-03-28 13:14:00

數(shù)據(jù)訓(xùn)練

2022-10-19 14:12:40

AI模型

2023-12-13 13:06:30

2020-01-21 21:20:00

人臉識別人工智能數(shù)據(jù)

2024-03-04 08:15:00

2019-06-23 17:30:07

AI 數(shù)據(jù)人工智能

2013-05-10 09:31:06

程序員

2019-11-21 08:57:31

GPS信息定位

2023-12-03 08:40:18

微軟模型

2025-02-03 12:16:01

視頻生成AI

2013-05-16 15:08:32

GoogleGoogle Play

2023-12-06 12:54:00

AI智能

2024-02-21 12:10:00

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號