AI:你總要高清視頻,它來了
Magnific 圖像超分 & 增強(qiáng)工具還正在火熱體驗(yàn)中,它強(qiáng)大的圖像升頻與再創(chuàng)能力收獲一致好評(píng)?,F(xiàn)在,視頻領(lǐng)域也有了自己的 Magnific。
拍攝的街道視頻一片模糊,仿佛高度近視沒戴眼鏡一樣:
與之相比,下面的視頻清晰度高了很多:
視頻畫面兩邊形成鮮明的對(duì)比:左邊視頻已經(jīng)模糊的看不清人臉,而右邊視頻建筑物的紋理也看得清清楚楚:
行駛的汽車仿佛從一個(gè)模糊的世界穿越到高清世界:
不同的方法進(jìn)行比較,明顯看到右下角的視頻在微小的細(xì)節(jié)恢復(fù)方面更加清晰:
通過上述展示,我們可以看出,視頻超分辨率(VSR)就像是給模糊的老電影穿上了高清新衣。比如上面展示的一段道路監(jiān)控錄像,由于畫質(zhì)太低,細(xì)節(jié)看起來像是被涂抹過一樣。這時(shí)候就需要 VSR 技術(shù)出場(chǎng)了,它能夠把這些低分辨率的視頻變得更加清晰。
不過,這個(gè)過程并不簡(jiǎn)單。常常因?yàn)閿z像機(jī)晃動(dòng)或拍攝物體的移動(dòng),視頻就像是被風(fēng)吹過的湖面,波紋模糊。這時(shí),我們不僅需要提升視頻的清晰度,還得「擺平」這些模糊的干擾。這就需要視頻超分辨率和去模糊的聯(lián)合修復(fù)(VSRDB),它要在保持視頻清晰度的同時(shí),還得處理模糊,確保最后呈現(xiàn)出來的視頻既清晰又流暢。
為了實(shí)現(xiàn)上述效果,來自韓國科學(xué)技術(shù)院(KAIST)與中央大學(xué)的研究者們提出了 FMA-Net 框架。這個(gè)框架基于流引導(dǎo)的動(dòng)態(tài)濾波(Flow-Guided Dynamic Filtering, FGDF)和迭代特征細(xì)化的多重注意力機(jī)制(Iterative Feature Refinement with Multi-Attention, FRMA),旨在實(shí)現(xiàn)從小到大的運(yùn)動(dòng)表示學(xué)習(xí),并具有良好的聯(lián)合恢復(fù)性能(見圖 1)。FGDF 的關(guān)鍵之處在于執(zhí)行濾波時(shí)要注意運(yùn)動(dòng)軌跡,而不是拘泥于固定位置,這樣就能用較小的核有效處理較大的運(yùn)動(dòng)。
- 論文地址:https://arxiv.org/abs/2401.03707
- 項(xiàng)目主頁:http://kaist-viclab.github.io/fmanet-site/
- 論文標(biāo)題:FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring
方法介紹
該研究的目標(biāo)是同時(shí)實(shí)現(xiàn)視頻超分辨率和去模糊(VSRDB)。對(duì)于一個(gè)模糊的 LR(低分辨率, low-resolution )輸入序列,式中 T = 2N + 1、c 分別表示輸入幀數(shù)和中心幀索引。VSRDB 的目標(biāo)是預(yù)測(cè)一個(gè)清晰的 HR( 高分辨率,high-resolution )中心框架
。如下圖展示了 VSRDB 框架 FMA-Net。
FMA-Net 包括兩部分:退化學(xué)習(xí)網(wǎng)絡(luò) Net^D ;修復(fù)網(wǎng)絡(luò) Net^R 。退化學(xué)習(xí)網(wǎng)絡(luò)用于估計(jì)感知運(yùn)動(dòng)的時(shí)空變化退化核;修復(fù)網(wǎng)絡(luò)利用這些預(yù)測(cè)出的退化核來恢復(fù)模糊的低分辨率視頻。
其中,退化學(xué)習(xí)網(wǎng)絡(luò) Net^D 用來預(yù)測(cè)運(yùn)動(dòng)感知的時(shí)空變化退化,而 Net^R 以全局自適應(yīng)的方式利用 Net^D 預(yù)測(cè)的退化來恢復(fù)中心幀 X_c。
Net^D 和 Net^R 具有相似的結(jié)構(gòu),它們由 FRMA( feature refinement with multiattention )塊和 FGDF( flow-guided dynamic filtering )塊組成。
下圖 4 (a) 顯示了第 (i+1) 步更新時(shí) FRMA 塊的結(jié)構(gòu),圖 4 (b) 為多注意力結(jié)構(gòu)。
下圖 2 展示了 FGDF 概念。FGDF 看起來類似于可變形卷積(DCN),但不同之處在于 FGDF 學(xué)習(xí)的是位置相關(guān)的 n×n 動(dòng)態(tài)濾波器系數(shù),而 DCN 學(xué)習(xí)的是位置不變的 n×n 濾波器系數(shù)。
此外,新提出的多注意力機(jī)制,包括以中心為導(dǎo)向的注意力和退化感知注意力,使得 FMA-Net 能夠?qū)W⒂谀繕?biāo)幀,并以全局適應(yīng)的方式使用退化核進(jìn)行視頻超分辨率和去模糊。
訓(xùn)練策略
該研究采用兩階段的訓(xùn)練策略來訓(xùn)練 FMA-Net。首先對(duì) Net^D 進(jìn)行預(yù)訓(xùn)練,損失 L_D 為:
然后,為了提高性能,本文還提出了 TA 損失,即等式右側(cè)的最后一項(xiàng)。
總的訓(xùn)練損失為:
實(shí)驗(yàn)結(jié)果
表 1 顯示了在測(cè)試集 REDS4 上的定量比較結(jié)果。從表 1 可以看出:
- 級(jí)聯(lián) SR 和去模糊的序列方法會(huì)導(dǎo)致先前模型的錯(cuò)誤傳播,導(dǎo)致性能顯著下降,并且使用兩個(gè)模型還會(huì)增加內(nèi)存和運(yùn)行時(shí)成本;
- 與序列級(jí)聯(lián)方法相比,VSRDB 方法始終表現(xiàn)出優(yōu)越的整體性能,表明這兩個(gè)任務(wù)高度相關(guān);
- FMA-Net 在 PSNR、SSIM 和 tOF 方面顯著優(yōu)于所有 SOTA 方法,具體來說,F(xiàn)MA-Net 比 SOTA 算法 RVRT * 和 BasicVSR++* 分別提高了 1.03 dB 和 1.77 dB。
表 2 為定量比較結(jié)果。當(dāng)對(duì)兩個(gè)測(cè)試集進(jìn)行平均時(shí),F(xiàn)MA-Net 的性能分別比 RVRT * 和 GShiftNet * 提高了 2.08 dB 和 1.93 dB。
下圖為不同方法對(duì) ×4 VSRDB 的可視化比較結(jié)果,表明 FMA-Net 生成的圖像比其他方法生成的圖像在視覺上更清晰。
不同方法在 REDS4、GoPro 和 YouTube 測(cè)試集上的可視化結(jié)果。放大觀看效果最好。
了解更多技術(shù)細(xì)節(jié),請(qǐng)閱讀原文。