Adobe推出超分辨率,細節(jié)豐富視頻模型VideoGigaGAN
視頻超分辨率是計算機視覺領(lǐng)域一個非常有難度的課題,主要是將低分辨率的視頻轉(zhuǎn)換為高分辨率。在轉(zhuǎn)換的過程中,會面臨著兩大難題。
第一個是保持輸出視頻幀在時間上的連貫性,確保幀到幀之間平滑過渡,不出現(xiàn)閃爍或抖動的情況;第二個則是要在放大的視頻幀中重建高頻細節(jié),以提供清晰和逼真的紋理效果。
雖然目前很多超分辨率視頻模型在保持時間連貫性方面取得了顯著進展,但是以犧牲圖像清晰度為代價,整體看起來非常模糊缺乏更加生動的細節(jié)和紋理。
因此,全球多媒體巨頭Adobe和馬里蘭大學的研究人員推出了VideoGigaGAN,這是一個兼顧幀率連貫性和豐富細節(jié)的超分辨率視頻模型。
論文地址:https://arxiv.org/abs/2404.12388
VideoGigaGAN是基于Adobe、卡內(nèi)基梅隆大學和浦項科技大學之前推出的,大規(guī)模圖像超分辨率模型GigaGAN的基礎之上開發(fā)而成。GigaGAN經(jīng)過數(shù)十億張圖像的訓練,能夠在8倍放大的情況下,依然生成逼真細膩的高分辨率圖像。
但直接將GigaGAN應用在每個低分辨率視頻幀,會導致嚴重的時間抖動和混疊偽影。為了解決這個問題,研究人員對GigaGAN模型進行了創(chuàng)新。
通過添加時序卷積和自注意力層,將GigaGAN從2D圖像模型擴展為3D視頻模型,同時引入了光流引導模塊,更好地對齊不同幀的特征,提高視頻的時間一致性和細節(jié)豐富性。
時序卷積和自注意力層
時序卷積是一種用于處理時間序列數(shù)據(jù)的卷積操作,主要用于提取時間序列數(shù)據(jù)中的特征。
在視頻超分辨率的上下文中,時序卷積模塊使模型能夠捕捉視頻幀之間的時間依賴性,從而提高超分辨率視頻的時間一致性。
與傳統(tǒng)的空間卷積不同的是,時序卷積考慮了時間維度的關(guān)系,并在卷積過程中引入時間上的權(quán)重。這樣可以使得生成的每一幀都受到相鄰幀的影響,從而保持了視頻序列的時序一致性。
在VideoGigaGAN模型中,時序卷積層被放置在解碼器塊中,緊隨空間自注意力層之后。
這種設計允許模型首先在空間維度上提煉特征,然后在時間維度上進一步加工這些特征。通過這種方式,使模型能夠更好地理解視頻中的時間動態(tài),例如,運動、變形、切換場景等。
為了更好地捕獲視頻的細節(jié)、紋理以及重建超分辨率,VideoGigaGAN使用了自注意力層與時序卷積一起協(xié)同工作。
在解碼器塊的空間自注意力層中,會計算每個空間位置對當前位置的影響,從而捕捉空間上的細節(jié)和紋理信息。然后在時間自注意力層中,計算序列中每個時間步對當前時間步的影響,進一步增強時間的一致性。
光流引導
光流是描述圖像中物體運動的向量場,可以捕捉和預測視頻幀之間的像素級運動,是計算機視覺中用于估計場景動態(tài)信息的重要技術(shù)。光流不僅能夠提供物體運動的信息,還能夠揭示場景的3D結(jié)構(gòu)。
VideoGigaGAN會先使用一個光流估計器來預測,輸入低分辨率視頻的雙向光流圖。這些光流圖描述了視頻幀中每個像素點的運動向量。
然后通過一個雙向循環(huán)神經(jīng)網(wǎng)絡來處理光流圖和原始幀像素,學習時間感知的特征,并能夠處理長序列數(shù)據(jù),捕捉長期依賴關(guān)系。
最后,通過一個反向變形層,將學習到的特征根據(jù)預先計算的光流顯式地變形。這一流程確保了在超分辨率過程中,即使在物體快速運動的情況下,也能夠保持特征的空間一致性。
在光流引導的幫助下,使得VideoGigaGAN模型能夠更準確地估計物體的運動軌跡,并在超分辨率過程中保留更多的高頻細節(jié),從而生成清晰的超分辨率視頻。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
