自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華人持續(xù)炸場!8倍于SOTA模型發(fā)布,超分辨率細節(jié)還原度逆天,終于可以看清楚蜘蛛網(wǎng)絲了!網(wǎng)友:質(zhì)量真不錯!電影時長9秒才夠用!

原創(chuàng) 精選
人工智能
目前VSR(視頻超分辨率)領(lǐng)域有兩大難題:一個挑戰(zhàn)是保持輸出幀之間的時間一致性。第二個挑戰(zhàn)是在上采樣幀中生成高頻細節(jié)。這篇論文主要的就是第二個問題。針對這個問題,GAN(生成式對抗網(wǎng)絡(luò))似乎再一次被驗證而來有效性。

撰稿 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

Sora帶火了“視頻一致性”的研究,但單純在時間一致性已經(jīng)不能滿足業(yè)內(nèi)對于高逼真視頻的渴望。這不,華人又出來炸場了! 

近日,一個名為VideoGigaGAN的視頻模型在業(yè)界走紅。超分辨率電影鏡頭,不用等Sora了!

圖片圖片

據(jù)介紹,目前VSR(視頻超分辨率)領(lǐng)域有兩大難題:一個挑戰(zhàn)是保持輸出幀之間的時間一致性。第二個挑戰(zhàn)是在上采樣幀中生成高頻細節(jié)。這篇論文主要的就是第二個問題。針對這個問題,GAN(生成式對抗網(wǎng)絡(luò))似乎再一次被驗證而來有效性。

1.讓模糊視頻還原逼真細節(jié),8倍于SOTA

舉個汽車識別的例子,以前的VSR方法,比如BasicVSR++等都缺乏細節(jié),而ImageGigaGAN可以通過更豐富的細節(jié)產(chǎn)生更清晰的效果,但它生成的視頻存在時間閃爍和混疊等偽影(注意視頻中的建筑畫面)。

而新提出的VideoGigaGAN方法則可以生成兼具高頻細節(jié)和時間一致性的視頻結(jié)果,同時顯著減輕了像混疊偽影的問題。

圖片圖片

VideoGigaGAN是一種生成式視頻超分辨率模型,該模型能夠在保持時間一致性的同時,對視頻進行高頻細節(jié)的超采樣。與現(xiàn)有的VSR方法相比,VideoGigaGAN能夠生成具有更多細粒度外觀細節(jié)的時間一致性視頻。

研究顯示,VideoGigaGAN在公共數(shù)據(jù)集上非常有效,并展示了超過目前最先進的VSR模型8倍超分辨率的視頻結(jié)果。 

圖片圖片

先亮出幾個對比視頻,相信你都不敢相信自己的眼睛:視頻黑科技就是如此震撼!

見證奇跡的時刻到了——

研究團隊放出了一張金針菇涮鍋的視頻對比,題外話:Xu本人也是一名Cooking愛好者。

大家應(yīng)該還記得之前類Sora工具放出的飛鳥視頻,從書上飛起后,總是會有一層虛影,這個問題已經(jīng)被VideoGigaGAN解決掉了。

動物世界非常精彩,但如果你看不清楚蜘蛛背后的網(wǎng)絲,“小花貓”跟繩子之間是如何互動的,多少損失一些鏡頭的美感。

2.怎么做到的?答案藏在模型細節(jié)

接下來,我們看下這個模型的厲害之處。

圖片圖片

首先,該視頻超分辨率(VSR)模型建立在圖像的不對稱U-Net架構(gòu)的GigaGAN上采樣器之上。

其次,為了增強時間一致性,團隊通過將時間注意力層添加到解碼器塊,將圖像采樣放大為視頻采樣器。

然后,另外一個秘訣,就是通過整合流導(dǎo)向傳播模塊的特征來增強一致性。

接下來,為了抑制混疊偽影,團隊使用編碼器下采樣層中的抗鋸齒塊(Anti-aliasing)。

最后,Xu等通過跳層連接直接將高頻特征傳遞到解碼器層,以補償BlurPool過程中損失的細節(jié)。

這里值得注意的一點:因為時間注意力的空間窗口大小有限。所以,Xu等團隊將流導(dǎo)向特征傳播引入到放大的GigaGAN中,以便基于流信息更好地對齊不同幀的特征。

其次,還有抗混疊的技術(shù)處理,也進一步減輕了GigaGAN編碼器中的下采樣塊引起的時間閃爍,同時通過將高頻特征直接傳輸?shù)浇獯a器塊來保持高頻細節(jié)。

當然,這些想法也被最后的實驗結(jié)果驗證了。所以說,這些模型設(shè)計選擇非常重要。

3.背后的一作:愛Cook的Xu yiyan

沒錯,本篇研究成果的一作 Xuyiyan(許姓)又是一位中國學者,本科畢業(yè)于華南理工大學,現(xiàn)在是美國馬里蘭大學帕克學院的博士生。Xu目前在主要研究方向包括生成模型及其應(yīng)用,據(jù)悉他也做過自動駕駛領(lǐng)域的場景理解的研究。

圖片圖片

圖片圖片

正如前文所說,Xu的個人愛好蠻特別:攝影、徒步旅行、做飯。

圖片圖片

4.網(wǎng)友熱議:質(zhì)量不錯,時長太短了我們需要200幀的(至少9秒)

鏡頭時長問題的研究成重點,HN上一位用戶評論道:“視頻質(zhì)量看起來不錯,但局限性很大。我們的模型在處理極長視頻(例如200幀或更多)時遇到了挑戰(zhàn)。”所以他認為,要用于實際環(huán)境,還需要進行更多的研究。

對此還有網(wǎng)友亮出了類似的觀點:“在某種程度上,我會強迫性地計算鏡頭的秒數(shù),知道一個節(jié)目/電影有幾個鏡頭超過9秒,并且能夠贏得我們的信任,我才可以放手了?!?/p>

據(jù)另一位Hackernews用戶評論,現(xiàn)代電影的平均鏡頭長度約為2.5秒,對于動畫來說大約是15秒。而此項研究中的30fps的幀率并不夠,意味著時間將少于7秒。

總之,大家非常期待如果該篇論文能夠擴展到200幀后的結(jié)果。

5.One More Thing:別忘了打上AI標簽

此外,此次研究成果的發(fā)布也再一次引起了AI被濫用的擔憂?!斑@對于娛樂來說非常有用,但過于逼真清晰的畫面依然有可能被用作任何類型的‘證據(jù)’,而大家對于這些幻覺的細節(jié)的工作原理并不知曉,所以此類視頻還是需要進行顯眼的標記?!辈贿^清醒的是,目前智能手機上已經(jīng)有不少軟件或視頻/攝影功能已經(jīng)在使用專有算法來“推斷”是否存在虛假的細節(jié),而且檢查規(guī)模會更大。不過,回到本篇研究,最有意思的,還是神奇的還原細節(jié)的能力。想想電視和電影中的許多畫面,尤其十年前的珍貴影響,有了這項技術(shù),“增強”低分辨率圖像使其變得清晰,將不再是一件難事!

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2016-01-05 09:42:39

2020-06-30 14:08:57

算法模型deepfake

2023-07-20 14:54:24

訓(xùn)練模型

2019-10-28 11:22:14

戴爾

2023-10-11 19:00:59

AIAdobe圖像

2010-03-24 09:12:02

IE9性能測試

2024-11-13 16:32:21

aviatorJava表達式引擎

2021-06-02 10:01:20

開源技術(shù) 軟件

2023-10-11 08:32:13

2020-09-08 12:58:48

人工智能機器學習技術(shù)

2017-04-10 09:17:08

神經(jīng)網(wǎng)絡(luò)分辨率像素遞歸

2023-11-01 11:04:12

Javaaviator

2021-03-24 14:46:52

Python工具代碼

2021-01-20 11:14:47

人工智能算法技術(shù)

2012-05-09 11:45:43

蘋果

2011-12-16 16:50:57

硬件配置檢測軟件查看信息

2025-04-03 00:00:03

2024-09-02 11:31:10

2018-07-12 10:08:31

圖像超分辨率重建技術(shù)原理
點贊
收藏

51CTO技術(shù)棧公眾號