自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源

發(fā)布于 2024-9-20 10:43
瀏覽
0收藏

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.15239
git鏈接:https://svd-keyframe-interpolation.github.io/

亮點直擊

  • 關(guān)鍵幀插值的創(chuàng)新方法:提出了一種基于現(xiàn)有預(yù)訓(xùn)練圖像到視頻模型的適應(yīng)方案,以解決關(guān)鍵幀插值問題,即在兩個輸入關(guān)鍵幀之間生成連貫的視頻序列。
  • 雙向運動預(yù)測機制:開發(fā)了一種新的方法,通過將現(xiàn)有圖像到視頻模型微調(diào)為能夠生成反向運動的視頻,實現(xiàn)了從單一圖像生成反向運動的視頻。提出了一種輕量級的微調(diào)機制,通過旋轉(zhuǎn)時間自注意力圖來逆轉(zhuǎn)時間流,從而在現(xiàn)有模型中引入反向運動的能力。
  • 雙向采樣融合:提出了一個雙向采樣機制,將前向和反向運動的預(yù)測結(jié)果融合,以生成一個一致的、連貫的插值視頻。這個機制通過共享的旋轉(zhuǎn)時間自注意力圖實現(xiàn)前后運動的一致性(“前向-反向運動一致性”)。
  • 高質(zhì)量視頻生成:通過對比定性和定量的實驗結(jié)果,證明了該方法在關(guān)鍵幀插值任務(wù)中比現(xiàn)有方法和傳統(tǒng)技術(shù)生成的動態(tài)效果更高質(zhì)量,更具連貫性。

總結(jié)速覽

解決的問題

在給定的兩個關(guān)鍵幀之間生成具有連貫運動的視頻序列。

提出的方案

通過對一個預(yù)訓(xùn)練的大規(guī)模圖像到視頻擴散模型進行輕量級微調(diào),將其適應(yīng)為關(guān)鍵幀插值模型。這種適應(yīng)使得模型可以生成在兩個輸入幀之間的視頻序列。具體而言,將模型調(diào)整為從單一輸入圖像預(yù)測反向運動的視頻,并結(jié)合原始前向運動模型,使用雙向擴散采樣過程來融合從兩個關(guān)鍵幀出發(fā)的模型估計結(jié)果。

應(yīng)用的技術(shù)

  1. 預(yù)訓(xùn)練大規(guī)模圖像到視頻擴散模型:原本用于從單一輸入圖像生成前向運動的視頻。
  2. 輕量級微調(diào):將預(yù)訓(xùn)練模型調(diào)整為能夠生成從單一輸入圖像反向運動的視頻。
  3. 雙向擴散采樣過程:結(jié)合前向和反向運動模型的估計結(jié)果來生成最終的視頻序列。

達到的效果

該方法在生成視頻序列時,比現(xiàn)有的擴散方法和傳統(tǒng)的幀插值技術(shù)表現(xiàn)更好,能夠在兩個關(guān)鍵幀之間生成更連貫的運動。

方法

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

通過自注意力圖旋轉(zhuǎn)逆轉(zhuǎn)運動時間關(guān)聯(lián)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

輕量級反向運動微調(diào)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

雙向采樣與前向-反向一致性

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

實施細節(jié)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

實驗

在下面圖3、圖4、圖5、圖7中,展示了本文的方法成功生成了高質(zhì)量的視頻,并且在不同時間捕捉動態(tài)場景的關(guān)鍵幀之間運動一致。強烈建議在項目頁面上查看視頻結(jié)果,以更清晰地看到結(jié)果。本章節(jié)先描述了用來評估本文的方法和基線的數(shù)據(jù)。再展示了本文的方法如何優(yōu)于傳統(tǒng)的幀插值方法FILM,以及最近的工作TRF,該工作也利用SVD進行視頻生成。通過消融研究證明了本文的設(shè)計決策。以及討論了本文的方法在最佳場景下的表現(xiàn)以及在亞最佳場景下的表現(xiàn),即雖然優(yōu)于基線但仍受SVD本身的限制。展示了本文的方法的適應(yīng)性,通過固定第一個關(guān)鍵幀并變化第二個關(guān)鍵幀。最后討論了失敗案例。

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

評估數(shù)據(jù)集

使用了兩個高分辨率(1080p)數(shù)據(jù)集進行評估:

  1. Davis數(shù)據(jù)集,從所有視頻中創(chuàng)建了總共117對輸入。這些數(shù)據(jù)集主要特征是對象的關(guān)節(jié)運動,例如動物或人類動作。
  2. Pexels 數(shù)據(jù)集,從Pexels上的高分辨率視頻中收集了總共45對輸入關(guān)鍵幀對,特征包括方向性的動態(tài)場景運動,例如車輛移動、動物、人物奔跑、沖浪、波浪運動和延時視頻。所有輸入對之間至少相隔25幀,并具有相應(yīng)的真實視頻片段。

Baseline比較

將本文的方法與FILM進行比較,F(xiàn)ILM 是當(dāng)前大規(guī)模運動幀插值方法的最新進展,和TRF,TRF 也適配了SVD進行有限生成。在上面圖3和圖5中展示了代表性的定性結(jié)果。此外,還包括了近期工作DynamiCrafter 的關(guān)鍵幀插值特性結(jié)果——這是一個大規(guī)模的圖像到視頻模型。關(guān)鍵幀插值特性經(jīng)過修改,并特別訓(xùn)練以接受兩個結(jié)束幀作為條件,而研究者們則專注于如何以輕量級的方式適配預(yù)訓(xùn)練的圖像到視頻模型,使用較小的訓(xùn)練視頻集合和更少的計算資源。該特性生成分辨率為512X320的16幀視頻,而生成分辨率為 1024X576。


定量評估對于每個數(shù)據(jù)集,使用FID和 FVD來評估生成的視頻。這兩個指標用于衡量生成幀/視頻與實際幀/視頻之間的分布距離。結(jié)果如下表1所示,本文的方法在所有baseline方法中均顯著優(yōu)于其他方法。

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

與FILM的比較基于流的幀插值方法FILM面臨兩個主要問題。首先,它在處理大運動場景時很難找到對應(yīng)關(guān)系。例如,在上面圖3的第二行中,F(xiàn)ILM在高速公路場景中無法找到移動汽車在輸入關(guān)鍵幀之間的對應(yīng)關(guān)系,導(dǎo)致中間幀的運動不自然。例如,一些汽車在第一幀中消失,在中間幀中消失,最后在結(jié)束時重新出現(xiàn)。其次,F(xiàn)ILM生成的運動不明確,會沿最短路徑在結(jié)束幀之間移動。在上圖5中的示例中,給定兩個看起來相似的幀,捕捉到的是一個人跑步的不同狀態(tài),F(xiàn)ILM生成的運動僅僅是將人平移到幀之間,喪失了自然的腿部運動。

與TRF的比較 TRF結(jié)合了從第一幀開始的前向視頻生成和從第二幀開始的反向視頻生成,這兩者都使用原始的SVD。第二幀的反向前向視頻生成了一個反向運動視頻,結(jié)束于第二幀。將這些生成路徑融合在一起會導(dǎo)致生成的視頻中出現(xiàn)往返運動。觀察到TRF生成的視頻有一個顯著的效果,就是視頻先向前推進,然后反向到結(jié)束幀。例如,在前面圖3的第三行中,可以看到紅色卡車隨著時間的推移向后移動;在第七行中,狗的腿向后移動,導(dǎo)致不自然的運動。相比之下,本文的方法通過對SVD進行微調(diào),從第二幀生成反向視頻,與從第一幀生成的前向視頻方向相反。這種前向-反向運動一致性導(dǎo)致生成的視頻中運動保持一致。

消融實驗

在前面圖4和表1中,展示了本文方法的簡化版本的視覺和定量比較,以評估本文方法關(guān)鍵組件的效果。

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

最佳和次佳場景

本文的方法受限于SVD所學(xué)習(xí)的運動質(zhì)量和先驗知識。首先,實驗證明,SVD在生成剛性運動方面表現(xiàn)良好,但在處理非剛性、關(guān)節(jié)運動時表現(xiàn)不佳。它在準確渲染動物或人的肢體運動方面存在困難。在前面圖5中,盡管本文的方法相比FILM和TRF有了顯著改進,但與真實運動相比仍顯得不自然。底部行展示了僅使用第一個輸入幀生成的序列,確認了SVD本身在生成自然的跑步運動方面存在困難。

自適應(yīng)中間幀生成

給定相同的第一個關(guān)鍵幀,并變化第二個關(guān)鍵幀,本文的方法仍能生成合理的視頻,這得益于大規(guī)模圖像到視頻模型的豐富運動空間(見前面圖7)。

失敗情況

當(dāng)輸入對的拍攝間隔過大,導(dǎo)致它們之間的對應(yīng)關(guān)系稀疏時,如下圖6所示,僅有一小部分汽車出現(xiàn)在兩個輸入幀中,本文的方法很難融合前向和反向運動。在重疊區(qū)域最小的情況下,會導(dǎo)致中間幀出現(xiàn)偽影。

視頻生成更高質(zhì)量,更連貫!關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源-AI.x社區(qū)

討論與局限性

本文的方法受限于SVD中的運動質(zhì)量。另一個局限性是,SVD具有從輸入圖像中得出的強運動先驗,往往只生成特定的運動。因此,連接輸入關(guān)鍵幀所需的實際運動可能不會在SVD的運動空間中體現(xiàn),從而使得合成合理的中間視頻變得具有挑戰(zhàn)性。然而,隨著大型圖像到視頻模型如SoRA3的進展,對未來能夠解決這些局限性持樂觀態(tài)度。另一種潛在的改進是使用輸入關(guān)鍵幀之間的運動啟發(fā)式,以引導(dǎo)圖像到視頻模型生成更準確的中間運動。

本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/UPSoozIyT36rsSWFDCGReg??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦