自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器

發(fā)布于 2024-9-4 11:20
瀏覽
0收藏

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2408.13423
git鏈接:???https://github.com/Confiner2025/Confiner2025??


亮點直擊

  1. 創(chuàng)新性解耦策略:ConFiner框架通過將視頻生成任務(wù)解耦為三個獨立的子任務(wù),顯著優(yōu)化了生成過程。該方法利用了三種現(xiàn)有的擴散模型專家,每個專家專注于一個特定的任務(wù),從而降低了模型的計算負擔,同時提升了生成的質(zhì)量與速度。
  2. 協(xié)調(diào)去噪技術(shù):該技術(shù)在視頻生成過程中引入了協(xié)作機制,使得使用不同噪聲調(diào)度器的兩個專家能夠?qū)崿F(xiàn)逐步協(xié)作,有效提升了視頻生成的精細度與一致性。
  3. 長視頻生成突破:在ConFiner框架基礎(chǔ)上,ConFiner-Long通過三種策略實現(xiàn)了高質(zhì)量、連貫的長視頻生成。該框架能夠生成長達600幀的連貫視頻,標志著長視頻生成技術(shù)的顯著進步。

效果一覽

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

解決的問題

  • 視頻生成質(zhì)量低:難以同時實現(xiàn)高質(zhì)量的時間和空間建模。
  • 生成過程耗時:通常需要數(shù)百次推理步驟,時間成本較高。
  • 生成視頻長度短:由于VRAM限制,生成視頻的長度通常只有2-3秒。
  • 模型負擔重:單一模型處理復(fù)雜的多維度視頻生成任務(wù),難以兼顧所有需求。

提出的方案

  • ConFiner框架:將視頻生成任務(wù)解耦為三個子任務(wù)(結(jié)構(gòu)控制、時間細化和空間細化),并使用三個專門的擴散模型專家分別處理這些任務(wù)。
  • ConFiner-Long框架:在ConFiner基礎(chǔ)上引入三種策略(片段一致性初始化、一致性引導(dǎo)、交錯細化)以生成更長的連貫視頻。

應(yīng)用的技術(shù)

  • 協(xié)調(diào)去噪技術(shù):解決不同擴散模型之間噪聲調(diào)度器不一致的問題,使空間和時間專家能夠協(xié)同工作。
  • 片段一致性初始化:通過共享基礎(chǔ)噪聲,確保不同視頻片段初始噪聲的一致性。
  • 一致性引導(dǎo)策略:利用片段間的噪聲差異梯度引導(dǎo)去噪方向,增強去噪的一致性。
  • 交錯細化策略:在片段交界處將控制階段和細化階段交錯處理,避免片段拼接處的閃爍問題。

達到的效果

  • 提高視頻生成質(zhì)量:通過將任務(wù)分解并交給專門模型處理,減少了單一模型的負擔,提高了生成的質(zhì)量。
  • 加快生成速度:ConFiner框架只需9次采樣步驟即可超越其他模型在100次采樣中的表現(xiàn),生成時間顯著減少。
  • 生成更長的視頻:ConFiner-Long框架能生成長達600幀的高質(zhì)量且連貫的視頻片段。
  • 無需額外訓(xùn)練成本:利用現(xiàn)成的擴散模型專家,不需要額外的訓(xùn)練成本。

方法

ConFiner由兩個階段組成:控制階段和精煉階段。在控制階段,它生成一個包含粗粒度時空信息的視頻結(jié)構(gòu),該結(jié)構(gòu)決定了最終視頻的整體結(jié)構(gòu)和情節(jié)。在細化階段,它根據(jù)視頻結(jié)構(gòu)細化空間和時間細節(jié)。在這個階段,作者提出了協(xié)調(diào)去噪,以實現(xiàn)空間專家和時間專家的合作?;贑onFiner,引入了ConFiner Long框架,用于制作連貫一致的長視頻。

ConFiner和ConFiner Long的pineline見下圖:

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

ConFiner 框架

ConFiner將視頻生成過程解耦。首先,控制專家生成視頻結(jié)構(gòu)。隨后,時間和空間專家對時空細節(jié)進行了細化??臻g和時間專家在細化階段與我們的協(xié)調(diào)去噪合作。具體算法如下:

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

ConFiner-Long 框架

  • 一致性初始化策略
  • 設(shè)計一致性初始化策略來提高視頻片段之間的一致性。首先采樣一個基礎(chǔ)噪聲 ,然后對其進行幀級打亂,以獲得每個片段的初始噪聲。共享基礎(chǔ)噪聲有助于提高片段之間的一致性,同時打亂操作保持了一定的隨機性。
  • 交錯細化機制
  • 在生成長視頻時,采用交錯的控制階段和細化階段處理方法。具體來說,將前一個視頻片段的后半部分與下一個片段的前半部分作為同一次細化處理的輸入,從而實現(xiàn)更自然的片段過渡。這種方法有助于減少過渡處的斷裂感。
  • 一致性引導(dǎo)機制
  • 引入一致性引導(dǎo)機制來促進生成內(nèi)容與前一個片段的一致性。在視頻片段的采樣過程中,利用L2損失的梯度來引導(dǎo)采樣方向。L2損失計算當前片段噪聲與前一個片段噪聲之間的差異,并通過調(diào)整噪聲預(yù)測來提高片段間的一致性。


總結(jié)而言,這些方法通過空間和時間專家的交替處理和一致性策略,旨在提高視頻生成的質(zhì)量和一致性,特別是在長視頻生成過程中,確保了視頻片段之間的平滑過渡和連貫性。

快來看,ConFiner Long方法僅用9個推理步驟生成的視頻:

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

實驗

效果對比

ConFiner 與其他視頻擴散模型的訓(xùn)練和推理成本。結(jié)果展示在下表 4 中。

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

研究者們使用了 AnimateDiff-Lightning 作為控制專家,Stable Diffusion 1.5作為空間專家。Lavie和 Modelscope兩個開源模型為時間專家。

客觀評價

作者使用了前沿基準測試工具 Vbench在客觀評價實驗中。Vbench 提供了 800 個提示,用于測試視頻生成模型的各種能力。在我們的實驗中,每個模型生成了 800 個視頻,并使用四個指標評估視頻的時間質(zhì)量和逐幀質(zhì)量。

  • 時間質(zhì)量指標:主觀一致性(Subject Consistency)和運動平滑度(Motion Smoothness)。
  • 逐幀質(zhì)量指標:美學(xué)質(zhì)量(Aesthetic Quality)和成像質(zhì)量(Imaging Quality)。

使用了 AnimateDiff-Lightning、Lavie 和 Modelscope T2V,分別生成了 10、20、50 和 100 步的總時間步數(shù)的視頻。然后,使用 ConFiner 進行生成,設(shè)置為 9(4+5)步和 18(8+10)步,其中 Te 設(shè)置為 100。所有評價結(jié)果展示在表 1 中。每個實驗在單個 RTX 4090 上可以完成,耗時 3-5 小時。每個實驗重復(fù)進行了五次,使用不同的隨機種子。

主觀評價

使用 ConFiner 生成了 18 步推理的視頻,使用 Vbench 中的前 100 個提示。這些視頻與由 AnimateDiff-Lightning、Modelscope T2V 和 Lavie(50 步推理)生成的視頻一起,由 30 名用戶進行評估。用戶在以下三個維度上對每個視頻進行了評分:連貫性(coherence)、文本匹配(text-match)和視覺質(zhì)量(visual quality),每個維度分為三個等級:好(good)、正常(normal)和差(bad)。評分結(jié)果展示在下表 2 中。

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

控制和細化階段的消融研究

根據(jù)公式(6),在控制階段對生成的視頻應(yīng)用了步噪聲,以創(chuàng)建細化階段的優(yōu)化空間。較大的值增加了細化階段的影響。我們將設(shè)置為 50、100、200、300 和 500,與客觀實驗中的其他實驗設(shè)置一致。性能比較結(jié)果展示在下表5中。

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

此外,在之前的實驗中,當控制階段使用了 4 步快速采樣時,細化階段始終使用了 5 步推理。為了檢查細化步驟數(shù)量的影響,同時保持為 100,使用 Modelscope T2V 和 Lavie 作為時間專家,選擇了 5、10、20、50 和 100 步的總推理步驟。結(jié)果的性能指標展示在下表 3 中。

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

ConFiner-Long 策略的消融研究

研究者們對 ConFiner-Long 框架中的三種策略進行了消融實驗。使用相同的前段視頻段生成后續(xù)的視頻段,比較了使用所有三種策略與僅使用兩種策略的結(jié)果。四個視頻段與前一個視頻段的視覺比較結(jié)果展示在下圖 3 中。

長視頻生成再突破!高質(zhì)量連貫達600幀 | ConFiner:專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

創(chuàng)新性及應(yīng)用領(lǐng)域

ConFiner這個創(chuàng)新框架,旨在生成高質(zhì)量的視頻,而無需額外的訓(xùn)練過程。ConFiner 將視頻生成任務(wù)分解為三個核心組件:結(jié)構(gòu)控制、空間細化和時間細化。每個組件由專門的現(xiàn)成擴散專家處理,這些專家在各自領(lǐng)域內(nèi)具有優(yōu)勢。此外,還提出了一種協(xié)調(diào)去噪的方法,允許兩個專家在去噪過程中進行有效協(xié)作。


為了進一步提升生成視頻的長度和連貫性,論文中還設(shè)計了 ConFiner-Long 框架,該框架能夠生成最長達 600 幀的連貫視頻。實驗結(jié)果表明,ConFiner 在提升視頻美學(xué)和連貫性的同時,顯著減少了采樣時間。ConFiner-Long 框架的成功應(yīng)用為電影制作、動畫創(chuàng)作和視頻編輯等領(lǐng)域開辟了成本效益更高的新可能性。


本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/QQFdSlGWUKCdAUkR9Ns-zw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦