自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="qmqq5"></sub>

<sub id="qmqq5"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器

發(fā)布于 2024-9-4 11:20

瀏覽

0收藏

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2408.13423
git鏈接：???https://github.com/Confiner2025/Confiner2025??

亮點直擊

創(chuàng)新性解耦策略：ConFiner框架通過將視頻生成任務(wù)解耦為三個獨立的子任務(wù)，顯著優(yōu)化了生成過程。該方法利用了三種現(xiàn)有的擴散模型專家，每個專家專注于一個特定的任務(wù)，從而降低了模型的計算負擔，同時提升了生成的質(zhì)量與速度。
協(xié)調(diào)去噪技術(shù)：該技術(shù)在視頻生成過程中引入了協(xié)作機制，使得使用不同噪聲調(diào)度器的兩個專家能夠?qū)崿F(xiàn)逐步協(xié)作，有效提升了視頻生成的精細度與一致性。
長視頻生成突破：在ConFiner框架基礎(chǔ)上，ConFiner-Long通過三種策略實現(xiàn)了高質(zhì)量、連貫的長視頻生成。該框架能夠生成長達600幀的連貫視頻，標志著長視頻生成技術(shù)的顯著進步。

效果一覽

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

解決的問題

視頻生成質(zhì)量低：難以同時實現(xiàn)高質(zhì)量的時間和空間建模。
生成過程耗時：通常需要數(shù)百次推理步驟，時間成本較高。
生成視頻長度短：由于VRAM限制，生成視頻的長度通常只有2-3秒。
模型負擔重：單一模型處理復(fù)雜的多維度視頻生成任務(wù)，難以兼顧所有需求。

提出的方案

ConFiner框架：將視頻生成任務(wù)解耦為三個子任務(wù)（結(jié)構(gòu)控制、時間細化和空間細化），并使用三個專門的擴散模型專家分別處理這些任務(wù)。
ConFiner-Long框架：在ConFiner基礎(chǔ)上引入三種策略（片段一致性初始化、一致性引導(dǎo)、交錯細化）以生成更長的連貫視頻。

應(yīng)用的技術(shù)

協(xié)調(diào)去噪技術(shù)：解決不同擴散模型之間噪聲調(diào)度器不一致的問題，使空間和時間專家能夠協(xié)同工作。
片段一致性初始化：通過共享基礎(chǔ)噪聲，確保不同視頻片段初始噪聲的一致性。
一致性引導(dǎo)策略：利用片段間的噪聲差異梯度引導(dǎo)去噪方向，增強去噪的一致性。
交錯細化策略：在片段交界處將控制階段和細化階段交錯處理，避免片段拼接處的閃爍問題。

達到的效果

提高視頻生成質(zhì)量：通過將任務(wù)分解并交給專門模型處理，減少了單一模型的負擔，提高了生成的質(zhì)量。
加快生成速度：ConFiner框架只需9次采樣步驟即可超越其他模型在100次采樣中的表現(xiàn)，生成時間顯著減少。
生成更長的視頻：ConFiner-Long框架能生成長達600幀的高質(zhì)量且連貫的視頻片段。
無需額外訓(xùn)練成本：利用現(xiàn)成的擴散模型專家，不需要額外的訓(xùn)練成本。

方法

ConFiner由兩個階段組成：控制階段和精煉階段。在控制階段，它生成一個包含粗粒度時空信息的視頻結(jié)構(gòu)，該結(jié)構(gòu)決定了最終視頻的整體結(jié)構(gòu)和情節(jié)。在細化階段，它根據(jù)視頻結(jié)構(gòu)細化空間和時間細節(jié)。在這個階段，作者提出了協(xié)調(diào)去噪，以實現(xiàn)空間專家和時間專家的合作?；贑onFiner，引入了ConFiner Long框架，用于制作連貫一致的長視頻。

ConFiner和ConFiner Long的pineline見下圖：

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

ConFiner 框架

ConFiner將視頻生成過程解耦。首先，控制專家生成視頻結(jié)構(gòu)。隨后，時間和空間專家對時空細節(jié)進行了細化?？臻g和時間專家在細化階段與我們的協(xié)調(diào)去噪合作。具體算法如下：

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

ConFiner-Long 框架

一致性初始化策略：

設(shè)計一致性初始化策略來提高視頻片段之間的一致性。首先采樣一個基礎(chǔ)噪聲，然后對其進行幀級打亂，以獲得每個片段的初始噪聲。共享基礎(chǔ)噪聲有助于提高片段之間的一致性，同時打亂操作保持了一定的隨機性。

交錯細化機制：
在生成長視頻時，采用交錯的控制階段和細化階段處理方法。具體來說，將前一個視頻片段的后半部分與下一個片段的前半部分作為同一次細化處理的輸入，從而實現(xiàn)更自然的片段過渡。這種方法有助于減少過渡處的斷裂感。
一致性引導(dǎo)機制：
引入一致性引導(dǎo)機制來促進生成內(nèi)容與前一個片段的一致性。在視頻片段的采樣過程中，利用L2損失的梯度來引導(dǎo)采樣方向。L2損失計算當前片段噪聲與前一個片段噪聲之間的差異，并通過調(diào)整噪聲預(yù)測來提高片段間的一致性。

總結(jié)而言，這些方法通過空間和時間專家的交替處理和一致性策略，旨在提高視頻生成的質(zhì)量和一致性，特別是在長視頻生成過程中，確保了視頻片段之間的平滑過渡和連貫性。

快來看，ConFiner Long方法僅用9個推理步驟生成的視頻：

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

實驗

效果對比

ConFiner 與其他視頻擴散模型的訓(xùn)練和推理成本。結(jié)果展示在下表 4 中。

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

研究者們使用了 AnimateDiff-Lightning 作為控制專家，Stable Diffusion 1.5作為空間專家。Lavie和 Modelscope兩個開源模型為時間專家。

客觀評價

作者使用了前沿基準測試工具 Vbench在客觀評價實驗中。Vbench 提供了 800 個提示，用于測試視頻生成模型的各種能力。在我們的實驗中，每個模型生成了 800 個視頻，并使用四個指標評估視頻的時間質(zhì)量和逐幀質(zhì)量。

時間質(zhì)量指標：主觀一致性（Subject Consistency）和運動平滑度（Motion Smoothness）。
逐幀質(zhì)量指標：美學(xué)質(zhì)量（Aesthetic Quality）和成像質(zhì)量（Imaging Quality）。

使用了 AnimateDiff-Lightning、Lavie 和 Modelscope T2V，分別生成了 10、20、50 和 100 步的總時間步數(shù)的視頻。然后，使用 ConFiner 進行生成，設(shè)置為 9（4+5）步和 18（8+10）步，其中 Te 設(shè)置為 100。所有評價結(jié)果展示在表 1 中。每個實驗在單個 RTX 4090 上可以完成，耗時 3-5 小時。每個實驗重復(fù)進行了五次，使用不同的隨機種子。

主觀評價

使用 ConFiner 生成了 18 步推理的視頻，使用 Vbench 中的前 100 個提示。這些視頻與由 AnimateDiff-Lightning、Modelscope T2V 和 Lavie（50 步推理）生成的視頻一起，由 30 名用戶進行評估。用戶在以下三個維度上對每個視頻進行了評分：連貫性（coherence）、文本匹配（text-match）和視覺質(zhì)量（visual quality），每個維度分為三個等級：好（good）、正常（normal）和差（bad）。評分結(jié)果展示在下表 2 中。

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

控制和細化階段的消融研究

根據(jù)公式（6），在控制階段對生成的視頻應(yīng)用了步噪聲，以創(chuàng)建細化階段的優(yōu)化空間。較大的值增加了細化階段的影響。我們將設(shè)置為 50、100、200、300 和 500，與客觀實驗中的其他實驗設(shè)置一致。性能比較結(jié)果展示在下表5中。

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

此外，在之前的實驗中，當控制階段使用了 4 步快速采樣時，細化階段始終使用了 5 步推理。為了檢查細化步驟數(shù)量的影響，同時保持為 100，使用 Modelscope T2V 和 Lavie 作為時間專家，選擇了 5、10、20、50 和 100 步的總推理步驟。結(jié)果的性能指標展示在下表 3 中。

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

ConFiner-Long 策略的消融研究

研究者們對 ConFiner-Long 框架中的三種策略進行了消融實驗。使用相同的前段視頻段生成后續(xù)的視頻段，比較了使用所有三種策略與僅使用兩種策略的結(jié)果。四個視頻段與前一個視頻段的視覺比較結(jié)果展示在下圖 3 中。

長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器-AI.x社區(qū)

創(chuàng)新性及應(yīng)用領(lǐng)域

ConFiner這個創(chuàng)新框架，旨在生成高質(zhì)量的視頻，而無需額外的訓(xùn)練過程。ConFiner 將視頻生成任務(wù)分解為三個核心組件：結(jié)構(gòu)控制、空間細化和時間細化。每個組件由專門的現(xiàn)成擴散專家處理，這些專家在各自領(lǐng)域內(nèi)具有優(yōu)勢。此外，還提出了一種協(xié)調(diào)去噪的方法，允許兩個專家在去噪過程中進行有效協(xié)作。

為了進一步提升生成視頻的長度和連貫性，論文中還設(shè)計了 ConFiner-Long 框架，該框架能夠生成最長達 600 幀的連貫視頻。實驗結(jié)果表明，ConFiner 在提升視頻美學(xué)和連貫性的同時，顯著減少了采樣時間。ConFiner-Long 框架的成功應(yīng)用為電影制作、動畫創(chuàng)作和視頻編輯等領(lǐng)域開辟了成本效益更高的新可能性。

本文轉(zhuǎn)自 AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/QQFdSlGWUKCdAUkR9Ns-zw??

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

52個AIGC視頻生成算法模型介紹

pangguiyu ? 6102瀏覽 ? 0回復(fù)
媲美Sora的國產(chǎn)視頻生成器背后技術(shù)探秘

angel ? 8632瀏覽 ? 0回復(fù)
阿里巴巴AI研究團隊打破視頻生成技術(shù)壁壘，EasyAnimate實現(xiàn)高質(zhì)量長視頻生成

Syrupup ? 3702瀏覽 ? 0回復(fù)
靠Scaling Laws煉出4D版視頻生成模型，多倫多大學(xué)北交大等攜手開源81K高質(zhì)量數(shù)據(jù)集

Crystalcxt ? 2088瀏覽 ? 0回復(fù)
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 2755瀏覽 ? 0回復(fù)
360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA！

angel ? 2315瀏覽 ? 0回復(fù)
長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

angel ? 7999瀏覽 ? 0回復(fù)
手寫Sora中的Diffusion Transformer(DiT)——探索最先進視頻生成器背后的秘密

angel ? 2366瀏覽 ? 0回復(fù)
視頻生成更高質(zhì)量，更連貫！關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源

angel ? 2796瀏覽 ? 0回復(fù)
Meta Movie Gen：新的 SOTA 視頻生成模型-技術(shù)報告解讀

amei2000go ? 3313瀏覽 ? 0回復(fù)
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2303瀏覽 ? 0回復(fù)
16幀1024×1024視頻耗時僅16秒！64倍壓縮助力高效視頻生成：復(fù)旦&微軟發(fā)布Reducio-DiT

angel ? 2580瀏覽 ? 0回復(fù)
OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1788瀏覽 ? 0回復(fù)
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架

Halo咯咯 ? 2517瀏覽 ? 0回復(fù)
文本生成無限長視頻，無需任何訓(xùn)練

Aceryt ? 1792瀏覽 ? 0回復(fù)
AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒

angel ? 1888瀏覽 ? 0回復(fù)
長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效

AIPaperDaily ? 959瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 455瀏覽 ? 0回復(fù)
AI視頻生成新突破！字節(jié)提出一致性視頻生成方法Phantom：通過跨模態(tài)對齊生成主題一致的視頻，超多應(yīng)用場景

AIGCStudio ? 135瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：兼顧身份保護和文本對齊！中山大學(xué)等提出CoRe：任意提示的文本到圖像個性化生成！

下一篇： Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="xagaw"></blockquote>}