自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!

發(fā)布于 2025-3-14 13:37
瀏覽
0收藏

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2503.07598 
項(xiàng)目鏈接:https://ali-vilab.github.io/VACE-Page/

亮點(diǎn)直擊

  • 統(tǒng)一框架:VACE是首個基于視頻DiT架構(gòu)的全能模型,支持廣泛的視頻生成與編輯任務(wù)。
  • 概念解耦與上下文適配器:通過概念解耦策略和上下文適配器結(jié)構(gòu),實(shí)現(xiàn)了對編輯和參考任務(wù)的自適應(yīng)處理。
  • 多功能與高效性:VACE框架不僅減少了服務(wù)部署和用戶交互的成本,還通過任務(wù)組合擴(kuò)展,提供了多功能和高效的視頻合成解決方案。
  • 創(chuàng)新性與競爭力:在缺乏多任務(wù)基準(zhǔn)的情況下,VACE通過構(gòu)建包含12種不同任務(wù)的數(shù)據(jù)集,展示了其在視頻合成領(lǐng)域的創(chuàng)新性和競爭力。

效果展示

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 視頻生成與編輯的統(tǒng)一性挑戰(zhàn):由于視頻在時間和空間維度上的內(nèi)在一致性需求,實(shí)現(xiàn)視頻生成與編輯的統(tǒng)一方法仍然具有挑戰(zhàn)性。
  • 多任務(wù)模型的靈活性:現(xiàn)有的視頻生成模型在處理長視頻、多條件和參考生成以及連續(xù)視頻編輯等方面存在困難,缺乏一個統(tǒng)一的框架來整合這些任務(wù)。

提出的方案

  • VACE框架:提出了一個全能的視頻生成與編輯框架VACE,支持參考視頻生成、視頻到視頻編輯、mask視頻到視頻編輯等任務(wù),并通過統(tǒng)一的視頻條件單元(VCU)整合多種輸入模態(tài)。
  • 概念解耦策略:通過概念解耦策略,使模型能夠理解需要保留和修改的部分,從而更好地處理編輯和參考任務(wù)。
  • 上下文適配器結(jié)構(gòu):采用可插拔的上下文適配器結(jié)構(gòu),通過時空協(xié)同表示將不同任務(wù)的概念注入模型,使其具備自適應(yīng)處理統(tǒng)一任務(wù)的能力。

應(yīng)用的技術(shù)

  • 擴(kuò)散 Transformers(DiTs):利用當(dāng)前主流的擴(kuò)散transformers結(jié)構(gòu)作為基礎(chǔ)視頻框架,并結(jié)合預(yù)訓(xùn)練的文本到視頻生成模型,提供更好的基礎(chǔ)能力和擴(kuò)展性。
  • 視頻條件單元(VCU):設(shè)計了一個統(tǒng)一的接口VCU,整合了編輯、參考和mask等多種模態(tài)的輸入。
  • 上下文適配器:通過上下文適配器結(jié)構(gòu),將不同任務(wù)的概念注入模型,實(shí)現(xiàn)自適應(yīng)處理。

達(dá)到的效果

  • 性能競爭力:在定量和定性分析中,VACE框架表現(xiàn)出足夠的競爭力,與現(xiàn)有的專用模型相比,性能相當(dāng)。
  • 任務(wù)組合的多樣性:通過基礎(chǔ)任務(wù)的組合擴(kuò)展,構(gòu)建了如長視頻重新渲染等場景,提供了多功能和高效的視頻合成解決方案。
  • 用戶創(chuàng)造力的提升:通過整合不同任務(wù)的能力,解決了現(xiàn)有視頻生成模型的挑戰(zhàn),賦予用戶更大的創(chuàng)造力。

方法

VACE 被設(shè)計為一個多模態(tài)到視頻生成的模型,其中文本、圖像、視頻和mask被整合到一個統(tǒng)一的條件輸入中。為了覆蓋盡可能多的視頻生成和編輯任務(wù),我們對現(xiàn)有任務(wù)進(jìn)行了深入研究,然后根據(jù)它們對多模態(tài)輸入的不同需求將其分為 4 類。在不失一般性的情況下,我們在視頻條件單元(VCU)范式下為每個類別專門設(shè)計了一種新穎的多模態(tài)輸入格式。最后,為 VCU 輸入重構(gòu)了 DiT 模型,使其成為一個適用于廣泛視頻任務(wù)的多功能模型。

多模態(tài)輸入與視頻任務(wù)

盡管現(xiàn)有的視頻任務(wù)在復(fù)雜的用戶輸入和雄心勃勃的創(chuàng)意目標(biāo)上各不相同,但我們發(fā)現(xiàn)它們的大多數(shù)輸入可以完全用 4 種模態(tài)表示:文本、圖像、視頻和mask??傮w而言,如下圖 2 所示,根據(jù)這四種多模態(tài)輸入的需求將這些視頻任務(wù)分為 5 類。

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

  • 文本到視頻生成(T2V)是一個基本的視頻創(chuàng)建任務(wù),文本是唯一的輸入。
  • 參考到視頻生成(R2V)需要額外的圖像作為參考輸入,確保指定的內(nèi)容(如人臉、動物和其他物體的主體,或視頻幀)出現(xiàn)在生成的視頻中。
  • 視頻到視頻編輯(V2V)對提供的視頻進(jìn)行整體更改,例如著色、風(fēng)格化、可控生成等。我們使用視頻控制類型,其控制信號可以表示為 RGB 視頻,包括深度、灰度、姿態(tài)、涂鴉、光流和布局;然而,該方法本身并不限于這些。
  • mask視頻到視頻編輯(MV2V)僅在提供的 3D 感興趣區(qū)域(3D ROI)內(nèi)對輸入視頻進(jìn)行更改,與其他未更改區(qū)域無縫融合,例如修復(fù)、外繪、視頻擴(kuò)展等。我們使用額外的時空mask來表示 3D ROI。
  • 任務(wù)組合包括上述 4 種視頻任務(wù)的所有組合可能性。

視頻條件單元

本文提出了一種輸入范式,即視頻條件單元(VCU),將多樣化的輸入條件統(tǒng)一為文本輸入、幀序列和mask序列。一個 VCU 可以表示為:

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

架構(gòu)

本文為 VACE 重構(gòu)了 DiT 模型,如下圖 3 所示,旨在支持多模態(tài) VCU 輸入。由于已有文本標(biāo)記化的流程,我們僅考慮上下文幀和mask的標(biāo)記化。標(biāo)記化后,上下文tokens與噪聲視頻tokens結(jié)合,并對 DiT 模型進(jìn)行微調(diào)。與此不同,我們還提出了一種上下文適配器調(diào)優(yōu)策略,允許上下文tokens通過上下文塊并添加回原始的 DiT 塊。

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

上下文標(biāo)記化

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

完全微調(diào)與上下文適配器調(diào)優(yōu)

為了實(shí)現(xiàn)以 VCU 為輸入的訓(xùn)練,一種簡單的方法是完全微調(diào)整個 DiT 模型,如前面圖 3a 所示。上下文tokens X與噪聲tokens  一起添加,DiT 和新引入的上下文嵌入器中的所有參數(shù)將在訓(xùn)練期間更新。為了避免完全微調(diào)并實(shí)現(xiàn)更快的收斂,同時建立與基礎(chǔ)模型的可插拔特性,我們還提出了另一種方法,以 Res-Tuning的方式處理上下文tokens,如上圖 3b 所示。特別是,我們從原始 DiT 中選擇并復(fù)制了幾個 Transformer 塊,形成分布式和級聯(lián)型的上下文塊。原始 DiT 處理視頻tokens和文本tokens,而新添加的 Transformer 塊處理上下文tokens和文本tokens。每個上下文塊的輸出作為附加信號插入回 DiT 塊中,以協(xié)助主分支執(zhí)行生成和編輯任務(wù)。在這種方式下,DiT 的參數(shù)被凍結(jié),只有上下文嵌入器和上下文塊是可訓(xùn)練的。

數(shù)據(jù)集

數(shù)據(jù)構(gòu)建

為了獲得一個全能模型,所需數(shù)據(jù)構(gòu)建的多樣性和復(fù)雜性也隨之增加。現(xiàn)有的常見文本到視頻和圖像到視頻任務(wù)僅需要構(gòu)建文本和視頻對。然而,對于 VACE 中的任務(wù),模態(tài)需要進(jìn)一步擴(kuò)展,包括目標(biāo)視頻、源視頻、局部mask、參考等。為了高效快速地獲取各種任務(wù)的數(shù)據(jù),必須在保持視頻質(zhì)量的同時,對視頻數(shù)據(jù)進(jìn)行實(shí)例級分析和理解。


為此,我們首先通過鏡頭切片對視頻數(shù)據(jù)本身進(jìn)行分析,并根據(jù)分辨率、美學(xué)評分和運(yùn)動幅度初步過濾數(shù)據(jù)。接下來,使用 RAM 對視頻的第一幀進(jìn)行標(biāo)注,并結(jié)合 Grounding DINO 進(jìn)行檢測,利用定位結(jié)果對目標(biāo)區(qū)域過小或過大的視頻進(jìn)行二次過濾。此外,采用 SAM2 的傳播操作進(jìn)行視頻分割,以獲取視頻中的實(shí)例級信息。利用視頻分割的結(jié)果,我們通過基于mask區(qū)域閾值的有效幀比例計算,在時間維度上過濾實(shí)例。


在實(shí)際訓(xùn)練過程中,不同任務(wù)的數(shù)據(jù)構(gòu)建還需要根據(jù)每個任務(wù)的特點(diǎn)進(jìn)行調(diào)整:

  1. 對于一些可控視頻生成任務(wù),我們從過濾后的視頻中預(yù)提取深度、涂鴉、姿態(tài) 和光流。對于灰度和布局任務(wù),我們動態(tài)創(chuàng)建數(shù)據(jù)。
  2. 對于修復(fù)任務(wù),可以從視頻中隨機(jī)mask實(shí)例以進(jìn)行修復(fù),而mask的反轉(zhuǎn)則支持外繪數(shù)據(jù)的構(gòu)建。mask的增強(qiáng)允許無條件修復(fù)。
  3. 對于擴(kuò)展任務(wù),我們提取關(guān)鍵幀,如第一幀、最后一幀、兩端幀、隨機(jī)幀和兩端片段,以支持更多類型的擴(kuò)展。
  4. 對于參考任務(wù),可以從視頻中提取幾個人臉或物體實(shí)例,并應(yīng)用離線或在線增強(qiáng)操作來創(chuàng)建配對數(shù)據(jù)。值得注意的是,我們隨機(jī)組合所有上述任務(wù)進(jìn)行訓(xùn)練,以適應(yīng)更廣泛的模型應(yīng)用場景。此外,對于所有涉及mask的操作,我們執(zhí)行任意增強(qiáng)以滿足各種粒度的局部生成需求。

VACE 基準(zhǔn)

視頻生成領(lǐng)域已取得顯著進(jìn)展。然而,對這些模型性能的科學(xué)和全面評估仍然是一個亟待解決的問題。VBench和 VBench++通過廣泛的評估套件和維度設(shè)計,為文本到視頻和圖像到視頻任務(wù)建立了精確的評估框架。然而,隨著視頻生成生態(tài)系統(tǒng)的不斷發(fā)展,更多衍生任務(wù)開始出現(xiàn),例如視頻參考生成和視頻編輯,這些任務(wù)仍缺乏全面的基準(zhǔn)。為了解決這一問題,我們提出了 VACE-Benchmark,以系統(tǒng)的方式評估與視頻相關(guān)的各種下游任務(wù)。

從數(shù)據(jù)源開始,真實(shí)視頻和生成視頻在評估過程中可能表現(xiàn)出不同的性能特征。因此,本文收集了總共 240 個高質(zhì)量視頻,按來源分類,涵蓋各種數(shù)據(jù)類型,包括文本到視頻、修復(fù)、外繪、擴(kuò)展、灰度、深度、涂鴉、姿態(tài)、光流、布局、參考人臉和參考物體任務(wù),每個任務(wù)平均有 20 個樣本。輸入模態(tài)包括輸入視頻、mask和參考,還提供了原始視頻,以便開發(fā)者根據(jù)每個任務(wù)的具體特點(diǎn)進(jìn)行進(jìn)一步處理。關(guān)于數(shù)據(jù)提示,提供了視頻的原始描述用于定量評估,以及針對特定任務(wù)重寫的提示,以評估模型的創(chuàng)造力。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

實(shí)現(xiàn)細(xì)節(jié):VACE 基于不同規(guī)模的文本到視頻生成的擴(kuò)散transformers(Diffusion Transformers)進(jìn)行訓(xùn)練。它利用 LTX-Video-2B實(shí)現(xiàn)更快的生成,而 Wan-T2V-14B則用于更高質(zhì)量的輸出,支持高達(dá) 720p 的分辨率。訓(xùn)練采用分階段的方法。首先,我們專注于修復(fù)和擴(kuò)展等基礎(chǔ)任務(wù),這些任務(wù)被認(rèn)為是預(yù)訓(xùn)練文本到視頻模型的模態(tài)補(bǔ)充,包括mask的整合以及時空維度上下文生成的學(xué)習(xí)。接下來,從任務(wù)擴(kuò)展的角度,我們逐步從單輸入?yún)⒖紟^渡到多輸入?yún)⒖紟?,從單一任?wù)過渡到復(fù)合任務(wù)。最后,我們使用更高質(zhì)量的數(shù)據(jù)和更長的序列對模型質(zhì)量進(jìn)行微調(diào)。模型訓(xùn)練的輸入支持任意分辨率、動態(tài)時長和可變幀率,以滿足用戶的多樣化輸入需求。


基線模型:目標(biāo)是實(shí)現(xiàn)視頻創(chuàng)建和編輯任務(wù)的統(tǒng)一,目前尚無類似的全能視頻生成模型可供比較,因此我們將評估重點(diǎn)放在將我們的通用模型與專有的任務(wù)特定模型進(jìn)行比較。此外,由于涉及的任務(wù)眾多且許多任務(wù)缺乏開源方法,我們對比了離線或在線可用的模型。具體任務(wù)對比如下:

  1. 對于 I2V 任務(wù),比較了 I2VGenXL、CogVideoX-I2V  和 LTX-Video-I2V;
  2. 在修復(fù)任務(wù)中,比較了 ProPainter用于去除修復(fù),而 Follow-Your-Canvas和 M3DDM用于外繪;
  3. 對于可控任務(wù),在深度條件下使用 Control-A-Video、VideoComposer 和 ControlVideo,在姿態(tài)條件下比較 Text2Video-Zero、ControlVideo 和 Follow-Your-Pose,在光流條件下比較 FLATTEN;
  4. 在參考生成任務(wù)中,由于缺乏開源模型,比較了商業(yè)產(chǎn)品 Keling1.6、Pika2.2和 Vidu2.0。

評估方法:為了全面評估各種任務(wù)的性能,使用 VACE-Benchmark 進(jìn)行評估。具體來說,將評估分為自動評分和用戶研究的手動評估。對于自動評分,利用 VBench 中的部分指標(biāo)來評估視頻質(zhì)量和視頻一致性,包括八個指標(biāo):美學(xué)質(zhì)量、背景一致性、動態(tài)程度、成像質(zhì)量、運(yùn)動平滑度、整體一致性、主體一致性和時間閃爍。對于手動評估,我們使用平均意見分?jǐn)?shù)(MOS)作為評估指標(biāo),重點(diǎn)關(guān)注三個方面:提示跟隨、時間一致性和視頻質(zhì)量。在實(shí)際操作中,對生成的數(shù)據(jù)進(jìn)行匿名處理,并隨機(jī)分發(fā)給不同參與者進(jìn)行 1 到 5 分的評分。

主要結(jié)果

定量評估:在 VACE-Benchmark 上基于 LTX-Video 的 VACE 綜合模型與任務(wù)專用方法進(jìn)行了比較。對于某些任務(wù),我們遵循現(xiàn)有方法;例如,盡管我們支持基于任意幀生成,但為了確保公平性,使用當(dāng)前開源方法中的首幀參考方法進(jìn)行比較。從下表 2 中可以看出,對于 I2V、修復(fù)、外繪、深度、姿態(tài)和光流任務(wù),我們的方法在視頻質(zhì)量和視頻一致性的八個指標(biāo)上表現(xiàn)優(yōu)于其他開源方法,歸一化平均指標(biāo)顯示出更優(yōu)的結(jié)果。一些競爭方法只能生成 256 分辨率,生成時長非常短,并且在時間一致性上表現(xiàn)出不穩(wěn)定性,導(dǎo)致自動指標(biāo)計算表現(xiàn)較差。對于 R2V 任務(wù),與商業(yè)模型相比,小規(guī)??焖偕赡P驮谥笜?biāo)上仍有一定差距,但與 Vidu 2.0 的指標(biāo)相當(dāng)。根據(jù)人類用戶研究的結(jié)果,我們的方法在多個任務(wù)的評估指標(biāo)上表現(xiàn)一致更好,與用戶偏好高度吻合。

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

定性結(jié)果:下圖 1展示了 VACE 單一模型在多種任務(wù)中的結(jié)果。顯然,該模型在視頻質(zhì)量和時間一致性方面表現(xiàn)出色。在下圖 4 所示的組合任務(wù)中,我們的模型展示了令人印象深刻的能力,有效地整合了不同的模態(tài)和任務(wù),生成了現(xiàn)有單一或多個模型無法生成的結(jié)果,從而展示了其在視頻生成和編輯領(lǐng)域的強(qiáng)大潛力。例如,在“Move Anything”案例中,通過提供單張輸入圖像和移動軌跡,我們能夠精確地按照指定方向移動場景中的角色,同時保持連貫性和敘事一致性。

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

消融實(shí)驗(yàn)

為了更好地理解不同獨(dú)立模塊對統(tǒng)一視頻生成框架的影響,基于 LTX-Video 模型進(jìn)行了一系列系統(tǒng)對比實(shí)驗(yàn),以實(shí)現(xiàn)更好的模型結(jié)構(gòu)和配置。為了準(zhǔn)確評估不同的實(shí)驗(yàn)設(shè)置,我們?yōu)槊總€任務(wù)采樣 250 個數(shù)據(jù)點(diǎn)作為驗(yàn)證集,并計算訓(xùn)練損失,通過不同任務(wù)的平均曲線變化反映模型的訓(xùn)練進(jìn)展。


基礎(chǔ)結(jié)構(gòu):文本引導(dǎo)的圖像或視頻生成模型僅以噪聲作為推理輸入。當(dāng)擴(kuò)展到我們的統(tǒng)一輸入范式 VCU 時,我們可以通過完全微調(diào)或引入額外參數(shù)微調(diào)進(jìn)行訓(xùn)練。具體來說,如圖 5a 所示,我們比較了沿通道維度連接不同輸入的方法,并修改了 patchify 投影層的輸入維度,以實(shí)現(xiàn)預(yù)訓(xùn)練模型的加載和完全微調(diào)。以 Res-Tuning 的形式引入了一些額外的訓(xùn)練參數(shù),將 VCU 序列化到旁路分支中,并將信息注入主分支。結(jié)果表明,兩種方法的效果相似;然而,由于額外參數(shù)微調(diào)收斂更快,我們基于此方法進(jìn)行后續(xù)實(shí)驗(yàn)。如下圖 5b 所示,進(jìn)一步基于此結(jié)構(gòu)進(jìn)行了超參數(shù)實(shí)驗(yàn),重點(diǎn)關(guān)注權(quán)重方案、時間戳偏移和 p-zero 等方面。

Wan2.1背后的技術(shù):阿里發(fā)布全能框架VACE,一統(tǒng)視頻生成與編輯,效果驚艷!-AI.x社區(qū)

上下文適配器:由于上下文塊的數(shù)量會顯著影響模型大小和推理時間消耗,嘗試找到上下文塊的最佳數(shù)量和分布。從輸入側(cè)選擇連續(xù)塊開始,并比較前 1/4 塊、1/2 塊和所有塊。受 Res-Tuning方法的啟發(fā),還嘗試均勻分布注入塊,而不是選擇連續(xù)的塊系列。如圖 5c 所示,當(dāng)使用相同數(shù)量的塊時,分布排列的塊在淺層塊中優(yōu)于連續(xù)排列。此外,更多的塊通常會產(chǎn)生更好的結(jié)果,但由于效果提升有限且訓(xùn)練資源受限,采用了部分分布排列的塊。

概念解耦:在訓(xùn)練過程中,引入了概念解耦處理模塊,進(jìn)一步分解視覺單元,明確模型需要學(xué)習(xí)修改或保留的內(nèi)容。如圖 5d 所示,使用該模塊導(dǎo)致?lián)p失顯著減少。

結(jié)論

VACE,一個全能視頻生成與編輯框架。它統(tǒng)一了各種視頻任務(wù)所需的多樣化復(fù)雜多模態(tài)輸入,彌合了針對每個單獨(dú)任務(wù)的專用模型之間的差距。這使得大多數(shù)視頻 AI 創(chuàng)作任務(wù)可以通過單一模型的單次推理完成。在廣泛覆蓋各種視頻任務(wù)的同時,VACE 還支持這些任務(wù)的靈活自由組合,極大地擴(kuò)展了視頻生成模型的應(yīng)用場景,滿足了廣泛的用戶創(chuàng)作需求。VACE 框架為開發(fā)具有多模態(tài)輸入的統(tǒng)一視覺生成模型鋪平了道路,并代表了視覺生成領(lǐng)域的一個重要里程碑。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/jV5I2qLrCUDOfN-8Nf8IxA??


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦