自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2

發(fā)布于 2024-11-1 11:26
瀏覽
0收藏

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.13830
項(xiàng)目鏈接:https://dreamvideo2.github.io/

亮點(diǎn)直擊

  • DreamVideo-2,首個(gè)無(wú)需微調(diào),同時(shí)支持主體定制和運(yùn)動(dòng)控制的零樣本視頻定制框架,能夠通過(guò)設(shè)計(jì)的參考注意力學(xué)習(xí)主體外觀,并使用二值mask引導(dǎo)的運(yùn)動(dòng)模塊實(shí)現(xiàn)運(yùn)動(dòng)軌跡控制。
  • 識(shí)別出DreamVideo-2中運(yùn)動(dòng)控制占主導(dǎo)的問(wèn)題,并通過(guò)使用混合mask 增強(qiáng)參考注意力(即mask參考注意力)和設(shè)計(jì)重加權(quán)擴(kuò)散損失來(lái)解決該問(wèn)題,從而有效平衡了主體學(xué)習(xí)和運(yùn)動(dòng)控制。
  • 構(gòu)建了一個(gè)大型、全面且多樣性豐富的視頻數(shù)據(jù)集,以支持零樣本視頻定制任務(wù)。
  • 大量實(shí)驗(yàn)結(jié)果表明,DreamVideo-2優(yōu)于現(xiàn)有的先進(jìn)視頻定制方法。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有的視頻定制生成方法需要在測(cè)試時(shí)進(jìn)行復(fù)雜的微調(diào),且難以平衡主體學(xué)習(xí)與運(yùn)動(dòng)控制,限制了其在實(shí)際應(yīng)用中的效果。

提出的方案

提出了DreamVideo-2,一種無(wú)需測(cè)試時(shí)微調(diào)的零樣本視頻定制框架,通過(guò)單張圖像和一組邊界框序列指導(dǎo)視頻生成,確保生成視頻的特定主體和運(yùn)動(dòng)軌跡。

應(yīng)用的技術(shù)

  • 參考注意力機(jī)制:利用模型固有的主體學(xué)習(xí)能力來(lái)學(xué)習(xí)特定主體。
  • mask 引導(dǎo)的運(yùn)動(dòng)模塊:通過(guò)從邊界框中提取的二值mask 來(lái)精準(zhǔn)控制運(yùn)動(dòng)。
  • 掩碼參考注意力:將混合隱空間mask 建模方案集成到參考注意力中,以增強(qiáng)目標(biāo)位置的主體表征。
  • 重加權(quán)擴(kuò)散損失:區(qū)分邊界框內(nèi)外區(qū)域的貢獻(xiàn),確保主體和運(yùn)動(dòng)控制的平衡。

達(dá)到的效果

在一個(gè)新構(gòu)建的數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,DreamVideo-2在主體定制和運(yùn)動(dòng)控制方面均優(yōu)于現(xiàn)有的先進(jìn)方法。

方法

給定一個(gè)定義主體外觀的單個(gè)主體圖像和一個(gè)描述運(yùn)動(dòng)軌跡的邊界框序列,DreamVideo-2旨在生成包含指定主體和運(yùn)動(dòng)軌跡的視頻,無(wú)需在推理時(shí)進(jìn)行微調(diào)或修改,如下圖2所示。為了學(xué)習(xí)主體外觀,利用模型的固有能力,并引入了參考注意力。對(duì)于運(yùn)動(dòng)控制,提出使用mask作為運(yùn)動(dòng)控制信號(hào),并設(shè)計(jì)了 mask 引導(dǎo)運(yùn)動(dòng)模塊。此外,為了平衡主體學(xué)習(xí)和運(yùn)動(dòng)控制,通過(guò)混合 mask (即mask參考注意力)增強(qiáng)參考注意力,并設(shè)計(jì)了重加權(quán)擴(kuò)散損失。最后,詳細(xì)介紹了訓(xùn)練、推理和數(shù)據(jù)集構(gòu)建過(guò)程。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

通過(guò)參考注意力進(jìn)行主體學(xué)習(xí)

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

通過(guò)mask引導(dǎo)的運(yùn)動(dòng)模塊實(shí)現(xiàn)運(yùn)動(dòng)控制

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

為了從mask 序列中捕獲運(yùn)動(dòng)信息,設(shè)計(jì)了一個(gè)mask 引導(dǎo)的運(yùn)動(dòng)模塊,該模塊使用一個(gè)時(shí)空編碼器和一個(gè)空間 ControlNet,如前面圖 2 所示。雖然先前的研究證明了 3D ControlNet 從序列輸入中提取控制信息的有效性,但其高昂的訓(xùn)練成本在實(shí)際應(yīng)用中存在潛在缺陷。鑒于mask 序列中簡(jiǎn)單的時(shí)序關(guān)系,使用一個(gè)輕量級(jí)的時(shí)空編碼器足以提取所需的時(shí)序信息。因此,僅在該編碼器上附加一個(gè)空間 ControlNet 以進(jìn)一步提高控制精度。時(shí)空編碼器由重復(fù)的二維卷積和非線性層組成,后接兩個(gè)時(shí)序注意力層和一個(gè)輸出卷積層,如前面圖 2 右側(cè)所示。此外,空間 ControlNet 提取多尺度特征,并將其添加到 VDM 解碼器塊的卷積層輸入中。

平衡主體學(xué)習(xí)與運(yùn)動(dòng)控制

雖然上述兩個(gè)組件已實(shí)現(xiàn)其預(yù)期功能,根據(jù)經(jīng)驗(yàn)觀察到,運(yùn)動(dòng)控制往往占主導(dǎo)地位,這可能削弱主體ID保持的質(zhì)量。如下圖 3(b) 所示,模型僅需少量步驟即可學(xué)會(huì)運(yùn)動(dòng)控制,部分說(shuō)明了在指定位置生成主體相比于學(xué)習(xí)外觀細(xì)節(jié)更簡(jiǎn)單。在圖 3(c) 中,即使在延長(zhǎng)訓(xùn)練步驟的情況下,參考注意力和運(yùn)動(dòng)模塊的聯(lián)合訓(xùn)練也仍然使運(yùn)動(dòng)控制占主導(dǎo)地位,從而導(dǎo)致主體ID被破壞。相比之下,如圖 3(d) 所示,本文的方法通過(guò)以下兩個(gè)關(guān)鍵設(shè)計(jì)有效平衡了主體學(xué)習(xí)和運(yùn)動(dòng)控制。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

重加權(quán)擴(kuò)散損失 為了平衡主體學(xué)習(xí)和運(yùn)動(dòng)控制,進(jìn)一步提出了一種重加權(quán)擴(kuò)散損失,以區(qū)分邊界框內(nèi)外區(qū)域?qū)?biāo)準(zhǔn)擴(kuò)散損失的貢獻(xiàn)。具體而言,放大邊界框內(nèi)區(qū)域的貢獻(xiàn),以增強(qiáng)主體學(xué)習(xí),同時(shí)保留邊界框外區(qū)域的原始擴(kuò)散損失。設(shè)計(jì)的重加權(quán)擴(kuò)散損失可以定義為

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

訓(xùn)練、推理和數(shù)據(jù)集構(gòu)建

訓(xùn)練 從訓(xùn)練視頻中隨機(jī)選擇一幀并進(jìn)行分割,以獲得帶有空白背景的主體圖像,這相比于使用首幀能緩解過(guò)擬合。同時(shí),從訓(xùn)練視頻的所有幀中提取主體的邊界框,并將其轉(zhuǎn)換為mask 作為運(yùn)動(dòng)控制信號(hào)。在訓(xùn)練過(guò)程中,凍結(jié)原始的 3D UNet 參數(shù),并根據(jù)公式 (6) 聯(lián)合訓(xùn)練新添加的mask 參考注意力、時(shí)空編碼器和 ControlNet。


推理 DreamVideo-2 在推理時(shí)無(wú)需微調(diào),且不需要修改注意力圖。用戶只需提供主體圖像和邊界框序列,即可靈活生成包含指定主體和運(yùn)動(dòng)軌跡的定制視頻。邊界框可以從多種信號(hào)中獲得,包括首幀和末幀的邊界框、首幀邊界框及運(yùn)動(dòng)軌跡,或參考視頻。這些信號(hào)隨后被轉(zhuǎn)換為二值mask作為輸入。


數(shù)據(jù)集構(gòu)建 為了便于主體和運(yùn)動(dòng)控制的零樣本視頻定制任務(wù),從 WebVid-10M數(shù)據(jù)集和內(nèi)部數(shù)據(jù)中策展了一個(gè)包含視頻mask 和邊界框的單主體視頻數(shù)據(jù)集。注釋是使用 Grounding DINO、SAM和 DEVA模型生成的。本文的數(shù)據(jù)集與之前的數(shù)據(jù)集的比較見(jiàn)下表 1。目前已處理 230,160 個(gè)視頻用于訓(xùn)練。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集 在策展的視頻數(shù)據(jù)集上訓(xùn)練 DreamVideo-2,并通過(guò)包含 50 個(gè)主體和 36 個(gè)邊界框的測(cè)試集進(jìn)行評(píng)估。主體圖像來(lái)源于之前的文獻(xiàn)和互聯(lián)網(wǎng),而邊界框來(lái)自 DAVIS 數(shù)據(jù)集中的視頻和 FreeTraj 中使用的框。此外,設(shè)計(jì)了 60 個(gè)文本提示用于驗(yàn)證。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

基線方法 將本文的方法與 DreamVideo和 MotionBooth進(jìn)行主體定制和運(yùn)動(dòng)控制的對(duì)比。此外,還與 DreamVideo 和 VideoBooth進(jìn)行獨(dú)立的主體定制對(duì)比,并與 Peekaboo、Direct-a-Video和 MotionCtrl進(jìn)行運(yùn)動(dòng)軌跡控制的對(duì)比。


評(píng)估指標(biāo) 通過(guò) 9 個(gè)指標(biāo)評(píng)估方法,重點(diǎn)關(guān)注三個(gè)方面:總體一致性、主體保真度和運(yùn)動(dòng)控制精度。

  • 對(duì)于總體一致性,使用 CLIP 圖文相似性 (CLIP-T)、時(shí)序一致性 (T. Cons.) 和動(dòng)態(tài)程度 (DD) 進(jìn)行評(píng)估,DD 使用光流來(lái)測(cè)量運(yùn)動(dòng)動(dòng)態(tài)。
  • 對(duì)于主體保真度,引入了四個(gè)指標(biāo):CLIP 圖像相似性 (CLIP-I)、DINO 圖像相似性 (DINO-I)、區(qū)域 CLIP-I (R-CLIP) 和區(qū)域 DINO-I (R-DINO)。R-CLIP 和 R-DINO 計(jì)算主體圖像與邊界框定義的幀區(qū)域之間的相似性。
  • 對(duì)于運(yùn)動(dòng)控制精度,使用平均交并比 (mIoU) 和質(zhì)心距離 (CD) 指標(biāo) 。CD 計(jì)算生成的主體質(zhì)心與目標(biāo)邊界框之間的歸一化距離。使用 Grounding-DINO 來(lái)預(yù)測(cè)生成視頻的邊界框。

主要結(jié)果

主體定制和運(yùn)動(dòng)控制的聯(lián)合 對(duì)比了本文的方法與基線方法生成帶有指定主體和運(yùn)動(dòng)軌跡視頻的質(zhì)量,結(jié)果如下圖 4 所示。觀察到,DreamVideo 和 MotionBooth 難以在主體保留和運(yùn)動(dòng)控制之間取得平衡,尤其是在訓(xùn)練單一主體圖像時(shí)。主體與運(yùn)動(dòng)的控制強(qiáng)度不平衡影響了它們的表現(xiàn),導(dǎo)致在增強(qiáng)某一方面時(shí)損害了另一方面的效果。相較之下,DreamVideo-2 能夠在各種上下文中和諧地生成帶有期望主體外觀和運(yùn)動(dòng)軌跡的定制視頻。此外,本文的方法有效地將主體限制在邊界框內(nèi),更好地符合用戶的偏好,增強(qiáng)了其在實(shí)際應(yīng)用中的適用性。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

定量比較結(jié)果 如下表 2 所示。DreamVideo-2 在文本對(duì)齊、主體保真度和運(yùn)動(dòng)控制精度方面始終優(yōu)于所有基線方法,同時(shí)在時(shí)序一致性上也達(dá)到了可比的表現(xiàn)。值得注意的是,本文的方法在 mIoU 和 CD 指標(biāo)上顯著超越了基線方法,驗(yàn)證了在運(yùn)動(dòng)控制方面的穩(wěn)健性。相比之下,DreamVideo 在 CLIP-I 和 DINO-I 指標(biāo)上表現(xiàn)第二優(yōu),但在 mIoU 和 CD 上較弱,表明其在主體ID保留方面具有優(yōu)勢(shì),但在運(yùn)動(dòng)控制方面存在局限性。MotionBooth 由于對(duì)整個(gè)模型進(jìn)行了微調(diào),CLIP-T 得分最低,但在 mIoU 和 CD 指標(biāo)上比 DreamVideo 更好,表明使用顯式運(yùn)動(dòng)控制信號(hào)(例如邊界框)可能比從參考視頻學(xué)習(xí)更為有效。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

主體定制 還評(píng)估了獨(dú)立的主體定制能力。下圖 5 展示了定性比較結(jié)果。觀察到,VideoBooth 對(duì)于其訓(xùn)練數(shù)據(jù)中未包含的主體表現(xiàn)出有限的泛化能力,而 DreamVideo 在單張圖像訓(xùn)練時(shí)未能捕捉到外觀細(xì)節(jié)。相反,當(dāng)在與 VideoBooth 相同的數(shù)據(jù)集上訓(xùn)練時(shí),DreamVideo-2 結(jié)合參考注意力和重加權(quán)擴(kuò)散損失,可以生成符合文本提示的目標(biāo)主體視頻。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

表 3 的定量比較結(jié)果顯示,盡管 DreamVideo-2 在 CLIP-I 和時(shí)序一致性上保持相當(dāng)?shù)谋憩F(xiàn),但它在 CLIP-T、DINO-I 和動(dòng)態(tài)程度上取得了最高分,驗(yàn)證了本文的方法在文本對(duì)齊、主體保真度和運(yùn)動(dòng)動(dòng)態(tài)方面的優(yōu)越性。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

運(yùn)動(dòng)控制 除了主體定制之外,還評(píng)估了運(yùn)動(dòng)控制能力,如圖 6 所示。結(jié)果表明,所有基線方法在準(zhǔn)確控制主體按邊界框定義的運(yùn)動(dòng)方面都存在困難。同時(shí),Direct-a-Video 可能會(huì)因修改注意力圖值而導(dǎo)致生成的物體外觀損壞。相比之下,僅使用運(yùn)動(dòng)編碼器的 DreamVideo-2 能夠?qū)崿F(xiàn)精確的運(yùn)動(dòng)控制,并有效地確保主體保持在邊界框內(nèi),展示了穩(wěn)健的控制能力。


如下表 4 所示,盡管與 MotionCtrl 相比在時(shí)序一致性(T. Cons.)上略低,本文的方法在 CLIP-T 上取得最高得分,并且在 mIoU 和 CD 指標(biāo)上大幅超越基線方法。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

用戶研究 為進(jìn)一步評(píng)估 DreamVideo-2,進(jìn)行了用戶研究,邀請(qǐng) 15 名標(biāo)注員對(duì)三種方法生成的 300 組視頻進(jìn)行評(píng)分。每組包含 3 個(gè)生成的視頻、一個(gè)主體圖像、文本提示和對(duì)應(yīng)的邊界框。根據(jù)文本對(duì)齊度、主體保真度、運(yùn)動(dòng)對(duì)齊度和總體質(zhì)量四個(gè)方面進(jìn)行評(píng)估,并通過(guò)多數(shù)投票得出結(jié)果。下圖 7 顯示,用戶在四個(gè)方面均更偏好本文的方法。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

消融實(shí)驗(yàn)

各組件的效果 本文進(jìn)行了消融實(shí)驗(yàn)以探究各組件的效果,如下圖 8(a) 所示。觀察到,去除mask 機(jī)制或重加權(quán)擴(kuò)散損失后,主體ID的質(zhì)量因運(yùn)動(dòng)控制的主導(dǎo)性而下降。雖然在mask 參考注意力中使用二值mask 有助于保留主體ID,但由于忽略了注意力中的背景信息,往往導(dǎo)致背景模糊、視頻質(zhì)量低下。值得注意的是,在沒(méi)有運(yùn)動(dòng)編碼器的情況下,mask 參考注意力仍然能夠?qū)崿F(xiàn)粗略的軌跡控制。

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

下表 5 的定量結(jié)果表明,去除mask 機(jī)制、運(yùn)動(dòng)編碼器或重加權(quán)擴(kuò)散損失后,所有指標(biāo)的性能均會(huì)下降。這證實(shí)了各組件對(duì)整體性能的貢獻(xiàn);

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

定制化視頻生成新模范!零樣本主體驅(qū)動(dòng),精確運(yùn)動(dòng)控制!復(fù)旦&阿里等發(fā)布DreamVideo-2-AI.x社區(qū)

結(jié)論

本文提出了 DreamVideo-2,這是一種創(chuàng)新的零樣本視頻定制框架,能夠生成具有特定主體和運(yùn)動(dòng)軌跡的視頻。引入了參考注意力用于主體學(xué)習(xí),并設(shè)計(jì)了mask 引導(dǎo)的運(yùn)動(dòng)模塊以實(shí)現(xiàn)運(yùn)動(dòng)控制。針對(duì) DreamVideo-2 中運(yùn)動(dòng)控制主導(dǎo)性的問(wèn)題,在參考注意力中引入了混合mask 并設(shè)計(jì)了重加權(quán)擴(kuò)散損失,從而有效地平衡了主體學(xué)習(xí)和運(yùn)動(dòng)控制。大量實(shí)驗(yàn)結(jié)果表明,DreamVideo-2 在主體定制和運(yùn)動(dòng)軌跡控制方面均具有優(yōu)勢(shì)。


局限性 盡管本文的方法能夠定制單個(gè)主體與單一軌跡,但在生成包含多個(gè)主體和多重軌跡的視頻時(shí)仍存在不足。一種解決方案是構(gòu)建更為多樣化的數(shù)據(jù)集并訓(xùn)練通用模型。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/YwkOVbRdv5OVySLcUqdvEQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦