自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!

發(fā)布于 2024-8-23 09:13
瀏覽
0收藏

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2408.11475
項(xiàng)目鏈接:https://zhtjtcz.github.io/TrackGo-Page/


★亮點(diǎn)直擊

  • 本文引入了一種新穎的運(yùn)動(dòng)可控視頻生成方法,稱為TrackGo。該方法為用戶提供了一種靈活的運(yùn)動(dòng)控制機(jī)制,通過(guò)結(jié)合 masks 和箭頭,實(shí)現(xiàn)了在復(fù)雜場(chǎng)景中的精確操控,包括涉及多個(gè)對(duì)象、細(xì)粒度對(duì)象部件和復(fù)雜運(yùn)動(dòng)軌跡的場(chǎng)景。
  • 本文開發(fā)了一個(gè)新組件,稱為TrackAdapter,用于有效且高效地將運(yùn)動(dòng)控制信息集成到時(shí)間自注意力層中。
  • 本文進(jìn)行了廣泛的實(shí)驗(yàn)來(lái)驗(yàn)證本文的方法。實(shí)驗(yàn)結(jié)果表明,本文的模型在視頻質(zhì)量(FVD)、圖像質(zhì)量(FID)和運(yùn)動(dòng)真實(shí)性(ObjMC)方面優(yōu)于現(xiàn)有模型。


近年來(lái),基于擴(kuò)散的可控視頻生成領(lǐng)域取得了顯著進(jìn)展。然而,在復(fù)雜場(chǎng)景中實(shí)現(xiàn)精確控制仍然是一個(gè)挑戰(zhàn),包括對(duì)細(xì)粒度的物體部分、復(fù)雜的運(yùn)動(dòng)軌跡以及連貫的背景運(yùn)動(dòng)的控制。在本文中,本文介紹了TrackGo,這是一種利用自由形式的masks和箭頭進(jìn)行條件視頻生成的新方法。該方法為用戶提供了一種靈活且精確的機(jī)制來(lái)操控視頻內(nèi)容。本文還提出了用于控制實(shí)現(xiàn)的TrackAdapter,這是一種高效輕量的適配器,旨在無(wú)縫集成到預(yù)訓(xùn)練視頻生成模型的時(shí)間自注意力層中。該設(shè)計(jì)利用了本文的觀察,即這些層的注意力圖可以準(zhǔn)確激活與視頻中運(yùn)動(dòng)對(duì)應(yīng)的區(qū)域。本文的實(shí)驗(yàn)結(jié)果表明,借助TrackAdapter增強(qiáng)的新方法在關(guān)鍵指標(biāo)如FVD、FID和ObjMC得分上實(shí)現(xiàn)了SOTA性能。

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

方法

概覽

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

在接下來(lái)的部分中,將討論三個(gè)主要主題:

  1. 點(diǎn)軌跡的優(yōu)勢(shì)以及本文如何獲取和使用它們。
  2. TrackAdapter的結(jié)構(gòu)以及它如何幫助SVD理解復(fù)雜的運(yùn)動(dòng)模式并完成復(fù)雜動(dòng)作的生成。
  3. 我們模型的訓(xùn)練和推理過(guò)程。

點(diǎn)軌跡生成

在推理過(guò)程中,當(dāng)用戶提供第一幀圖像、編輯區(qū)域的masks以及相應(yīng)的箭頭時(shí),本文的方法可以通過(guò)預(yù)處理將用戶輸入的masks和箭頭轉(zhuǎn)換為點(diǎn)軌跡,如上圖3所示。

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

通過(guò) TrackAdapter 注入運(yùn)動(dòng)條件

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

為了避免原始時(shí)間自注意力分支對(duì)最終活躍區(qū)域的影響,本文根據(jù)注意力圖獲得一個(gè)注意力 mask ,以抑制由原始時(shí)間自注意力分支激活的區(qū)域。

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

TrackAdapter的訓(xùn)練和推理

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

Experiment Settings

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

數(shù)據(jù)集。 對(duì)于本文的實(shí)驗(yàn),本文使用了一個(gè)內(nèi)部數(shù)據(jù)集,該數(shù)據(jù)集具有優(yōu)質(zhì)的視頻質(zhì)量,包括大約20萬(wàn)段視頻。根據(jù)實(shí)驗(yàn)設(shè)計(jì),本文進(jìn)一步篩選數(shù)據(jù),得到約11萬(wàn)段視頻作為本文的最終訓(xùn)練數(shù)據(jù)集。在訓(xùn)練過(guò)程中,每個(gè)視頻被調(diào)整為1024 × 576的分辨率,并標(biāo)準(zhǔn)化為每段25幀。


本文的測(cè)試集包括VIPSeg驗(yàn)證集以及內(nèi)部驗(yàn)證數(shù)據(jù)集中額外的300段視頻。值得注意的是,VIPSeg數(shù)據(jù)集中的所有視頻均為16:9的寬高比。為了保持一致性,本文將驗(yàn)證集中的所有視頻的分辨率調(diào)整為1024 × 576,而不是DragAnything中使用的256 × 256。為了評(píng)估,本文從測(cè)試集中每個(gè)視頻的前14幀中提取軌跡。


評(píng)估指標(biāo)和基線方法。 本文使用FVD(Frechet Video Distance)來(lái)測(cè)量視頻質(zhì)量,并使用FID來(lái)測(cè)量圖像質(zhì)量。本文將本文的方法與DragNUWA和DragAnything進(jìn)行比較,這些方法也可以使用軌跡信息作為條件輸入。根據(jù)DragAnything,ObjMC用于通過(guò)計(jì)算預(yù)測(cè)軌跡和真實(shí)軌跡之間的歐幾里得距離來(lái)評(píng)估運(yùn)動(dòng)控制性能。

定量評(píng)價(jià)

本文的方法與基線方法的定量比較如下表1所示。本文在VIPSeg驗(yàn)證集和內(nèi)部驗(yàn)證集上測(cè)試了所有模型。從結(jié)果可以看出,TrackGo在所有指標(biāo)上都優(yōu)于其他方法,這表明本文的方法可以生成具有更高視覺(jué)質(zhì)量的視頻,并且更加忠實(shí)于輸入的運(yùn)動(dòng)控制。本文還比較了三種方法的模型參數(shù)和推理速度。由于這三種方法都使用相同的基礎(chǔ)模型,本文的比較專注于新增模塊的總權(quán)重。為了評(píng)估模型的推理速度,本文在NVIDIA A100 GPU上使用相同的輸入數(shù)據(jù)對(duì)每種方法進(jìn)行了100次推理測(cè)試。結(jié)果表明,本文的方法不僅提供了最佳的視覺(jué)質(zhì)量,還實(shí)現(xiàn)了最快的推理速度,同時(shí)需要的額外參數(shù)最少。

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

定性評(píng)價(jià)

可視化。 本文在下圖4中展示了與DragAnything和DragNUWA的可視化比較。本文可以做出以下觀察:首先,DragNUWA在感知控制區(qū)域時(shí)存在困難,這可能導(dǎo)致光流不完整或不準(zhǔn)確。在案例(b)中,行星未被正確感知,而在案例(a)中,槍的移動(dòng)也是不正確的。在案例(c)中,雖然成功預(yù)測(cè)了火車的光流,但煙霧的光流缺失導(dǎo)致了刺眼的視覺(jué)效果。其次,DragAnything在處理部分或細(xì)粒度物體的移動(dòng)時(shí)也面臨困難。如案例(a)所示,只有槍和馬里奧的手應(yīng)該移動(dòng),但馬里奧的整個(gè)位置也意外地移動(dòng)了。類似的問(wèn)題也出現(xiàn)在案例(b)中。此外,DragAnything難以生成和諧的背景。在案例(c)中,煙霧沒(méi)有跟隨移動(dòng)的火車。相比之下,本文提出的TrackGo可以生成視頻,使目標(biāo)區(qū)域的移動(dòng)與用戶輸入精確對(duì)齊,同時(shí)保持背景的一致性和和諧性。這一能力顯著提高了生成視頻的視覺(jué)質(zhì)量和連貫性,展示了TrackGo的有效性。更多本文方法的案例可以在上圖1中找到。

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

相機(jī)運(yùn)動(dòng)。 類似于 DragAnything,TrackGo 也能夠?qū)崿F(xiàn)相機(jī)運(yùn)動(dòng)效果,如下圖 6 所示。只需選擇整個(gè)圖像區(qū)域作為運(yùn)動(dòng)區(qū)域,并提供一個(gè)運(yùn)動(dòng)軌跡,就可以實(shí)現(xiàn)相機(jī)沿著該軌跡指定方向移動(dòng)的效果。

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

消融研究

為了驗(yàn)證注意力 mask 和注意力損失的有效性,本文在不同的訓(xùn)練步數(shù)下報(bào)告了內(nèi)部驗(yàn)證集上的 FVD 指標(biāo),如下表 2 所示。在相同的訓(xùn)練步數(shù)下,未使用注意力損失的模型顯示出略高的 FVD,與使用注意力損失的模型相比。當(dāng)不使用注意力損失時(shí),F(xiàn)VD 高于應(yīng)用注意力損失時(shí)的水平。這種差異在 18K 訓(xùn)練步時(shí)尤為明顯。這表明使用注意力損失可以加速模型訓(xùn)練并有助于收斂。在沒(méi)有使用注意力 mask 和注意力損失的情況下,F(xiàn)VD 在大約 16K 步時(shí)趨于穩(wěn)定,但仍然顯著高于完整設(shè)置下的 FVD。

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

用戶研究

本文進(jìn)行了一項(xiàng)用戶研究來(lái)評(píng)估合成視頻的質(zhì)量。本文隨機(jī)抽取了60個(gè)案例,并對(duì)三種不同的方法進(jìn)行用戶研究。每份問(wèn)卷包含從這60個(gè)案例中隨機(jī)抽取的30個(gè)案例。本文要求用戶根據(jù)整體質(zhì)量從兩個(gè)方面選擇最佳視頻:生成視頻與給定條件之間的一致性,以及生成視頻的質(zhì)量(例如,主體是否失真,未選擇的背景是否抖動(dòng)等)。本文邀請(qǐng)了30人填寫問(wèn)卷,性別比例約為3:1(男性:女性)。大多數(shù)參與者是來(lái)自不同科學(xué)與工程領(lǐng)域的大學(xué)生,年齡在18到27歲之間。結(jié)果顯示,本文的方法獲得了62%的投票,高于DragAnything的16.33%和DragNUWA的21.67%,如下圖7所示。

勇奪三項(xiàng)SOTA!北航&愛詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo!-AI.x社區(qū)

結(jié)論

在本文中,本文引入了點(diǎn)軌跡來(lái)捕捉視頻中的復(fù)雜時(shí)間信息。本文提出了TrackAdapter來(lái)處理這些點(diǎn)軌跡,重點(diǎn)關(guān)注指定目標(biāo)的運(yùn)動(dòng),并使用注意力 mask 來(lái)減輕原始時(shí)間自注意力對(duì)指定區(qū)域的影響。在推理過(guò)程中,注意力 mask 可以調(diào)節(jié)未指定區(qū)域的運(yùn)動(dòng),從而使視頻輸出更符合用戶輸入。大量實(shí)驗(yàn)表明,本文的TrackGo在FVD、FID和ObjMC評(píng)分上達(dá)到了SOTA水平。此外,定性分析顯示,本文的方法在各種復(fù)雜場(chǎng)景中提供了精確的控制。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Haitao Zhou等


原文鏈接:??https://mp.weixin.qq.com/s/mH-ITIUX5AqGohh1tlPlHA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦