自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

軌跡可控視頻生成新范式,復(fù)旦微軟破解視頻生成難題,精準(zhǔn)控制任意物體運(yùn)動(dòng)

人工智能 新聞
研究人員提出了MagicMotion,一種創(chuàng)新的圖像到視頻生成框架,共同第一作者為復(fù)旦大學(xué)研究生李全昊、邢楨,通訊作者為復(fù)旦大學(xué)吳祖煊副教授。

軌跡可控的視頻生成來(lái)了,支持三種不同級(jí)別的軌跡控制條件——分別為掩碼、邊界框和稀疏框。

近年來(lái),視頻生成技術(shù)快速發(fā)展,顯著提升了視頻的視覺(jué)質(zhì)量與時(shí)間連貫性。在此基礎(chǔ)上,(trajectory-controllable video generation)涌現(xiàn)了許多工作,使得通過(guò)明確定義的路徑精確控制生成視頻中的物體運(yùn)動(dòng)軌跡成為可能。

然而,現(xiàn)有方法在處理復(fù)雜的物體運(yùn)動(dòng)軌跡和多物體軌跡控制方面仍面臨挑戰(zhàn),導(dǎo)致生成的視頻物體移動(dòng)軌跡不夠精確,或者整體視覺(jué)質(zhì)量較低。此外,這些方法通常僅支持單一格式的軌跡控制,限制了其在不同應(yīng)用場(chǎng)景中的靈活性。不僅如此,目前尚無(wú)專門針對(duì)軌跡可控視頻生成的公開(kāi)數(shù)據(jù)集或評(píng)價(jià)基準(zhǔn),阻礙了該領(lǐng)域的更進(jìn)一步的深入研究與系統(tǒng)性評(píng)估。

為了解決這些挑戰(zhàn),研究人員提出了MagicMotion,一種創(chuàng)新的圖像到視頻生成框架,共同第一作者為復(fù)旦大學(xué)研究生李全昊、邢楨,通訊作者為復(fù)旦大學(xué)吳祖煊副教授。

圖片

在給定一張輸入圖像和對(duì)應(yīng)物體軌跡的情況下,MagicMotion能夠精準(zhǔn)地控制物體沿著指定軌跡運(yùn)動(dòng),同時(shí)保持視頻的視覺(jué)質(zhì)量。

此外,本文構(gòu)建了MagicData,一個(gè)大規(guī)模的軌跡控制視頻數(shù)據(jù)集,并配備了一套自動(dòng)化的標(biāo)注與篩選流程,以提升數(shù)據(jù)質(zhì)量和處理效率。

本文還引入了MagicBench,一個(gè)專為軌跡控制視頻生成設(shè)計(jì)的綜合評(píng)測(cè)基準(zhǔn),旨在評(píng)估在控制不同數(shù)量物體運(yùn)動(dòng)情況下的視頻質(zhì)量及軌跡控制精度。

大量實(shí)驗(yàn)表明,MagicMotion在多個(gè)關(guān)鍵指標(biāo)上均超越現(xiàn)有方法,展現(xiàn)出卓越的性能。

圖片

方法介紹

MagicMotion基于 CogVideoX5B-I2V 這一圖像到視頻生成模型,并引入了額外的軌跡控制網(wǎng)絡(luò)(Trajectory ControlNet)。該設(shè)計(jì)能夠高效地將不同類型的軌跡信息編碼到視頻生成模型中,實(shí)現(xiàn)軌跡可控的視頻生成。如圖所示,本文使用 3D VAE 編碼器將軌跡圖編碼到隱空間,然后將其與編碼后的視頻拼接,作為軌跡控制網(wǎng)絡(luò)的輸入。軌跡控制網(wǎng)絡(luò)由所有預(yù)訓(xùn)練的 DiT 模塊的可訓(xùn)練副本構(gòu)建而成,用于編碼用戶提供的軌跡信息。每個(gè)軌跡控制網(wǎng)絡(luò)模塊的輸出隨后會(huì)通過(guò)一個(gè)零初始化的卷積層進(jìn)行處理,并添加到基礎(chǔ)模型中對(duì)應(yīng)的 DiT 模塊,以提供軌跡引導(dǎo)。

圖片

MagicMotion采用了從密集軌跡控制到稀疏軌跡控制的漸進(jìn)式訓(xùn)練過(guò)程,其中每個(gè)階段都用前一階段的權(quán)重來(lái)初始化其模型。這使得能夠?qū)崿F(xiàn)從密集到稀疏的三種類型的軌跡控制。本文發(fā)現(xiàn),與使用稀疏條件從頭開(kāi)始訓(xùn)練相比,這種漸進(jìn)式訓(xùn)練策略有助于模型取得更好的性能。具體來(lái)說(shuō),本文在各個(gè)階段采用以下軌跡條件:階段 1 使用分割掩碼,階段 2 使用邊界框,階段 3 使用稀疏邊界框,其中少于 10 幀有邊界框標(biāo)注。此外,本文總是將軌跡條件的第一幀設(shè)置為分割掩碼,以指定應(yīng)該移動(dòng)的前景對(duì)象。

此外,MagicMotion還提出了隱分割損失(latent segment loss),它在模型訓(xùn)練過(guò)程中引入分割掩碼信息,增強(qiáng)了模型對(duì)物體細(xì)粒度形狀的感知能力。研究者使用輕量級(jí)分割頭直接在隱空間中預(yù)測(cè)出分割掩碼,從而在引入極小計(jì)算開(kāi)銷的情況下,無(wú)需進(jìn)行解碼操作,幫助模型在生成視頻的同時(shí)在潛在空間中執(zhí)行物體分割任務(wù),從而更好地理解物體的細(xì)粒度形狀。

圖片

研究者還提出了一個(gè)全新的自動(dòng)數(shù)據(jù)處理流程,包括兩個(gè)主要階段:數(shù)據(jù)整理流程(Curation Pipeline)和數(shù)據(jù)篩選流程(Filtering Pipeline)。數(shù)據(jù)整理流程負(fù)責(zé)從大規(guī)模的視頻-文本數(shù)據(jù)集中構(gòu)造軌跡信息,而數(shù)據(jù)篩選流程則確保在訓(xùn)練前移除不適合的視頻。

實(shí)驗(yàn)與結(jié)果

MagicMotion的每個(gè)階段都在MagicData上訓(xùn)練一個(gè)輪次。訓(xùn)練過(guò)程包括三個(gè)階段。階段1從零開(kāi)始訓(xùn)練軌跡控制網(wǎng)絡(luò)(Trajectory ControlNet)。在階段2中,使用階段1的權(quán)重進(jìn)一步優(yōu)化軌跡控制網(wǎng)絡(luò)(Trajectory ControlNet),同時(shí)從零開(kāi)始訓(xùn)練分割頭(Segment Head)。最后,在階段3中,軌跡控制網(wǎng)絡(luò)(Trajectory ControlNet)和分割頭(Segment Head)都使用階段2的權(quán)重繼續(xù)訓(xùn)練。研究者采用AdamW作為優(yōu)化器,所有訓(xùn)練實(shí)驗(yàn)均在 4 張 NVIDIA A100-80G GPU 上進(jìn)行,學(xué)習(xí)率設(shè)為 1e-5。

研究者將MagicMotion與7種流行的軌跡可控圖像到視頻(I2V)方法進(jìn)行了對(duì)比,在MagicBench和DAVIS上對(duì)所有方法進(jìn)行評(píng)估。

結(jié)果如下表所示,MagicMotion在MagicBench和DAVIS上的所有指標(biāo)上都優(yōu)于以往的所有方法,這表明它能夠生成更高質(zhì)量的視頻并實(shí)現(xiàn)更精確的軌跡控制。

圖片
圖片

此外,本文根據(jù)受控對(duì)象的數(shù)量評(píng)估了每種方法在MagicBench上的性能。如下圖所示,MagicMotion方法在所有受控物體數(shù)量的類別中都取得了最佳結(jié)果,進(jìn)一步證明了該方法的優(yōu)越性。

定性對(duì)比結(jié)果

如下圖所示,Tora能夠精準(zhǔn)控制運(yùn)動(dòng)軌跡,但難以精確保持物體的形狀。DragAnything 、ImageConductor 和 MotionI2V 在 保持主體一致性方面存在困難,導(dǎo)致后續(xù)幀中出現(xiàn)明顯的形變。同時(shí),DragNUWA、LeviTor 和 SG-I2V生成的結(jié)果經(jīng)常出現(xiàn)視頻質(zhì)量底下和細(xì)節(jié)不一致的問(wèn)題。相比之下,MagicMotion能夠使移動(dòng)的物體平滑地沿指定軌跡運(yùn)動(dòng),同時(shí)保持高質(zhì)量的視頻生成效果。

圖片

論文地址:https://arxiv.org/abs/2503.16421

論文主頁(yè):https://quanhaol.github.io/magicmotion-site/

代碼鏈接:https://github.com/quanhaol/MagicMotion

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-10-28 07:30:00

2023-09-06 12:57:11

AI訓(xùn)練

2025-01-14 14:02:05

2023-04-03 10:04:44

開(kāi)源模型

2025-01-26 10:50:00

模型視頻生成

2024-12-26 00:51:38

2023-06-13 09:33:37

視頻阿里巴巴

2023-11-24 12:10:43

AI模型

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-04-07 14:56:22

技術(shù)應(yīng)用

2024-03-29 13:55:22

AI訓(xùn)練

2025-04-16 09:20:00

虛擬模型數(shù)字

2025-03-03 08:32:00

模型AI訓(xùn)練

2024-08-26 15:58:35

2024-02-19 07:58:01

OpenAI模型GPT

2024-02-26 16:55:51

Sora人工智能

2024-11-08 17:34:38

2025-03-27 10:04:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)