自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI視頻生成新突破!字節(jié)提出一致性視頻生成方法Phantom:通過跨模態(tài)對齊生成主題一致的視頻,超多應(yīng)用場景

人工智能 新聞
它通過重新設(shè)計(jì)聯(lián)合文本-圖像注入模型,利用文本-圖像-視頻三元組數(shù)據(jù)實(shí)現(xiàn)跨模態(tài)對齊。

Phantom 是一個(gè)統(tǒng)一的視頻生成框架,適用于單主題和多主題參考,基于現(xiàn)有的文本轉(zhuǎn)視頻和圖像轉(zhuǎn)視頻架構(gòu)構(gòu)建。它通過重新設(shè)計(jì)聯(lián)合文本-圖像注入模型,利用文本-圖像-視頻三元組數(shù)據(jù)實(shí)現(xiàn)跨模態(tài)對齊。此外,它在人物生成中強(qiáng)調(diào)主題一致性,同時(shí)增強(qiáng)了身份保留視頻生成。

圖片

相關(guān)鏈接

  • 論文:https://arxiv.org/abs/2502.11079
  • 代碼:https://github.com/Phantom-video/Phantom
  • 主頁:https://phantom-video.github.io/Phantom/
  • ComfyUI:https://github.com/kijai/ComfyUI-WanVideoWrapper/tree/dev

身份保護(hù)視頻生成

使用面部參考圖像生成主體視頻。Phantom嚴(yán)格保留參考面部的身份,同時(shí)根據(jù)提供的提示生成生動(dòng)的視頻。

圖片

單參考主題到視頻生成

使用單個(gè)參考圖像生成主體視頻。Phantom可以保持各種主體的完整性,包括物體、衣服、動(dòng)物、虛擬角色等。

圖片

多參考主題到視頻的生成

使用多個(gè)參考圖像生成主體視頻。Phantom可以實(shí)現(xiàn)多個(gè)主體之間的逼真互動(dòng),例如群體互動(dòng)、產(chǎn)品演示、虛擬試穿等。

圖片

論文介紹

Phantom:通過跨模態(tài)對齊生成主題一致的視頻

Phantom:通過跨模態(tài)對齊生成主題一致的視頻

視頻生成基礎(chǔ)模型的不斷發(fā)展演變,并應(yīng)用于各種應(yīng)用,而主題一致的視頻生成仍處于探索階段。這類人物稱為“主題到視頻”(Subject-to-Video),該方法從參考圖像中提取主題元素,并按照文本指令生成主題一致的視頻。作者認(rèn)為“主題到視頻”的精髓在于平衡文本和圖像的雙模態(tài)提示,從而深度同步地對齊文本和視覺內(nèi)容。為此論文提出了Phantom,一個(gè)適用于單主題和多主題參考的統(tǒng)一視頻生成框架。

基于現(xiàn)有的文本到視頻和圖像到視頻架構(gòu),作者重新設(shè)計(jì)了聯(lián)合文本-圖像注入模型,并驅(qū)動(dòng)其通過文本-圖像-視頻三元組數(shù)據(jù)學(xué)習(xí)跨模態(tài)對齊。該方法實(shí)現(xiàn)了高保真度的主題一致視頻生成,同時(shí)解決了圖像內(nèi)容泄漏和多主題混淆的問題。評估結(jié)果表明,提出的方法優(yōu)于其他最先進(jìn)的閉源商業(yè)解決方案。特別地,該方法強(qiáng)調(diào)人類生成中的主題一致性,這涵蓋了現(xiàn)有的身份保留視頻生成,同時(shí)提供了增強(qiáng)的優(yōu)勢。

方法概述

用于跨模態(tài)視頻生成的數(shù)據(jù)處理流程。該流程包括過濾、添加字幕、檢測和匹配階段,用于從視頻片段中提取主體并將其與文本提示對齊,從而確保視頻生成的一致性。用于跨模態(tài)視頻生成的數(shù)據(jù)處理流程。該流程包括過濾、添加字幕、檢測和匹配階段,用于從視頻片段中提取主體并將其與文本提示對齊,從而確保視頻生成的一致性。Phantom 架構(gòu)概述。三元組數(shù)據(jù)在輸入頭處被編碼到潛在空間,組合后,通過改進(jìn)的 MMDiT 塊進(jìn)行處理,以學(xué)習(xí)不同模態(tài)的對齊方式。Phantom 架構(gòu)概述。三元組數(shù)據(jù)在輸入頭處被編碼到潛在空間,組合后,通過改進(jìn)的 MMDiT 塊進(jìn)行處理,以學(xué)習(xí)不同模態(tài)的對齊方式。每個(gè) MMDiT 塊中針對單個(gè)或多個(gè)參考對象的動(dòng)態(tài)注入策略和注意力計(jì)算

每個(gè) MMDiT 塊中針對單個(gè)或多個(gè)參考對象的動(dòng)態(tài)注入策略和注意力計(jì)算

結(jié)果展示

視頻質(zhì)量評估(左)和多主題一致性的用戶研究結(jié)果(右)。視頻質(zhì)量評估(左)和多主題一致性的用戶研究結(jié)果(右)。

身份保護(hù)視頻生成

圖片

單一參考主題到視頻生成

圖片

多參考主題到視頻生成

圖片

結(jié)論

Phantom是一種基于文本-圖像-視頻三元組學(xué)習(xí)實(shí)現(xiàn)跨模態(tài)對齊的主體一致性視頻生成方法。通過重新設(shè)計(jì)聯(lián)合文本-圖像注入機(jī)制并利用動(dòng)態(tài)特征集成,Phantom 在統(tǒng)一的單/多主體生成和人臉 ID 保存任務(wù)中展現(xiàn)出極具競爭力的性能,并在定量評估中超越了商業(yè)解決方案。


責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2025-03-03 08:32:00

模型AI訓(xùn)練

2024-01-22 08:59:00

AI

2024-09-10 11:21:30

2024-12-05 14:20:00

模型AI

2025-01-22 10:30:00

圖像生成模型AI

2025-03-20 09:20:00

2025-03-27 09:24:16

2024-11-26 17:56:38

2024-05-06 12:21:00

AI模型

2025-01-26 10:50:00

模型視頻生成

2023-04-03 10:04:44

開源模型

2024-10-28 07:30:00

2025-02-06 10:45:00

2019-11-21 10:19:45

數(shù)據(jù)應(yīng)用場景系統(tǒng)

2024-03-20 00:00:00

StabilityAI開源人工智能

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2017-07-25 14:38:56

數(shù)據(jù)庫一致性非鎖定讀一致性鎖定讀

2022-12-14 08:23:30

2025-02-10 13:15:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號