自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

字節(jié)視頻生成新突破！Phantom搞定多人物/主體一致性

作者：量子位 2025-03-03 08:32:00

人工智能新聞

Phantom在主體一致性保持方面取得了突破性進展，不僅支持多主體，還能同時保持主體的完整性。

視頻生成模型當中已經(jīng)不缺強者了，但保持多主體一致性依然是一項重大挑戰(zhàn)。

字節(jié)智能創(chuàng)作團隊專門針對這個問題，推出了主體一致性視頻生成模型Phantom（“幻影”）。

Phantom在主體一致性保持方面取得了突破性進展，不僅支持多主體，還能同時保持主體的完整性。

無論是人物、物品、服裝、動物，還是充滿奇幻色彩的虛擬角色，它都能精準抓取其關(guān)鍵特征，并自然地融入生成的視頻中。

比如下面這段視頻當中，“幻影”就結(jié)合了場景、服裝、配飾等要素，原創(chuàng)出了“歌劇魅影”的片段：

精準抓取關(guān)鍵特征，視頻融合更自然

身份保持視頻生成

借助面部參考圖像，Phantom生成的視頻不僅能嚴格鎖定主體的身份特征，還能依據(jù)豐富多樣的提示詞，演繹出各種精彩內(nèi)容。

例如，上傳一張人物照片，模型會以此為藍本，生成該人物在不同場景下說話、行動的視頻。

人物的面部輪廓、五官細節(jié)以及獨特的表情神態(tài)，都能被高度還原，仿佛照片中的人物“活”了過來，在屏幕上真實地演繹著各種故事。

單參考主體視頻生成

只需一張參考圖像，無論是可愛小動物的萌態(tài)瞬間，還是時尚服裝的獨特魅力，亦或是神秘虛擬角色的奇幻冒險，Phantom都能精準捕捉主體的細節(jié)，將其生動地呈現(xiàn)在視頻中。

還有下面的小狗照片，Phantom可以呈現(xiàn)它在溫馨的房間里歡快奔跑的可愛模樣，柔軟的毛發(fā)、靈動的眼神和俏皮的神態(tài)，都被細膩地刻畫出來，讓人仿佛能感受到活潑與快樂。

多參考主體視頻生成

Phantom支持同時上傳多張參考圖像，這一強大功能使得復雜交互場景的視頻生成成為可能。

在群體場景創(chuàng)作中，只需上傳多個人物的照片，就能讓他們在視頻中自然地聊天。

在一些產(chǎn)品展示的場景，結(jié)合產(chǎn)品圖片和相關(guān)場景圖片，Phantom能生成非常具有吸引力的產(chǎn)品展示視頻，將產(chǎn)品的特點和優(yōu)勢完美呈現(xiàn)，為產(chǎn)品推廣注入強大動力。

在虛擬試穿場景，只需上傳服裝和人物照片，就能看到人物身著該服裝的動態(tài)效果，這有望為電商行業(yè)帶來全新的營銷模式，讓消費者的購物體驗更加直觀和有趣。

總之，Phantom在和一眾領(lǐng)先的商業(yè)化工具對比中，從視頻質(zhì)量，文本響應，主體一致性等多個維度處于優(yōu)勢，尤其在人臉I(yè)D一致性方面的評估領(lǐng)先。

基于主體的DiT視頻生成方案

目前，基礎(chǔ)視頻生成模型主要集中在兩個主要任務——文本生成視頻（Text-to-Video，T2V）和圖像生成視頻（Image-to-Video，I2V）。

視頻生成T2V利用語言模型來理解輸入文本指令，并生成描述預期角色、動作和背景的視覺內(nèi)容。

盡管它允許創(chuàng)造性和富有想象力的內(nèi)容組合，但由于固有的隨機性，往往難以生成一直符合預期的結(jié)果。

另一方面，I2V通常是提供圖像的首幀以及可選的文本描述，以將靜態(tài)圖像轉(zhuǎn)化為動態(tài)視頻。

雖然更具可控性，但內(nèi)容的豐富度往往受到首幀“復制粘貼”性質(zhì)的限制。通過從圖像中捕捉主體并根據(jù)文本提示靈活生成視頻。

Phantom是一個基于DiT的視頻生成框架，它的主要意圖是實現(xiàn)主體到視頻的生成(Subject-to-video，S2V)。

其本質(zhì)在于平衡文本和圖像這兩種模式的提示，要求模型同時對齊文本指令和參考圖像內(nèi)容。

從而既滿足T2V所發(fā)揮創(chuàng)造性的優(yōu)勢，又不像I2V生成的視頻限制為輸入圖的延展。

具體來說，數(shù)據(jù)層面Phantom通過構(gòu)建文本-圖片-視頻三元組數(shù)據(jù)，讓模型學習不同模態(tài)之間的對齊。

為了緩解類似I2V生成視頻“復制粘貼”輸入圖的問題，通過匹配不同視頻中的主體元素，并過濾掉具有高度視覺相似性的對象來構(gòu)建交叉配對數(shù)據(jù)。

交叉配對數(shù)據(jù)可以來自同一長視頻的不同片段，也可以來自數(shù)據(jù)庫中檢索參考對象。這些主體元素主要包括人、動物、物體、背景等等。

此外，多個元素之間的交互可以進一步對場景進行分類，例如多人交互、人與寵物交互、人與物體交互。

模型層面，Phantom繼承自MMDiT的架構(gòu)。

在輸入頭部分，視頻編碼器和文本編碼器分別繼承自基模權(quán)重，將輸入視頻和文本prompt分別編碼得到相應的latent feature。

為了不影響MMDiT本身的結(jié)構(gòu)，參考圖被特定視覺編碼器編碼，然后分別與視頻特征和文本特征拼接，并分別輸入到MMDiT的vision branch和text branch進行計算。

團隊簡介

智能創(chuàng)作團隊是字節(jié)跳動AI&多媒體技術(shù)中臺，通過建設(shè)領(lǐng)先的計算機視覺、音視頻編輯、特效處理等技術(shù)，支持抖音、剪映、即夢等公司內(nèi)眾多產(chǎn)品線；

同時通過火山引擎為外部ToB合作伙伴提供業(yè)界最前沿的智能創(chuàng)作能力與行業(yè)解決方案。

文中示例僅為展示模型效果。如有侵權(quán)或冒犯，請聯(lián)系論文作者，將及時刪除。
E-mail：libingchuan@bytedance.com

論文鏈接：
https://arxiv.org/abs/2502.11079項目網(wǎng)站：
https://phantom-video.github.io/Phantom/
代碼網(wǎng)址：
https://github.com/Phantom-video/Phantom

責任編輯：張燕妮來源：量子位

模型 AI 訓練

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="j1jwf"></blockquote>