字節(jié)最新人像視頻生成模型DreamActor-M1,推特關注超百萬!即夢AI即將上線
還記得前段時間字節(jié)跳動備受關注的數(shù)字人技術Omnihuman-1嗎?
最近,這支團隊一項基于DiT架構的可控人像視頻生成技術DreamActor-M1,一經發(fā)布,又在推特上引起了超百萬量級的關注——
僅需一張靜態(tài)照片和一段驅動視頻,便可生成高質量、達到電影級別的視頻,將人像視頻生成的表現(xiàn)力提升至全新水平!
左右滑動查看
項目網頁:
https://grisoon.github.io/DreamActor-M1/
論文地址:
https://arxiv.org/pdf/2504.01724
DreamActor-M1不僅能夠保留原圖中的身份特征,還能精準捕捉并遷移驅動視頻中的動作和表情,呈現(xiàn)出高度逼真的效果,極大地簡化了現(xiàn)有的動作捕捉、角色動畫以及內容創(chuàng)作流程。
據(jù)悉,Omnihuman-1技術已經應用于即夢數(shù)字人玩法的「大師模式」而DreamActor-M1模型也將于近期上線即夢AI,用戶將可以在「數(shù)字人」-「動作模仿」功能下體驗新模型。相比已有的動作模仿效果,在生成內容逼真度、畫風支持、畫面比例支持等多個方面將大幅優(yōu)化。
方案介紹
先一起來看看DreamActor-M1的效果:
瑪麗蓮夢露不僅能夠精準復刻參考視頻的動作,保持語音和口型一致,手臂大幅度擺動也不會出現(xiàn)嚴重的變形或虛影
在日光下,男子隨著參考視頻動作的同時,能看到光影相應的變化
與以往方法不同,DreamActor-M1采用多控制信號混合驅動架構,能夠精準還原從眼神等細膩表情到肢體動作的各類表現(xiàn),可驅動從真人到卡通的不同形象,支持從肖像畫幅到全身畫幅的多種畫幅,顯著增強了單圖視頻驅動能力的表現(xiàn)力與易用性。
- 在表情遷移方面,該系統(tǒng)運用隱式Face Motion Tokenizer,通過對大量人像視頻進行自監(jiān)督訓練,實現(xiàn)對表情細節(jié)的精準建模。
- 在動作遷移方面,采用3D頭部球體和3D身體骨架,能夠支持各種風格角色的肢體動作精準遷移。
- 在畫幅支持方面,DreamActor-M1基于DiT架構,并通過大量數(shù)據(jù)進行多階段訓練,可精準復刻各種畫幅鏡頭,為用戶提供了更廣闊的創(chuàng)作空間。
各種畫幅高表現(xiàn)還原
各種風格角色都支持
技術對比
相較于其他SOTA動作遷移和表情遷移工作,DreamActor-M1在人物ID保持、動作表情還原、視頻生成質量方面都有著更好表現(xiàn),為高效完成高質量內容創(chuàng)作創(chuàng)造了新的可能性。
- 與動作遷移工作的對比
- 與表情遷移工作的對比
安全說明
模型上線即夢AI后,平臺將對視頻內容進行嚴格的安全審核,并對輸出視頻添加「AI生成」水印,即夢AI現(xiàn)有的「動作模仿」功能也要求用戶上傳視頻素材需確保擁有合法授權。
團隊介紹
字節(jié)跳動智能創(chuàng)作團隊是字節(jié)跳動AI&多媒體技術中臺,通過建設領先的計算機視覺、音視頻編輯、特效處理等技術,支持抖音、剪映、頭條等公司內眾多產品線;同時為外部ToB合作伙伴提供業(yè)界最前沿的智能創(chuàng)作能力與行業(yè)解決方案。
其中數(shù)字人團隊專注于建設行業(yè)領先的數(shù)字人生成和驅動技術,豐富智能創(chuàng)作內容生態(tài)。該團隊的OmniHuman-1 、PersonaTalk、Loopy、CyberHost等前沿創(chuàng)新的數(shù)字人成果均已在即夢AI快速應用,未來還將持續(xù)通過即夢AI為用戶帶來新奇和驚喜的體驗。