字節(jié)最新單圖視頻驅(qū)動成果X-Portrait 2:一鍵生成相同表情神態(tài),效果逼真
單圖視頻驅(qū)動技術(shù)為創(chuàng)作富有表現(xiàn)力、逼真的角色動畫和視頻片段提供了一種成本極低且高效的方法:只需一張靜態(tài)照片和一段驅(qū)動視頻即可生成高質(zhì)量、電影級的視頻。
字節(jié)跳動智能創(chuàng)作團隊近期推出最新單圖視頻驅(qū)動技術(shù)X-Portrait 2,基于前一代的X-Portrait研究成果,將人像驅(qū)動的表現(xiàn)力提升到了一個全新的高度。
該模型不僅能保留原圖的ID,還能準確捕捉并逼真遷移從細微到夸張的表情和情緒,呈現(xiàn)高度真實的效果,大幅簡化了現(xiàn)有動作捕捉、角色動畫和內(nèi)容創(chuàng)作流程。
項目網(wǎng)頁:https://byteaigc.github.io/X-Portrait2/
整體方案
不同于以往依賴人臉關(guān)鍵點檢測的單圖驅(qū)動方法,X-Portrait 2構(gòu)建了一個最先進的表情編碼器模型,通過一種創(chuàng)新的端到端自監(jiān)督訓練框架,能夠從大量人像視頻中自學習ID無關(guān)的運動隱式表征。
進一步將這個編碼器與強大的生成式擴散模型相結(jié)合,即可生成流暢且富有表現(xiàn)力的視頻。
經(jīng)過在大規(guī)模高質(zhì)量表情視頻上的訓練,X-Portrait 2在運動表現(xiàn)力和ID保持性方面顯著優(yōu)于先前技術(shù)。
算法能夠從驅(qū)動視頻中提取不同顆粒度的表情特征(如挑眉、咬唇、吐舌、皺眉),并有效遷移到擴散模型,實現(xiàn)精準的表情動作控制,進而能實現(xiàn)驅(qū)動視頻中人物情感的高保真遷移。
外觀與運動解耦
在訓練表情編碼器時,為了讓編碼器關(guān)注驅(qū)動視頻中與表情相關(guān)的信息,X-Portrait 2較好地實現(xiàn)了外觀和運動的解耦。
通過為模型設(shè)計過濾層,編碼器能有效過濾運動表征中的ID相關(guān)信號,使得即使ID圖片與驅(qū)動視頻中的形象和風格差異較大,模型仍可實現(xiàn)跨ID、跨風格的動作遷移,涵蓋寫實人像和卡通圖像。
這使得X-Portrait 2能高度適應各種各樣的應用場景,包括現(xiàn)實世界中的敘事創(chuàng)作、角色動畫、虛擬形象以及視覺特效等。
技術(shù)對比
與前一代X-Portrait以及最近發(fā)布的 Runyway Act-One 等業(yè)界領(lǐng)先的方法相比,X-Portrait 2能夠如實表現(xiàn)快速的頭部動作、細微的表情變化以及強烈的個人情感,這些方面對于高質(zhì)量的內(nèi)容創(chuàng)作(比如動畫和電影制作)至關(guān)重要。
安全說明
此工作僅以學術(shù)研究為目的,會嚴格規(guī)范模型的應用,防止惡意利用。文中使用的圖片/視頻,如有侵權(quán),請聯(lián)系作者及時刪除。