自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator

發(fā)布于 2024-5-20 09:34
瀏覽
0收藏

近年來,定制化的人物生成技術(shù)在社區(qū)中引起了廣泛關(guān)注。一系列創(chuàng)新性的模型,如 IP-Adapter、Photomaker、InstantID 等,已在圖像生成領(lǐng)域取得了令人矚目的成果。這些定制化內(nèi)容生成方法逐漸成為主流,其一個重要的優(yōu)勢便是即插即用,取代了那些需要逐例微調(diào)的 Dreambooth,LoRA 等方法。


然而,盡管在圖像生成領(lǐng)域取得了巨大的成功,這些方法在視頻生成領(lǐng)域卻遇到了阻礙。相較于圖像,視頻生成模型的訓(xùn)練需要更大的算力投入。同時,在視頻數(shù)據(jù)集方面,迄今為止仍缺乏類似圖像生成領(lǐng)域高質(zhì)量的文本 - 視頻配對人臉數(shù)據(jù)集。此外,如何提取人物身份一致性的特征也是一個難題。


為了應(yīng)對這些挑戰(zhàn),騰訊光子近期發(fā)布的工作 ID-Animator,提出了一種文本驅(qū)動的人物視頻生成框架。該框架旨在根據(jù)給定的一張參考圖片,生成一致性的角色 定制化視頻。通過這一創(chuàng)新性技術(shù),研究者可以期待在不久的將來,人們將能夠更輕松地實現(xiàn)定制化的人物視頻生成,從而為各種應(yīng)用場景帶來更加豐富的視覺體驗。

人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


  • 論文地址: https://arxiv.org/abs/2404.15275
  • Github 地址: https://github.com/ID-Animator/ID-Animator
  • Huggingface 地址: https://huggingface.co/spaces/ID-Animator/ID-Animator


首先,讓我們直觀感受一下 ID-Animator 生成的視頻效果,能夠輕松的讓不同的角色做起豐富的動作:

人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


ID-Animator 不僅能生成 ID 一致的人類視頻,還具備人臉特征融合的能力:


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


此外,ID-Animator 還可以兼容開源社區(qū)上的多種權(quán)重,為視頻生成帶來更多可能性:


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


方法概覽


研究團(tuán)隊提出的方法可以概括為三個核心組件,如圖所示。這三個部分包括:面向 ID 的視頻數(shù)據(jù)集重構(gòu)流程、隨機人臉參考的訓(xùn)練方法,以及 ID-Animator 模型框架。通過這三個關(guān)鍵組成部分,ID-Animator 成功實現(xiàn)了高保真的一致性人物視頻生成。


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


ID-Animator 框架


ID-Animator 框架由一個輕量級的人臉適配器模塊和一個視頻生成主干網(wǎng)絡(luò)組成。其視頻生成主干網(wǎng)絡(luò)權(quán)重在訓(xùn)練過程中保持固定,無需微調(diào)。人臉適配器模塊則由交叉注意力模塊和可學(xué)習(xí)的面部特征查詢組成,負(fù)責(zé)從 CLIP 編碼的特征中提取與身份相關(guān)的表征,并將身份表征注入主干網(wǎng)絡(luò)。利用這種輕量級的適配器模塊,ID-Animator 只需要很小的訓(xùn)練開銷就能實現(xiàn)人物一致性的視頻生成。


面向 ID 的數(shù)據(jù)集構(gòu)建


為了應(yīng)對以 ID 為核心的成對視頻 - 文本數(shù)據(jù)集在視頻生成領(lǐng)域的稀缺挑戰(zhàn),研究者們提出了一套巧妙的數(shù)據(jù)集重構(gòu)策略。他們利用現(xiàn)有的 Celebv-HQ 數(shù)據(jù)集,將其重構(gòu)為以 ID 為中心的人類視頻數(shù)據(jù)集。這一策略分為兩個主要步驟:文本重寫和面部圖像資源庫構(gòu)建。


現(xiàn)有的 Celebv 數(shù)據(jù)集的文本描述采用固定模板,主要關(guān)注人物表情的變化,卻忽略了人物屬性與所處環(huán)境,同時缺乏對動作的描述,因此不適用于文本生成視頻的訓(xùn)練。為了解決這一問題,研究者們提出了一種新穎的文本重寫方法,旨在生成更貼切的人類視頻描述文本??紤]到視頻整體特征和人物靜態(tài)屬性,他們采用了一種解耦式的文本重寫方法,分別描述人物屬性和環(huán)境,生成人類屬性描述;同時描述視頻中人物的整體動作,生成動作描述。最后,借助大型語言模型將兩種描述整合,生成連貫且豐富的全新文本。


如圖所示,重寫后的文本描述更接近人類的語言風(fēng)格,并能更好地描述人物的運動和屬性。這一創(chuàng)新性方法為視頻生成領(lǐng)域提供了一個更實用、更高質(zhì)量的數(shù)據(jù)集基礎(chǔ)。


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


為了進(jìn)一步提升生成視頻的身份保持能力,研究者們引入了一種隨機面部提取技術(shù)。這種技術(shù)的特點在于,它并不直接采用整個視頻幀作為生參考圖像,而是構(gòu)建數(shù)據(jù)集時專門針對人臉區(qū)域進(jìn)行隨機采樣,從而形成一個獨立的面部圖像資源庫。這一策略有效地過濾了大量非身份決定性的視覺信息,如背景變化、衣著裝飾等,使得生成模型能夠更加專注于學(xué)習(xí)和重現(xiàn)個體的面部特征與表情細(xì)節(jié)。


隨機參考人臉訓(xùn)練方法


利用數(shù)據(jù)集面部資源庫,研究者們提出了一種隨機參考人臉的訓(xùn)練方法。這種方法的核心在于利用與視頻內(nèi)容弱相關(guān)的參考圖像作為條件輸入,引導(dǎo)模型在生成視頻內(nèi)容時,更多地關(guān)注指令指導(dǎo)的動作和 ID 無關(guān)特征。


具體操作上,研究者們從人臉資源庫中隨機選取參考圖像,使得每次訓(xùn)練迭代都能為模型提供一個新的、與目標(biāo)視頻序列關(guān)聯(lián)較弱的面部圖像作為參考。這種方法實現(xiàn)了視頻內(nèi)容與人臉參考圖像的解耦,有助于模型更好地學(xué)習(xí)和生成符合指令的動作,同時減弱與身份無關(guān)的特征的影響。


實驗結(jié)果


與 IP-Adapter 對比


研究者們首先將 ID-Animator 與常用的零樣本定制化圖像生成模型 IP-Adapter 的變體進(jìn)行對比。將零樣本定制化圖像生成模型直接應(yīng)用于視頻生成時,可能會導(dǎo)致指令跟隨能力和 ID 一致性的降低。為了證明 ID-Animator 的優(yōu)越性能,研究者們展示了在 3 個名人和普通人上的對比結(jié)果。


如圖所示,ID-Animator 在視頻場景下展現(xiàn)出了更強大的指令跟隨能力和 ID 保真度。


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)

人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)

應(yīng)用展示


  • 上下文重塑:ID-Animator 能夠利用文本引導(dǎo),動態(tài)調(diào)整角色的多維度屬性,包括發(fā)型、服飾、性別,執(zhí)行特定的動作和改變角色所處環(huán)境等。


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


  • ID 特征融合: ID-Animator 能夠?qū)⒉煌矸莸奶卣饕圆煌壤旌?,從而生成結(jié)合兩種身份特征的視頻。


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


  • 與 ControlNet 結(jié)合:ID-Animator 具有與 ControlNet 等現(xiàn)有細(xì)粒度條件模塊的兼容性,這意味著用戶能通過上傳特定的引導(dǎo)圖像或圖像序列,精確指引視頻中每一幀的生成細(xì)節(jié)。


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


  • 社區(qū)模型推理:ID-Animator 能夠和 Civitai 社區(qū)的多種模型兼容,即使在未曾訓(xùn)練過的模型權(quán)重上也能保持有效性,能夠生成多種風(fēng)格的視頻。


人物照片+文字 = 定制化視頻,騰訊光子開源ID-Animator-AI.x社區(qū)


更多詳細(xì)內(nèi)容,請閱讀原論文。


本文轉(zhuǎn)自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/OVbQhR_bG8ZnNE8xMDrC4w??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦