浙大 | 騰訊 | 華為提出視頻生成框架VideoMaker,可由參考圖實現Zero-shot定制化視頻生成
本文經AIGC Studio公眾號授權轉載,轉載請聯系出處。
浙大聯合騰訊和華為提出了一種新的定制化視頻生成框架——VideoMaker,利用VDM的內在能力,實現高質量的zero-shot定制化視頻生成。該方法通過直接輸入參考圖像到VDM中,利用其固有的特征提取和注入機制,克服了以往方法在特征一致性和多樣性方面的不足。通過對人類和物體視頻生成的實驗驗證了該框架的有效性。
unsetunset相關鏈接unsetunset
- 論文:http://arxiv.org/abs/2412.19645v2
- 主頁:https://wutao-cs.github.io/VideoMaker/
unsetunset論文介紹unsetunset
零樣本定制視頻生成因其巨大的應用潛力而備受關注?,F有方法依賴于附加模型來提取和注入參考主體特征,認為單靠視頻擴散模型 (VDM) 不足以生成零樣本定制視頻。然而,由于特征提取和注入技術不夠完善,這些方法往往難以保持一致的主體外觀。論文揭示了 VDM 本身具有提取和注入主體特征的能力。與以前的啟發(fā)式方法不同,論文引入了一個新框架,利用 VDM 的固有能力來實現高質量的零樣本定制視頻生成。
具體而言,對于特征提取直接將參考圖像輸入 VDM 并使用其固有的特征提取過程,這不僅提供了細粒度的特征,而且與 VDM 的預訓練知識顯著一致。對于特征注入通過 VDM 中的空間自注意力設計了一種創(chuàng)新的主體特征與生成內容之間的雙向交互,確保 VDM 具有更好的主體保真度,同時保持生成視頻的多樣性。對定制人物和物體視頻生成的實驗驗證了該框架的有效性。
unsetunset方法unsetunset
VideoMaker 的整體流程。 將參考圖像直接輸入到 VDM 中,并使用 VDM 的模塊進行細粒度的特征提取。論文修改了空間自注意力的計算以實現特征注入。此外,為了區(qū)分參考特征和生成內容,論文設計了指導信息識別損失來優(yōu)化訓練策略。該方法基于AnimateDiff實現了高保真零鏡頭定制人物和物體視頻生成。
VideoMaker的兩個關鍵步驟:
- 特征提取:直接將無噪聲的參考圖像輸入VDM,視作時間步t=0的特殊情況,VDM能夠有效提取出細粒度的主觀特征。使用VDM的Resblock結構作為特征提取器,提取與參考圖像對應的特征,確保提取的特征與VDM的知識高度一致。
- 特征注入:通過VDM的空間自注意力機制,將提取的主觀特征與生成內容進行交互,確保生成視頻中主觀對象的外觀一致性。設計了一種創(chuàng)新的訓練策略,利用引導信息識別損失,引導模型有效區(qū)分參考信息和生成內容,從而提高生成質量。
unsetunset結果unsetunset
定制名人視頻生成結果
名人定制人體視頻生成的定性比較。我們選擇 AnimateDiff SD1.5 版本作為基礎視頻傳播模型。由于 PhotoMaker 僅對 SDXL 進行了預訓練權重,因此我們使用分辨率為 512×512 的 AnimateDiff SDXL 生成的結果進行比較。
定制非名人視頻生成結果
對非名人定制人體視頻生成的定性比較。我們選擇 AnimateDiff SD1.5 版本作為我們的基礎視頻傳播模型。由于 PhotoMaker 僅對 SDXL 進行了預訓練權重,因此我們使用分辨率為 512×512 的 AnimateDiff SDXL 生成的結果進行比較。
定制對象視頻生成。
定制對象視頻生成的定性比較