騰訊開源視頻生成新工具,論文還沒發(fā)先上代碼的那種
先上代碼再發(fā)論文,騰訊新開源文生視頻工具火了。
名為MuseV,主打基于視覺條件并行去噪的無限長度和高保真虛擬人視頻生成。
老規(guī)矩,先看效果。
靜態(tài)的金克絲秒秒鐘就能動起來朝你拋媚眼:
畫中詩圣也“活”了過來:
各種風格都能駕馭,風景圖也不在話下:
更有搞笑風《微笑的騎士》:
再上難度,復雜些的彈唱也處理得比較自然:
此外,加入“骨架”控制動作、姿勢也可以:
騰訊這次論文還沒發(fā)直接放出訓練好的模型和部署運行的代碼的操作讓網(wǎng)友眼前一亮。主頁顯示訓練代碼也即將推出。
不少人已趁熱碼住,GitHub獲星500+。
還有網(wǎng)友已經(jīng)玩上了:
圍觀網(wǎng)友直呼距離成為視頻達人只差一個AI。
嘴唇也能同步
除了直接放出模型代碼,目前MuseV還有demo可體驗。
demo界面有兩種玩法。
一種可以上傳一張圖然后加上Prompt在這張圖的基礎上進行視頻生成;另一種是上傳一個參考視頻和一張圖,使圖片中的內容按照視頻中的動作運動起來。
緊接著下方還有一些參數(shù)可以調整??梢宰远x視頻的時長以及視頻的尺寸。
此外值得一提的是,文本、圖像到視頻的生成結果的所有幀直接由MuseV生成,沒有時序超分辨、空間超分辨等任何后處理。
而輸入視頻控制姿態(tài)的生成模式下,開發(fā)團隊表示需要參考視頻的首幀條件和參考圖像的首幀條件對齊,不然會破壞首幀的信息,效果會更差。所以一般生成流程是:
- 確定參考視頻;
- 用參考視頻的首幀走圖生圖、controlnet流程,可以使用MJ等各種平臺;
- 拿第二步中的生成圖、參考視頻用MuseV生成視頻。
除MuseV,開發(fā)團隊還表示即將發(fā)布一個實時高質量的唇同步模型——MuseTalk,可與MuseV一起搭配使用。
用上它,蒙娜麗莎也能對嘴型唱歌。
MuseV里面長啥樣?
技術方面,據(jù)了解MuseV是在去年7月左右基于擴散模型實現(xiàn)的技術進展,受到Sora啟發(fā),開發(fā)團隊決定開源MuseV,之后將轉向擴散+Transformer方案。
也就是說,MuseV是基于擴散模型的虛擬人視頻生成框架。
模型架構如下圖所示:
總的來說,MuseV具有以下特點:
首先是支持使用新穎的視覺條件并行去噪方案進行無限長度生成,不會再有誤差累計的問題,尤其適用于固定相機位的場景。
并行去噪算法示意圖如下:
其次,MuseV提供了基于人物類型數(shù)據(jù)集訓練的虛擬人視頻生成預訓練模型。
而且支持圖像到視頻、文本到圖像到視頻、視頻到視頻的生成;兼容Stable Diffusion文圖生成生態(tài)系統(tǒng),包括base_model、lora、controlnet等。
還支持多參考圖像技術,包括IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。