兩步生成25幀高質量動畫,計算為SVD的8% | 在線可玩
耗費的計算資源僅為傳統(tǒng)Stable Video Diffusion(SVD)模型的2/25!
AnimateLCM-SVD-xt發(fā)布,一改視頻擴散模型進行重復去噪,既耗時又需大量計算的問題。
先來看一波生成的動畫效果。
賽博朋克風輕松駕馭,男孩頭戴耳機,站在霓虹閃爍的都市街道:
圖片
寫實風也可以,一對新婚夫婦依偎在一起,手捧精致花束,在古老石墻下見證愛情:
圖片
科幻風,也有了外星人入侵地球的即視感:
圖片
AnimateLCM-SVD-xt由來自香港中文大學MMLab、Avolution AI、上海人工智能實驗室、商湯研究院的研究人員共同提出。
圖片
2~8步就能生成25幀分辨率576x1024的高質量動畫,并且無需分類器引導,4步生成的視頻就能實現(xiàn)高保真,比傳統(tǒng)SVD更快、效率更高:
圖片
目前,AnimateLCM代碼即將開源,有在線demo可試玩。
上手試玩demo
在demo界面可以看到,AnimateLCM目前有三個版本,AnimateLCM-SVD-xt是通用圖像到視頻生成;AnimateLCM-t2v傾向個性化文本到視頻生成;AnimateLCM-i2v為個性化圖像到視頻生成。
圖片
下面是一個配置區(qū)域,可以選擇基礎的Dreambooth模型,也可以選擇LoRA模型,并通過滑動條調整LoRA alpha值等。
圖片
接下來可以輸入Prompt、負面prompt,指導生成的動畫內容和質量:
圖片
還有一些參數(shù)可以調整:
圖片
我們上手體驗了一把,提示詞為“clouds in the sky”,參數(shù)設置如上圖,采樣步驟僅為4步時,生成的效果是這樣嬸兒的:
圖片
采樣步驟為25步時,提示詞“a boy holding a rabbit”,效果如下:
圖片
再看看一波官方放出的展示效果。2步、4步、8步效果對比如下:
圖片
步數(shù)越多,動畫質量越好,僅4步AnimateLCM就能做到高保真:
圖片
各種風格都能實現(xiàn):
圖片
圖片
怎么做到的?
要知道,雖然視頻擴散模型因能生成連貫且高保真度的視頻而受到越來越多的關注,但難題之一是迭代去噪過程不僅耗時而且計算密集,這也就限制了它的應用范圍。
而在AnimateLCM這項工作中,研究人員受到一致性模型(CM)啟發(fā),該模型簡化了預訓練的圖像擴散模型以減少采樣所需的步驟,并在條件圖像生成上成功擴展了潛在一致性模型(LCM)。
圖片
具體來說,研究人員提出了一種解耦的一致性學習(Decoupled Consistency Learning)策略。
首先在高質量的圖像-文本數(shù)據(jù)集上蒸餾穩(wěn)定擴散模型為圖像一致性模型,然后在視頻數(shù)據(jù)上進行一致性蒸餾以獲得視頻一致性模型。這種策略通過在空間和時間層面上分別訓練,提高了訓練效率。
圖片
此外,為了能夠在Stable Diffusion社區(qū)中實現(xiàn)即插即用適配器的各種功能(例如,用ControlNet實現(xiàn)可控生成),研究人員又提出了Teacher-Free自適應(Teacher-Free Adaptation)策略,使現(xiàn)有的控制適配器更符合一致性模型,實現(xiàn)更好的可控視頻生成。
圖片
定量和定性實驗都證明了方法的有效性。
在UCF-101數(shù)據(jù)集上的零樣本文本到視頻生成任務中,AnimateLCM在FVD和CLIPSIM指標上均取得了最佳性能。
圖片
圖片
消融研究驗證了解耦一致性學習和特定初始化策略的有效:
圖片
項目鏈接:
[1]https://animatelcm.github.io/
[2]https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt