當韓國女團BLACKPINK進軍二次元,清華叉院AI神器原來還能這么玩
如果你手機里有一些修圖軟件,你可能用過里面的「AI 繪畫」功能,它通常會提供一些把照片轉(zhuǎn)換為不同風格的選項,比如動漫風格、寫真風格。但如今,視頻也可以這么做了:
這些動圖來自 X 平臺(原推特)網(wǎng)友 @CoffeeVectors 生成的一段視頻。他把韓國女團 BLACKPINK 代表作《DDU-DU DDU-DU》的原版 MV 輸入了一個 AI 工具,很快就得到了動漫版的 MV。
完整效果是這樣的:
這個視頻是借助一個名叫 ComfyUI 的工具來完成的。ComfyUI 是一個開源的基于圖形界面的 Workflow 可視化引擎,用于被廣泛采用的文生圖 AI 模型 Stable Diffusion。它提供了一個用戶友好的圖形界面,可以將多個 Stable Diffusion 模型及其 Hypernetwork 組合成一個完整的工作流(Workflow)實現(xiàn)自動化的圖像生成和優(yōu)化。同時,社區(qū)也開發(fā)了各種 ComfyUI 的擴展插件,可以進一步增強其功能。
作者 @CoffeeVectors 表示,在制作這個 MV 的過程時,他在 ComfyUI 中用到了 AnimateDiff 和 multi-controlnet 工作流,前者用于動漫風格的生成,后者用來實現(xiàn)生成效果的控制。更重要的是,他在這次工作流中引入了一個當下很火的神器 ——LCM LoRA。
在《實時文生圖速度提升 5-10 倍,清華 LCM/LCM-LoRA 爆火,瀏覽超百萬、下載超 20 萬》一文中,我們已經(jīng)介紹過,LCM 是清華大學交叉信息研究院的研究者們構(gòu)建的一個新模型,它的特點是文生圖、圖生圖的效果都非???,可以根據(jù)你的文字指令或草圖指示實時生成新圖。
在此基礎上,研究者們又進一步開發(fā)了 LCM-LoRA,可以將 LCM 的快速生成能力在未經(jīng)任何額外訓練的情況下遷移到其他 LoRA 模型上。由于效果非常驚艷,模型在 Hugging Face 平臺上的下載量已超 20 萬次,X 平臺上到處都能看到利用 LCM-LoRA 生成的實時視頻效果(如下方的視頻所示)。
那么,這個動漫版的 MV 是怎么做的呢?@CoffeeVectors 在帖子中詳細描述了他的做法。
在下載了原版 MV 視頻后,@CoffeeVectors 將 BLACKPINK 的整個 MV 作為單個 .mp4 輸入進行處理。LCM 可以讓他在 4090 上通過 6 步進行渲染(之前需要 20 多步),而且只占用 10.5 GB 的 VRAM。以下是詳細數(shù)據(jù):
整個渲染過程耗時 81 分鐘,共 2,467 幀,每幀大約花 2 秒。這不包括從視頻中提取圖像序列和生成 ControlNet 映射的時間。在 SD 1.5 版中使用 Zoe Depth 和 Canny ControlNets,分辨率為 910 x 512。
要改進輸出效果,使其風格更鮮明、細節(jié)更豐富、感覺不那么像一幀一幀的轉(zhuǎn)描動畫,就需要對單幀畫面進行調(diào)整。但是,一次性完成整個視頻,可以為你提供一個粗略的草稿,以便在此基礎上進行迭代。
對于輸入視頻,他每隔一幀選取一幀,以達到 12 幀 / 秒的目標。
這是 @CoffeeVectors 添加 LCM LoRA 的截圖。他選擇了檢查點中內(nèi)置的 VAE:
他把提示寫得很泛,想看看這個提示在各種鏡頭中的適配效果怎么樣。
在 K 采樣器中,他使用了 LCM 采樣器。注意,你需要更新到最新版本的 ComfyUI 才能用這個采樣器。
下圖描述了 @CoffeeVectors 如何安排 multi-control net 的節(jié)點:
最后,@CoffeeVectors 還推薦了一些相關教程:
- 視頻教程:https://www.youtube.com/watch?app=desktop&v=zrxd95Mxz24
- 技術博客:https://huggingface.co/blog/lcm_LoRA
對這類技術應用感興趣的開發(fā)者們可以玩起來啦!