ControlNet作者新項目爆火：僅一張圖生成25秒繪畫全過程！不到一天GitHub攬星600+

作者：量子位 2024-07-10 12:41:40

除了直接生成25秒的從線稿到上色的視頻，還有其它玩法。

ControlNet作者張呂敏（Lvmin Zhang）又又又發(fā)新作了！

輸入任意一張圖，分分鐘就能“拆解”成一個25秒的圖像繪制過程視頻：

從線稿到填色還有局部細節(jié)調整，全都有的那種：

而且不止動漫風，各種風格都能駕馭：

這個項目名為Paints-Undo，發(fā)布不到24小時，GitHub上已攬星600+：

網(wǎng)友們針對它的討論也經(jīng)歷了一輪又一輪，不少人紛紛表示“這個是真牛P”。

……甚至因為效果太好，遭到網(wǎng)友吐槽：

手繪偽造成本又低了。

還有不少網(wǎng)友已經(jīng)玩上了：

Ctrl+ZZZZZZZ

據(jù)GitHub主頁上的介紹，Paints-Undo的命名有“其繪制過程就像是在繪畫軟件中多次按下撤消（Undo）按鈕”之意。

該項目包含一系列模型，展示了各種人類繪畫行為，比如素描、勾線、上色、陰影、變形、左右翻轉、調整色彩曲線、改變圖層透明度，甚至在繪畫過程中改變整體想法等等。

目前發(fā)布了兩個型號：paints_undo_single_frame和paints_undo_multi_frame。

paints_undo_single_frame為單幀模型，基于SD1.5架構進行了改進，輸入為一張圖和一個operation step，并輸出一張圖。

operation step相當于Ctrl+Z（撤銷）多少次，比如operation step為100，就相當于會得到一張Ctrl+Z 100次的效果圖。

paints_undo_multi_frame是多幀模型，基于VideoCrafter打造，但沒有使用原始Crafter的lvdm，所有的訓練/推理代碼都是從頭開始完全實現(xiàn)。

經(jīng)過訓練后，多幀模型整體架構類似于Crafter，包含5個組成部分：3D-UNet、VAE、CLIP、CLIP-Vision、Image Projection。

多幀模型輸入為兩張圖片，輸出是這兩張圖片之間的16幀中間幀，其結果比單幀模型更加一致，但也更慢，創(chuàng)造性較低。

代碼庫默認方法是將兩個模型一起使用：

首先使用單幀模型獲取5-7個“關鍵幀”，然后使用多幀模型來“插值”這些關鍵幀，最終生成一個相對較長的視頻。理論上甚至可以生成無限長的視頻，但在開發(fā)測試中幀數(shù)為100-500時，結果較好。

可以通過以下方式在本地部署：

介紹中還提到，項目測試是在24GB顯存的Nvidia 4090和3090TI上進行。理論上說，16GB的顯存應該也夠用，但8GB就不行了，最少需要大概10到12.5GB的顯存。

根據(jù)不同配置，處理一張圖大約需要5-10分鐘。

生成視頻時長25秒，幀率為4FPS，分辨率可能是320x512、512x320、384x448或448x384。