自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布

發(fā)布于 2024-10-12 12:18
瀏覽
0收藏

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2409.12960
項(xiàng)目鏈接:https://luckyhzt.github.io/lvcd

今天和大家分享的工作是香港城市大學(xué)、微信團(tuán)隊(duì)、香港大學(xué)的研究人員提出的,首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架,效果非常好,往下有demo視頻展示。

亮點(diǎn)直擊

  • 第一個(gè)基于參考的線稿動(dòng)畫著色視頻擴(kuò)散框架,利用預(yù)訓(xùn)練視頻擴(kuò)散模型的能力生成高質(zhì)量、長時(shí)間一致的動(dòng)畫。
  • 引入了用于SVD的參考注意力,增強(qiáng)了模型生成快速運(yùn)動(dòng)動(dòng)畫的能力。
  • 設(shè)計(jì)了一種新穎的序列采樣機(jī)制,包括重疊混合模塊和前參考注意力,擴(kuò)展模型以生成具有長期時(shí)間一致性的長動(dòng)畫。


長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

解決的問題

現(xiàn)有的視頻上色技術(shù)主要依賴圖像生成模型逐幀對(duì)線稿進(jìn)行上色,導(dǎo)致時(shí)間一致性差和對(duì)大幅運(yùn)動(dòng)處理能力不足。

提出的方案

  • 提出了第一個(gè)基于參考線稿的視頻擴(kuò)散框架,用于線稿視頻的著色。
  • 引入了Sketch-guided ControlNet,增強(qiáng)圖像到視頻擴(kuò)散模型的可控性,實(shí)現(xiàn)基于線稿的動(dòng)畫視頻生成。
  • 采用Reference Attention技術(shù),幫助在快速和廣泛運(yùn)動(dòng)的情況下,從參考幀向其他幀轉(zhuǎn)移顏色。

應(yīng)用的技術(shù)

  • 大規(guī)模預(yù)訓(xùn)練的視頻擴(kuò)散模型,用于生成彩色動(dòng)畫視頻。
  • Sequential Sampling的新方案,結(jié)合Overlapped Blending Module和Prev-Reference Attention,克服視頻擴(kuò)散模型固定長度的限制,實(shí)現(xiàn)長視頻著色。

達(dá)到的效果

  • 通過定性和定量結(jié)果驗(yàn)證,該方法在幀質(zhì)量、視頻質(zhì)量和時(shí)間一致性方面顯著優(yōu)于現(xiàn)有技術(shù)。
  • 能夠生成高質(zhì)量、長時(shí)間一致的動(dòng)畫視頻,并有效處理大幅運(yùn)動(dòng),這是以往技術(shù)無法實(shí)現(xiàn)的。

方法論

旨在設(shè)計(jì)一個(gè)用于參考線稿視頻著色的視頻擴(kuò)散框架,能夠生成時(shí)間一致的大運(yùn)動(dòng)長序列動(dòng)畫。首先,討論模型架構(gòu),包括草圖引導(dǎo)的ControlNet和參考注意力,使得模型能夠根據(jù)線稿草圖生成快速和擴(kuò)展運(yùn)動(dòng)的動(dòng)畫。在修改模型架構(gòu)后,使用動(dòng)畫視頻對(duì)其進(jìn)行微調(diào),以執(zhí)行我們的任務(wù)。在推理過程中,擴(kuò)展原始的SVD,通過序列采樣生成長時(shí)間一致的動(dòng)畫,結(jié)合重疊混合模塊和前參考注意力。

模型架構(gòu)

本框架的概述如圖2所示。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

草圖引導(dǎo)的 ControlNet

除了參考圖像,另一個(gè)關(guān)鍵條件是線稿草圖,這在原始 SVD 中并不支持。如圖 2 所示,借鑒了 ControlNet的設(shè)計(jì),將草圖作為附加條件進(jìn)行整合。首先,復(fù)制原始 U-Net 的編碼器,克隆所有層,包括時(shí)間注意力和 3D 卷積層,以及它們的權(quán)重。其次,引入幾個(gè)零初始化的卷積層來編碼線稿草圖,并將其拼接到克隆編碼器的輸入中。最后,將 ControlNet 每層的輸出添加到原始 U-Net 解碼器的跳躍連接中。在訓(xùn)練過程中,ControlNet 中的所有層都被微調(diào),以生成基于參考圖像和線稿草圖的動(dòng)畫序列。

參考注意力

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

最后,使用公式 (1) 中的損失對(duì)修改后的網(wǎng)絡(luò)進(jìn)行微調(diào),結(jié)合草圖引導(dǎo)的 ControlNet 和參考注意力。我們更新 ControlNet 中的所有層,以及 U-Net 中的空間和時(shí)間自注意力層,如圖 2 所示。

長動(dòng)畫的序列采樣

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

重疊混合模塊

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

其次,通過參考注意力進(jìn)一步插入先前生成幀的內(nèi)容。如圖 3-B 所示,我們首先將所有先前生成的重疊幀結(jié)果(在橙色塊中)作為參考輸入送入?yún)⒖悸窂?,以捕獲來自這些輸入的完整信息。然后,重疊幀的空間參考注意力定義為:

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

Prev-Reference Attention

為了有效地將重疊幀的內(nèi)容傳播到遠(yuǎn)處的幀,進(jìn)一步提出在空間自注意力層內(nèi)增強(qiáng)時(shí)間傳播。如圖 3-B 所示,我們將非重疊幀的原始自注意力向左移動(dòng)三幀。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

通過使非重疊幀能夠查詢來自重疊幀的信息,這些重疊幀的內(nèi)容通過重疊混合模塊恢復(fù)為先前生成的結(jié)果,有效地保持了連續(xù)段之間的內(nèi)容一致性。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

測試數(shù)據(jù)集。 選擇了四部宮崎駿執(zhí)導(dǎo)的電影,分別是《哈爾的移動(dòng)城堡》、《紅豬》、《幽靈公主》和《千與千尋》,作為我們的測試集,標(biāo)記為“相似測試集”,這些電影展現(xiàn)了相似的藝術(shù)風(fēng)格,但內(nèi)容與訓(xùn)練數(shù)據(jù)集不同。此外,為了評(píng)估我們模型在不同動(dòng)畫風(fēng)格和內(nèi)容上的泛化能力,我們選擇了三部其他導(dǎo)演制作的電影,包括《大魚海棠》、《喵小咪》和《羅小黑》,標(biāo)記為“通用測試集”。將視頻分割成片段,并使用與訓(xùn)練數(shù)據(jù)集相同的方法提取線條草圖。對(duì)于每個(gè)測試集,均勻選擇1,000個(gè)視頻片段進(jìn)行評(píng)估,平均長度為59幀。使用分辨率為256 × 256的光流來測量兩個(gè)測試集的平均運(yùn)動(dòng),其中排除了靜止位置。發(fā)現(xiàn)55%的片段的平均運(yùn)動(dòng)超過5個(gè)像素,28%的片段超過10個(gè)像素。


評(píng)估指標(biāo)。 通過四個(gè)方面評(píng)估彩色動(dòng)畫的質(zhì)量:

  • 幀和視頻質(zhì)量:我們使用FID和 FVD 分別評(píng)估生成視頻的幀和視頻質(zhì)量。
  • 幀相似度:由于動(dòng)畫是基于線條草圖和第一幀參考圖像生成的,這兩者均來自原始動(dòng)畫,我們使用PSNR、LPIPS和SSIM測量生成幀與原始動(dòng)畫幀之間的相似度。
  • 草圖對(duì)齊:為了評(píng)估生成幀是否與輸入線條草圖的結(jié)構(gòu)對(duì)齊,提取生成幀的草圖并計(jì)算歐幾里得距離圖(ED圖),該圖測量每個(gè)像素到其最近草圖的距離。隨后,計(jì)算歐幾里得距離圖差異(EDMD),以均方根誤差(RMSE)表示,相對(duì)于輸入草圖的平均像素偏移量。
  • 時(shí)間一致性:將時(shí)間一致性(TC)定義為

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

在這里,( I_{tg} ) 是生成視頻中的第 ( t ) 幀,( I_t ) 表示原始幀,而 ( I_{t \to t+1} ) 代表從幀 ( t ) 到幀 ( t + 1 ) 的扭曲幀。這里,利用RAFT [Teed and Deng 2020] 從原始動(dòng)畫中預(yù)測的光流用于原始幀和生成幀的扭曲。對(duì)于所有指標(biāo),將幀大小調(diào)整為 ( 256 \times 256 ),并將像素值歸一化到 ([0.0, 1.0]) 進(jìn)行計(jì)算。

基于參考的工作比較

將所提方法與兩個(gè)現(xiàn)有的基于參考的線條視頻上色框架進(jìn)行比較:ACOF (一種基于光流的方法)和TCVC(一種圖像到圖像框架),這兩者都是基于GAN的圖像模型。由于沒有廣泛接受的線條視頻上色基準(zhǔn)數(shù)據(jù)集,為確保公平比較,利用我們的數(shù)據(jù)集生成幀對(duì),以訓(xùn)練ACOF和TCVC,使用它們的官方代碼。


對(duì)于這兩種方法,評(píng)估兩個(gè)版本:原始版本Prev Sample將參考幀更新為先前生成的幀,而修改版本First Sample始終使用第一幀作為參考??紤]到我們的任務(wù)中沒有基于擴(kuò)散的框架,我們采用了圖像ControlNet ,與AnythingV3一起使用,從Stable Image Diffusion卡通圖像和線條控制中微調(diào)而來。此外,在采樣過程中使用Reference-only提供參考幀作為指導(dǎo)。進(jìn)一步選擇了一項(xiàng)動(dòng)畫插值工作EISAI和一項(xiàng)基于擴(kuò)散的視頻插值工作SEINE進(jìn)行比較。由于這兩種方法在固定間隔內(nèi)插值顏色化的參考關(guān)鍵幀,首先應(yīng)用ControlNet + Reference-only方法為每13幀顏色化關(guān)鍵幀,然后應(yīng)用EISAI和SEINE插值剩余幀。

定性比較。

在圖4中,展示了三段動(dòng)畫片段的上色幀。在第一個(gè)示例中,ACOF和TCVC在使用原始版本Prev Sample時(shí)表現(xiàn)出嚴(yán)重的累積偽影。在第二個(gè)和第三個(gè)示例中,即使使用First Sample,這兩種方法在生成與參考幀相比有顯著運(yùn)動(dòng)的幀時(shí)仍然面臨困難,導(dǎo)致移動(dòng)位置出現(xiàn)重影效應(yīng)。因此,無論是Prev還是First Sample,這兩種方法都容易產(chǎn)生某些偽影。這表明,先前基于CNN的方法在有效地對(duì)具有大量運(yùn)動(dòng)的長序列線條草圖進(jìn)行上色方面存在困難。關(guān)于圖像ControlNet加上Reference-only的方法,它們僅在運(yùn)動(dòng)范圍有限時(shí)才能成功生成幀。Reference-only技術(shù)在推理期間單獨(dú)應(yīng)用,而不是與模型一起訓(xùn)練,當(dāng)對(duì)象位移過大時(shí),可能會(huì)錯(cuò)誤解釋參考幀的對(duì)應(yīng)關(guān)系,如第一個(gè)示例中女孩的紅發(fā)和第三個(gè)示例中幀60和70中的扭曲老人所示。實(shí)驗(yàn)突顯了圖像擴(kuò)散模型在完成我們的任務(wù)中的局限性。對(duì)于插值方法,EISAI表現(xiàn)出重影效應(yīng),而SEINE產(chǎn)生顯著噪聲,導(dǎo)致幀模糊(建議放大圖像以注意偽影)。這表明,即使提供由ControlNet + Refonly方法生成的關(guān)鍵幀,這兩種方法也無法適應(yīng)我們的任務(wù)。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

本文方案利用具有長范圍空間匹配的基于視頻的擴(kuò)散模型,通過參考注意力,能夠生成具有大運(yùn)動(dòng)的長期時(shí)間一致的動(dòng)畫。例如,在所有示例中,當(dāng)精靈和角色改變位置時(shí),我們的方法能夠準(zhǔn)確找到正確的對(duì)應(yīng)關(guān)系并有效地對(duì)其進(jìn)行上色。此外,通過結(jié)合重疊混合和前參考注意力的順序采樣,我們的方法能夠保持長期時(shí)間一致性。正如第二個(gè)示例中精靈的尾部和第一個(gè)示例中生成的頭部(不在參考幀中)所證明的,相似的顏色在整個(gè)動(dòng)畫中得以保留??傮w而言,方法成功地實(shí)現(xiàn)了對(duì)長序列線條的上色,這是以往工作(包括基于CNN和基于擴(kuò)散的框架)無法實(shí)現(xiàn)的。


定量比較。在這一部分,在幀和視頻質(zhì)量、幀相似性、草圖與真實(shí)動(dòng)畫的對(duì)齊以及時(shí)間一致性等方面對(duì)我們的方法與其他方法進(jìn)行了比較。表1顯示,我們的方法在所有方面都顯著優(yōu)于其他方法,尤其在視頻質(zhì)量(FVD)和時(shí)間一致性(TC)方面表現(xiàn)突出。這些結(jié)果表明,我們的方法能夠生成長時(shí)間一致的高質(zhì)量動(dòng)畫,超越以往的工作。此外,我們的方法在訓(xùn)練數(shù)據(jù)集中能夠很好地泛化到不同風(fēng)格的動(dòng)畫,產(chǎn)生可比的定量結(jié)果。總體而言,我們引入了新的度量標(biāo)準(zhǔn)(EDMD和TC),有效評(píng)估生成動(dòng)畫的草圖對(duì)齊和時(shí)間一致性,為基于參考的線條視頻上色設(shè)定了新的標(biāo)準(zhǔn)。


長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

用戶研究

進(jìn)行了一項(xiàng)用戶研究,以進(jìn)一步評(píng)估我們方法的性能。在30個(gè)動(dòng)畫(15個(gè)來自相似測試集,15個(gè)來自一般測試集)中,參與者首先看到真實(shí)動(dòng)畫和線條草圖作為參考,然后是隨機(jī)順序生成的動(dòng)畫,包括ACOF、TCVC、CNet+Refonly、EISAI、SEINE和我們的方法。


每位用戶需從隨機(jī)選擇的10個(gè)問題中選擇最佳動(dòng)畫,考慮以下三個(gè)方面:

  • 與原始動(dòng)畫的相似性
  • 與線條的對(duì)齊
  • 整體質(zhì)量

在113名參與者中,20名在計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(CG & CV)領(lǐng)域工作或?qū)W習(xí),49名從事藝術(shù)與設(shè)計(jì),44名來自其他領(lǐng)域。如圖5所示,我們的方法獲得了58.3%的最高偏好率,其中CG & CV、藝術(shù)與設(shè)計(jì)和其他領(lǐng)域的用戶偏好率分別為62.0%、52.4%和63.2%。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

消融研究

模型架構(gòu)消融。 為了研究方法的效果,我們進(jìn)行了消融研究,通過去除參考注意力層并使用相同的超參數(shù)重新訓(xùn)練網(wǎng)絡(luò)。表2中的定量結(jié)果表明,各項(xiàng)指標(biāo)均出現(xiàn)下降,顯示模型處理大運(yùn)動(dòng)動(dòng)畫的能力減弱。從視覺效果來看,如圖6所示,缺少參考注意力會(huì)導(dǎo)致顯著運(yùn)動(dòng)區(qū)域的不一致和不正確上色,例如右側(cè)示例中的黑色領(lǐng)子,以及左側(cè)示例中鹿的顏色不一致。這些發(fā)現(xiàn)突顯了參考注意力在增強(qiáng)模型生成高質(zhì)量大運(yùn)動(dòng)動(dòng)畫能力方面的重要作用。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

序列采樣方案的消融研究。 在表2中,我們將我們的方法與兩個(gè)變體進(jìn)行了比較。首先,去除了前面中提到的所有采樣方案,僅使用第一個(gè)參考幀進(jìn)行動(dòng)畫采樣。對(duì)于“Prev Sample”,進(jìn)一步將參考切換到前一段生成的幀。定量結(jié)果顯示,去除采樣方案會(huì)導(dǎo)致時(shí)間一致性降低(TC增高),而其他指標(biāo)保持相似。對(duì)于“Prev Sample”,由于使用先前生成的幀作為參考導(dǎo)致的累積誤差,所有指標(biāo)均有所下降。


在圖6所示的定性結(jié)果中,我們的采樣方案表現(xiàn)出優(yōu)越的時(shí)間一致性保持能力。例如,左側(cè)示例中的鹿的顏色和右側(cè)示例中的領(lǐng)子保持了一致,而沒有采樣方案的結(jié)果則出現(xiàn)了不一致。此外,左側(cè)示例中(在綠色框內(nèi)放大)的“小盤子”逐漸顯露出更多區(qū)域,我們的方法能夠保持與參考圖像相似的一致紅色。與“Prev Sample”相比,我們的采樣方案有效減輕了累積偽影。例如,左側(cè)示例中的藍(lán)天上出現(xiàn)黃色區(qū)域,而右側(cè)示例中的墻面在“Prev Sample”下變成了紅色??傊?,我們的采樣方案能夠增強(qiáng)長期時(shí)間一致性,同時(shí)有效解決累積偽影的問題。


在圖7中,分析了兩種序列采樣方案的效果,即重疊混合(Overlapped Blending)和前參考注意力(Prev-Reference Attention)。我們展示了在?? = 25 → 0時(shí)的中間去噪輸出,其中第一段的幀14與第二段的幀14重疊。對(duì)于沒有這兩個(gè)模塊的結(jié)果,我們注意到幀14中的內(nèi)容(即紅色袖子)無法從第一段傳播到第二段,導(dǎo)致新采樣的幀14出現(xiàn)不一致的棕色袖子。在整合重疊混合后,第一段幀14中的紅色袖子能夠被繼承到第二段。最終,結(jié)合前參考注意力后,袖子的紅色成功傳播到幀24,形成了時(shí)間一致的動(dòng)畫。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

重疊幀數(shù)量的消融研究。 將視頻序列劃分為帶有??個(gè)重疊幀的段,以進(jìn)行序列采樣。在表3中,分析了不同數(shù)量的重疊幀。觀察到,將??從2增加到4顯著改善了視頻質(zhì)量(FVD)和時(shí)間一致性(TC),而其他圖像質(zhì)量指標(biāo)幾乎保持不變。然而,進(jìn)一步增加重疊幀的數(shù)量并未帶來顯著的改善,甚至在?? = 6和?? = 8時(shí)導(dǎo)致FVD下降,同時(shí)減慢推理速度。因此,為了平衡推理質(zhì)量和速度,設(shè)置?? = 4個(gè)重疊幀是最佳選擇。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

不同線條提取方法的影響
為了評(píng)估不同線條提取方法的影響,將訓(xùn)練使用提取的線條的模型應(yīng)用于使用多種提取方法生成的線條上,包括Anime2Sketch、SketchKeras、HED(使用來自所有層的組合特征)以及我們訓(xùn)練數(shù)據(jù)集中使用的方法。如圖8所示,盡管與我們訓(xùn)練中使用的線條在風(fēng)格和細(xì)節(jié)上存在差異,我們的模型仍能為Anime2Sketch和SketchKeras提取的線條生成類似質(zhì)量的結(jié)果,展示了我們方法的通用性。然而,當(dāng)應(yīng)用于線條過于粗厚的HED提取線條時(shí),我們的模型傾向于生成粗糙且模糊的動(dòng)畫。這個(gè)問題可以通過用不同厚度的線條增強(qiáng)訓(xùn)練數(shù)據(jù)來解決。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

應(yīng)用于手繪線條
為了驗(yàn)證我們方法的實(shí)際適用性,邀請(qǐng)了專注于繪畫的學(xué)生使用繪圖板創(chuàng)作手繪線條草圖。然后,利用我們的方法對(duì)這些手繪線條進(jìn)行上色。如圖9所示,模型最初是用自動(dòng)生成的草圖訓(xùn)練的,能夠無縫地適應(yīng)手繪線條草圖。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

局限性

盡管本文方法有效,但存在兩個(gè)局限性。首先,由于VAE的重建損失和輸入草圖的粗糙性,我們的方法在細(xì)節(jié)上可能會(huì)出現(xiàn)偽影。如圖10所示,由于重建損失,第一行女孩臉部的細(xì)節(jié)丟失,而第二行老人的臉由于草圖粗糙而模糊。對(duì)原始VAE進(jìn)行微調(diào)以適應(yīng)卡通圖像領(lǐng)域以及我們框架中使用的分辨率,并對(duì)訓(xùn)練草圖進(jìn)行數(shù)據(jù)增強(qiáng),可以緩解這個(gè)問題。另一個(gè)局限性是對(duì)部分可見新對(duì)象的上色可能不準(zhǔn)確。如第三行所示,當(dāng)新角色的部分身體進(jìn)入場景時(shí),其身體被錯(cuò)誤地上色為附近花瓣的顏色。只有當(dāng)角色的全身可見時(shí),上色才會(huì)準(zhǔn)確。修改我們的視頻剪輯算法以包括更多涉及新對(duì)象場景變化的案例,可能會(huì)幫助我們的模型處理這種情況。

長動(dòng)畫上色質(zhì)量再創(chuàng)新高!首個(gè)基于參考線稿的動(dòng)畫上色視頻擴(kuò)散框架LVCD發(fā)布-AI.x社區(qū)

結(jié)論

本文提出了第一個(gè)基于參考的線條視頻上色的擴(kuò)散框架,解決了先前方法的局限性。方法通過利用預(yù)訓(xùn)練的視頻擴(kuò)散模型,能夠生成長時(shí)間一致且高質(zhì)量的動(dòng)畫。為了將預(yù)訓(xùn)練的SVD適應(yīng)我們的任務(wù),引入了草圖引導(dǎo)的ControlNet進(jìn)行可控視頻生成,并通過Reference Attention使模型能夠處理大范圍的運(yùn)動(dòng)。此外,新型序列采樣,包括重疊混合和前參考注意力,擴(kuò)展了模型生成長動(dòng)畫的能力,同時(shí)保持了時(shí)間一致性。我們的實(shí)驗(yàn)驗(yàn)證了我們方法的有效性,展示了其在處理大運(yùn)動(dòng)時(shí)生成高質(zhì)量動(dòng)畫的能力,這是以往工作所無法實(shí)現(xiàn)的。由于本框架是通用的,可以應(yīng)用于其他模態(tài),例如邊緣、深度和法線圖。在未來的工作中,可能會(huì)將方法擴(kuò)展到由其他模態(tài)或甚至多模態(tài)指導(dǎo)生成現(xiàn)實(shí)視頻。通過使用大規(guī)?,F(xiàn)實(shí)視頻數(shù)據(jù)集并利用SVD在類似視頻上進(jìn)行預(yù)訓(xùn)練的事實(shí),現(xiàn)實(shí)視頻生成的性能可以進(jìn)一步提高。


本文轉(zhuǎn)自  AI生成未來 ,作者:ZHITONG HUANG等  

原文鏈接:??https://mp.weixin.qq.com/s/fci11y2R2xBfKx5Fk4cVCg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦