超越Text2Video-Zero|無需額外訓(xùn)練,條件生成、專門生成和指令引導(dǎo)的視頻編輯全搞定!
論文鏈接:https://arxiv.org/pdf/2407.21475
github鏈接:https://densechen.github.io/zss/
亮點直擊
- 本文提出了一種新穎的zero-shot視頻采樣算法,該算法能夠直接從預(yù)訓(xùn)練的圖像擴(kuò)散模型中采樣高質(zhì)量的視頻片段。
- 本文提出了一個依賴噪聲模型和時間動量注意力機(jī)制,首次能夠靈活地控制生成視頻中的時間變化。
- 通過廣泛的應(yīng)用展示了本文方法的有效性,包括條件和專門的視頻生成,以及由文本指令引導(dǎo)的視頻編輯。
將時間維度引入預(yù)訓(xùn)練的圖像擴(kuò)散模型中用于視頻生成是一種常見的方法。然而,這種方法計算量大,并且需要大規(guī)模的視頻數(shù)據(jù)集。更為關(guān)鍵的是,圖像和視頻數(shù)據(jù)集之間的異質(zhì)性常常導(dǎo)致圖像專業(yè)知識的災(zāi)難性遺忘。最近,直接從圖像擴(kuò)散模型中提取視頻片段的嘗試在一定程度上緩解了這些問題。然而,這些方法只能生成帶有簡單運動的短視頻片段,無法捕捉細(xì)粒度的運動或非網(wǎng)格變形。
依賴噪聲模型
在訓(xùn)練視頻擴(kuò)散模型時使用混合和漸進(jìn)噪聲模型已證明是有效的,如[11]所示。這種方法使得在訓(xùn)練過程中能夠有效地學(xué)習(xí)幀之間的動畫過渡。
依賴噪聲模型
如下面算法1所示,本文提出了一種兩階段噪聲搜索算法,這與傳統(tǒng)的解析解方法有所不同。
從而最小化公式1。
時間動量注意力
為了利用跨幀注意力的潛力,并使用預(yù)訓(xùn)練的圖像擴(kuò)散模型而無需重新訓(xùn)練,F(xiàn)ateZero將每個自注意力層替換為跨幀注意力。在這種設(shè)置中,每一幀的注意力主要集中在初始幀。類似的結(jié)構(gòu)也在 [19] 中采用。
跨幀注意力的應(yīng)用有助于將外觀、結(jié)構(gòu)以及物體和背景的身份從第一幀傳遞到后續(xù)幀。然而,這種方法缺乏相鄰幀之間的連接,這可能導(dǎo)致生成的視頻序列中出現(xiàn)顯著的變化,如下圖3所示。
時間動量注意力
本文的觀察表明,自注意力由于缺乏幀間上下文,會導(dǎo)致采樣特征的多樣性更高。另一方面,跨幀注意力僅依賴于初始幀的信息。這雖然保證了采樣結(jié)果的一致性,但也導(dǎo)致了多樣性的減少。
為了在自注意力和跨幀注意力的不同效果之間取得平衡,本文引入了時間動量注意力(Temporal Momentum Attention, TMA)。TMA的數(shù)學(xué)表示如下:
其中,
Zero-Shot 視頻采樣算法
通過結(jié)合依賴噪聲模型和時間動量注意力,本文成功地利用現(xiàn)有的 DDIM 算法從圖像擴(kuò)散模型中采樣出高質(zhì)量的視頻。這個過程在上面的算法 1 中進(jìn)行了概述。
實驗
文本與視頻任務(wù)的綜合比較
在本研究中,本文從定量和定性兩個方面對本文的方法和另一個zero-shot視頻合成方法 Text2Video-Zero 進(jìn)行了廣泛的比較。
從定性角度來看, 本文在上圖3中提供了一些生成視頻片段的可視化。本文方法生成的視頻片段明顯表現(xiàn)出更優(yōu)越的連續(xù)性,顯著減少了突兀的幀。與[19]中的簡單上下物體運動相比,本文的依賴噪聲模型采樣的噪聲可以擴(kuò)散出更具體、復(fù)雜的運動,并在不同的擴(kuò)散模型中很好地泛化,如下圖2所示。結(jié)合時間動量注意力,本文的方法可以為更具挑戰(zhàn)性的對象生成更復(fù)雜的運動,例如流體的非剛性變形、復(fù)雜的煙霧擴(kuò)散效果,甚至是微妙的面部微表情,如下圖1所示。
擴(kuò)展
結(jié)論
本文轉(zhuǎn)自AI生成未來,作者:Dengsheng Chen等
