阿里文生視頻挑戰(zhàn)Gen-2、Pika,1280×720分辨率無壓力,3500萬文本-視頻對顯奇效
文生視頻可以精細(xì)到什么程度?最近,阿里巴巴的一項研究給出了答案:1280×720 分辨率沒有壓力,而且生成效果非常連貫。
文本提示:A kitten in flowers, Chinese painting.(一只小貓在花叢中,中國畫。)
文本提示:A yellow robot.(一個黃色的機(jī)器人)
文本提示:A photo of an ancient shipwreck nestled on the ocean floor. Marine plants have claimed the wooden structure...(海底一艘古老沉船的照片。海洋植物侵蝕了木結(jié)構(gòu)……)
這些 demo 來自阿里聯(lián)合浙江大學(xué)、華中科技大學(xué)提出的文生視頻模型 I2VGen-XL,該模型能夠生成各種類別的高質(zhì)量視頻,如藝術(shù)畫、人像、動物、科幻圖等。生成的視頻具有高清、高分辨率、平滑、美觀等優(yōu)點,適合廣泛的視頻內(nèi)容創(chuàng)作任務(wù)。在與 Gen2、Pika 生成效果對比上, I2VGen-XL 生成的視頻動作更加豐富,主要表現(xiàn)在更真實、更多樣的動作,而 Gen-2 和 Pika 生成的視頻似乎更接近靜態(tài)。
除了生成效果,這項工作更令人印象深刻的一點是研究人員在數(shù)據(jù)上下的工夫。為了提高生成效果的多樣性,研究人員收集了大約 3500 萬單鏡頭文本 - 視頻對和 60 億文本 - 圖像對來優(yōu)化模型,這是一個非常龐大的數(shù)據(jù)集,其后續(xù)潛力令人期待。
論文細(xì)節(jié)
- 論文地址:https://arxiv.org/pdf/2311.04145.pdf
- 論文主頁:https://i2vgen-xl.github.io/page04.html
該研究表示得益于擴(kuò)散模型的快速發(fā)展,視頻合成最近取得了顯著的進(jìn)步。然而,它在語義的準(zhǔn)確性、清晰度和時空連續(xù)性方面仍然面臨挑戰(zhàn)。
出現(xiàn)這種狀況的原因一方面是由于缺乏良好的經(jīng)過對齊的文本 - 視頻數(shù)據(jù),另一方面在于視頻本身復(fù)雜的內(nèi)在結(jié)構(gòu),使得模型難以同時保證語義和質(zhì)量的卓越性。
為了解決上述問題,研究者受到 SDXL 方法的啟發(fā),提出了一種級聯(lián)的 I2VGen-XL 方法,其能夠生成具有連貫空間和運動動態(tài)化以及細(xì)節(jié)連續(xù)的高清視頻。
I2VGen-XL 旨在從靜態(tài)圖像生成高質(zhì)量視頻。因此,它需要實現(xiàn)兩個關(guān)鍵目標(biāo):語義一致性,即準(zhǔn)確預(yù)測圖像中的意圖,然后在保持輸入圖像的內(nèi)容和結(jié)構(gòu)的同時生成精確的運動;高時空一致性和清晰度,這是視頻的基本屬性,對于確保視頻創(chuàng)作應(yīng)用的潛力至關(guān)重要。為此,I2VGenXL 通過由兩個階段組成的級聯(lián)策略分解這兩個目標(biāo):基礎(chǔ)階段和改進(jìn)階段。
- 基礎(chǔ)階段旨在保證低分辨率下生成視頻的語義連貫,同時還要保留輸入圖像的內(nèi)容和主體信息。為了達(dá)到這一目標(biāo),研究者設(shè)計了兩個分層編碼器,即固定 CLIP 編碼器和可學(xué)習(xí)內(nèi)容編碼器,分別提取高級語義和低級細(xì)節(jié),然后將其合并到視頻擴(kuò)散模型中。
- 改進(jìn)階段:將視頻分辨率提高到 1280×720,并改進(jìn)生成視頻中存在的細(xì)節(jié)和偽影。具體來說,研究者使用簡單的文本作為輸入來訓(xùn)練一個獨特的視頻擴(kuò)散模型,并優(yōu)化了其初始的 600 個去噪 step。通過使用噪聲去噪過程,該研究實現(xiàn)了從低分辨率視頻生成具有時間和空間一致性的高清視頻。
具體而言:
基礎(chǔ)階段?;?VLDM,本文設(shè)計的第一階段是低分辨率(即 448×256),主要側(cè)重于在輸入圖像上結(jié)合多級特征提取,包括高級語義和低級細(xì)節(jié)學(xué)習(xí)。
- 高級語義學(xué)習(xí)。該研究表示用 CLIP 的視覺編碼器來提取語義特征,這種方法可以學(xué)習(xí)高級語義,但忽略了圖像中精細(xì)細(xì)節(jié)的感知。為了緩解這個問題,本文結(jié)合了一個額外的可訓(xùn)練全局編碼器來學(xué)習(xí)具有相同形狀的互補(bǔ)特征,其架構(gòu)如表 1 所示。
- 低級細(xì)節(jié)。為了減少細(xì)節(jié)的損失,本文采用從 VQGAN 編碼器(即 D.Enc.)提取的特征,并將它們直接添加到第一幀的輸入噪聲中。
改進(jìn)階段。經(jīng)過基礎(chǔ)階段可以獲得具有多樣化且語義準(zhǔn)確的運動的低分辨率視頻。然而,這些視頻可能會遇到各種問題,例如噪聲、時間和空間抖動以及變形。因此,改進(jìn)模型有兩個主要目標(biāo):i)增強(qiáng)視頻分辨率,將其從 448 × 256 增加到 1280 × 720 或更高;ii) 提高視頻的時空連續(xù)性和清晰度,解決時間和空間上的偽影問題。
為了提高視頻質(zhì)量,該研究訓(xùn)練了一個單獨的 VLDM,專門處理高質(zhì)量、高分辨率數(shù)據(jù),并對第一階段生成的視頻采用 SDEdit 引入的噪聲去噪過程。
該研究還使用 CLIP 對文本進(jìn)行編碼,并通過交叉注意力將其嵌入到 3D UNet 中。然后,基于基礎(chǔ)階段的預(yù)訓(xùn)練模型,研究者使用精心挑選的高質(zhì)量視頻訓(xùn)練高分辨率模型,所有視頻的分辨率都大于 1280×720。
此外,該研究還收集了 3500 萬個高質(zhì)量 single-shot 視頻和 60 億張圖像,以達(dá)到增強(qiáng) I2VGen-XL 多樣性和穩(wěn)健性的目的。
最后,廣泛的實驗評估結(jié)果表明 I2VGen-XL 可以同時增強(qiáng)生成視頻的語義準(zhǔn)確性、細(xì)節(jié)的連續(xù)性和清晰度。此外,該研究還將 I2VGenXL 與當(dāng)前的頂級方法進(jìn)行了比較,結(jié)果都表明 I2VGenXL 在各種數(shù)據(jù)上的有效性。
實驗結(jié)果
與 Gen2 和 Pika 的比較結(jié)果
為了證明新方法的有效性,研究者將 I2VGen-XL 的性能與 Gen-2 和 Pika 進(jìn)行了比較,二者被公認(rèn)為是目前文生視頻領(lǐng)域最先進(jìn)的方法。如圖 4 所示,作者使用這兩種方法的網(wǎng)頁界面生成了三種類型圖像的視頻,包括虛擬、寫實和抽象繪畫。
從這些結(jié)果中可以得出以下幾個結(jié)論:i) 動作的豐富性:I2VGen-XL 的結(jié)果顯示出更真實、更多樣的動作,例如最上方的例子。相比之下,Gen-2 和 Pika 生成的視頻似乎更接近靜態(tài),這表明 I2VGen-XL 實現(xiàn)了更豐富的運動;ii) ID 保留程度:從這三個樣本中可以看出,Gen-2 和 Pika 成功地保留了物體的身份特征,而 I2VGen-XL 則丟失了輸入圖像的一些細(xì)節(jié)。在實驗中,作者還發(fā)現(xiàn) ID 保留程度和運動強(qiáng)度之間存在一定的權(quán)衡關(guān)系。I2VGen-XL 在這兩個因素之間取得了平衡。
I2VGen-XL 生成視頻結(jié)果。
I2VGen-XL 生成視頻結(jié)果。
改進(jìn)模型分析
圖 3 展示了改進(jìn)階段前后生成的視頻。這些結(jié)果表明,空間細(xì)節(jié)得到了大幅提升,包括面部和身體特征的細(xì)化,以及局部細(xì)節(jié)中噪音的明顯減少。
為了進(jìn)一步闡明改進(jìn)模型的工作機(jī)制,本文在圖 7 的頻域中分析了在此過程中生成的視頻中發(fā)生的空間和時間變化。圖 7a 顯示了四個空間輸入的頻譜,表明:低質(zhì)量視頻表現(xiàn)出與高頻范圍內(nèi)的噪聲相似的頻率分布,而高質(zhì)量視頻表現(xiàn)出與輸入圖像的頻率分布更相似。將其與圖 7b 所示的空間頻率分布相結(jié)合,可以觀察到改進(jìn)模型有效地保留了低頻數(shù)據(jù),同時在高頻數(shù)據(jù)中表現(xiàn)出更平滑的變化。從時間維度的角度來看,圖 7d 呈現(xiàn)了低質(zhì)量視頻(上)和高質(zhì)量視頻(下)的時間曲線,表明高清視頻的連續(xù)性有了明顯的改善。此外,結(jié)合圖 7b 和圖 7e 可以看出,改進(jìn)模型在空間和時間域中保留了低頻分量,減少了中頻分量,并增強(qiáng)了高頻分量。這表明時空域中的偽影主要存在于中頻范圍。
定性分析
該研究還對更廣泛的圖像進(jìn)行了實驗,包括人臉、3D 卡通、動漫、國畫、小動物等類別。結(jié)果如圖 5 所示,圖中可以觀察到生成的視頻考慮了圖像的內(nèi)容和合成視頻的美感,同時還表現(xiàn)出有意義且準(zhǔn)確的動作。例如,在第六行,模型準(zhǔn)確地捕捉到了小貓可愛的嘴巴動作。這些結(jié)果表明 I2VGen-XL 表現(xiàn)出有前途的泛化能力。
生成穩(wěn)定的人體運動仍然是視頻合成的主要挑戰(zhàn)。因此,該研究還專門驗證了 I2VGen-XL 在人體圖像上的穩(wěn)健性,如圖 8 所示。可以觀察到,該模型對人體的預(yù)測和生成的運動相當(dāng)真實,具有人體的大部分特征。
文本 - 視頻
文本到視頻合成目前面臨的主要挑戰(zhàn)之一是高質(zhì)量視頻 - 文本對的收集,這使得與圖像合成相比,實現(xiàn)視頻和文本之間的語義對齊更加困難。因此,將 Stable Diffusion 等圖像合成技術(shù)與圖像到視頻合成相結(jié)合,有助于提高生成視頻的質(zhì)量。事實上,為了尊重隱私,該研究幾乎所有樣本都是由兩者結(jié)合生成的。另外,在圖 6 中是本文單獨生成的樣本,可以觀察到視頻和文本表現(xiàn)出很高的語義一致性。
了解更多內(nèi)容,請參考原論文。