自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié)) 精華

發(fā)布于 2024-5-7 10:08
瀏覽
0收藏

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

文章:https://arxiv.org/pdf/2405.01434
主頁:https://storydiffusion.github.io/


對(duì)于最近基于擴(kuò)散的生成模型來說,在一系列生成的圖像中保持一致的內(nèi)容,尤其是那些包含主題和復(fù)雜細(xì)節(jié)的圖像,是一個(gè)重大挑戰(zhàn)。本文提出了一種新的自注意力計(jì)算方式,稱為一致性自注意力,顯著提升了生成圖像與流行的預(yù)訓(xùn)練基于擴(kuò)散的文本到圖像模型之間的一致性,并以zero-shot方式增強(qiáng)


為了將本文的方法擴(kuò)展到長(zhǎng)視頻生成,進(jìn)一步引入了一種新穎的語義空間時(shí)間運(yùn)動(dòng)預(yù)測(cè)模塊,稱為語義運(yùn)動(dòng)預(yù)測(cè)器。它被訓(xùn)練用于估計(jì)語義空間中兩個(gè)提供的圖像之間的運(yùn)動(dòng)條件。該模塊將生成的圖像序列轉(zhuǎn)換為具有平滑過渡和一致主題的視頻,與僅基于潛在空間的模塊相比,尤其是在長(zhǎng)視頻生成的情況下,穩(wěn)定性顯著提高。


通過將這兩個(gè)新穎組件合并,該框架,被稱為StoryDiffusion,可以用一致的圖像或視頻描述基于文本的故事,涵蓋豐富多樣的內(nèi)容。所提出的StoryDiffusion在視覺故事生成方面進(jìn)行了開創(chuàng)性的探索,呈現(xiàn)了圖像和視頻的展示,希望這能激發(fā)更多從架構(gòu)修改的角度進(jìn)行的研究。


生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

一致性自注意力效果展示

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)


生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

介紹

最近,擴(kuò)散模型發(fā)展迅速,并展示了在內(nèi)容生成方面的非凡潛力,如圖像,3D目標(biāo)和視頻。通過廣泛的預(yù)訓(xùn)練和先進(jìn)的架構(gòu),擴(kuò)散模型在生成高質(zhì)量圖像和視頻方面表現(xiàn)優(yōu)于先前基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的方法。


然而,生成具有一致主題(例如,具有一致身份和服裝的角色)的圖像和視頻來描述故事對(duì)現(xiàn)有模型仍然具有挑戰(zhàn)性。常用的以圖像為參考的IP-Adapter可以用于指導(dǎo)擴(kuò)散過程以生成類似于它的圖像。然而,由于強(qiáng)大的引導(dǎo)作用,對(duì)文本提示生成的內(nèi)容的可控性降低了。


另一方面,最近的最先進(jìn)的身份保持方法,如InstantID,側(cè)重于身份的可控性,但無法保證服裝和情景的一致性。因此,本文的目標(biāo)是找到一種方法,能夠生成具有一致性角色的圖像和視頻,無論是身份還是服裝,同時(shí)最大限度地提高用戶通過文本提示的可控性。

保持不同圖像之間(或在視頻生成的情境下的幀之間)的一致性的一種常見方法是使用時(shí)間模塊。然而,這需要大量的計(jì)算資源和數(shù)據(jù)。與此不同,本文的目標(biāo)是探索一種輕量級(jí)方法,具有最小的數(shù)據(jù)和計(jì)算成本,甚至以zero-shot方式進(jìn)行。


正如之前的研究所證明的,自注意力是建模生成視覺內(nèi)容整體結(jié)構(gòu)的最重要模塊之一。本文的主要?jiǎng)訖C(jī)是,如果我們能夠使用參考圖像來指導(dǎo)自注意力的計(jì)算,那么兩個(gè)圖像之間的一致性應(yīng)該會(huì)顯著提高。由于自注意力權(quán)重是依賴于輸入的,因此可能不需要模型訓(xùn)練或微調(diào)。遵循這個(gè)思路,本文提出了一致性自注意力,這是StoryDiffusion的核心,可以以zero-shot方式插入擴(kuò)散骨干,取代原始的自注意力。


與標(biāo)準(zhǔn)的自注意力不同,后者是在表示單個(gè)圖像的tokens上操作的(如下圖2(d)所示),一致性自注意力在tokens相似性矩陣計(jì)算和tokens合并過程中包含了從參考圖像中采樣的參考tokens。采樣的tokens共享相同的Q-K-V權(quán)重,因此不需要額外的訓(xùn)練。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

如下圖1所示,使用一致性自注意力生成的圖像成功地保持了在身份和服裝方面的一致性,這對(duì)于敘事非常重要。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

直觀地說,一致性自注意力在批處理中建立了圖像之間的相關(guān)性,在身份和服裝等方面生成了一致的角色圖像。這使能夠?yàn)閿⑹律芍黝}一致的圖像。


對(duì)于給定的故事文本,首先將其分成幾個(gè)提示,每個(gè)提示對(duì)應(yīng)一個(gè)單獨(dú)的圖像。然后,本文的方法可以生成高度一致的圖像,有效地?cái)⑹鲆粋€(gè)故事。為了支持長(zhǎng)篇故事的生成,還沿著時(shí)間維度實(shí)現(xiàn)了一致性自注意力以及一個(gè)滑動(dòng)窗口。這消除了峰值內(nèi)存消耗與輸入文本長(zhǎng)度的依賴關(guān)系,從而使生成長(zhǎng)篇故事成為可能。


為了將生成的故事幀流式傳輸成視頻,進(jìn)一步提出了語義運(yùn)動(dòng)預(yù)測(cè)器,它可以在語義空間中預(yù)測(cè)兩個(gè)圖像之間的過渡。經(jīng)驗(yàn)性地發(fā)現(xiàn),在語義空間中預(yù)測(cè)運(yùn)動(dòng)比在圖像潛空間中的預(yù)測(cè)產(chǎn)生了更穩(wěn)定的結(jié)果。結(jié)合預(yù)訓(xùn)練的運(yùn)動(dòng)模塊,語義運(yùn)動(dòng)預(yù)測(cè)器可以生成平滑的視頻幀,其質(zhì)量顯著優(yōu)于最近的條件視頻生成方法,如SEINE和SparseCtrl。

貢獻(xiàn)總結(jié)如下:

  • 提出了一種無需訓(xùn)練且可即插即用的注意力模塊,稱為一致性自注意力。它可以保持生成圖像序列中角色的一致性,從而實(shí)現(xiàn)高文本可控性的敘事。
  • 提出了一種新的運(yùn)動(dòng)預(yù)測(cè)模塊,可以在語義空間中預(yù)測(cè)兩個(gè)圖像之間的過渡,稱為語義運(yùn)動(dòng)預(yù)測(cè)器。它可以生成明顯更穩(wěn)定的長(zhǎng)視頻幀,比最近流行的圖像條件方法(如SEINE和SparseCtrl)更容易擴(kuò)展到分鐘級(jí)。
  • 證明了本文的方法可以基于預(yù)定義的文本故事使用一致性自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器生成長(zhǎng)圖像序列或視頻,其中的運(yùn)動(dòng)由文本提示指定。新框架稱為StoryDiffusion。

相關(guān)工作

擴(kuò)散模型

擴(kuò)散模型迅速展示了其在生成逼真圖像方面的驚人能力,這也使它們?cè)谧罱鼛啄曛鲗?dǎo)了生成建模領(lǐng)域。通過利用深度去噪網(wǎng)絡(luò),擴(kuò)散模型通過迭代添加噪聲和去噪來建立噪聲分布與真實(shí)圖像分布之間的連接。早期的工作主要集中在無條件圖像生成方面,奠定了擴(kuò)散模型的理論基礎(chǔ)。


隨后,為提高擴(kuò)散模型的效率和性能,進(jìn)行了各種努力。典型例子包括高效采樣方法、潛空間中的去噪、可控性。隨著基礎(chǔ)理論的探索,擴(kuò)散模型逐漸受到歡迎,并在各個(gè)領(lǐng)域展示了強(qiáng)大的性能,如圖像生成、視頻生成、3D生成、圖像分割和低級(jí)別視覺任務(wù)。

可控文本到圖像生成

作為擴(kuò)散模型應(yīng)用的重要子領(lǐng)域,最近引起了人們的極大關(guān)注的文本到圖像生成,代表作有潛空擴(kuò)散、DiT和Stable XL。此外,為增強(qiáng)文本到圖像生成的可控性,也出現(xiàn)了許多方法。其中,ControlNet和T2I-Adapter引入了控制條件,如深度圖、姿態(tài)圖像或素描,以指導(dǎo)圖像的生成。MaskDiffusion和StructureDiffusion專注于增強(qiáng)文本的可控性。還有一些工作控制生成圖像的布局。


ID保持是期望根據(jù)指定的ID生成圖像的熱門話題。根據(jù)是否需要測(cè)試時(shí)微調(diào),這些工作可以分為兩大類。第一類僅需要對(duì)給定圖像的部分模型進(jìn)行微調(diào),例如Textual Inversion、DreamBooth和Custom Diffusion。另一類,例如IPAdapter和PhotoMaker,利用已在大型數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練的模型,允許直接使用給定圖像來控制圖像生成。與這兩種類型不同,我們專注于在多個(gè)圖像中保持主題一致性,以敘述一個(gè)故事。一致性自注意力是無需訓(xùn)練且可插拔的,可以在批處理中建立圖像之間的連接,生成多個(gè)主題一致的圖像。

視頻生成

由于擴(kuò)散模型在圖像生成領(lǐng)域的成功,視頻生成領(lǐng)域的探索也變得流行起來。由于文本是用戶可以指定的最直觀的描述符,基于文本的視頻生成受到了最多的關(guān)注。VDM是最早將2D U-Net從圖像擴(kuò)散模型擴(kuò)展到3D U-Net以實(shí)現(xiàn)視頻生成的方法之一。


由于視頻生成的計(jì)算成本顯著增加,后續(xù)的工作,如MagicVideo和Mindscope,引入了1D時(shí)間注意機(jī)制,通過基于潛空間擴(kuò)散模型來降低計(jì)算量。在Imagen之后,Imagen Video采用了級(jí)聯(lián)采樣pipeline,通過多個(gè)階段生成視頻。Show-1也提出了一種多階段方法,以平衡生成質(zhì)量和效率。


除了傳統(tǒng)的端到端文本到視頻(T2V)生成外,使用其他條件進(jìn)行視頻生成也是一個(gè)重要的方向。這類方法使用其他輔助控制生成帶有其他輔助控制的視頻,例如深度圖、姿態(tài)圖、RGB圖像或其他引導(dǎo)運(yùn)動(dòng)視頻。與文本提示的歧義不同,引入這種條件信息增強(qiáng)了視頻生成的可控性。


本文的視頻生成方法專注于轉(zhuǎn)換視頻生成,預(yù)期生成具有給定起始幀和結(jié)束幀的視頻。典型的相關(guān)工作包括SEINE和SparseCtrl。SEINE在訓(xùn)練中將視頻序列隨機(jī)mask作為視頻擴(kuò)散模型的初始輸入,以使兩個(gè)幀之間的過渡預(yù)測(cè)成為可能。SparseCtrl引入了稀疏控制網(wǎng)絡(luò),使用稀疏控制數(shù)據(jù)為每個(gè)幀合成相應(yīng)的控制信息,從而指導(dǎo)視頻的生成。


然而,前述的過渡視頻生成方法僅依賴于圖像潛空間中的時(shí)間網(wǎng)絡(luò)進(jìn)行中間內(nèi)容的預(yù)測(cè)。因此,這些方法在復(fù)雜的過渡,如角色的大規(guī)模移動(dòng)時(shí)通常表現(xiàn)不佳。StoryDiffusion旨在在圖像語義空間中進(jìn)行預(yù)測(cè)以獲得更好的性能,并且可以處理更大的移動(dòng),將在實(shí)驗(yàn)部分展示。

方法

本文的方法可以分為兩個(gè)階段,如前面圖2和下圖3所示。在第一階段中,StoryDiffusion利用Consistent Self-Attention以無需訓(xùn)練的方式生成具有主題一致性的圖像。這些一致的圖像可以直接用于敘事,也可以作為第二階段的輸入。在第二階段,StoryDiffusion基于這些一致的圖像創(chuàng)建一致的過渡視頻。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

無需訓(xùn)練的一致圖像生成

本節(jié)介紹本文的方法如何以無需訓(xùn)練的方式生成具有主題一致性的圖像。解決上述問題的關(guān)鍵在于如何在圖像批次內(nèi)保持角色的一致性。這意味著需要在生成過程中在圖像批次內(nèi)建立連接。


在重新審視擴(kuò)散模型中不同注意機(jī)制的作用后,受到啟發(fā),探索利用自注意力來服務(wù)于圖像批次內(nèi)的一致性,并提出了Consistent Self-Attention。將Consistent Self-Attention插入到現(xiàn)有的圖像生成模型中U-Net架構(gòu)的原始自注意力的位置,并重復(fù)使用原始自注意力權(quán)重以保持無需訓(xùn)練和可插拔性。


生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

為了在批次內(nèi)的圖像之間建立互動(dòng)以保持主題一致性,Consistent Self-Attention從批次中的其他圖像特征中抽樣一些tokens Si。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

考慮到配對(duì)的tokens,我們的方法在圖像批次中執(zhí)行自注意力,促進(jìn)不同圖像特征之間的交互。這種類型的交互促進(jìn)了模型在生成過程中對(duì)角色、面部和服裝的融合。盡管以簡(jiǎn)單且無需訓(xùn)練的方式,我們的一致自注意力可以高效生成主題一致的圖像,將在實(shí)驗(yàn)中詳細(xì)展示。這些圖像用作說明以敘述復(fù)雜的故事,如前面圖2所示。為了更清晰地表達(dá),還在下算法1中展示了偽代碼。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

視頻生成的語義運(yùn)動(dòng)預(yù)測(cè)器

生成的主題一致圖像序列可以通過在相鄰圖像對(duì)之間插入幀來進(jìn)一步細(xì)化為視頻。這可以被視為一個(gè)具有已知起始和結(jié)束幀條件的視頻生成任務(wù)。然而,在經(jīng)驗(yàn)上觀察到,最近的方法,如SparseCtrl和SEINE,在兩個(gè)圖像之間的差異較大時(shí)無法穩(wěn)定地連接兩個(gè)條件圖像。


這種限制源自它們完全依賴于時(shí)間模塊來預(yù)測(cè)中間幀,而這可能不足以處理圖像對(duì)之間的巨大狀態(tài)差異。時(shí)間模塊在每個(gè)空間位置上獨(dú)立操作像素,因此,在推斷中間幀時(shí)可能不充分考慮空間信息。這使得難以建模長(zhǎng)和具有物理意義的運(yùn)動(dòng)。


為了解決這個(gè)問題,本文提出了語義運(yùn)動(dòng)預(yù)測(cè)器,它將圖像編碼成圖像語義空間中的向量,以捕獲空間信息,從而更準(zhǔn)確地預(yù)測(cè)給定起始幀和結(jié)束幀之間的運(yùn)動(dòng)。


生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)


形式上,在擴(kuò)散過程中,對(duì)于每個(gè)視頻幀特征Vi ,我們將文本嵌入T 和預(yù)測(cè)的圖像語義嵌入Pi連接起來。跨注意力計(jì)算如下:

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

通過將圖像編碼到圖像語義空間以整合空間位置關(guān)系,語義運(yùn)動(dòng)預(yù)測(cè)器能夠更好地建模運(yùn)動(dòng)信息,從而實(shí)現(xiàn)生成具有大運(yùn)動(dòng)的平滑過渡視頻。展示了顯著改進(jìn)的結(jié)果和比較,可以在前面圖 1 和下圖 5 中觀察到。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

對(duì)于生成主題一致的圖像,由于無需訓(xùn)練和可插拔的特性,在Stable Diffusion XL 和 Stable Diffusion 1.5 上實(shí)現(xiàn)我們的方法。為了與比較模型保持一致,使用相同的預(yù)訓(xùn)練權(quán)重在 Stable-XL 模型上進(jìn)行比較。所有比較模型都使用 50 步 DDIM 采樣,無分類器引導(dǎo)分?jǐn)?shù)一直設(shè)置為 5.0。


對(duì)于生成一致的視頻,基于 Stable Diffusion 1.5 預(yù)訓(xùn)練模型實(shí)現(xiàn)我們的方法,并結(jié)合預(yù)先訓(xùn)練的時(shí)間模塊以實(shí)現(xiàn)視頻生成。所有比較模型采用 7.5 的無分類器引導(dǎo)分?jǐn)?shù)和 50 步 DDIM 采樣。根據(jù)先前的方法,使用 Webvid10M數(shù)據(jù)集來訓(xùn)練我們的過渡視頻模型。更多細(xì)節(jié)可以在補(bǔ)充材料中找到。

一致性圖像生成的比較

通過與最近的兩種 ID 保持方法 IP-Adapter和 Photo Maker進(jìn)行比較,評(píng)估了本文生成主題一致圖像的方法。為了測(cè)試性能,使用 GPT-4 生成了二十個(gè)角色提示和一百個(gè)活動(dòng)提示,描述了特定的活動(dòng)。將角色提示與活動(dòng)提示相結(jié)合,獲取測(cè)試提示的組。對(duì)于每個(gè)測(cè)試案例,使用三種比較方法生成一組圖像,描述一個(gè)人參與不同的活動(dòng),以測(cè)試模型的一致性。


由于 IP-Adapter 和 PhotoMaker 需要額外的圖像來控制生成圖像的 ID,首先生成一個(gè)角色圖像作為控制圖像。分別進(jìn)行定性和定量比較,全面評(píng)估這些方法在一致圖像生成方面的性能。


定性比較。定性結(jié)果如下圖4所示。StoryDiffusion能夠生成高度一致的圖像,而其他方法,如IP-Adapter和PhotoMaker,可能會(huì)生成著裝不一致或文本可控性降低的圖像。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

對(duì)于第一個(gè)示例,IP-Adapter方法生成了一個(gè)與文本提示“使用望遠(yuǎn)鏡觀星”的圖像。PhotoMaker生成了與文本提示匹配的圖像,但在三個(gè)生成的圖像中著裝存在顯著差異。由StoryDiffusion生成的第三行圖像展示了一致的面部和著裝,并具有更好的文本可控性。對(duì)于最后一個(gè)示例“一位戴著超大耳機(jī)的專注玩家”,IP-Adapter在第二幅圖像中失去了“狗”,在第三幅圖像中失去了“紙牌”。PhotoMaker生成的圖像無法保持著裝。StoryDiffusion仍然生成了主題一致的圖像,具有相同的面部和相同的著裝,并符合提示中的描述。


定量比較。評(píng)估了定量比較,并在下表1中展示了結(jié)果。評(píng)估了兩個(gè)指標(biāo),第一個(gè)是文本-圖像相似度,它計(jì)算了文本提示和相應(yīng)圖像之間的CLIP分?jǐn)?shù)。第二個(gè)是角色相似度,它衡量了角色圖像的CLIP分?jǐn)?shù)。StoryDiffusion在兩個(gè)定量指標(biāo)上表現(xiàn)最好,這顯示了我們的方法在保持角色的同時(shí)符合提示描述方面的穩(wěn)健性。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

過渡視頻生成的比較

在過渡視頻生成中,與兩種最先進(jìn)的方法SparseCtrl和SEINE進(jìn)行比較,以評(píng)估性能。隨機(jī)采樣了約1000個(gè)視頻作為測(cè)試數(shù)據(jù)集。使用三種比較模型來預(yù)測(cè)過渡視頻的中間幀,給定起始幀和結(jié)束幀,以評(píng)估它們的性能。


定性比較。進(jìn)行了過渡視頻生成的定性比較,并在前面圖5中展示了結(jié)果。StoryDiffusion在生成平滑且物理合理的過渡視頻方面明顯優(yōu)于SEINE和SparseCtrl。


對(duì)于第一個(gè)示例,兩人在水下接吻,SEINE生成的中間幀已損壞,并直接跳轉(zhuǎn)到最終幀。SparseCtrl生成的結(jié)果具有稍好的連續(xù)性,但中間幀仍包含損壞的圖像,出現(xiàn)了許多手。然而,StoryDiffusion成功生成了具有非常平滑運(yùn)動(dòng)的視頻,沒有損壞的中間幀。


對(duì)于第二個(gè)示例,SEINE生成的中間幀有損壞的手臂。另一方面,SparseCtrl未能保持外觀的一致性。StoryDiffusion生成了連貫性很好的一致視頻。對(duì)于最后一個(gè)示例,我們生成的視頻遵循物理空間關(guān)系,而SEINE和SparseCtrl只在過渡中改變外觀。更多的視覺示例可以在補(bǔ)充材料中找到。


定量比較。遵循先前的研究,將本文的方法與SEINE和SparseCtrl進(jìn)行了四項(xiàng)定量指標(biāo)的比較,包括LPIPS-first,LPIPS-frames,CLIPSIM-first和CLIPSIM-frames,如下表2所示。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

LPIPS-first和CLIPSIM-first衡量了第一幀和其他幀之間的相似性,反映了視頻的整體連續(xù)性。LPIPS-frames和CLIPSIM-frames衡量了相鄰幀之間的平均相似性,反映了幀之間的連續(xù)性。本文的模型在所有四個(gè)定量指標(biāo)上表現(xiàn)優(yōu)于其他兩種方法。這些定量實(shí)驗(yàn)結(jié)果顯示了我們的方法在生成一致且無縫過渡視頻方面的強(qiáng)大性能。

消融研究

用戶指定的ID生成。進(jìn)行了一項(xiàng)消融研究,以測(cè)試具有用戶指定ID的一致圖像生成的性能。由于Consistent Self-Attention是可插拔且無需訓(xùn)練的,將Consistent Self-Attention與PhotoMaker結(jié)合起來,為一致圖像生成提供了控制角色的圖像。結(jié)果如下圖6所示。在ID圖像的控制下,StoryDiffusion仍然可以生成符合給定控制ID的一致圖像,這強(qiáng)烈表明了我們的方法的可擴(kuò)展性和即插即用性。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

Consistent Self-Attention的采樣率。Consistent Self-Attention從批處理中的其他圖像中采樣tokens,并在自注意計(jì)算過程中將它們合并到鍵和值中。為了確定最佳采樣率,對(duì)Consistent Self-Attention的采樣率進(jìn)行了消融研究。結(jié)果也顯示在圖6中。發(fā)現(xiàn)采樣率為0.3不能保持主題一致性,如上面圖6左側(cè)的圖像中左側(cè)的第三列所示,而較高的采樣率成功地保持了一致性。在實(shí)踐中,我們默認(rèn)將采樣率設(shè)置為0.5,以對(duì)擴(kuò)散過程產(chǎn)生最小影響并保持一致性。

用戶研究

我們進(jìn)行了一項(xiàng)用戶研究,共有30位參與者。每位用戶被分配50個(gè)問題,以評(píng)估我們的主題一致圖像生成方法和過渡視頻生成方法的有效性。對(duì)于主題一致圖像生成,與最近的最先進(jìn)方法IP-Adapter和PhotoMaker進(jìn)行比較。在過渡視頻生成中,與最近的最先進(jìn)方法SparseCtrl和SEINE進(jìn)行比較。為了公平起見,結(jié)果的順序是隨機(jī)的,并且用戶不知道每個(gè)生成模型對(duì)應(yīng)的結(jié)果。


用戶研究的實(shí)驗(yàn)結(jié)果如下表3所示。無論是對(duì)于主題一致圖像生成還是過渡視頻生成,我們的模型都表現(xiàn)出了壓倒性的優(yōu)勢(shì)。用戶研究進(jìn)一步確認(rèn)了StoryDiffusion的卓越性能。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

結(jié)論

StoryDiffusion,一種可以以無需訓(xùn)練的方式生成一致圖像以進(jìn)行敘事,并將這些一致圖像轉(zhuǎn)換成視頻的新方法。Consistent Self-Attention在多個(gè)圖像之間建立連接,以高效地生成具有一致面部和服裝的圖像。進(jìn)一步提出了Semantic Motion Predictor,將這些圖像轉(zhuǎn)換成視頻,并更好地?cái)⑹龉适?。希望StoryDiffusion能夠激發(fā)未來可控圖像和視頻生成的努力。

生成一個(gè)好故事!StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測(cè)器必不可少(南開&字節(jié))-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:Yupeng Zhou等


原文鏈接:??https://mp.weixin.qq.com/s/AJS4OZsh4V1momFlEJvtWw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦