14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍
就今天的人工智能發(fā)展水平來(lái)說(shuō),文生圖、圖生視頻、圖像/視頻風(fēng)格遷移都已經(jīng)不算什么難事。
生成式 AI 天賦異稟,能夠毫不費(fèi)力地創(chuàng)建或修改內(nèi)容。尤其是圖像編輯,在以十億規(guī)模數(shù)據(jù)集為基礎(chǔ)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的推動(dòng)下,經(jīng)歷了重大發(fā)展。這股浪潮催生了大量圖像編輯和內(nèi)容創(chuàng)建應(yīng)用。
基于圖像的生成模型所取得的成就基礎(chǔ)上,下一個(gè)挑戰(zhàn)的領(lǐng)域必然是為其增加「時(shí)間維度」,從而實(shí)現(xiàn)輕松而富有創(chuàng)意的視頻編輯。
一種直接策略是使用圖像模型逐幀處理視頻,然而,生成式圖像編輯本身就具有高變異性—即使根據(jù)相同的文本提示,也存在無(wú)數(shù)種編輯給定圖像的方法。如果每一幀都獨(dú)立編輯,很難保持時(shí)間上的一致性。
在最近的一篇論文中,來(lái)自Meta GenAI團(tuán)隊(duì)的研究者提出了 Fairy——通過(guò)對(duì)圖像編輯擴(kuò)散模型進(jìn)行「簡(jiǎn)單的改編」,大大增強(qiáng)了AI在視頻編輯上的表現(xiàn)。
以下是Fairy的編輯視頻效果展示:
Fairy 生成 120 幀 512×384 視頻(4 秒時(shí)長(zhǎng),30 FPS)的時(shí)間僅為 14 秒,比之前的方法至少快 44 倍。一項(xiàng)涉及 1000 個(gè)生成樣本的全面用戶研究證實(shí),該方法生成質(zhì)量上乘,明顯優(yōu)于現(xiàn)有方法。
怎么做到的?
據(jù)論文介紹,F(xiàn)airy以基于錨點(diǎn)的跨幀注意力概念為核心,這種機(jī)制可隱性地跨幀傳播擴(kuò)散特征,確保了時(shí)間一致和高保真的合成效果。Fairy 不僅解決了以往模型在內(nèi)存和處理速度等方面的局限性,還通過(guò)獨(dú)特的數(shù)據(jù)增強(qiáng)策略提高了時(shí)間一致性,這種策略使模型等價(jià)于源圖像和目標(biāo)圖像的仿射變換。
- 論文地址:https://arxiv.org/pdf/2312.13834.pdf
- 項(xiàng)目主頁(yè):https://fairy-video2video.github.io/
方法
Fairy在擴(kuò)散模型特征的背景下對(duì)以前的跟蹤-傳播(tracking-and-propagation)范式進(jìn)行了重新審視。特別是,該研究用對(duì)應(yīng)估計(jì)( correspondence estimation)架起了跨幀注意之間的橋梁,使得模型在擴(kuò)散模型內(nèi)可以跟蹤和傳播中間特征。
跨幀的注意力圖可以解釋為一種相似性度量,用來(lái)評(píng)估各個(gè)幀中token之間的對(duì)應(yīng)關(guān)系,其中一個(gè)語(yǔ)義區(qū)域的特征會(huì)將更高的注意力分配給其他幀中的相似語(yǔ)義區(qū)域,如下圖3所示 。
因此,當(dāng)前的特征表示通過(guò)注意力幀間相似區(qū)域的加權(quán)和進(jìn)行細(xì)化和傳播,從而有效地最小化幀之間的特征差異。
一系列操作下來(lái)產(chǎn)生了基于錨點(diǎn)的模型,這是 Fairy 的核心組件。
為了確保生成視頻的時(shí)間一致性,該研究采樣了K個(gè)錨點(diǎn)幀,從而提取擴(kuò)散特征,并且提取的特征被定義為一組要傳播到連續(xù)幀的全局特征。當(dāng)生成每個(gè)新幀時(shí),該研究針對(duì)錨點(diǎn)幀的緩存特征將自注意力層替換為跨幀注意力。通過(guò)跨幀注意力,每個(gè)幀中的 token都采用錨點(diǎn)幀中表現(xiàn)出類似語(yǔ)義內(nèi)容的特征,從而增強(qiáng)一致性。
實(shí)驗(yàn)評(píng)估
在實(shí)驗(yàn)部分,研究者主要基于指令型圖像編輯模型來(lái)實(shí)現(xiàn)Fairy,并使用跨幀注意力替換模型的自注意力。他們將錨幀的數(shù)量設(shè)置為3。模型可以接受不同長(zhǎng)寬比的輸入,并將較長(zhǎng)尺寸的輸入分辨率重新擴(kuò)展為512,并保持長(zhǎng)寬比不變。研究者對(duì)輸入視頻的所有幀進(jìn)行編輯,而不進(jìn)行下采樣。所有計(jì)算在8塊A100 GPU上分配完成。
定性評(píng)估
研究者首先展示了Fairy的定性結(jié)果,如下圖5所示,F(xiàn)airy可以對(duì)不同的主題進(jìn)行編輯。
在下圖6中,研究者展示了Fairy可以按照文本指令來(lái)進(jìn)行不同類型的編輯,包括風(fēng)格化、角色變化、局部編輯、屬性編輯等。
下圖9展示了Fairy可以根據(jù)指令將源角色轉(zhuǎn)換為不同的目標(biāo)角色。
定量評(píng)估
研究者在下圖7中展示了整體質(zhì)量比較結(jié)果,其中Fairy生成的視頻更受歡迎。
下圖10展示了與基線模型的視覺比較結(jié)果。
更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果參閱原論文。