自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

人工智能 新聞
生成式 AI 天賦異稟,能夠毫不費(fèi)力地創(chuàng)建或修改內(nèi)容。尤其是圖像編輯,在以十億規(guī)模數(shù)據(jù)集為基礎(chǔ)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的推動(dòng)下,經(jīng)歷了重大發(fā)展。這股浪潮催生了大量圖像編輯和內(nèi)容創(chuàng)建應(yīng)用。

就今天的人工智能發(fā)展水平來(lái)說(shuō),文生圖、圖生視頻、圖像/視頻風(fēng)格遷移都已經(jīng)不算什么難事。

生成式 AI 天賦異稟,能夠毫不費(fèi)力地創(chuàng)建或修改內(nèi)容。尤其是圖像編輯,在以十億規(guī)模數(shù)據(jù)集為基礎(chǔ)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的推動(dòng)下,經(jīng)歷了重大發(fā)展。這股浪潮催生了大量圖像編輯和內(nèi)容創(chuàng)建應(yīng)用。

基于圖像的生成模型所取得的成就基礎(chǔ)上,下一個(gè)挑戰(zhàn)的領(lǐng)域必然是為其增加「時(shí)間維度」,從而實(shí)現(xiàn)輕松而富有創(chuàng)意的視頻編輯。

一種直接策略是使用圖像模型逐幀處理視頻,然而,生成式圖像編輯本身就具有高變異性—即使根據(jù)相同的文本提示,也存在無(wú)數(shù)種編輯給定圖像的方法。如果每一幀都獨(dú)立編輯,很難保持時(shí)間上的一致性。

在最近的一篇論文中,來(lái)自Meta GenAI團(tuán)隊(duì)的研究者提出了 Fairy——通過(guò)對(duì)圖像編輯擴(kuò)散模型進(jìn)行「簡(jiǎn)單的改編」,大大增強(qiáng)了AI在視頻編輯上的表現(xiàn)。

以下是Fairy的編輯視頻效果展示:

圖片

圖片

圖片

Fairy 生成 120 幀 512×384 視頻(4 秒時(shí)長(zhǎng),30 FPS)的時(shí)間僅為 14 秒,比之前的方法至少快 44 倍。一項(xiàng)涉及 1000 個(gè)生成樣本的全面用戶研究證實(shí),該方法生成質(zhì)量上乘,明顯優(yōu)于現(xiàn)有方法。

怎么做到的?

據(jù)論文介紹,F(xiàn)airy以基于錨點(diǎn)的跨幀注意力概念為核心,這種機(jī)制可隱性地跨幀傳播擴(kuò)散特征,確保了時(shí)間一致和高保真的合成效果。Fairy 不僅解決了以往模型在內(nèi)存和處理速度等方面的局限性,還通過(guò)獨(dú)特的數(shù)據(jù)增強(qiáng)策略提高了時(shí)間一致性,這種策略使模型等價(jià)于源圖像和目標(biāo)圖像的仿射變換。

圖片

  • 論文地址:https://arxiv.org/pdf/2312.13834.pdf
  • 項(xiàng)目主頁(yè):https://fairy-video2video.github.io/

方法

Fairy在擴(kuò)散模型特征的背景下對(duì)以前的跟蹤-傳播(tracking-and-propagation)范式進(jìn)行了重新審視。特別是,該研究用對(duì)應(yīng)估計(jì)( correspondence estimation)架起了跨幀注意之間的橋梁,使得模型在擴(kuò)散模型內(nèi)可以跟蹤和傳播中間特征。

跨幀的注意力圖可以解釋為一種相似性度量,用來(lái)評(píng)估各個(gè)幀中token之間的對(duì)應(yīng)關(guān)系,其中一個(gè)語(yǔ)義區(qū)域的特征會(huì)將更高的注意力分配給其他幀中的相似語(yǔ)義區(qū)域,如下圖3所示 。

因此,當(dāng)前的特征表示通過(guò)注意力幀間相似區(qū)域的加權(quán)和進(jìn)行細(xì)化和傳播,從而有效地最小化幀之間的特征差異。

圖片

一系列操作下來(lái)產(chǎn)生了基于錨點(diǎn)的模型,這是 Fairy 的核心組件。

為了確保生成視頻的時(shí)間一致性,該研究采樣了K個(gè)錨點(diǎn)幀,從而提取擴(kuò)散特征,并且提取的特征被定義為一組要傳播到連續(xù)幀的全局特征。當(dāng)生成每個(gè)新幀時(shí),該研究針對(duì)錨點(diǎn)幀的緩存特征將自注意力層替換為跨幀注意力。通過(guò)跨幀注意力,每個(gè)幀中的 token都采用錨點(diǎn)幀中表現(xiàn)出類似語(yǔ)義內(nèi)容的特征,從而增強(qiáng)一致性。

圖片

實(shí)驗(yàn)評(píng)估

在實(shí)驗(yàn)部分,研究者主要基于指令型圖像編輯模型來(lái)實(shí)現(xiàn)Fairy,并使用跨幀注意力替換模型的自注意力。他們將錨幀的數(shù)量設(shè)置為3。模型可以接受不同長(zhǎng)寬比的輸入,并將較長(zhǎng)尺寸的輸入分辨率重新擴(kuò)展為512,并保持長(zhǎng)寬比不變。研究者對(duì)輸入視頻的所有幀進(jìn)行編輯,而不進(jìn)行下采樣。所有計(jì)算在8塊A100 GPU上分配完成。

定性評(píng)估

研究者首先展示了Fairy的定性結(jié)果,如下圖5所示,F(xiàn)airy可以對(duì)不同的主題進(jìn)行編輯。

圖片

圖片

在下圖6中,研究者展示了Fairy可以按照文本指令來(lái)進(jìn)行不同類型的編輯,包括風(fēng)格化、角色變化、局部編輯、屬性編輯等。

圖片

下圖9展示了Fairy可以根據(jù)指令將源角色轉(zhuǎn)換為不同的目標(biāo)角色。

圖片

圖片

定量評(píng)估

研究者在下圖7中展示了整體質(zhì)量比較結(jié)果,其中Fairy生成的視頻更受歡迎。

圖片

下圖10展示了與基線模型的視覺比較結(jié)果。

圖片

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2024-12-18 15:02:48

2016-03-21 10:16:06

RedisSpark大數(shù)據(jù)處理

2013-02-28 10:35:59

hadoop大數(shù)據(jù)Hortonworks

2016-10-08 16:02:37

WIFIMegaMIMO系統(tǒng)

2024-12-20 07:00:00

大模型人工智能AI

2022-07-28 12:18:40

視覺語(yǔ)言模型

2024-01-02 13:18:00

數(shù)據(jù)視頻

2024-02-27 13:03:38

前端視頻合成FFmpeg

2024-10-05 10:57:21

2022-02-08 11:21:32

運(yùn)營(yíng)商通信技術(shù)

2022-01-28 10:26:39

5G運(yùn)營(yíng)商數(shù)據(jù)

2023-12-11 15:40:32

PyTorch代碼大模型

2023-06-02 14:10:05

三維重建

2013-03-22 10:42:09

開發(fā)人員軟件開發(fā)

2021-02-17 13:20:51

forpandas語(yǔ)言

2024-11-08 09:30:00

2024-03-01 19:45:09

SoraAI網(wǎng)絡(luò)安全

2024-07-01 12:17:54

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)