自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

14秒就能重建視頻，還能變換角色，Meta讓視頻合成提速44倍

作者：機(jī)器之心 2023-12-23 23:04:26

人工智能新聞

生成式 AI 天賦異稟，能夠毫不費(fèi)力地創(chuàng)建或修改內(nèi)容。尤其是圖像編輯，在以十億規(guī)模數(shù)據(jù)集為基礎(chǔ)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的推動(dòng)下，經(jīng)歷了重大發(fā)展。這股浪潮催生了大量圖像編輯和內(nèi)容創(chuàng)建應(yīng)用。

就今天的人工智能發(fā)展水平來(lái)說(shuō)，文生圖、圖生視頻、圖像/視頻風(fēng)格遷移都已經(jīng)不算什么難事。

生成式 AI 天賦異稟，能夠毫不費(fèi)力地創(chuàng)建或修改內(nèi)容。尤其是圖像編輯，在以十億規(guī)模數(shù)據(jù)集為基礎(chǔ)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的推動(dòng)下，經(jīng)歷了重大發(fā)展。這股浪潮催生了大量圖像編輯和內(nèi)容創(chuàng)建應(yīng)用。

基于圖像的生成模型所取得的成就基礎(chǔ)上，下一個(gè)挑戰(zhàn)的領(lǐng)域必然是為其增加「時(shí)間維度」，從而實(shí)現(xiàn)輕松而富有創(chuàng)意的視頻編輯。

一種直接策略是使用圖像模型逐幀處理視頻，然而，生成式圖像編輯本身就具有高變異性—即使根據(jù)相同的文本提示，也存在無(wú)數(shù)種編輯給定圖像的方法。如果每一幀都獨(dú)立編輯，很難保持時(shí)間上的一致性。

在最近的一篇論文中，來(lái)自Meta GenAI團(tuán)隊(duì)的研究者提出了 Fairy——通過(guò)對(duì)圖像編輯擴(kuò)散模型進(jìn)行「簡(jiǎn)單的改編」，大大增強(qiáng)了AI在視頻編輯上的表現(xiàn)。

以下是Fairy的編輯視頻效果展示：

Fairy 生成 120 幀 512×384 視頻（4 秒時(shí)長(zhǎng)，30 FPS）的時(shí)間僅為 14 秒，比之前的方法至少快 44 倍。一項(xiàng)涉及 1000 個(gè)生成樣本的全面用戶研究證實(shí)，該方法生成質(zhì)量上乘，明顯優(yōu)于現(xiàn)有方法。

怎么做到的？

據(jù)論文介紹，F(xiàn)airy以基于錨點(diǎn)的跨幀注意力概念為核心，這種機(jī)制可隱性地跨幀傳播擴(kuò)散特征，確保了時(shí)間一致和高保真的合成效果。Fairy 不僅解決了以往模型在內(nèi)存和處理速度等方面的局限性，還通過(guò)獨(dú)特的數(shù)據(jù)增強(qiáng)策略提高了時(shí)間一致性，這種策略使模型等價(jià)于源圖像和目標(biāo)圖像的仿射變換。

論文地址：https://arxiv.org/pdf/2312.13834.pdf
項(xiàng)目主頁(yè)：https://fairy-video2video.github.io/

方法

Fairy在擴(kuò)散模型特征的背景下對(duì)以前的跟蹤-傳播（tracking-and-propagation）范式進(jìn)行了重新審視。特別是，該研究用對(duì)應(yīng)估計(jì)（ correspondence estimation）架起了跨幀注意之間的橋梁，使得模型在擴(kuò)散模型內(nèi)可以跟蹤和傳播中間特征。

跨幀的注意力圖可以解釋為一種相似性度量，用來(lái)評(píng)估各個(gè)幀中token之間的對(duì)應(yīng)關(guān)系，其中一個(gè)語(yǔ)義區(qū)域的特征會(huì)將更高的注意力分配給其他幀中的相似語(yǔ)義區(qū)域，如下圖3所示。

因此，當(dāng)前的特征表示通過(guò)注意力幀間相似區(qū)域的加權(quán)和進(jìn)行細(xì)化和傳播，從而有效地最小化幀之間的特征差異。

一系列操作下來(lái)產(chǎn)生了基于錨點(diǎn)的模型，這是 Fairy 的核心組件。

為了確保生成視頻的時(shí)間一致性，該研究采樣了K個(gè)錨點(diǎn)幀，從而提取擴(kuò)散特征，并且提取的特征被定義為一組要傳播到連續(xù)幀的全局特征。當(dāng)生成每個(gè)新幀時(shí)，該研究針對(duì)錨點(diǎn)幀的緩存特征將自注意力層替換為跨幀注意力。通過(guò)跨幀注意力，每個(gè)幀中的 token都采用錨點(diǎn)幀中表現(xiàn)出類似語(yǔ)義內(nèi)容的特征，從而增強(qiáng)一致性。

實(shí)驗(yàn)評(píng)估

在實(shí)驗(yàn)部分，研究者主要基于指令型圖像編輯模型來(lái)實(shí)現(xiàn)Fairy，并使用跨幀注意力替換模型的自注意力。他們將錨幀的數(shù)量設(shè)置為3。模型可以接受不同長(zhǎng)寬比的輸入，并將較長(zhǎng)尺寸的輸入分辨率重新擴(kuò)展為512，并保持長(zhǎng)寬比不變。研究者對(duì)輸入視頻的所有幀進(jìn)行編輯，而不進(jìn)行下采樣。所有計(jì)算在8塊A100 GPU上分配完成。

定性評(píng)估

研究者首先展示了Fairy的定性結(jié)果，如下圖5所示，F(xiàn)airy可以對(duì)不同的主題進(jìn)行編輯。

在下圖6中，研究者展示了Fairy可以按照文本指令來(lái)進(jìn)行不同類型的編輯，包括風(fēng)格化、角色變化、局部編輯、屬性編輯等。

下圖9展示了Fairy可以根據(jù)指令將源角色轉(zhuǎn)換為不同的目標(biāo)角色。

定量評(píng)估

研究者在下圖7中展示了整體質(zhì)量比較結(jié)果，其中Fairy生成的視頻更受歡迎。

下圖10展示了與基線模型的視覺比較結(jié)果。

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果參閱原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)