自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一拖一拽,玫瑰復(fù)活了!谷歌提出生成圖像動(dòng)力學(xué),從此萬(wàn)物皆有靈

人工智能 新聞
7B、13B圖中萬(wàn)物皆能動(dòng)!谷歌團(tuán)隊(duì)最新提出的「生成圖像動(dòng)力學(xué)」,能將靜態(tài)圖片轉(zhuǎn)化為動(dòng)態(tài)的、無(wú)縫循環(huán)的視頻,甚至還可以交互。 的 Baichuan2 量化后效果差多少?有,但不多!

快看,輕輕一拉,玫瑰動(dòng)就起來(lái)了。

拖著葉子往左一拉,這顆松柏向同樣的方向移動(dòng)。

還有世界各種物體的圖片,隨手一拉,瞬間活靈活現(xiàn)。

這便是谷歌團(tuán)隊(duì)最新研究,讓你的手變成「魔法金手指」,萬(wàn)物皆可,一觸即動(dòng)。

https://generative-dynamics.github.io/static/pdfs/GenerativeImageDynamics.pdf

在這篇論文中,谷歌提出了「Generative Image Dynamics」,通過(guò)對(duì)圖像空間先驗(yàn)進(jìn)行建模,然后訓(xùn)練模型預(yù)測(cè)「神經(jīng)隨機(jī)運(yùn)動(dòng)紋理」。

最后就實(shí)現(xiàn)了,與單個(gè)圖像交互,甚至可以生成一個(gè)無(wú)限循環(huán)的視頻。

未來(lái),藝術(shù)家們的想象力不再受限于傳統(tǒng)的框架,一切皆有可能在這個(gè)動(dòng)態(tài)的圖像空間實(shí)現(xiàn)。

圖中萬(wàn)物,「活」起來(lái)了

世界中萬(wàn)物的運(yùn)動(dòng), 是多模態(tài)的。

院子里晾曬的衣服,隨著風(fēng)前后擺動(dòng)。

街邊的掛著的大紅燈籠,在空中搖擺。

還有窗簾邊睡覺(jué)的小貓,肚子呼吸的起伏,好慵懶。

這些運(yùn)動(dòng)并通常是可以預(yù)見(jiàn)的:蠟燭會(huì)以某種方式燃燒,樹(shù)木會(huì)隨著風(fēng)搖曳,樹(shù)葉會(huì)沙沙作響...

拿起一張照片,或許研究人員就可以想象到,拍攝時(shí)它運(yùn)動(dòng)的樣子。

鑒于當(dāng)前生成模型的發(fā)展,特別是擴(kuò)散模型,使得人們能夠?qū)Ω叨蓉S富和復(fù)雜的分布進(jìn)行建模。

這讓許多以往不可能的應(yīng)用成為可能,比如文本生成任意逼真的圖像。除了在圖像領(lǐng)域大展身手,擴(kuò)散模型同樣可以在視頻領(lǐng)域建模。

由此,谷歌團(tuán)隊(duì)在這項(xiàng)研究中,對(duì)圖像空間場(chǎng)景運(yùn)動(dòng)的生成先驗(yàn)進(jìn)行建模,即單個(gè)圖像中所有像素的運(yùn)動(dòng)。

是根據(jù)從大量真實(shí)視頻序列中自動(dòng)提取的運(yùn)動(dòng)軌跡,來(lái)進(jìn)行模型訓(xùn)練。

以輸入圖像為條件,訓(xùn)練后的模型預(yù)測(cè)「神經(jīng)隨機(jī)運(yùn)動(dòng)紋理」:一組運(yùn)動(dòng)基礎(chǔ)系數(shù),用于描述每個(gè)像素未來(lái)的軌跡。

谷歌研究人員將研究范圍限定在,具有自然擺動(dòng)動(dòng)態(tài)的真實(shí)世界場(chǎng)景,如隨風(fēng)飄動(dòng)的樹(shù)木和花朵,因此選擇傅立葉級(jí)數(shù)作為基函數(shù)。

然后,使用擴(kuò)散模型來(lái)預(yù)測(cè)「神經(jīng)隨機(jī)運(yùn)動(dòng)紋理」,模型每次只生成一個(gè)頻率的系數(shù),但會(huì)在不同頻段之間協(xié)調(diào)這些預(yù)測(cè)。

由此產(chǎn)生的頻率空間紋理,可以轉(zhuǎn)化為密集的長(zhǎng)距離像素運(yùn)動(dòng)軌跡,可用于合成未來(lái)幀,將靜態(tài)圖像轉(zhuǎn)化為逼真的動(dòng)畫(huà)。

接下來(lái),具體看看是如何實(shí)現(xiàn)的?

技術(shù)介紹

基于單張圖片圖片,研究人員的目標(biāo)是生成長(zhǎng)度為T(mén)的視頻圖片,這段視頻能夠呈現(xiàn)動(dòng)態(tài)的樹(shù)木、花朵,或者是在微風(fēng)中搖曳的蠟燭火焰等。

研究人員的構(gòu)架的的系統(tǒng)由兩個(gè)模塊組成:「動(dòng)作預(yù)測(cè)模塊」和「基于圖像的渲染模塊」。

首先,研究人員使用「潛在擴(kuò)散模型」為輸入圖片圖片預(yù)測(cè)一個(gè)神經(jīng)隨機(jī)運(yùn)動(dòng)紋理圖片

它是輸入圖像中每個(gè)像素運(yùn)動(dòng)軌跡的頻率表示。

第二步,使用逆離散傅立葉變換將預(yù)測(cè)出的隨機(jī)運(yùn)動(dòng)紋理轉(zhuǎn)化為一系列運(yùn)動(dòng)位移場(chǎng)(motion displacement fields)圖片。

這些運(yùn)動(dòng)位移場(chǎng)將用于確定每個(gè)輸入像素在每一個(gè)未來(lái)時(shí)間步長(zhǎng)的位置。

有了這些預(yù)測(cè)的運(yùn)動(dòng)場(chǎng),研究人員的渲染模塊使用基于圖像的渲染技術(shù),從輸入的RGB圖像中拾取編碼特征,并通過(guò)圖像合成網(wǎng)絡(luò)將這些拾取的特征解碼為輸出幀。

神經(jīng)隨機(jī)運(yùn)動(dòng)紋理

運(yùn)動(dòng)紋理

之前的研究中,運(yùn)動(dòng)紋理定義了一系列時(shí)變的2D位移映射( displacement map)

圖片

其中,每個(gè)像素坐標(biāo)p,從輸入圖像圖片中的2D位移向量定義了該像素在未來(lái)時(shí)間t的位置。

為了在時(shí)間t生成一個(gè)未來(lái)幀,可以使用相應(yīng)的位移映射,從圖片中拾取像素,從而得到一個(gè)前向變形的圖像:

隨機(jī)運(yùn)動(dòng)紋理

正如之前在計(jì)算機(jī)圖形研究中所證明的,許多自然運(yùn)動(dòng),特別是振蕩運(yùn)動(dòng),可以描述為一小組諧振子(harmonic oscillators)的疊加,這些諧振子用不同的頻率、振幅和相位表示。

一種引入運(yùn)動(dòng)的隨機(jī)性的方法是整合噪聲場(chǎng)。但正如之前研究結(jié)果表明的,直接在預(yù)測(cè)的運(yùn)動(dòng)場(chǎng)的空間和時(shí)間域內(nèi)添加隨機(jī)噪聲通常會(huì)導(dǎo)致不現(xiàn)實(shí)或不穩(wěn)定的動(dòng)畫(huà)。

更進(jìn)一步,采用上面定義的時(shí)間域內(nèi)的運(yùn)動(dòng)紋理意味著需要預(yù)測(cè)T個(gè)2D位移場(chǎng),才能生成一個(gè)包含T幀的視頻片段。為了避免預(yù)測(cè)如此大的輸出表示,許多先前的動(dòng)畫(huà)方法要么自回歸地生成視頻幀,要么通過(guò)額外的時(shí)間嵌入獨(dú)立預(yù)測(cè)每個(gè)未來(lái)的輸出幀。

然而,這兩種策略都不能確保生成的視頻幀在長(zhǎng)期內(nèi)具有時(shí)間上的一致性,而且都可能產(chǎn)生隨時(shí)間漂移或發(fā)散的視頻。

為了解決上述問(wèn)題,研究人員在頻率域中表示輸入場(chǎng)景的每像素運(yùn)動(dòng)紋理(即所有像素的完整運(yùn)動(dòng)軌跡),并將運(yùn)動(dòng)預(yù)測(cè)問(wèn)題表述為一種多模態(tài)的圖像到圖像的轉(zhuǎn)換任務(wù)。

研究人員采用潛在擴(kuò)散模型(LDM)生成由一個(gè)4K通道的2D運(yùn)動(dòng)光譜圖組成的隨機(jī)運(yùn)動(dòng)紋理,其中K << T是建模的頻率數(shù),而在每個(gè)頻率上,研究人員需要四個(gè)標(biāo)量來(lái)表示x和y維度的復(fù)傅立葉系數(shù)。

下圖展示了這些神經(jīng)隨機(jī)運(yùn)動(dòng)紋理。

圖片

那么,應(yīng)該如何選擇研究人員表示的 K 輸出頻率呢?實(shí)時(shí)動(dòng)畫(huà)之前的研究說(shuō)明,大多數(shù)自然振蕩運(yùn)動(dòng)主要由低頻分量(low-frequency component)組成。

為了驗(yàn)證這一假設(shè),研究人員計(jì)算了從1000個(gè)隨機(jī)抽樣的5秒真實(shí)視頻剪輯中提取出來(lái)的運(yùn)動(dòng)的平均功率譜。如下圖左圖所示,功率主要集中在低頻分量上。

圖片

動(dòng)作的頻譜隨著頻率的增加呈指數(shù)下降。這表明大多數(shù)自然振動(dòng)動(dòng)作確實(shí)可以由低頻項(xiàng)很好地表示。

在實(shí)踐中,研究人員發(fā)現(xiàn)前K=16個(gè)傅里葉系數(shù)足以在一系列真實(shí)視頻和場(chǎng)景中真實(shí)地重現(xiàn)原始的自然動(dòng)作。

使用擴(kuò)散模型預(yù)測(cè)動(dòng)作

研究人員選擇潛在擴(kuò)散模型(LDM)作為研究人員的動(dòng)作預(yù)測(cè)模塊的核心,因?yàn)長(zhǎng)DM在保持生成質(zhì)量的同時(shí),比像素空間擴(kuò)散模型更加計(jì)算高效。

一個(gè)標(biāo)準(zhǔn)的LDM主要包括兩個(gè)模塊:

1.一個(gè)變分自編碼器(VAE)通過(guò)編碼器z = E(I)將輸入圖像壓縮到潛在空間,然后通過(guò)解碼器I = D(z)從潛在特征中重構(gòu)輸入。

2.一個(gè)基于U-Net的擴(kuò)散模型,這個(gè)模型學(xué)會(huì)從高斯隨機(jī)噪聲開(kāi)始迭代地去噪潛在特征。

研究人員的訓(xùn)練不是應(yīng)用于輸入圖像,而是應(yīng)用于來(lái)自真實(shí)視頻序列的隨機(jī)動(dòng)作紋理,這些紋理被編碼然后在預(yù)定義的方差時(shí)間表中擴(kuò)散n步以產(chǎn)生噪聲潛在變量zn。

頻率自適應(yīng)歸一化(Frequency adaptive normalization)

研究人員觀察到一個(gè)問(wèn)題,隨機(jī)動(dòng)作紋理在頻率上具有特定的分布特性。上圖的左側(cè)圖所示,研究人員的動(dòng)作紋理的幅度范圍從0到100,并且隨著頻率的增加大致呈指數(shù)衰減。

由于擴(kuò)散模型需要輸出值位于0和1之間以實(shí)現(xiàn)穩(wěn)定的訓(xùn)練和去噪,因此研究人員必須在用它們進(jìn)行訓(xùn)練之前歸一化從真實(shí)視頻中提取的S系數(shù)。

如果研究人員根據(jù)圖像寬度和高度將S系數(shù)的幅度縮放到[0,1],那么在較高頻率處幾乎所有的系數(shù)都會(huì)接近于零,上圖(右側(cè))所示。

在這樣的數(shù)據(jù)上訓(xùn)練出的模型可能會(huì)產(chǎn)生不準(zhǔn)確的動(dòng)作,因?yàn)樵谕评磉^(guò)程中,即使是很小的預(yù)測(cè)誤差也可能在反歸一化后導(dǎo)致很大的相對(duì)誤差,當(dāng)歸一化的S系數(shù)的幅度非常接近于零時(shí)。

為了解決這個(gè)問(wèn)題,研究人員采用了一種簡(jiǎn)單但有效的頻率自適應(yīng)歸一化技術(shù)。具體而言,研究人員首先根據(jù)從訓(xùn)練集中計(jì)算的統(tǒng)計(jì)數(shù)據(jù)獨(dú)立地對(duì)每個(gè)頻率處的傅里葉系數(shù)進(jìn)行歸一化。

頻率協(xié)調(diào)去噪(Frequency-coordinated denoising)

預(yù)測(cè)具有K個(gè)頻率帶的隨機(jī)動(dòng)作紋理S的直接方法是從標(biāo)準(zhǔn)擴(kuò)散U-Net輸出一個(gè)具有4K通道的張量。

然而,訓(xùn)練一個(gè)模型以產(chǎn)生如此大量的通道往往會(huì)產(chǎn)生過(guò)度平滑和不準(zhǔn)確的輸出。

另一種方法是通過(guò)向LDM注入額外的頻率嵌入來(lái)獨(dú)立預(yù)測(cè)每個(gè)單獨(dú)頻率處的動(dòng)作光譜圖,但這會(huì)導(dǎo)致頻率域中的不相關(guān)預(yù)測(cè),從而產(chǎn)生不真實(shí)的動(dòng)作。

因此,研究人員提出了下圖中所示的頻率協(xié)調(diào)去噪策略。具體來(lái)說(shuō),給定一個(gè)輸入圖像I0,研究人員首先訓(xùn)練一個(gè)LDM來(lái)預(yù)測(cè)具有四個(gè)通道的每個(gè)單獨(dú)頻率的隨機(jī)動(dòng)作紋理圖,其中研究人員將額外的頻率嵌入和時(shí)間步嵌入一起注入到LDM網(wǎng)絡(luò)中。

圖片

基于圖像的渲染

研究人員進(jìn)一步描述如何利用為給定輸入圖像I0預(yù)測(cè)的隨機(jī)運(yùn)動(dòng)紋理S來(lái)渲染未來(lái)時(shí)刻t的幀?It。首先,研究人員使用逆時(shí)域FFT(快速傅里葉變換)在每個(gè)像素點(diǎn)p處計(jì)算運(yùn)動(dòng)軌跡場(chǎng)

圖片

這些運(yùn)動(dòng)軌跡場(chǎng)決定了每一個(gè)輸入像素在未來(lái)每一個(gè)時(shí)間步長(zhǎng)的位置。為了生成未來(lái)的幀It,研究人員采用深度圖像基渲染技術(shù),并執(zhí)行使用預(yù)測(cè)的運(yùn)動(dòng)場(chǎng)的前向扭曲(splatting)來(lái)扭曲編碼的I0,如下圖所示。

圖片

由于前向扭曲可能導(dǎo)致圖像出現(xiàn)空洞,以及多個(gè)源像素可能映射到相同的輸出2D位置,研究人員采用了先前在幀插值研究中提出的特征金字塔Softmax扭曲策略。

研究人員共同訓(xùn)練特征提取器和合成網(wǎng)絡(luò),用從真實(shí)視頻中隨機(jī)抽取的起始和目標(biāo)幀,其中研究人員使用從I0到It的估計(jì)流場(chǎng)來(lái)扭曲I0的編碼特征,并用VGG感知損失對(duì)預(yù)測(cè)的?It進(jìn)行監(jiān)督。

圖片

如上圖所示,與直接平均扭曲和基線深度扭曲方法相比,研究人員的運(yùn)動(dòng)感知特征扭曲生成了一個(gè)沒(méi)有空洞或者人工痕跡的幀。

進(jìn)一步的擴(kuò)展應(yīng)用

研究人員進(jìn)一步展示了利用研究人員提出的運(yùn)動(dòng)表示和動(dòng)畫(huà)流程,為單張靜態(tài)圖像添加動(dòng)態(tài)效果的應(yīng)用。

圖像到視頻

研究人員的系統(tǒng)通過(guò)首先從輸入圖像預(yù)測(cè)出一個(gè)神經(jīng)隨機(jī)運(yùn)動(dòng)紋理,并通過(guò)應(yīng)用研究人員基于圖像的渲染模塊到從隨機(jī)運(yùn)動(dòng)紋理派生出的運(yùn)動(dòng)位移場(chǎng),實(shí)現(xiàn)了單張靜態(tài)圖片的動(dòng)畫(huà)生成。

由于研究人員明確地對(duì)場(chǎng)景運(yùn)動(dòng)進(jìn)行了建模,這允許研究人員通過(guò)線性插值運(yùn)動(dòng)位移場(chǎng)來(lái)生成慢動(dòng)作視頻,并通過(guò)調(diào)整預(yù)測(cè)的隨機(jī)運(yùn)動(dòng)紋理系數(shù)的振幅來(lái)放大(或縮?。﹦?dòng)畫(huà)運(yùn)動(dòng)。

無(wú)縫循環(huán)

有時(shí)生成具有無(wú)縫循環(huán)運(yùn)動(dòng)的視頻是非常有用的,意味著視頻開(kāi)始和結(jié)束之間沒(méi)有外觀或運(yùn)動(dòng)的不連續(xù)性。

不幸的是,很難找到一個(gè)大量的無(wú)縫循環(huán)視頻的訓(xùn)練集。因此,研究人員設(shè)計(jì)了一種方法,使用研究人員的運(yùn)動(dòng)擴(kuò)散模型,該模型訓(xùn)練在常規(guī)的非循環(huán)視頻片段上,以產(chǎn)生無(wú)縫循環(huán)的視頻。

受近期有關(guān)圖像編輯指導(dǎo)研究的啟發(fā),研究人員的方法是一種運(yùn)動(dòng)自引導(dǎo)技術(shù),該技術(shù)使用明確的循環(huán)約束來(lái)引導(dǎo)運(yùn)動(dòng)去噪采樣過(guò)程。

具體來(lái)說(shuō),在推斷階段的每個(gè)迭代去噪步驟中,研究人員在標(biāo)準(zhǔn)的無(wú)分類(lèi)器引導(dǎo)旁邊加入了一個(gè)額外的運(yùn)動(dòng)引導(dǎo)信號(hào),其中研究人員強(qiáng)制每個(gè)像素在開(kāi)始和結(jié)束幀的位置和速度盡可能相似。

從單一圖像生成可交互的動(dòng)畫(huà)

振蕩物體的觀察視頻中的圖像空間運(yùn)動(dòng)譜近似于該物體的物理振動(dòng)模態(tài)基礎(chǔ)。

模態(tài)形狀捕獲了物體在不同頻率下的振蕩動(dòng)態(tài),因此物體振動(dòng)模式的圖像空間投影可以用于模擬物體對(duì)用戶定義的力(如戳或拉)的反應(yīng)。

因此,研究人員采用了之前研究的模態(tài)分析技術(shù),該技術(shù)假設(shè)物體的運(yùn)動(dòng)可以由一組諧振子的疊加來(lái)解釋。

這使得研究人員將物體的物理響應(yīng)的圖像空間二維運(yùn)動(dòng)位移場(chǎng)寫(xiě)為傅里葉譜系數(shù)與每個(gè)模擬時(shí)間步驟t的復(fù)模態(tài)坐標(biāo),以及時(shí)間t的加權(quán)和。

實(shí)驗(yàn)評(píng)估

研究團(tuán)隊(duì)對(duì)最新方法,與基線方法在未見(jiàn)視頻片段測(cè)試集上進(jìn)行了定量比較。

結(jié)果發(fā)現(xiàn),谷歌的方法在圖像和視頻合成質(zhì)量方面都顯著優(yōu)于先前的單圖像動(dòng)畫(huà)基線。

具體來(lái)說(shuō),谷歌的FVD和DT-FVD距離要低得多,這表明這一方法生成的視頻更加真實(shí)且時(shí)間上更加連貫。

圖片

更進(jìn)一步地,圖6顯示了不同方法生成的視頻的滑動(dòng)窗口 FID 和滑動(dòng)窗口 DT-FVD 距離。

由于谷歌采用了全局隨機(jī)運(yùn)動(dòng)紋理表示,其方法生成的視頻在時(shí)間上更加一致,并且不會(huì)隨著時(shí)間的推移而發(fā)生漂移或退化。

圖片

另外,谷歌團(tuán)隊(duì)通過(guò)2種方式,對(duì)自己的方法和基線生成的視頻進(jìn)行可視化定性比較。

首先,展示了生成視頻的X-t時(shí)空切片,如圖7所示。

谷歌生成的視頻動(dòng)態(tài),與相應(yīng)真實(shí)參考視頻(第二列)中觀察到的運(yùn)動(dòng)模式更為相似。隨機(jī)I2V和MCVD等基線無(wú)法隨著時(shí)間的推移真實(shí)地模擬外觀和運(yùn)動(dòng)。

圖片

我們還通過(guò)可視化預(yù)測(cè)圖像圖片及其在時(shí)間t =128時(shí)相應(yīng)的運(yùn)動(dòng)位移場(chǎng),定性比較不同方法中各個(gè)生成的幀和運(yùn)動(dòng)的質(zhì)量。

與其他方法相比,谷歌生成的方法生成的幀表現(xiàn)出較少的偽影和失真,相應(yīng)的二維運(yùn)動(dòng)場(chǎng)與從相應(yīng)的真實(shí)視頻中估算出的參考位移場(chǎng)最為相似。

圖片

消融研究:從表2中觀察到,與完整模型相比,所有更簡(jiǎn)單或替代的配置都會(huì)導(dǎo)致性能更差。

圖片

作者介紹

Zhengqi Li

Zhengqi Li是谷歌研究院的一名研究科學(xué)家。他的研究興趣包括,3D/4D計(jì)算機(jī)視覺(jué)、基于圖像的渲染和計(jì)算攝影,尤其是in the wild圖像和視頻。他在康奈爾大學(xué)獲得了計(jì)算機(jī)科學(xué)博士學(xué)位,導(dǎo)師是Noah Snavely。

他是CVPR 2019最佳論文榮譽(yù)提名獎(jiǎng)、2020年谷歌博士獎(jiǎng)學(xué)金、2020年奧多比研究獎(jiǎng)學(xué)金、2021年百度全球人工智能100強(qiáng)中國(guó)新星獎(jiǎng)和CVPR 2023最佳論文榮譽(yù)獎(jiǎng)的獲得者。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-03 12:33:08

2023-09-06 12:57:11

AI訓(xùn)練

2014-08-11 14:36:42

2020-11-24 13:05:35

Go語(yǔ)言泛型

2018-01-08 17:58:34

IT耳朵

2020-09-27 16:40:29

程序員技術(shù)開(kāi)發(fā)

2025-04-24 09:16:00

2020-03-02 14:18:33

程序員技能開(kāi)發(fā)者

2018-01-18 10:12:49

2023-01-14 15:08:43

模型論文

2016-12-16 10:00:27

新華三

2018-11-27 12:25:21

華為

2021-06-07 22:10:56

AI

2020-10-12 17:21:21

IPv6互聯(lián)網(wǎng)技術(shù)

2021-06-21 15:24:56

機(jī)器人人工智能算法

2023-03-09 14:04:00

谷歌研究

2018-11-27 10:25:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)