自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

生成視頻如此簡單，給句提示就行，還能在線試玩

作者：機(jī)器之心 2023-05-15 09:59:08

人工智能新聞

動動嘴皮子就能生成視頻的新研究來了。

你輸入文字，讓 AI 來生成視頻，這種想法在以前只出現(xiàn)在人們的想象中，現(xiàn)在，隨著技術(shù)的發(fā)展，這種功能已經(jīng)實現(xiàn)了。

近年來，生成式人工智能在計算機(jī)視覺領(lǐng)域引起巨大的關(guān)注。隨著擴(kuò)散模型的出現(xiàn)，從文本 Prompt 生成高質(zhì)量圖像，即文本到圖像的合成，已經(jīng)變得非常流行和成功。

最近的研究試圖通過在視頻領(lǐng)域復(fù)用文本到圖像擴(kuò)散模型，將其成功擴(kuò)展到文本到視頻生成和編輯的任務(wù)。雖然這樣的方法取得了可喜的成果，但大部分方法需要使用大量標(biāo)記數(shù)據(jù)進(jìn)行大量訓(xùn)練，這可能對許多用戶來講太過昂貴。

為了使視頻生成更加廉價，Jay Zhangjie Wu 等人去年提出的 Tune-A-Video 引入了一種機(jī)制，可以將 Stable Diffusion (SD) 模型應(yīng)用到視頻領(lǐng)域。只需要調(diào)整一個視頻，從而讓訓(xùn)練工作量大大減少。雖然這比以前的方法效率提升很多，但仍需要進(jìn)行優(yōu)化。此外，Tune-A-Video 的生成能力僅限于 text-guided 的視頻編輯應(yīng)用，而從頭開始合成視頻仍然超出了它的能力范圍。

本文中，來自 Picsart AI Resarch (PAIR) 、得克薩斯大學(xué)奧斯汀分校等機(jī)構(gòu)的研究者在 zero-shot 以及無需訓(xùn)練的情況下，在文本到視頻合成的新問題方向上向前邁進(jìn)了一步，即無需任何優(yōu)化或微調(diào)的情況下根據(jù)文本提示生成視頻。

論文地址：https://arxiv.org/pdf/2303.13439.pdf
項目地址：https://github.com/Picsart-AI-Research/Text2Video-Zero
試用地址：https://huggingface.co/spaces/PAIR/Text2Video-Zero

下面我們看看效果如何。例如一只熊貓在沖浪；一只熊在時代廣場上跳舞：

該研究還能根據(jù)目標(biāo)生成動作：

此外，還能進(jìn)行邊緣檢測：

本文提出的方法的一個關(guān)鍵概念是修改預(yù)訓(xùn)練的文本到圖像模型（例如 Stable Diffusion），通過時間一致的生成來豐富它。通過建立在已經(jīng)訓(xùn)練好的文本到圖像模型的基礎(chǔ)上，本文的方法利用它們出色的圖像生成質(zhì)量，增強(qiáng)了它們在視頻領(lǐng)域的適用性，而無需進(jìn)行額外的訓(xùn)練。

為了加強(qiáng)時間一致性，本文提出兩個創(chuàng)新修改：（1）首先用運(yùn)動信息豐富生成幀的潛在編碼，以保持全局場景和背景時間一致；(2) 然后使用跨幀注意力機(jī)制來保留整個序列中前景對象的上下文、外觀和身份。實驗表明，這些簡單的修改可以生成高質(zhì)量和時間一致的視頻（如圖 1 所示）。

盡管其他人的工作是在大規(guī)模視頻數(shù)據(jù)上進(jìn)行訓(xùn)練，但本文的方法實現(xiàn)了相似甚至有時更好的性能（如圖 8、9 所示）。

本文的方法不僅限于文本到視頻的合成，還適用于有條件的（見圖 6、5）和專門的視頻生成（見圖 7），以及 instruction-guided 的視頻編輯，可以稱其為由 Instruct-Pix2Pix 驅(qū)動的 Video Instruct-Pix2Pix（見圖 9）。

在這篇論文中，本文利用 Stable Diffusion （SD）的文本到圖像合成能力來處理 zero-shot 情況下文本到視頻的任務(wù)。由于需要生成視頻而不是圖像，SD 應(yīng)該在潛在代碼序列上進(jìn)行操作。樸素的方法是從標(biāo)準(zhǔn)高斯分布獨(dú)立采樣 m 個潛在代碼，即

N (0, I) ，并應(yīng)用 DDIM 采樣以獲得相應(yīng)的張量

，其中 k = 1，…，m，然后解碼以獲得生成的視頻序列

。然而，如圖 10 的第一行所示，這會導(dǎo)致完全隨機(jī)的圖像生成，僅共享

所描述的語義，而不具有物體外觀或運(yùn)動的一致性。

為了解決這個問題，本文建議采用以下兩種方法：（i）在潛在編碼

之間引入運(yùn)動動態(tài)，以保持全局場景的時間一致性；（ii）使用跨幀注意力機(jī)制來保留前景對象的外觀和身份。下面詳細(xì)描述了本文使用的方法的每個組成部分，該方法的概述可以在圖 2 中找到。

注意，為了簡化符號，本文將整個潛在代碼序列表示為：

實驗

定性結(jié)果

Text2Video-Zero 的所有應(yīng)用都表明它成功生成了視頻，其中全局場景和背景具有時間一致性，前景對象的上下文、外觀和身份在整個序列中得到了保持。

在文本轉(zhuǎn)視頻的情況下，可以觀察到它生成與文本提示良好對齊的高質(zhì)量視頻（見圖 3）。例如，繪制的熊貓可以自然地在街上行走。同樣，使用額外的邊緣或姿勢指導(dǎo) (見圖 5、圖 6 和圖 7)，生成了與 Prompt 和指導(dǎo)相匹配的高質(zhì)量視頻，顯示出良好的時間一致性和身份保持。

在 Video Instruct-Pix2Pix（見圖 1）的情況下，生成的視頻相對于輸入視頻具有高保真，同時嚴(yán)格遵循指令。

與 Baseline 比較

本文將其方法與兩個公開可用的 baseline 進(jìn)行比較：CogVideo 和 Tune-A-Video。由于 CogVideo 是一種文本到視頻的方法，本文在純文本引導(dǎo)的視頻合成場景中與它進(jìn)行了比較；使用 Video Instruct-Pix2Pix 與 Tune-A-Video 進(jìn)行比較。

為了進(jìn)行定量對比，本文使用 CLIP 分?jǐn)?shù)對模型評估，CLIP 分?jǐn)?shù)表示視頻文本對齊程度。通過隨機(jī)獲取 CogVideo 生成的 25 個視頻，并根據(jù)本文的方法使用相同的提示合成相應(yīng)的視頻。本文的方法和 CogVideo 的 CLIP 分?jǐn)?shù)分別為 31.19 和 29.63。因此，本文的方法略優(yōu)于 CogVideo，盡管后者有 94 億個參數(shù)并且需要對視頻進(jìn)行大規(guī)模訓(xùn)練。

圖 8 展示了本文提出的方法的幾個結(jié)果，并提供了與 CogVideo 的定性比較。這兩種方法在整個序列中都顯示出良好的時間一致性，保留了對象的身份以及背景。本文的方法顯示出更好的文本 - 視頻對齊能力。例如，本文的方法在圖 8 (b) 中正確生成了一個人在陽光下騎自行車的視頻，而 CogVideo 將背景設(shè)置為月光。同樣在圖 8 (a) 中，本文的方法正確地顯示了一個人在雪地里奔跑，而 CogVideo 生成的視頻中雪地和奔跑的人是看不清楚的。

Video Instruct-Pix2Pix 的定性結(jié)果以及與 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在視覺上的比較如圖 9 所示。雖然 Instruct-Pix2Pix 每幀顯示出良好的編輯性能，但它缺乏時間一致性。這在描繪滑雪者的視頻中尤其明顯，視頻中的雪和天空使用不同的樣式和顏色繪制。使用 Video Instruct-Pix2Pix 方法解決了這些問題，從而在整個序列中實現(xiàn)了時間上一致的視頻編輯。

雖然 Tune-A-Video 創(chuàng)建了時間一致的視頻生成，但與本文的方法相比，它與指令指導(dǎo)的一致性較差，難以創(chuàng)建本地編輯，并丟失了輸入序列的細(xì)節(jié)。當(dāng)看到圖 9 左側(cè)中描繪的舞者視頻的編輯時，這一點(diǎn)變得顯而易見。與 Tune-A-Video 相比，本文的方法將整件衣服畫得更亮，同時更好地保留了背景，例如舞者身后的墻幾乎保持不變。Tune-A-Video 繪制了一堵經(jīng)過嚴(yán)重變形的墻。此外，本文的方法更忠實于輸入細(xì)節(jié)，例如，與 Tune-A-Video 相比，Video Instruction-Pix2Pix 使用所提供的姿勢繪制舞者（圖 9 左），并顯示輸入視頻中出現(xiàn)的所有滑雪人員（如圖 9 右側(cè)的最后一幀所示）。Tune-A-Video 的所有上述弱點(diǎn)也可以在圖 23、24 中觀察到。

責(zé)任編輯：張燕妮來源：機(jī)器之心

視頻開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營