Vidu官方論文來了!媲美Sora的國產(chǎn)視頻生成器背后技術(shù)探秘 精華
文章鏈接:https://arxiv.org/pdf/2405.04233
開源地址:https://www.shengshu-ai.com/vidu
Vidu是中國首個(gè)長視頻生成AI大模型,由清華大學(xué)與生數(shù)科技聯(lián)手發(fā)布,前段時(shí)間就已經(jīng)發(fā)布了很多效果展示,非常驚艷,這次新掛出來的一篇解讀文章,對Vidu使用的技術(shù)進(jìn)行了一個(gè)介紹,在這里和大家一起學(xué)習(xí)下。
本文引入了 Vidu,一個(gè)高性能的文本到視頻生成器,能夠在單次生成中生成長達(dá) 16 秒的 1080p 視頻。Vidu 是一個(gè)擴(kuò)散模型,其骨干是 U-ViT,這使其具備了處理長視頻的可擴(kuò)展性和能力。Vidu 具有很強(qiáng)的連貫性和動(dòng)態(tài)性,并且能夠生成逼真和富有想象力的視頻,以及理解一些專業(yè)攝影技術(shù),與 Sora——最強(qiáng)大的報(bào)告過的文本到視頻生成器相當(dāng)。最后,對其他可控視頻生成進(jìn)行了初步實(shí)驗(yàn),包括邊緣檢測到視頻生成、視頻預(yù)測和主體驅(qū)動(dòng)生成,展示了有希望的結(jié)果。
介紹
擴(kuò)散模型在生成高質(zhì)量圖像、視頻和其他類型的數(shù)據(jù)方面取得了突破性進(jìn)展,超越了自回歸網(wǎng)絡(luò)等替代方法。以前,視頻生成模型主要依賴于具有 U-Net 骨干的擴(kuò)散模型,并專注于像 4 秒這樣的單一有限時(shí)長。本文的模型,Vidu,證明了一個(gè)以 U-ViT 為骨干的文本到視頻擴(kuò)散模型可以通過利用transformer的可擴(kuò)展性和長序列建模能力打破這種持續(xù)時(shí)間限制。Vidu 能夠在單次生成中生成長達(dá) 16 秒的 1080p 視頻,以及單幀圖像作為視頻。
此外,Vidu 具有很強(qiáng)的連貫性和動(dòng)態(tài)性,能夠生成逼真和富有想象力的視頻。Vidu 還初步理解了一些專業(yè)攝影技術(shù),如過渡效果、攝像機(jī)移動(dòng)、光影效果和情感表現(xiàn)。在某種程度上,Vidu 的生成性能與目前最強(qiáng)大的文本到視頻生成器 Sora 相當(dāng),遠(yuǎn)遠(yuǎn)優(yōu)于其他文本到視頻生成器。最后,對其他可控視頻生成進(jìn)行了初步實(shí)驗(yàn),包括邊緣檢測到視頻生成、視頻預(yù)測和主體驅(qū)動(dòng)生成。所有這些都展示出了有希望的結(jié)果。
文本到視頻生成
Vidu 首先采用視頻自編碼器來減少視頻的空間和時(shí)間維度,以實(shí)現(xiàn)高效的訓(xùn)練和推斷。在此之后,Vidu 使用 U-ViT 作為噪聲預(yù)測網(wǎng)絡(luò)來建模這些壓縮表示。具體來說,如下圖 1 所示,U-ViT 將壓縮視頻分割成 3D patch,將所有輸入(包括時(shí)間、文本條件和嘈雜的 3D patch)視為token,并在transformer的淺層和深層之間使用長跳越連接。通過利用變長序列處理的transformer的能力,Vidu 可以處理持續(xù)時(shí)間不同的視頻。
Vidu 在大量的文本-視頻對上進(jìn)行訓(xùn)練,但是由人類標(biāo)注所有視頻是不可行的。為了解決這個(gè)問題,首先訓(xùn)練了一個(gè)針對理解視頻中動(dòng)態(tài)信息進(jìn)行優(yōu)化的高性能視頻標(biāo)題生成器,然后使用這個(gè)標(biāo)題生成器自動(dòng)標(biāo)注所有的訓(xùn)練視頻。在推斷過程中,應(yīng)用了重新標(biāo)題技術(shù)將用戶輸入重新表述為更適合模型的形式。
生成不同長度的視頻
由于 Vidu 是在各種長度的視頻上進(jìn)行訓(xùn)練的,因此它可以生成長達(dá) 16 秒的所有長度的 1080p 視頻,包括單幀圖像作為視頻。在下圖2中呈現(xiàn)了示例。
3D一致性
Vidu 生成的視頻展現(xiàn)出強(qiáng)大的3D一致性。隨著攝像機(jī)的旋轉(zhuǎn),視頻呈現(xiàn)出同一對象在不同角度的投影。例如,如下圖3所示,隨著攝像機(jī)的旋轉(zhuǎn),生成的貓的頭發(fā)自然地被遮擋。
生成切換
Vidu 能夠生成包含切換的視頻。如下圖4所示,這些視頻通過切換攝像機(jī)角度呈現(xiàn)同一場景的不同視角,同時(shí)保持場景中主題的一致性。
生成過渡效果
Vidu 能夠在單次生成中生成帶有過渡效果的視頻。如下圖5所示,這些過渡效果可以以引人入勝的方式連接兩個(gè)不同的場景。
攝像機(jī)運(yùn)動(dòng)
攝像機(jī)運(yùn)動(dòng)涉及在拍攝過程中對攝像機(jī)的物理調(diào)整或移動(dòng),增強(qiáng)了視覺敘事,傳達(dá)了場景內(nèi)不同的視角和情感。Vidu 從數(shù)據(jù)中學(xué)習(xí)了這些技術(shù),增強(qiáng)了觀眾的視覺體驗(yàn)。例如,如圖6所示,Vidu 能夠生成包括變焦、平移和攝影機(jī)在內(nèi)的攝像機(jī)運(yùn)動(dòng)的視頻。
光影效果
Vidu 能夠生成帶有令人印象深刻的光影效果的視頻,這有助于增強(qiáng)整體氛圍。例如,如下圖7所示,生成的視頻可以喚起神秘和寧靜的氛圍。因此,除了視頻內(nèi)容中的實(shí)體外,Vidu 還具有傳達(dá)一些抽象情感的初步能力。
情感刻畫
Vidu 能夠有效地描繪角色的情感。例如,如下圖8所示,Vidu 能夠表達(dá)諸如快樂、孤獨(dú)、尷尬和喜悅等情感。
想象力
除了生成現(xiàn)實(shí)世界的場景外,Vidu 還具有豐富的想象力。如下圖9所示,Vidu 能夠生成在現(xiàn)實(shí)世界中不存在的場景。
與 Sora 的比較
Sora目前是最強(qiáng)大的文本到視頻生成器,能夠生成高清晰度的視頻,并具有很高的一致性。然而,由于 Sora 不是公開可訪問的,通過直接將 Sora 發(fā)布的示例提示插入到 Vidu 中來進(jìn)行比較。下圖10和圖11描述了 Vidu 和 Sora 之間的比較,表明在某種程度上,Vidu 的生成性能與 Sora 相當(dāng)。
其他可控視頻生成
還在 512 分辨率上進(jìn)行了其他可控視頻生成的幾個(gè)初步實(shí)驗(yàn),包括邊緣檢測到視頻生成、視頻預(yù)測和主體驅(qū)動(dòng)生成。所有這些都展示了有希望的結(jié)果。
邊緣檢測到視頻生成
Vidu 可以通過使用類似于 ControlNet的技術(shù)來添加額外的控制,如下圖12所示。
視頻預(yù)測
如下圖13所示,Vidu 可以根據(jù)輸入圖像或幾個(gè)輸入幀(用紅色框標(biāo)記)生成后續(xù)幀。
主體驅(qū)動(dòng)生成
令人驚訝的是,我們發(fā)現(xiàn) Vidu 可以通過僅在圖像而非視頻上進(jìn)行微調(diào)來執(zhí)行主體驅(qū)動(dòng)的視頻生成。例如,我們使用 DreamBooth技術(shù)將學(xué)到的主題指定為特殊符號 <V> 進(jìn)行微調(diào)。如下圖14所示,生成的視頻忠實(shí)地再現(xiàn)了學(xué)到的主題。
結(jié)論
Vidu,一個(gè)高清文本到視頻生成器,展示了在各個(gè)方面的強(qiáng)大能力,包括生成的視頻的持續(xù)時(shí)間、連貫性和動(dòng)態(tài)性,與 Sora 相當(dāng)。在未來,Vidu 仍有改進(jìn)的空間。例如,細(xì)節(jié)方面偶爾會(huì)出現(xiàn)缺陷,視頻中不同主體之間的交互有時(shí)偏離了物理規(guī)律。相信通過進(jìn)一步擴(kuò)展 Vidu,這些問題可以得到有效解決。
本文轉(zhuǎn)自 AI生成未來 ,作者:Fan Bao等
