自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Sora不開源,微軟給你開源!全球最接近Sora視頻模型誕生,12秒生成效果逼真炸裂

人工智能 新聞
用不了多久,開源版的Sora就會涌來!理海大學(xué)微軟團隊已經(jīng)做出一種全新多AI智能體框架Mora,可以完全復(fù)刻Sora能力,且生成視頻效果幾乎不相上下。

微軟版Sora誕生了!

Sora雖爆火但閉源,給學(xué)術(shù)界帶來了不小的挑戰(zhàn)。學(xué)者們只能嘗試使用逆向工程來對Sora復(fù)現(xiàn)或擴展。

盡管提出了Diffusion Transformer和空間patch策略,但想要達到Sora的性能還是很難,何況還缺乏算力和數(shù)據(jù)集。

不過,研究者發(fā)起的新一波復(fù)現(xiàn)Sora的沖鋒,這不就來了么!

就在剛剛,理海大學(xué)聯(lián)手微軟團隊一種新型的多AI智能體框架———Mora。

論文地址:https://arxiv.org/abs/2403.13248

沒錯,理海大學(xué)和微軟的思路,是靠AI智能體。

Mora更像是Sora的通才視頻生成。通過整合多個SOTA的視覺AI智能體,來復(fù)現(xiàn)Sora展示的通用視頻生成能力。

具體來說,Mora能夠利用多個視覺智能體,在多種任務(wù)中成功模擬Sora的視頻生成能力,包括:

- 文本到視頻生成

- 基于文本條件的圖像到視頻生成

- 擴展已生成視頻

- 視頻到視頻編輯

- 拼接視頻

- 模擬數(shù)字世界

實驗結(jié)果表明,Mora在這些任務(wù)中取得了接近Sora的表現(xiàn)。

值得一提的是,它在文本到視頻生成任務(wù)中的表現(xiàn)超越了現(xiàn)有的開源模型,在所有模型中排名第二,僅次于Sora。

不過,在整體性能上,與Sora還有著明顯差距。

圖片

Mora可根據(jù)文字提示生成高分辨率、時間連貫的視頻,分辨率為1024 × 576,時長12秒,共75幀。

復(fù)刻Sora所有能力

Mora基本上還原了Sora的所有能力,怎么體現(xiàn)?

文本到視頻生成

提示:A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.

提示:A majestic mountain range covered in snow, with the peaks touching the clouds and a crystal-clear lake at its base, reflecting the mountains and the sky, creating a breathtaking natural mirror.

提示:In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

基于文本條件圖像到視頻的生成

輸入這張經(jīng)典的「SORA字樣的逼真云朵圖像」。

圖片

提示:An image of a realistic cloud that spells “SORA”.

Sora模型生成的效果是這樣的。

圖片

Mora生成出來的視頻,絲毫不差。

圖片

還有輸入一張小怪獸圖片。

圖片

提示:Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

Sora將其轉(zhuǎn)換為視頻的效果,讓這些小怪獸們活靈活現(xiàn)動起來。

Mora雖也讓小怪獸們動起來,但是明顯可以看出有些不穩(wěn)定,圖中卡通人物樣子沒有保持一致。

圖片

擴展已生成的視頻

先給到一個視頻

Sora能夠生成穩(wěn)定的AI視頻,而且風(fēng)格一致。

但Mora生成的視頻中,前面騎自行車的人最后自行車沒了,人也變形了,效果不是很好。

視頻到視頻編輯

給到一個提示「將場景切換到20世紀(jì)20年代的老式汽車」,并輸入一個視頻。

Sora經(jīng)過風(fēng)格替換后,整體看起來非常絲滑。

Mora這段老式汽車的生成,破舊的有點不真實。

拼接視頻

輸入兩個視頻,然后將其完成拼接。

Mora拼接后的視頻

模擬數(shù)字世界

整體接近,但不如Sora

一大波演示之后,大家對Mora的視頻生成能力有了一定了解。

與OpenAI Sora相比,Mora在六個任務(wù)中的表現(xiàn)非常接近,不過也存在著很大的不足。

文本到視頻生成

具體來說,Mora的視頻質(zhì)量得分0.792,僅次于第一名Sora的0.797,并且超過了當(dāng)前最好的開源模型(如VideoCrafter1)。

在對象一致性方面,Mora得分0.95,與Sora持平,在整個視頻中都表現(xiàn)出了卓越的一致性。

在下圖中,Mora文本到視頻生成的視覺保真度非常引人注目,體現(xiàn)了高分辨率圖像以及對細節(jié)的敏銳關(guān)注,和對場景的生動描繪。

圖片

在基于文本條件的圖像生成任務(wù)中,模型在將圖片和文本指令,轉(zhuǎn)化成連貫視頻能力上,Sora肯定是最完美的。

不過Mora的結(jié)果,與Sora相差很小。

圖片

圖片

擴展生成的視頻

再來看擴展生成視頻測試中,在連續(xù)性和質(zhì)量上的結(jié)果,也是Mora與Sora比較接近。

圖片

盡管Sora處于領(lǐng)先地位,但Mora的能力,特別是在遵循時間風(fēng)格和擴展現(xiàn)有視頻而不顯著損失質(zhì)量方面,證明了其在視頻擴展領(lǐng)域的有效性。

圖片

視頻到視頻編輯+視頻拼接

針對視頻到視頻編輯,Mora在保持視覺和風(fēng)格連貫性的能力方面接近Sora。還有拼接視頻任務(wù)中,Mora也可以實現(xiàn)將不同視頻進行無縫拼接。

圖片

在這個示例中,Sora和Mora都被指示將設(shè)置修改為1920年代風(fēng)格,同時保持汽車的紅色。

圖片

圖片

模擬數(shù)字世界

還有最后的模擬數(shù)字世界的任務(wù),Mora也能像Sora一樣具備創(chuàng)建虛擬環(huán)境世界的能力。不過質(zhì)量方面,比Sora差一些。

圖片

圖片

Mora:基于智能體的視頻生成

Mora這個多智能體框架,是如何解決當(dāng)前視頻生成模型的局限的?

它的關(guān)鍵,就是通過將視頻生成過程分解為多個子任務(wù),并為每個任務(wù)指派專門的智能體,來靈活地完成一系列視頻生成任務(wù),滿足用戶的多樣化需求。

在推理過程中,Mora會生成一個中間圖像或視頻,從而保持文本到圖像模型中的視覺多樣性、風(fēng)格和質(zhì)量,并增強編輯功能。

通過高效地協(xié)調(diào)處理從文本到圖像、從圖像到圖像、從圖像到視頻以及從視頻到視頻的轉(zhuǎn)換任務(wù)的智能體,Mora能夠處理一系列復(fù)雜的視頻生成任務(wù),提供出色的編輯靈活性和視覺真實度。

總結(jié)來說,團隊的主要貢獻如下:

- 創(chuàng)新性的多智能體框架,以及一個直觀的界面,方便用戶配置不同的組件和安排任務(wù)流程。

- 作者發(fā)現(xiàn),通過多個智能體的協(xié)同工作(包括將文本轉(zhuǎn)換成圖像、圖像轉(zhuǎn)換成視頻等),可以顯著提升視頻的生成質(zhì)量。這一過程從文本開始,先轉(zhuǎn)化為圖像,然后將圖像和文本一起轉(zhuǎn)換成視頻,最后對視頻進行優(yōu)化和編輯。

- Mora在6個與視頻相關(guān)的任務(wù)中都展現(xiàn)出了卓越的性能,超過了現(xiàn)有的開源模型。這不僅證明了Mora的高效性,也展示了其作為一個多用途框架的潛力。

智能體的定義

在視頻生成的不同任務(wù)中,通常需要多個具有不同專長的智能體協(xié)同工作,每個智能體都提供其專業(yè)領(lǐng)域的輸出。

為此,作者定義了5種基本類型的智能體:提示選擇與生成、文本到圖像生成、圖像到圖像生成、圖像到視頻生成、以及視頻到視頻生成。

- 提示選擇與生成智能體:

在開始生成初始圖像之前,文本提示會經(jīng)過一系列嚴(yán)格的處理和優(yōu)化步驟。這個智能體可以利用大型語言模型(如GPT-4)來精確分析文本,提取關(guān)鍵信息和動作,大大提高生成圖像的相關(guān)性和質(zhì)量。

- 文本到圖像生成智能體:

這個智能體負(fù)責(zé)將豐富的文本描述轉(zhuǎn)化為高質(zhì)量的圖像。它的核心功能是深入理解和可視化復(fù)雜的文本輸入,從而能夠根據(jù)提供的文本描述創(chuàng)建詳細、準(zhǔn)確的視覺圖像。

- 圖像到圖像生成智能體:

根據(jù)特定的文本指令修改已有的源圖像。它能夠精確解讀文本提示,并據(jù)此調(diào)整源圖像(從細微修改到徹底改造)。通過使用預(yù)訓(xùn)練模型,它能夠?qū)⑽谋久枋雠c視覺表現(xiàn)有效拼接,實現(xiàn)新元素的整合、視覺風(fēng)格的調(diào)整或圖像構(gòu)成的改變。

- 圖像到視頻生成智能體:

在初始圖像生成之后,這個智能體負(fù)責(zé)將靜態(tài)圖像轉(zhuǎn)化為動態(tài)視頻。它通過分析初始圖像的內(nèi)容和風(fēng)格,生成后續(xù)的幀,確保視頻的連貫性和視覺一致性,展現(xiàn)了模型理解、復(fù)制初始圖像,以及預(yù)見并實現(xiàn)場景邏輯發(fā)展的能力。

- 視頻拼接智能體:

這個智能體通過選擇性使用兩段視頻的關(guān)鍵幀,確保它們之間平滑且視覺上一致的過渡。它能夠準(zhǔn)確識別兩個視頻中的共同元素和風(fēng)格,生成既連貫又具有視覺吸引力的視頻。

智能體的實現(xiàn)

文本到圖像的生成

研究者利用預(yù)訓(xùn)練的大型文本到圖像模型,來生成高質(zhì)量且具有代表性的第一張圖像。

第一個實現(xiàn),用的是Stable Diffusion XL。

它引入了文本到圖像合成的潛在擴散模型的架構(gòu)和方法的重大演變,在該領(lǐng)域樹立了新的基準(zhǔn)。

其架構(gòu)的核心,就是一個擴大的UNet主干網(wǎng)絡(luò),它比Stable Diffusion 2之前版本中使用的主干大三倍。

這種擴展主要是通過增加注意力塊的數(shù)量和更廣泛的交叉注意力上下文來實現(xiàn)的,并通過集成雙文本編碼器系統(tǒng)來促進。

第一個編碼器基于OpenCLIP ViT-bigG,而第二個編碼器則利用CLIP ViT-L,通過拼接這些編碼器的輸出,來允許對文本輸入進行更豐富、更細致的解釋。

這種架構(gòu)創(chuàng)新輔以多種新穎的調(diào)節(jié)方案的引入,這些方案不需要外部監(jiān)督,從而增強了模型的靈活性和生成跨多個長寬比的圖像的能力。

此外,SDXL還具有一個細化模型,該模型采用事后圖像到圖像轉(zhuǎn)換來提高生成圖像的視覺質(zhì)量。

此細化過程利用噪聲去噪技術(shù),進一步完善輸出圖像,而不會影響生成過程的效率或速度。

圖像到圖像的生成

在這個過程中,研究者用初始框架,實現(xiàn)了使用InstructPix2Pix作為圖像到圖像生成智能體。

圖片

InstructPix2Pix經(jīng)過精心設(shè)計,可以根據(jù)自然語言指令進行有效的圖像編輯。

該系統(tǒng)的核心集成了兩個預(yù)訓(xùn)練模型的廣泛知識:GPT-3用于根據(jù)文本描述生成編輯指令和編輯后的標(biāo)題;Stable Diffusion用于將這些基于文本的輸入轉(zhuǎn)換為視覺輸出。

這種巧妙的方法首先在精選的圖像標(biāo)題數(shù)據(jù)集和相應(yīng)的編輯指令上微調(diào)GPT-3,從而產(chǎn)生一個可以創(chuàng)造性地建議合理編輯并生成修改后的標(biāo)題的模型。

在此之后,通過Prompt-to-Prompt技術(shù)增強的Stable Diffusion模型,會根據(jù)GPT-3生成的字幕生成圖像對(編輯前和后)。

圖片

然后在生成的數(shù)據(jù)集上訓(xùn)練InstructPix2Pix核心的條件擴散模型。

InstructPix2Pix直接利用文本指令和輸入圖像,在單次前向傳遞中執(zhí)行編輯。

通過對圖像和指令條件采用無分類器指導(dǎo),進一步提高了這種效率,使模型能夠平衡原始像的保真度和遵守編輯指令。

圖像到視頻的生成

在文本到視頻生成智能體中,視頻生成代理在確保視頻質(zhì)量和一致性方面發(fā)揮著重要作用。

研究者的第一個實現(xiàn),是利用目前的SOTA視頻生成模型Stable Video Diffusion來生成視頻。

圖片

SVD架構(gòu)利用最初為圖像合成而開發(fā)的LDMs Stable Diffusion v2.1的優(yōu)勢,將其功能擴展到處理視頻內(nèi)容固有的時間復(fù)雜性,從而引入了一種生成高分辨率視頻的先進方法。

SVD模型的核心遵循三階段訓(xùn)練體系,從文本到圖像相關(guān)開始,模型從一組不同的圖像中學(xué)習(xí)穩(wěn)健的視覺表示。這個基礎(chǔ),使模型能夠理解并生成復(fù)雜的視覺圖案和紋理。

在第二階段,即視頻預(yù)訓(xùn)練中,模型接觸大量視頻數(shù)據(jù),使其能夠通過將時間卷積和注意力層與其空間對應(yīng)層結(jié)合起來來學(xué)習(xí)時間動態(tài)和運動模式。

訓(xùn)練是在系統(tǒng)管理的數(shù)據(jù)集上進行的,確保模型從高質(zhì)量且相關(guān)的視頻內(nèi)容中學(xué)習(xí)。

最后階段是高質(zhì)量視頻微調(diào),重點是改進模型使用更小但更高質(zhì)量的數(shù)據(jù)集,生成分辨率和保真度更高的視頻的能力。

這種分層訓(xùn)練策略輔以新穎的數(shù)據(jù)管理流程,使SVD能夠出色地生成最先進的文本到視頻和圖像到視頻合成,并且隨著時間的推移,具有非凡的細節(jié)、真實性和連貫性。

拼接視頻

對于這個任務(wù),研究者利用SEINE來拼接視頻。

SEINE是基于預(yù)訓(xùn)練的T2V模型LaVie智能體構(gòu)建的。

SEINE以隨機掩碼視頻擴散模型為中心,后者根據(jù)文本描述生成過渡。

通過將不同場景的像與基于文本的控制相集成,SEINE可以生成保持連貫性和視覺質(zhì)量的過渡視頻。

此外,該模型還可以擴展到圖像到視頻動畫和白回歸視頻預(yù)測等任務(wù)。

討論

優(yōu)勢

- 創(chuàng)新框架與靈活性:

Mora引進了一種革命性的多智能體視頻生成框架,大大拓展了此領(lǐng)域的可能性,使得執(zhí)行各種任務(wù)變得可能。

它不僅簡化了將文本轉(zhuǎn)換成視頻的過程,還能模擬出數(shù)字世界,展現(xiàn)出前所未有的靈活性和效率。

- 開源貢獻:

Mora的開源特性是對AI社區(qū)一個重要的貢獻,它通過提供一個堅實的基礎(chǔ),鼓勵進一步的發(fā)展和完善,為未來的研究奠定了基礎(chǔ)。

如此一來,不僅可以讓高級視頻生成技術(shù)更加普及,還促進了該領(lǐng)域內(nèi)的合作和創(chuàng)新。

局限性

- 視頻數(shù)據(jù)至關(guān)重要:

想捕捉人類動作的細微差別,就需要高分辨率、流暢的視頻序列。這樣才能夠詳細展現(xiàn)動力學(xué)的各個方面,包括平衡、姿勢及與環(huán)境的互動。

但高質(zhì)量的視頻數(shù)據(jù)集多來源于如電影、電視節(jié)目和專有游戲畫面等專業(yè)渠道。其中往往包含受版權(quán)保護的材料,不易合法收集或使用。

而缺乏這些數(shù)據(jù)集,使得像Mora這樣的視頻生成模型難以模擬人類在現(xiàn)實環(huán)境中的動作,如走路或騎自行車。

- 質(zhì)量與長度的差距:

Mora雖然可以完成類似Sora的任務(wù),但在涉及大量物體移動的場景中,生成的視頻質(zhì)量明顯不高,質(zhì)量隨視頻長度增加而降低,尤其是在超過12秒之后。

- 指令跟隨能力:

Mora雖然可以在視頻中包含提示所指定的所有對象,但它難以準(zhǔn)確解釋和展示提示中描述的運動動態(tài),比如移動速度。

此外,Mora還不能控制對象的運動方向,比如無法讓對象向左或向右移動。

這些局限主要是因為Mora的視頻生成,是基于圖像轉(zhuǎn)視頻的方法,而不是直接從文本提示中獲取指令。

- 人類偏好對齊:

由于視頻領(lǐng)域缺少人類的標(biāo)注信息,實驗結(jié)果可能并不總是符合人類的視覺偏好。

舉個例子,上面其中的一個視頻拼接任務(wù),要求生成一個男性逐漸變成女性的過渡視頻,看起來非常不合邏輯。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-26 11:48:27

2025-01-10 09:40:00

視頻生成AI開源

2024-07-30 11:50:00

視頻生成

2025-02-27 12:44:41

2024-06-18 12:31:34

模型生成

2024-03-25 00:30:00

AI框架

2024-03-18 15:01:58

SoraAI人工智能

2024-02-21 12:11:00

AI模型

2024-12-10 09:56:00

2024-02-19 09:19:54

OpenAIAI模型人工智能

2024-02-19 07:58:01

OpenAI模型GPT

2024-12-20 07:00:00

大模型人工智能AI

2024-03-27 13:35:00

AI技術(shù)視頻

2024-03-18 08:02:26

2024-04-28 08:30:00

人工智能大模型

2024-12-03 15:51:45

2025-02-26 14:00:00

開源模型數(shù)據(jù)

2024-02-19 08:31:10

SoraAIOpenAI

2024-07-31 10:44:54

2024-02-23 15:53:13

OpenAISora人工智能
點贊
收藏

51CTO技術(shù)棧公眾號