自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

復(fù)刻Sora的通用視頻生成能力,開源多智能體框架Mora來了

人工智能 新聞
來自理海大學(xué)、微軟研究院的研究者提出了一種多智能體框架 Mora,該框架整合了幾種先進的視覺 AI 智能體,以復(fù)制 Sora 所展示的通用視頻生成能力。

Sora 是首個引起社會廣泛關(guān)注的大規(guī)模通用視頻生成模型。自 OpenAI 在 2024 年 2 月推出以來,沒有其他視頻生成模型能夠在性能或支持廣泛視頻生成任務(wù)的能力上與 Sora 匹敵。此外,完全公開的視頻生成模型寥寥無幾,大多數(shù)都是閉源的。

為了彌補這一差距,來自理海大學(xué)、微軟研究院的研究者提出了一種多智能體框架 Mora,該框架整合了幾種先進的視覺 AI 智能體,以復(fù)制 Sora 所展示的通用視頻生成能力。特別是,Mora 能夠利用多個視覺智能體,在各種任務(wù)中成功模仿 Sora 的視頻生成能力,例如(1)文本到視頻生成,(2)文本條件下的圖像到視頻生成,(3)擴展生成的視頻,(4)視頻到視頻編輯,(5)連接視頻以及(6)模擬數(shù)字世界。廣泛的實驗結(jié)果表明,Mora 在各種任務(wù)中達到了接近 Sora 的性能。然而,當(dāng)從整體上評估時,Mora 與 Sora 之間存在明顯的性能差距??傊?,研究團隊希望這個項目能夠指導(dǎo)視頻生成的未來軌跡,通過協(xié)作的 AI 智能體實現(xiàn)。


  • 論文鏈接:https://arxiv.org/abs/2403.13248
  • 項目鏈接:https://github.com/lichao-sun/Mora

先來看下 Mora 的視頻生成效果,以文本到視頻生成任務(wù)為例。輸入 prompt:

A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.

水晶般清澈的藍色海洋下,珊瑚礁充滿了生機,色彩繽紛的魚兒在珊瑚間游動,陽光透過水面,水在海洋植物間輕柔地流動。

Mora 的生成結(jié)果:

圖片

輸入 prompt:

In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

浩瀚的沙漠中,一座金色的沙漠之城出現(xiàn)在地平線上,它的建筑融合了古埃及和未來元素。這座城市被輻射能量屏障包圍,在空中,有七道光柱環(huán)繞

Mora 的生成結(jié)果:

圖片

論文講述了自 2022 年 11 月 ChatGPT 發(fā)布以來,生成性 AI 技術(shù)如何標(biāo)志著交互方式和日常生活及產(chǎn)業(yè)各方面的重大轉(zhuǎn)變。盡管圖像生成模型(如 Midjourney、Stable Diffusion 和 DALL-E 3)領(lǐng)先于視覺 AI 領(lǐng)域,但視頻生成技術(shù)相較于圖像生成則發(fā)展較慢。

近期的視頻生成模型雖能產(chǎn)生多樣化和高質(zhì)量的視頻,但在生成超過 10 秒視頻方面能力有限。OpenAI 推出的 Sora 模型開啟了視頻生成的新時代,能將文本提示轉(zhuǎn)換為詳細視頻,展現(xiàn)了復(fù)制物理世界動態(tài)的顯著潛力。Sora 不僅擅長文本到視頻生成,還能執(zhí)行編輯、連接和擴展視頻等多種任務(wù),生成內(nèi)容以多視角透視和忠實于用戶指令的特性著稱。


然而,由于視頻生成模型大多閉源,Sora 等模型的創(chuàng)新給學(xué)術(shù)界帶來挑戰(zhàn),難以復(fù)制或擴展其能力。為此,該工作提出了 Mora,一個多智能體框架,旨在實現(xiàn)類似 Sora 的文本到視頻能力。Mora 通過將視頻生成任務(wù)分解為多個子任務(wù),并為每個子任務(wù)分配專門的智能體來執(zhí)行,例如從文本提示生成圖像、基于條件編輯或細化圖像、從圖像生成制作視頻、連接視頻等。通過這種靈活的智能體合作,Mora 能完成廣泛的視頻生成任務(wù),滿足用戶多樣化需求。該工作希望 Mora 項目能通過協(xié)作的 AI 智能體,引導(dǎo)視頻生成技術(shù)的未來發(fā)展。

方法概述

Mora 是一個面向視頻生成的多智能體框架,它通過將復(fù)雜的工作拆解為更小、更具體的任務(wù),利用不同能力的智能體之間的協(xié)作來解決視頻生成任務(wù)。該框架定義了五種基本角色:文本選擇與生成智能體、文本到圖像生成智能體、圖像到圖像生成智能體、圖像到視頻生成智能體和視頻到視頻智能體。


  • 智能體的定義:

1. 文本選擇與生成智能體:在開始圖像生成之前,文本提示經(jīng)過嚴(yán)格處理和優(yōu)化,使用大型語言模型(如 GPT-4, Llama)精確分析文本,提取關(guān)鍵信息和動作,從而提高結(jié)果圖像的相關(guān)性和質(zhì)量。

2. 文本到圖像生成智能體:這個智能體將豐富的文本描述轉(zhuǎn)換成高質(zhì)量的初始圖像,深入理解并可視化復(fù)雜的文本輸入。

3. 圖像到圖像生成智能體:該智能體根據(jù)特定文本指令修改源圖像,能夠根據(jù)文本的意圖進行詳細識別,并將這些指示轉(zhuǎn)換成視覺上的修改。

4. 圖像到視頻生成智能體:負責(zé)將靜態(tài)圖像轉(zhuǎn)換成連貫的視頻序列,分析圖像的內(nèi)容和風(fēng)格,生成后續(xù)幀以確保時間上的穩(wěn)定性和視覺上的一致性。

5. 視頻到視頻智能體:創(chuàng)建基于用戶提供的兩個輸入視頻的無縫過渡視頻,精準(zhǔn)識別兩個視頻中的共同元素和風(fēng)格,以確保輸出的連貫性和視覺吸引力。

  • 方法:

Mora 框架通過設(shè)定不同智能體的專長和工作方式,精心設(shè)計了六種文本到視頻生成任務(wù),展現(xiàn)了在視頻生成領(lǐng)域的靈活應(yīng)用和高度定制化。這些任務(wù)涵蓋了從基礎(chǔ)的文本直接生成視頻到復(fù)雜的視頻編輯和世界模擬,充分利用了各智能體之間的互動和協(xié)作,為用戶提供了一套全面的視頻生成解決方案。

1. 文本到視頻生成:用戶提供詳細的文本描述,文本到圖像智能體首先根據(jù)這些描述生成初始圖像。然后,圖像到視頻智能體基于此圖像生成一系列連續(xù)幀,逐步展現(xiàn)文本中描述的場景或動作,以形成連貫的視頻。

2. 條件文本圖像到視頻生成:與第一個任務(wù)相似,但區(qū)別在于輸入不僅包括文本描述還包括一個初始圖像。這種方法結(jié)合了文本和圖像的信息,為視頻生成提供了更加豐富和具體的上下文。

3. 擴展生成視頻:此任務(wù)旨在延續(xù)已有視頻的故事線。通過分析輸入視頻的最后一幀,視頻生成智能體生成新的幀序列,無縫擴展視頻內(nèi)容,創(chuàng)造出更長的敘事視頻。

4. 視頻到視頻編輯:通過圖像到圖像智能體對視頻的第一幀進行編輯(根據(jù)用戶的文本提示),然后利用這個編輯過的圖像作為基礎(chǔ),圖像到視頻智能體生成反映所需更改的新視頻序列。這個任務(wù)允許對視頻內(nèi)容進行細微到顯著的修改。

5. 連接視頻:這個任務(wù)使用圖像到視頻智能體,通過分析第一個視頻的最后一幀和第二個視頻的第一幀,創(chuàng)造出一個平滑連接兩個視頻的新視頻,確保過渡自然且內(nèi)容上的連貫性。

6. 模擬數(shù)字世界:專注于創(chuàng)造整個視頻序列在數(shù)字世界風(fēng)格中的體驗。通過在編輯提示中添加特定短語,指示圖像到視頻智能體按照數(shù)字世界的美學(xué)生成視頻序列,或者使用圖像到圖像智能體將現(xiàn)實圖像轉(zhuǎn)換為數(shù)字風(fēng)格,推動視頻生成的邊界,創(chuàng)造出沉浸式的數(shù)字環(huán)境。

每個任務(wù)都體現(xiàn)了 Mora 框架中各智能體的特定職能和它們在處理視頻生成任務(wù)時的互補性,從基本的文本解析到復(fù)雜的視覺轉(zhuǎn)換,再到視頻內(nèi)容的延伸和編輯,為用戶打造了一個多樣化和高效的視頻生成平臺。

實驗

在實驗評估中,該研究采用了多個指標(biāo)來衡量 Mora 的性能,包括視頻質(zhì)量、對象一致性、背景一致性、動態(tài)程度、影像質(zhì)量和時空風(fēng)格一致性等。下面是一些關(guān)鍵的實驗結(jié)果和數(shù)字,這些結(jié)果展現(xiàn)了 Mora 在不同視頻生成任務(wù)中的性能表現(xiàn):

1. 文本到視頻生成:Mora 在視頻質(zhì)量方面得分為 0.792,接近 Sora 的 0.797,表明其生成的視頻質(zhì)量與 Sora 相近。對象一致性得分為 0.95,與 Sora 相等,顯示出在視頻中保持對象外觀的一致性。動態(tài)程度的得分為 0.70,略高于 Sora 的 0.69,這表明 Mora 生成的視頻在展現(xiàn)動態(tài)變化方面有較好的表現(xiàn)。

圖片

2. 文本條件下的圖像到視頻生成:在這個任務(wù)中,Mora 的視頻與文本整合性(VideoTI)得分為 0.88,略低于 Sora 的 0.90,但依然表現(xiàn)出良好的文本理解和視頻生成能力。動態(tài)程度(Dynamic Degree)得分為 0.75,與 Sora 持平,說明 Mora 能夠在此任務(wù)中生成具有活動感的視頻。

圖片

3. 擴展生成的視頻:Mora 在時空一致性(Temporal Consistency)上的得分為 0.94,略低于 Sora 的 0.99,但仍顯示出其能夠有效延續(xù)視頻內(nèi)容的能力。影像質(zhì)量得分為 0.39,顯示出在擴展視頻時保持較高視覺質(zhì)量的能力。

圖片

4. 視頻到視頻編輯:在這個任務(wù)中,Mora 的影像質(zhì)量得分為 0.38,雖然低于 Sora 的 0.52,但考慮到 Mora 是一個開源模型,這一分?jǐn)?shù)仍反映了其在視頻編輯方面的潛力。

圖片

5. 連接視頻:Mora 在連接視頻任務(wù)中的影像質(zhì)量得分為 0.42,低于 Sora 的 0.52。這表明在生成流暢過渡視頻方面,Mora 與 Sora 之間存在一定的性能差距。

圖片

6. 模擬數(shù)字世界:在這項任務(wù)中,Mora 的影像質(zhì)量得分為 0.52,略低于 Sora 的 0.62,但在外觀風(fēng)格(Appearance Style)得分方面與 Sora 持平,均為 0.23。

圖片

這些實驗結(jié)果表明,盡管 Mora 在一些視頻生成任務(wù)中與 Sora 存在性能差距,但在多個方面仍表現(xiàn)出了強大的性能和潛力。特別是,Mora 在文本到視頻生成任務(wù)中表現(xiàn)出了與其他領(lǐng)先模型相當(dāng)?shù)男阅?,同時還具有開放源代碼的優(yōu)勢,為未來的研究和開發(fā)提供了廣闊的可能性。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-03-22 13:05:23

數(shù)據(jù)訓(xùn)練

2024-10-15 17:28:05

2024-04-07 14:56:22

技術(shù)應(yīng)用

2024-02-26 16:55:51

Sora人工智能

2024-02-19 07:58:01

OpenAI模型GPT

2025-02-27 12:44:41

2024-02-19 08:31:10

SoraAIOpenAI

2024-07-23 14:10:48

2024-09-23 15:40:00

2024-12-12 10:00:00

2025-02-26 09:44:14

2024-02-29 15:39:00

AI研究算力

2023-04-03 10:04:44

開源模型

2025-03-05 11:23:44

2024-10-28 07:30:00

2024-04-25 13:14:19

模型數(shù)據(jù)

2024-10-12 12:30:18

2025-01-26 10:50:00

模型視頻生成

2024-02-20 13:09:00

AI視頻
點贊
收藏

51CTO技術(shù)棧公眾號