長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架
文章鏈接:https://arxiv.org/pdf/2408.11788
亮點(diǎn)直擊
- 多agent協(xié)作與關(guān)鍵幀迭代:提出了DreamFactory框架,模擬AI虛擬電影制作團(tuán)隊(duì),利用多agent協(xié)作進(jìn)行腳本編寫、角色設(shè)計(jì)等,并引入關(guān)鍵幀迭代設(shè)計(jì)方法以保持視頻段落的一致性。
- 監(jiān)控機(jī)制與圖像數(shù)據(jù)庫:通過引入監(jiān)控角色和集成圖像向量數(shù)據(jù)庫,確保了長視頻生成過程中的圖像一致性和穩(wěn)定性。
- 優(yōu)異的評估結(jié)果:在UTF-101和HMDB51數(shù)據(jù)集上測試,DreamFactory生成的視頻在質(zhì)量上顯著優(yōu)于傳統(tǒng)方法,同時(shí)超越了網(wǎng)絡(luò)上現(xiàn)有AI生成短視頻的平均質(zhì)量。
目前的視頻生成模型在創(chuàng)建短小、逼真的片段方面表現(xiàn)出色,但在生成較長的多場景視頻時(shí)存在困難。本文介紹了DreamFactory,這是一種基于大語言模型(LLM)的框架,旨在解決這一挑戰(zhàn)。DreamFactory利用了多智能體協(xié)作的原則,并采用關(guān)鍵幀迭代設(shè)計(jì)方法,確保長視頻中的一致性和風(fēng)格。它使用了鏈?zhǔn)剿季S(COT)來解決大語言模型中固有的不確定性問題。DreamFactory能夠生成長度較長、風(fēng)格一致且復(fù)雜的視頻。對這些長視頻的評估也是一個(gè)挑戰(zhàn)。同時(shí)提出了新的指標(biāo),如跨場景人臉距離評分和跨場景風(fēng)格一致性評分。為了進(jìn)一步推動(dòng)這一領(lǐng)域的研究,本文貢獻(xiàn)了包含150多個(gè)經(jīng)過人工評分的視頻的多場景視頻數(shù)據(jù)集。DreamFactory為在視頻生成中利用多智能體系統(tǒng)開辟了道路。
DreamFactory
DreamFactory框架利用多個(gè)大語言模型(LLM)來構(gòu)建一個(gè)模擬的動(dòng)畫公司,分配CEO、導(dǎo)演和創(chuàng)作者等角色。給定一個(gè)故事后,這些角色通過社交互動(dòng)和合作來創(chuàng)建視頻。該框架使LLM能夠通過使用小型視頻生成模型作為工具來完成龐大的任務(wù),從而模擬現(xiàn)實(shí)世界。
角色定義
在模擬動(dòng)畫公司DreamFactory的架構(gòu)中,包含以下角色:CEO、電影導(dǎo)演、制片人、編劇、制片人和評論員。在DreamFactory框架內(nèi),這些角色與現(xiàn)實(shí)世界中的相似,承擔(dān)確定電影風(fēng)格、編寫劇本和繪畫等職責(zé)。
角色定義提示主要包括三部分:職位、任務(wù)和要求。例如,電影創(chuàng)作者的定義提示包括以下內(nèi)容:(a)你是電影美術(shù)總監(jiān)?,F(xiàn)在,都在Dream Factory工作……(b)你的工作是根據(jù)導(dǎo)演給出的場景生成圖片……以及(c)你必須遵守現(xiàn)實(shí)世界的規(guī)則,如顏色不變……。對于情節(jié)討論等任務(wù),也限制其討論輪次不能超過特定數(shù)量(根據(jù)用戶的設(shè)置和公司的規(guī)模定義)。使用以下提示來確保這一點(diǎn):"你告訴我你的想法和故事,應(yīng)該集思廣益并互相批評對方的想法。在討論超過5個(gè)想法后,任何一方都必須主動(dòng)終止討論,選擇最佳風(fēng)格,并以一個(gè)單詞<INFO>回復(fù),后跟最新的風(fēng)格決定,例如卡通風(fēng)格。"
在下圖3的面板(a)和(b)中,展示了角色被定義和啟動(dòng)角色扮演的示意圖。整個(gè)公司的完整架構(gòu)在圖8中得到了全面介紹。對于每個(gè)角色,定義了一張角色卡片,包括:
1)角色名稱放在每張卡片的左上角;
2)角色所涉及的階段放在卡片的右上角;
3)在每張角色卡片上,展示了角色所參與的對話和協(xié)作角色;
4)在卡片的右側(cè)展示了角色的中間輸出;
5)最后,將對話之外的相應(yīng)文件或內(nèi)容放在卡片的底部。
DreamFactory框架流程
本節(jié)介紹DreamFactory的具體流程。下圖2展示了主要階段并指出了哪些agent參與了對話。在深入探討整個(gè)流程之前,有必要首先概述其基本組成部分:階段和對話。如上圖3所示,階段代表一個(gè)完整的過程,它以一些文本或圖像內(nèi)容作為輸入。由GPT組成的agent通過角色扮演、討論和協(xié)作來處理這些輸入,最終產(chǎn)生一些輸出。對話是一個(gè)階段的基本單元,通常一個(gè)階段包含多輪對話。在固定的對話輪次之后,一個(gè)階段接近結(jié)束,此時(shí)DreamFactory會保存該階段生成的某些中間結(jié)論,這些結(jié)論是希望保留的。例如,在“風(fēng)格決策”階段,最終的結(jié)論將被保留。此外,在后續(xù)的階段中,DreamFactory將提供必要的前期成果,例如在后續(xù)設(shè)計(jì)關(guān)鍵幀時(shí)調(diào)用之前的風(fēng)格和腳本。
最近發(fā)現(xiàn),大語言模型的能力受限于有限的推理能力,就像在現(xiàn)實(shí)生活中,過于復(fù)雜的情況會導(dǎo)致粗心和混亂。因此,該框架在視頻領(lǐng)域的主要思想是將長視頻的創(chuàng)作分解為特定的階段,允許特定的大型模型扮演指定的角色,發(fā)揮其在分析具體問題上的強(qiáng)大能力。就像現(xiàn)實(shí)生活中的電影制作公司一樣,DreamFactory采用經(jīng)典的工作流程,從劇本創(chuàng)作開始,隨后是繪圖。總體而言,框架涵蓋了六個(gè)主要階段:任務(wù)定義、風(fēng)格決策、故事提示、腳本設(shè)計(jì)和關(guān)鍵幀設(shè)計(jì)。最后一個(gè)階段,即關(guān)鍵幀迭代設(shè)計(jì)的方法將在下一節(jié)介紹;此方法用于保持各階段生成圖像的一致性和連續(xù)性。在前四個(gè)階段中,角色是通過對話進(jìn)行的。
關(guān)鍵幀迭代設(shè)計(jì)
在生成長視頻時(shí),最具挑戰(zhàn)性的問題是視頻由一系列長序列的圖像集合組成。因此,在生成時(shí),模型需要保持長期一致的記憶,以確保模型生成的每一幀都能連貫地組成一致的視頻。這種記憶包括兩種類型:短期記憶知識和長期記憶系統(tǒng)。
短期記憶知識 嵌入在固定場景的視頻中。在相鄰幀之間,每一幀中的動(dòng)畫應(yīng)保持連貫,角色應(yīng)統(tǒng)一,顏色、風(fēng)格等不應(yīng)有顯著變化。目前,最新的視頻模型在短期記憶方面表現(xiàn)非常好。然而,仍然添加了一個(gè)監(jiān)控器,以監(jiān)督視頻模型是否表現(xiàn)足夠出色。如下圖4所示,每一幀生成后都有一個(gè)審查過程。因此,為了保持短期一致性,引入的監(jiān)督機(jī)制解決了這個(gè)問題。
長期記憶系統(tǒng) 則是困擾大多數(shù)當(dāng)前模型的挑戰(zhàn),也是當(dāng)今視頻生成領(lǐng)域最緊迫的問題。特別是在基于GPT的全自動(dòng)多智能體框架中,大語言模型固有的隨機(jī)性和漂移現(xiàn)象使得這一問題難以解決。長期記憶意味著在場景轉(zhuǎn)換之間,模型應(yīng)能夠保持繪圖風(fēng)格、角色連續(xù)性和敘事流程的一致性。為了維持長期記憶,引入了關(guān)鍵幀迭代設(shè)計(jì)方法,通過指導(dǎo)生成連續(xù)一致的圖像,將長期記憶轉(zhuǎn)化為短期記憶,并在每一步中迭代前進(jìn)生成。如上圖4所示,展示了每次迭代的過程。
在實(shí)際應(yīng)用中,控制角色的細(xì)節(jié)是最具挑戰(zhàn)性的方面。因此,在研究者們精心修改的提示下,特別強(qiáng)調(diào)了在多次實(shí)驗(yàn)中表現(xiàn)不佳的部分,關(guān)鍵幀迭代方法現(xiàn)在能夠生成非常一致且具有實(shí)際價(jià)值的一系列圖像。
實(shí)驗(yàn)
傳統(tǒng)視頻質(zhì)量評估
評估指標(biāo) - 為了驗(yàn)證關(guān)鍵幀的連續(xù)性和框架生成視頻的質(zhì)量,在架構(gòu)中嵌入了各種工具模型(如Runway、Diffusion、GPT)來評估由不同工具生成的視頻的質(zhì)量。在實(shí)驗(yàn)中,主要采用了以下評估指標(biāo):
(1) Fréchet Inception Distance (FID) 分?jǐn)?shù):衡量生成圖像與真實(shí)圖像之間的相似性。
(2) Inception Score (IS):評估生成圖像的質(zhì)量和多樣性。
(3) CLIP 分?jǐn)?shù):評估生成圖像的文本描述準(zhǔn)確性。
(4) Fréchet Video Distance (FVD) 分?jǐn)?shù):FID在視頻上的擴(kuò)展,通過Fréchet距離比較真實(shí)視頻與合成視頻的特征分布。
(5) Kernel Video Distance (KVD):利用核函數(shù)比較真實(shí)視頻與合成視頻的特征分布。
在常規(guī)階段,數(shù)據(jù)集包括由實(shí)驗(yàn)人員從COCO數(shù)據(jù)集中隨機(jī)選擇的70個(gè)關(guān)鍵詞和簡短句子的常規(guī)提示。這被用于評估基本工具模型生成的圖像質(zhì)量以及圖像與文本之間的對齊程度。在腳本階段,腳本填充階段使用了從提供的數(shù)據(jù)集中隨機(jī)提取的70個(gè)任務(wù)相關(guān)的腳本。這引導(dǎo)了模型根據(jù)相關(guān)情節(jié)生成內(nèi)容,以評估DreamFactory框架中“動(dòng)畫部門”的功能。DreamFactory標(biāo)簽表示框架生成的與腳本對應(yīng)的關(guān)鍵幀圖像。
輸出質(zhì)量統(tǒng)計(jì) - 使用DALL·E和Diffusion等模型生成的圖像質(zhì)量較高,達(dá)到了各項(xiàng)指標(biāo)的最新水平。為了定量分析生成圖像的質(zhì)量,將與原始提示對應(yīng)的圖像輸入GPT以獲得GPT腳本,然后使用原始提示或GPT腳本作為提示生成1400張圖像,從中計(jì)算FID、IS和CLIP分?jǐn)?shù)。至于FVD和KVD,從多場景視頻數(shù)據(jù)集中選擇了100個(gè)樣本,并手動(dòng)提取了每個(gè)樣本的10個(gè)關(guān)鍵幀,這些關(guān)鍵幀可用于生成多尺度視頻。
下表1中的數(shù)據(jù)表明,使用腳本生成的圖像質(zhì)量平均比使用普通提示詞生成的圖像更為精細(xì)。這可能歸因于GPT作為提示的有效性,并且當(dāng)代模型通常擅長處理較長的提示。然而,在DreamFactory框架中,關(guān)鍵幀迭代設(shè)計(jì)與故事板創(chuàng)建、角色詳細(xì)描述、場景設(shè)置、光照和風(fēng)格確定的結(jié)合應(yīng)用,顯著提高了圖像生成的質(zhì)量。下表2中也顯示出視頻質(zhì)量的類似提升。
多場景視頻評估得分
跨場景面部距離得分 (Cross-Scene Face Distance Score, CSFD Score) - 在連續(xù)視頻的生成中,角色一致性是首要問題。角色外觀的不一致不僅會導(dǎo)致糟糕的視覺效果,還可能讓觀眾難以理解劇情和內(nèi)容。保持角色的一致性確保了圍繞角色展開的故事情節(jié)的連貫性,并增強(qiáng)了視頻的視覺吸引力。尤其是在長時(shí)長視頻領(lǐng)域,一個(gè)視頻通常由多個(gè)場景組成。這是一個(gè)前所未有的研究領(lǐng)域,迫切需要強(qiáng)有力的評估指標(biāo)來評估跨復(fù)雜多場景視頻中角色出現(xiàn)的一致性。在此背景下,實(shí)驗(yàn)性地引入了跨場景面部距離得分(CSFD Score)的概念,旨在驗(yàn)證不同場景中角色面部特征一致性的問題。在計(jì)算過程中,每個(gè)關(guān)鍵幀對應(yīng)一個(gè)面部,并使用dlib庫提取面部位置。通過面部識別庫可以計(jì)算相似度得分。對于每一幀的面部部分,可以計(jì)算其與后續(xù)所有幀的相似度,然后取平均值。通過這種方法,可以準(zhǔn)確地確定視頻中的面部是否一致。相關(guān)的示意圖和計(jì)算的偽代碼在下面算法1中提供。
跨場景風(fēng)格一致性得分 (Cross-Scene Style Consistency Score, CSSC Score) - 在長視頻的制作中,保持風(fēng)格一致性同樣重要。一個(gè)一致的風(fēng)格使視頻看起來像一個(gè)連貫的整體?;谶@一概念,研究者們引入了跨場景風(fēng)格一致性得分(CSSC Score)。然而,目前還沒有成熟的方法來快速確定視頻的風(fēng)格,因此在這一階段,將依賴于大語言視覺模型的輔助。本質(zhì)上,將視頻分為幾類,包括:動(dòng)畫、插畫、折紙、油畫、寫實(shí)主義、賽博朋克和水墨畫。
跨場景風(fēng)格 - 一致性分?jǐn)?shù)的計(jì)算方法如下:對于每個(gè)關(guān)鍵幀,使用由GPT-4V扮演的分類器來確定分類。一旦所有場景都被明確分為不同類別,計(jì)算最多數(shù)量類別的關(guān)鍵幀占總關(guān)鍵幀數(shù)的比例。下圖6展示了一個(gè)部分輸出,輸入為“現(xiàn)實(shí)生活中一位老人制作傳統(tǒng)的中國燈籠”。場景4展示了一個(gè)使用Dalle生成的動(dòng)畫燈籠,由GPT-4V擔(dān)任分類器??梢杂^察到,在四個(gè)場景中,前三個(gè)被歸類為寫實(shí)風(fēng)格,而第四個(gè)場景被分類為動(dòng)漫風(fēng)格。因此,不同風(fēng)格的最大數(shù)量為三,導(dǎo)致跨場景風(fēng)格一致性分?jǐn)?shù)為75%。其他相關(guān)的示意圖和計(jì)算的偽代碼在算法2中提供。
平均關(guān)鍵幀CLIP分?jǐn)?shù) - 在生成多場景的長視頻時(shí),評估每個(gè)場景的關(guān)鍵幀與對應(yīng)文本的一致性至關(guān)重要。為確保一致性,它們?nèi)谌肓舜罅款~外信息,這可能在生成過程中導(dǎo)致與文本的偏差。這可能導(dǎo)致整體視頻未能遵循腳本。因此,本節(jié)提出了平均關(guān)鍵幀CLIP分?jǐn)?shù),以確保關(guān)鍵幀場景與腳本的一致性。計(jì)算方法很簡單:計(jì)算每個(gè)關(guān)鍵幀相對于場景提示期間生成場景的CLIP分?jǐn)?shù),并取平均值。
結(jié)果 - 在下表3中,本文的數(shù)據(jù)選擇包括來自多場景視頻數(shù)據(jù)集的70個(gè)以角色為中心的條目,這些條目由DreamFactory框架、GPT-4和DALL-E 3生成?;鶞?zhǔn)模型使用了DALL-E 3,并輸入了來自相同數(shù)據(jù)段的腳本。評估主要集中在以下三個(gè)指標(biāo)上:
(1)跨場景面部距離分?jǐn)?shù)(CSFD)
(2)跨場景風(fēng)格一致性分?jǐn)?shù)(CSSC)
(3)平均關(guān)鍵幀CLIP分?jǐn)?shù)。
這些指標(biāo)用于評估框架內(nèi)面部特征的一致性、場景屬性的一致性以及框架生成的提示與敘事和圖像之間的對齊情況。
在跨場景人臉距離評分實(shí)驗(yàn)中,使用了??face-recognition?
??庫中的面部定位方法,來定位68個(gè)面部標(biāo)志點(diǎn),從而將肖像照片集中在面部區(qū)域。在圖像編碼階段,使用了來自??openai-clip?
?庫的ViT模型對面部區(qū)域進(jìn)行輸入,并計(jì)算向量表示。隨后,通過向量點(diǎn)積操作來確定最終的面部距離分?jǐn)?shù)。由于面部圖像之間的固有相似性,所有的分?jǐn)?shù)大多都在0.5以上。具體的參考面部匹配分?jǐn)?shù)對如下圖7所示。在對CSSC分?jǐn)?shù)和平均CLIP分?jǐn)?shù)的分析中,使用了相同的一組隨機(jī)選取的七十個(gè)樣本作為數(shù)據(jù)。CSSC分?jǐn)?shù)使用了GPT-4版本作為風(fēng)格分析器。
結(jié)論
本文引入了DreamFactory:一個(gè)基于多agent的長視頻生成框架。DreamFactory將多agent的理念引入視頻生成領(lǐng)域,能夠生成一致、連貫且引人入勝的長視頻。DreamFactory引入了關(guān)鍵幀迭代設(shè)計(jì)方法,以確保不同幀之間風(fēng)格、角色和場景的一致性,并且可以基于任何圖像或視頻生成工具構(gòu)建。此外,DreamFactory還提出了新的評估指標(biāo),通過跨場景面部和風(fēng)格一致性以及文本到視覺的對齊來驗(yàn)證其能力。在測試集上,DreamFactory框架能夠?qū)崿F(xiàn)高度一致的連續(xù)故事生成,標(biāo)志著這一領(lǐng)域的重大突破。
本文轉(zhuǎn)自 AI生成未來 ,作者:Zhifei Xie等
