能訓(xùn)出SOTA模型的優(yōu)質(zhì)數(shù)據(jù)集發(fā)布!復(fù)旦最新VidGen-1M: 文生視頻還得靠好數(shù)據(jù)
論文鏈接:https://arxiv.org/pdf/2408.02629
項(xiàng)目鏈接:https://sais-fuxi.github.io/projects/vidgen-1m/
git鏈接:https://github.com/SAIS-FUXI/VidGen
亮點(diǎn)直擊
- 引入了一個專門用于訓(xùn)練文本到視頻模型的高質(zhì)量視頻數(shù)據(jù)集。
- 提出了一種多階段策展方法,在有限計算資源下實(shí)現(xiàn)精準(zhǔn)且高質(zhì)量的數(shù)據(jù)策展。
- 發(fā)布了本文的文本到視頻模型,該模型生成的高質(zhì)量視頻在性能上超越了當(dāng)前最先進(jìn)的方法。
視頻-文本對的質(zhì)量從根本上決定了文本到視頻模型的上限。目前,用于訓(xùn)練這些模型的數(shù)據(jù)集存在顯著缺陷,包括低時間一致性、低質(zhì)量的字幕、低質(zhì)量的視頻以及數(shù)據(jù)分布不平衡?,F(xiàn)行的視頻策展過程依賴于圖像模型進(jìn)行標(biāo)記和基于規(guī)則的人工策展,導(dǎo)致計算負(fù)擔(dān)高且數(shù)據(jù)不干凈。因此,缺乏適合文本到視頻模型的訓(xùn)練數(shù)據(jù)集。為了解決這個問題,本文提出了VidGen-1M,這是一個優(yōu)質(zhì)的文本到視頻模型訓(xùn)練數(shù)據(jù)集。通過粗到細(xì)的策展策略生成,該數(shù)據(jù)集保證了高質(zhì)量的視頻和具有優(yōu)良時間一致性的詳細(xì)字幕。在用于訓(xùn)練視頻生成模型時,該數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果超越了使用其他模型所獲得的結(jié)果。
方法
在構(gòu)建VidGen的過程中,本文利用了來自HD-VILA數(shù)據(jù)集的380萬高分辨率、長時段視頻。隨后,這些視頻被分割成1.08億個視頻片段。接下來,本文對這些視頻片段進(jìn)行了標(biāo)注和采樣。然后,使用VILA模型進(jìn)行視頻字幕生成。最后,為了糾正前幾個步驟中的數(shù)據(jù)整理錯誤,本文部署了LLM進(jìn)行進(jìn)一步的字幕整理。
粗略策展
為了在有限的計算資源下實(shí)現(xiàn)高效的數(shù)據(jù)整理,本文首先采用粗略的整理方法。這包括場景分割、視頻標(biāo)注、過濾和采樣,以減少后續(xù)字幕生成和精細(xì)整理階段的計算負(fù)擔(dān)。
場景分割
運(yùn)動不一致性,例如場景變化和漸變,常常在原始視頻中出現(xiàn)。然而,由于運(yùn)動不一致性直接切斷了視頻語義,文本到視頻模型對其非常敏感并容易混淆,導(dǎo)致訓(xùn)練效率大幅降低。為了減輕這種影響,本文遵循之前的研究,以級聯(lián)方式利用 PySceneDetect 檢測和移除原始視頻中的場景轉(zhuǎn)換。
標(biāo)注
構(gòu)建適合訓(xùn)練文本到視頻模型的數(shù)據(jù)集需要滿足以下標(biāo)準(zhǔn):高質(zhì)量視頻、類別平衡和視頻內(nèi)的強(qiáng)時間一致性。為了實(shí)現(xiàn)這一目標(biāo),本文首先需要對每個分割的視頻片段進(jìn)行標(biāo)注。隨后,這些標(biāo)簽將作為策劃和采樣的基礎(chǔ)。
視頻質(zhì)量 視頻的視覺質(zhì)量對于高效訓(xùn)練文本到視頻模型至關(guān)重要。為了提高文本到視頻生成中生成視頻的質(zhì)量,本文采用了一種策略,過濾掉低美學(xué)吸引力和高OCR分?jǐn)?shù)的視頻。在這種情況下,本文采用LAION美學(xué)模型來預(yù)測和評估美學(xué)分?jǐn)?shù),從而確保訓(xùn)練數(shù)據(jù)的高質(zhì)量。特別是,美學(xué)模型還可以過濾掉視覺異常的視頻,例如色彩分布不規(guī)則或視覺元素奇怪的視頻。
時間一致性 視頻中的錯誤場景分割會顯著影響模型訓(xùn)練的效果。高時間一致性是訓(xùn)練文本到視頻模型所需的關(guān)鍵特征。為確保這一點(diǎn),本文利用CLIP模型提取視覺特征并評估時間一致性。通過計算視頻片段的起始幀和結(jié)束幀之間的余弦相似度來實(shí)現(xiàn)這一評估,從而提供連續(xù)性和一致性的定量衡量。
類別 HD-VILA-100M視頻數(shù)據(jù)集在其類別上顯示出顯著的不平衡,導(dǎo)致這些類別的視頻生成模型性能不佳。為了解決這個問題,本文使用預(yù)定義的類別標(biāo)簽來標(biāo)注每個視頻,并借助CLIP模型。具體來說,本文從每個視頻的初始、中間和最終幀中提取CLIP圖像特征,計算它們的平均值,然后確定這些平均圖像特征與每個標(biāo)簽相關(guān)的文本特征之間的相似性。這種方法使本文能夠?yàn)槊總€視頻分配最合適的標(biāo)簽。
運(yùn)動 本文采用RAFT模型來預(yù)測視頻的光流分?jǐn)?shù)。由于靜態(tài)視頻和運(yùn)動過快的視頻都會對訓(xùn)練文本到視頻模型產(chǎn)生不利影響,本文根據(jù)光流分?jǐn)?shù)過濾掉這些視頻。
采樣
通過使用與視覺質(zhì)量、時間一致性、類別和運(yùn)動相關(guān)的標(biāo)簽,本文進(jìn)行了過濾和采樣任務(wù)。下圖2所展示的數(shù)據(jù)集中多個維度的數(shù)據(jù)分布清晰表明,低質(zhì)量、靜態(tài)場景、運(yùn)動速度過快以及文本與視頻不匹配且時間一致性差的視頻被系統(tǒng)地移除。同時,本文確保了在不同類別中樣本的相對均勻分布。
字幕
視頻字幕的質(zhì)量對文本到視頻模型有著至關(guān)重要的影響,而HD-VILA-100M數(shù)據(jù)集中的字幕存在一些問題,包括文本與視頻之間的不匹配、描述不充分以及詞匯使用有限。為了提高字幕的信息密度,本文采用了最先進(jìn)的視覺語言模型VILA。由于VILA在視頻字幕生成方面的卓越能力,本文顯著提升了字幕的質(zhì)量。在生成字幕后,本文使用CLIP評分來過濾出文本與視頻相似度較低的對。本文在下表2中展示了詞匯分析,其中有效的不同名詞和有效的不同動詞是指在數(shù)據(jù)集中出現(xiàn)超過10次的詞匯。利用VILA模型對HD-VILA-100M數(shù)據(jù)集進(jìn)行處理后,本文生成了增強(qiáng)版的HD-VILA-100M數(shù)據(jù)集。在Panda-70M數(shù)據(jù)集中,有270K個不同的名詞和76K個不同的動詞;然而,只有16.1%和19.2%的名詞和動詞分別符合有效性標(biāo)準(zhǔn)。使用VILA生成的字幕顯著提高了有效比例以及每個視頻中名詞和動詞的平均數(shù)量,從而增加了概念密度。
精細(xì)策展
在粗略策展和字幕生成階段,使用CLIP評分過濾文本-圖像對齊和時間一致性可以去除一些不一致的數(shù)據(jù),但并不完全有效。因此,在視頻字幕中會出現(xiàn)一些問題,如場景轉(zhuǎn)換,以及兩種典型的描述錯誤:
- 生成eos標(biāo)記失敗,即模型未能正確終止生成過程,導(dǎo)致循環(huán)或重復(fù)的標(biāo)記生成
- 幀級生成,即模型缺乏對幀之間動態(tài)關(guān)系的理解,為每個幀生成孤立的描述,導(dǎo)致字幕缺乏連貫性,無法準(zhǔn)確反映視頻的整體故事情節(jié)和動作序列。
為了解決上述數(shù)據(jù)策劃問題,一種潛在的解決方案是人工注釋,但這種方法成本過高。隨著大型語言模型的最新進(jìn)展,這個問題可以得到解決??梢允褂谜Z言模型(LLM)分析特定模式,如場景轉(zhuǎn)換、重復(fù)內(nèi)容和幀級描述,來識別多模態(tài)語言模型(MLLM)生成的字幕中的錯誤。像LLAMA3這樣的模型在這些任務(wù)中表現(xiàn)出色,使其成為人工注釋的可行替代方案。
在本文努力隔離和去除在文本-視頻對齊和時間一致性方面存在差異的視頻-文本配對時,利用了先進(jìn)的語言模型(LLM)LLAMA3.1來審查各自的字幕。精細(xì)策劃的應(yīng)用顯著提高了文本-視頻對的質(zhì)量,如下圖3所示。研究主要圍繞三個關(guān)鍵因素展開:場景轉(zhuǎn)換(ST)、幀級生成(FLG)和重復(fù)(Redup)。
實(shí)驗(yàn)
實(shí)施細(xì)節(jié)
為了評估本文文本到視頻訓(xùn)練數(shù)據(jù)集的有效性,本文使用基礎(chǔ)模型進(jìn)行了全面評估,該模型由空間和時間注意力塊組成。為了加速訓(xùn)練過程,本文最初在大量低分辨率256X256圖像和視頻上進(jìn)行了廣泛的預(yù)訓(xùn)練。隨后,本文使用512X512像素分辨率的圖像和4秒視頻在本文的 VidGen-1M 數(shù)據(jù)集上進(jìn)行了聯(lián)合訓(xùn)練。
實(shí)驗(yàn)結(jié)果
定性評估
如下圖4所示,本文模型生成高質(zhì)量視頻的能力證明了高分辨率VidGen-1M數(shù)據(jù)集的穩(wěn)健性。該數(shù)據(jù)集的高質(zhì)量體現(xiàn)在生成視頻的真實(shí)感和細(xì)節(jié)上,進(jìn)一步證明了其在訓(xùn)練本文模型方面的有效性。本文生成的視頻一個顯著特點(diǎn)是其強(qiáng)大的“提示跟隨”能力,這是訓(xùn)練數(shù)據(jù)中視頻-文本對高度一致性的直接結(jié)果。這種一致性確保了模型能夠準(zhǔn)確解釋文本提示,并生成具有高保真度的相應(yīng)視頻內(nèi)容。第一個例子進(jìn)一步強(qiáng)調(diào)了VidGen-1M數(shù)據(jù)集的高質(zhì)量。生成的視頻展示了驚人的真實(shí)感——從潛水員在水下漂浮的頭發(fā)到氣泡的運(yùn)動。這些細(xì)節(jié)展示了顯著的時間一致性,并遵循現(xiàn)實(shí)世界的物理規(guī)律,突顯了模型生成可信且視覺上準(zhǔn)確的視頻內(nèi)容的能力。
VidGen-1M數(shù)據(jù)集的質(zhì)量對計算機(jī)視覺領(lǐng)域,特別是文本到視頻生成,有著深遠(yuǎn)的影響。通過提供高分辨率和時間一致性的訓(xùn)練數(shù)據(jù),VidGen-1M使模型能夠生成更真實(shí)和高質(zhì)量的視頻。這可以推動視頻生成技術(shù)的發(fā)展,突破當(dāng)前的可能性界限。此外,VidGen-1M提供的高質(zhì)量數(shù)據(jù)可能會簡化模型訓(xùn)練過程。借助更準(zhǔn)確和詳細(xì)的訓(xùn)練數(shù)據(jù),模型可以更有效地學(xué)習(xí),可能減少對大量計算資源和耗時訓(xùn)練周期的需求。通過這種方式,VidGen-1M不僅改善了文本到視頻生成的結(jié)果,還促進(jìn)了更高效和可持續(xù)的模型訓(xùn)練實(shí)踐。
結(jié)論
在本文中介紹了一個高質(zhì)量的視頻-文本數(shù)據(jù)集,該數(shù)據(jù)集具有高視頻質(zhì)量、高字幕質(zhì)量、高時間一致性和高視頻-文本對齊度,專門用于訓(xùn)練文本到視頻生成模型。上述各種高質(zhì)量特性源于本文精心設(shè)計的數(shù)據(jù)策展過程,該過程以粗到細(xì)的方式高效地確保了數(shù)據(jù)質(zhì)量。為了驗(yàn)證VidGen-1M的有效性,在其上訓(xùn)練了一個文本到視頻生成模型。結(jié)果令人鼓舞,訓(xùn)練在VidGen-1M上的模型在零樣本UCF101上取得了顯著更好的FVD分?jǐn)?shù),與最先進(jìn)的文本到視頻模型相比有明顯提升。
本文轉(zhuǎn)自 AI生成未來 ,作者:Zhiyu Tan等
