北大開源首個(gè)針對(duì)視頻編輯的新指標(biāo),與人類感知高度對(duì)齊|AAAI25
視頻生成模型卷得熱火朝天,配套的視頻評(píng)價(jià)標(biāo)準(zhǔn)自然也不能落后。
現(xiàn)在,北京大學(xué)MMCAL團(tuán)隊(duì)開發(fā)了首個(gè)用于視頻編輯質(zhì)量評(píng)估的新指標(biāo)——VE-Bench,相關(guān)代碼與預(yù)訓(xùn)練權(quán)重均已開源。
它重點(diǎn)關(guān)注了AI視頻編輯中最常見的一個(gè)場(chǎng)景:視頻編輯前后結(jié)果與原始視頻之間的聯(lián)系。
例如,在“摘掉女孩的耳環(huán)”的任務(wù)中,需要保留人物ID,源視頻與編輯結(jié)果應(yīng)該有著較強(qiáng)語義相關(guān)性,而在“把女孩換為鋼鐵俠”這樣的任務(wù)中,語義就明顯發(fā)生了改變。
此外,它的數(shù)據(jù)還更加符合人類的主觀感受,是一個(gè)有效的主觀對(duì)齊量化指標(biāo)。
實(shí)驗(yàn)結(jié)果顯示,與FastVQA、StableVQA、DOVER、VE-Bench QA等視頻質(zhì)量評(píng)價(jià)方法相比,VE-Bench QA取得了SOTA的人類感知對(duì)齊結(jié)果:
這到底是怎么做到的呢?
簡(jiǎn)單來說,VE-Bench首先從原始視頻收集、提示詞收集、視頻編輯方法、主觀標(biāo)注4個(gè)方面入手,構(gòu)建了一個(gè)更加豐富的數(shù)據(jù)庫VE-Bench DB。
此外,團(tuán)隊(duì)還提出了創(chuàng)新的測(cè)試方法VE-Bench QA,將視頻的整體效果分成了文字-目標(biāo)一致性、參考源與目標(biāo)的關(guān)系、技術(shù)畸變和美學(xué)標(biāo)準(zhǔn)多個(gè)維度進(jìn)行綜合評(píng)價(jià),比當(dāng)前常用的CLIP分?jǐn)?shù)等客觀指標(biāo)、PickScore等反映人類偏好的指標(biāo)都更加全面。
相關(guān)論文已入選AAAI 2025(The Association for the Advancement of Artificial Intelligence)會(huì)議。
更豐富全面的數(shù)據(jù)庫VE-Bench DB
原始視頻收集
為了確保數(shù)據(jù)多樣性,VE-Bench DB除了收集來自真實(shí)世界場(chǎng)景的視頻,還包括CG渲染的內(nèi)容以及基于文本生成的AIGC視頻。
數(shù)據(jù)來源包括公開數(shù)據(jù)集DAVIS、Kinetics-700、Sintel、Spring的視頻,來自Sora和可靈的AIGC視頻,以及來自互聯(lián)網(wǎng)的補(bǔ)充視頻。
來自互聯(lián)網(wǎng)的視頻包括極光、熔巖等常規(guī)數(shù)據(jù)集缺乏的場(chǎng)景。
所有視頻都被調(diào)整為長(zhǎng)邊768像素,同時(shí)保持其原始寬高比。
由于目前主流視頻編輯方法支持的長(zhǎng)度限制,每段視頻都被裁剪為32幀。
源視頻的具體內(nèi)容構(gòu)成如下圖所示,所有樣本在收集時(shí)均通過人工篩選以保證內(nèi)容的多樣性并減少冗余:
△VE-Bench原始視頻構(gòu)成。(a)視頻來源 (b)視頻類型 (c) 視頻運(yùn)動(dòng)種類 (d) 視頻內(nèi)容種類
提示詞收集
參考過往工作,VE-Bench將用于編輯的提示詞分為3大類別:
- 風(fēng)格編輯(Style editing):包括對(duì)顏色、紋理或整體氛圍的編輯。
- 語義編輯(Semantic editing):包括背景編輯和局部編輯,例如對(duì)某一對(duì)象的添加、替換或移除。
- 結(jié)構(gòu)編輯(Structural editing):包括對(duì)象大小、姿態(tài)、動(dòng)作等的變化。
針對(duì)每個(gè)類別,團(tuán)隊(duì)人工編寫了相應(yīng)的提示詞,對(duì)應(yīng)的詞云與類別構(gòu)成如下:
△VE-Bench提示詞構(gòu)成。(a)詞云 (b)提示詞類型占比統(tǒng)計(jì)
編輯結(jié)果生成
VE-Bench選取了8種視頻編輯方法。
這些方法包括早期的經(jīng)典方法與近期較新的方法,涵蓋從SD1.4~SD2.1的不同版本,包括需要微調(diào)的方法、0-shot的方法、和基于ControlNet、PnP等不同策略編輯的方法。
人類主觀評(píng)價(jià)
在進(jìn)行主觀實(shí)驗(yàn)時(shí),VE-Bench確保了每個(gè)視頻樣本均由24位受試者進(jìn)行打分,符合ITU標(biāo)準(zhǔn)中15人以上的人數(shù)要求。
所參與受試者均在18歲以上,學(xué)歷均在本科及以上,包括商學(xué)、工學(xué)、理學(xué)、法學(xué)等不同的背景,有獨(dú)立的判斷能力。
在實(shí)驗(yàn)開始前,所有人會(huì)線下集中進(jìn)行培訓(xùn),并且會(huì)展示數(shù)據(jù)集之外的不同好壞的編輯例子。
測(cè)試時(shí),受試者被要求根據(jù)其主觀感受,并對(duì)以下幾個(gè)方面進(jìn)行綜合評(píng)價(jià):文本與視頻的一致性、源視頻與目標(biāo)視頻的相關(guān)度以及編輯后視頻的質(zhì)量,分?jǐn)?shù)為十分制。
最后收集得到的不同模型平均得分的箱線圖如下:
△VE-Bench模型得分箱線圖
其中,橫坐標(biāo)表示不同模型ID,縱坐標(biāo)表示Z-score正則化后的MOS (Mean Opinion Score)分?jǐn)?shù)。橘紅色線條表示得分的中位數(shù)。
可以看出,當(dāng)前的大多數(shù)文本驅(qū)動(dòng)的視頻編輯模型中位數(shù)得分普遍在5分左右浮動(dòng),少數(shù)模型的得分中位數(shù)可以達(dá)到近6分,部分模型的得分中位數(shù)不到4分。
模型得分最低分可以下探到不到2分,也有個(gè)別樣本最高可以達(dá)到近9分。
具體每個(gè)樣本在Z-score前后的得分直方圖如下圖所示,可以看出極高分和極低分仍在少數(shù):
△VE-Bench模型得分直方圖
在此基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步繪制了不同視頻編輯模型在VE-Bench提示詞上的表現(xiàn):
△不同視頻編輯模型在VE-Bench中不同類別的提示詞上的表現(xiàn)
可以看出,目前的模型都相對(duì)較為擅長(zhǎng)風(fēng)格化指令,這可能是利用了SD在大量不同風(fēng)格圖片上訓(xùn)練的先驗(yàn)成果。
同時(shí),刪除指令相比于添加得分更低,因?yàn)樗枰~外考慮物體或背景重建等問題,對(duì)模型語義理解與細(xì)粒度特征提取能力有更高要求。
現(xiàn)有模型都還不太擅長(zhǎng)形狀編輯。這方面FateZero模型表現(xiàn)較為優(yōu)秀,這可能與它針對(duì)shape-aware提出的注意力混合方法有關(guān)。
從3個(gè)緯度進(jìn)行評(píng)估的VE-Bench QA
在構(gòu)建的VE-Bench DB的基礎(chǔ)上,團(tuán)隊(duì)還提出了創(chuàng)新的VE-Bench QA訓(xùn)練方法,目標(biāo)是得到與人類感知更加接近的分?jǐn)?shù)。
下面這張圖展示了VE-Bench QA的主要框架:
VE-Bench QA從3個(gè)維度對(duì)文本驅(qū)動(dòng)的視頻編輯進(jìn)行評(píng)估:
- 文本-視頻一致性
為了衡量所編輯視頻是否與文本有關(guān),VE-Bench QA基于BLIP進(jìn)行了有效的視頻-文本相關(guān)性建模,通過在BLIP視覺分支的基礎(chǔ)上加入Temporal Adapter將其擴(kuò)展到三維,并與文本分支的結(jié)果通過交叉注意力得到輸出。
- 源視頻-編輯后視頻動(dòng)態(tài)相關(guān)性
為了更好建模隨上下文動(dòng)態(tài)變化的相關(guān)性關(guān)系,VE-Bench QA在該分支上通過時(shí)空Transformer將二者投影到高維空間,并在此基礎(chǔ)上拼接后利用注意力機(jī)制計(jì)算二者相關(guān)性,最后通過回歸計(jì)算得到相應(yīng)輸出。
- 傳統(tǒng)維度的視覺質(zhì)量方面
VE-Bench QA參考了過往自然場(chǎng)景視頻質(zhì)量評(píng)價(jià)的優(yōu)秀工作DOVER,通過在美學(xué)和失真方面預(yù)訓(xùn)練過后的骨干網(wǎng)絡(luò)輸出相應(yīng)結(jié)果。
最終各個(gè)分支的輸出通過線性層回歸得到最終分?jǐn)?shù)。
實(shí)驗(yàn)結(jié)果顯示,VE-Bench QA在多個(gè)數(shù)據(jù)集上所預(yù)測(cè)的結(jié)果,其與真值的相關(guān)性得分都領(lǐng)先于其他方法:
△VE-BenchQA在T2VQA-DB數(shù)據(jù)集上的結(jié)果
△VE-Bench QA在VE-Bench DB數(shù)據(jù)集上的結(jié)果
論文鏈接:https://arxiv.org/abs/2408.11481
代碼鏈接:https://github.com/littlespray/VE-Bench