18項(xiàng)任務(wù)200萬(wàn)視頻編輯對(duì),云天勵(lì)飛聯(lián)合多高校打造出大規(guī)模編輯數(shù)據(jù)集
目前的視頻編輯算法主要分為兩種:一種是利用 DDIM-Inversion 完成視頻編輯,另一種是利用訓(xùn)練好的編輯模型。然而,前者在視頻的一致性和文本對(duì)齊方面存在較大缺陷;后者由于缺乏高質(zhì)量的視頻編輯對(duì),難以獲得理想的編輯模型。
為了解決視頻編輯模型缺乏訓(xùn)練數(shù)據(jù)的問(wèn)題,本文作者(來(lái)自香港中文大學(xué)、香港理工大學(xué)、清華大學(xué)等高校和云天勵(lì)飛)提出了一個(gè)名為 Se?orita-2M 的數(shù)據(jù)集。該數(shù)據(jù)集包含 200 萬(wàn)高質(zhì)量的視頻編輯對(duì),囊括了 18 種視頻編輯任務(wù)。
數(shù)據(jù)集中所有編輯視頻都是由經(jīng)過(guò)訓(xùn)練的專家模型生成,其中最關(guān)鍵的部分由作者提出的視頻編輯專家模型完成,其余部分則由一些計(jì)算機(jī)視覺(jué)模型標(biāo)注,例如 Grounded-SAM2 和深度圖檢測(cè)模型等。
- 論文標(biāo)題:Se?orita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists
- 論文地址: https://arxiv.org/abs/2502.06734
- 項(xiàng)目地址: https://senorita-2m-dataset.github.io
數(shù)據(jù)分布見(jiàn)下圖。
專家模型的開(kāi)發(fā)和數(shù)據(jù)集的構(gòu)造
除了常見(jiàn)的計(jì)算機(jī)視覺(jué)模型,作者提出的視頻編輯專家模型一共有 4 個(gè),負(fù)責(zé)五種編輯任務(wù)。
第一個(gè)編輯專家模型稱為 Global Stylizer,負(fù)責(zé)對(duì)輸入視頻進(jìn)行風(fēng)格轉(zhuǎn)換,它基于現(xiàn)有的視頻生成基模型開(kāi)發(fā)。
然而,作者發(fā)現(xiàn)視頻生成基模型在接受風(fēng)格信息方面存在不足,因此無(wú)法利用 ControlNet 的思想進(jìn)行風(fēng)格轉(zhuǎn)換。
為了解決這一問(wèn)題,作者首先利用圖像 ControlNet 對(duì)首幀進(jìn)行處理,然后使用視頻 ControlNet 對(duì)剩余的幀進(jìn)行處理,將首幀的風(fēng)格信息推廣到剩余的視頻幀中。在訓(xùn)練過(guò)程中,采用了兩階段策略,并通過(guò)凍結(jié)部分層以降低成本。在第一階段,模型在低分辨率視頻上訓(xùn)練;在第二階段,微調(diào)模型以提高分辨率。
在生成數(shù)據(jù)階段,作者采用 Midjourney 和 Stable Diffusion 常用的 290 種風(fēng)格 prompt,對(duì)視頻進(jìn)行風(fēng)格轉(zhuǎn)換,并使用 LLM 對(duì)風(fēng)格 prompt 轉(zhuǎn)換成指令。
第二個(gè)編輯專家模型稱為 Local Stylizer,與 Global Stylizer 不同的是,它負(fù)責(zé)對(duì)某些物體進(jìn)行風(fēng)格方面的編輯。
由于對(duì)物體進(jìn)行風(fēng)格編輯,不需要接受復(fù)雜的風(fēng)格指令,因此這個(gè)模型不使用首幀引導(dǎo)。除此之外,作者使用與 Global Stylizer 相同的 ControlNet 架構(gòu),并引入了 inpainting 的思想,保證只有物體本身被修改。
在生成數(shù)據(jù)階段,作者采用 LLM 對(duì)物體進(jìn)行改寫(xiě)并產(chǎn)生指令。在獲取新的信息后,使用作者的模型對(duì)物體進(jìn)行重繪。
第三個(gè)專家模型是 Text-guided Video Inpainter,用來(lái)完成物體的替換。
在實(shí)踐中,作者發(fā)現(xiàn)直接開(kāi)發(fā)一個(gè)視頻 inpainter 的效果會(huì)遠(yuǎn)遠(yuǎn)弱于基于首幀引導(dǎo)的視頻 inpainter。因此,作者使用 Flux-Fill 這一高效的圖像 inpainter 對(duì)首幀進(jìn)行處理,并使用作者的 inpainter 對(duì)剩下的視頻進(jìn)行補(bǔ)全。這樣做的好處是將作者的視頻 inpainter 只負(fù)責(zé)將首幀的視頻補(bǔ)全內(nèi)容推廣到剩余的視頻幀,減少了編輯的難度。
為了進(jìn)一步減小視頻標(biāo)注過(guò)程中引入的數(shù)據(jù)噪聲,作者將編輯的視頻作為源視頻,將原始視頻作為目標(biāo)視頻。這樣做的好處是避免基于數(shù)據(jù)集訓(xùn)練的視頻編輯模型學(xué)到扭曲和抖動(dòng)。作者利用 LLM 對(duì)源物體和目標(biāo)物體進(jìn)行組合并產(chǎn)生用于編輯的指令。
第四個(gè)專家模型是 Object Remover。作者用這個(gè)專家模型來(lái)完成物體去除和物體添加兩部分的數(shù)據(jù)構(gòu)造。物體添加任務(wù)為物體去除任務(wù)的逆任務(wù),只需要將標(biāo)注視頻當(dāng)作源視頻,原始視頻當(dāng)作目標(biāo)視頻即可完成數(shù)據(jù)對(duì)的構(gòu)造。
對(duì)于這個(gè)專家模型的構(gòu)造,作者提出了一種反轉(zhuǎn)訓(xùn)練的策略,將訓(xùn)練的 90% 數(shù)據(jù)的 mask 替換為與視頻內(nèi)容無(wú)關(guān)的 mask,訓(xùn)練視頻恢復(fù)的背景和 mask 形狀無(wú)關(guān)。這樣可以有效避免視頻 remover 根據(jù) mask 形狀再次生成物體。
作者還將 10% 的數(shù)據(jù)設(shè)置為和視頻物體嚴(yán)格一致的 mask,這樣可以訓(xùn)練 remover 產(chǎn)生物體,在推理時(shí)將這一條件設(shè)置為負(fù) prompt 來(lái)避免去除區(qū)域內(nèi)的物體的產(chǎn)生。作者使用 LLM 對(duì)使用的 prompt 轉(zhuǎn)換成用于物體去除和物體添加的指令。
除此之外,作者還使用了多種計(jì)算機(jī)視覺(jué)模型對(duì)視頻進(jìn)行標(biāo)注。例如,使用了 Grounded-SAM2 來(lái)標(biāo)注經(jīng)過(guò) Grounding 的視頻,目的是用來(lái)訓(xùn)練模型對(duì)物體的感知能力,幫助編輯模型對(duì)區(qū)域的編輯。作者還使用了其他多種專家模型,這些模型一共標(biāo)注了 13 種視頻編輯任務(wù)。相似的,這些數(shù)據(jù)對(duì)應(yīng)的指令也使用 LLM 進(jìn)行增強(qiáng)。
數(shù)據(jù)集的清洗
為了保證視頻對(duì)的可靠性,作者使用多種過(guò)濾算法對(duì)生成的視頻進(jìn)行清洗。
具體來(lái)講,首先訓(xùn)練了一個(gè)檢測(cè)器用來(lái)檢測(cè)編輯失敗的數(shù)據(jù),去除那些有害的視頻。其次,使用 CLIP 對(duì)文本和視頻的匹配度進(jìn)行檢測(cè),丟棄匹配度過(guò)小的數(shù)據(jù)。最后,比對(duì)了原始視頻和編輯視頻的相似度,丟棄掉沒(méi)有明顯編輯變化的視頻。
基于 Se?orita-2M 數(shù)據(jù)集的編輯模型訓(xùn)練
作者使用 CogVideoX-5B-I2V 作為基模型,利用首幀引導(dǎo)的方式,使用 Se?orita-2M 訓(xùn)練了一個(gè)編輯模型。這個(gè)模型和之前方法的實(shí)驗(yàn)比較結(jié)果表明,基于該數(shù)據(jù)集訓(xùn)練的模型具有更強(qiáng)的一致性、文本視頻對(duì)齊,以及更好的用戶偏好度。
為了進(jìn)一步證明數(shù)據(jù)的有效性,作者做了消融實(shí)驗(yàn),使用了相同數(shù)據(jù)量的 InsV2V 和 Se?orita-2M 視頻對(duì) CogVideoX-5B-T2V 進(jìn)行微調(diào)。結(jié)果發(fā)現(xiàn),使用了 Se?orita-2M 的數(shù)據(jù),可以大大增強(qiáng)文本匹配度。
另外,增加了訓(xùn)練數(shù)據(jù)的數(shù)量后,這些指標(biāo)會(huì)有明顯的改善。這些實(shí)驗(yàn)證明了該數(shù)據(jù)集可以有效地訓(xùn)練出高質(zhì)量的視頻編輯器。更多實(shí)驗(yàn)數(shù)據(jù)詳見(jiàn)表 1。
表 1. 基于 Se?orita-2M 訓(xùn)練的模型和其他編輯方法的對(duì)比
另外,作者還探索了目前的一些編輯架構(gòu),采用和 instruct-pix2pix 以及 controlnet 相同的架構(gòu),并基于 CogVideoX-5B 來(lái)構(gòu)建視頻編輯模型。另外,作者還采用 omni-edit 圖像編輯對(duì)這基于兩個(gè)架構(gòu)的視頻編輯模型進(jìn)行增強(qiáng)。結(jié)果發(fā)現(xiàn),使用圖像數(shù)據(jù)增強(qiáng)的模型會(huì)有更好的文本匹配度以及用戶偏好度。
除此之外,作者還采用了首幀引導(dǎo)的方式進(jìn)行編輯模型。實(shí)驗(yàn)結(jié)果證明,在視頻編輯中,使用 ControlNet 相比于 Instruct-pix2pix 會(huì)有更好的編輯效果,基于首幀引導(dǎo)的編輯模型可以比非首幀引導(dǎo)的模型獲得更好的編輯效果。具體實(shí)驗(yàn)結(jié)果詳見(jiàn)表 2。
表 2. 不同編輯架構(gòu)之間的對(duì)比
總結(jié)
作者訓(xùn)練了一系列視頻編輯專家模型,用它們和其他計(jì)算機(jī)視覺(jué)模型創(chuàng)建了一個(gè)高質(zhì)量的、基于指令的視頻編輯數(shù)據(jù)集。這個(gè)數(shù)據(jù)集中包含了 18 種不同的視頻編輯任務(wù),擁有 200 萬(wàn)的視頻編輯對(duì)。作者使用了一系列的過(guò)濾算法對(duì)產(chǎn)生的數(shù)據(jù)進(jìn)行篩選,并使用 LLM 對(duì)指令進(jìn)行生成和增強(qiáng)。
實(shí)驗(yàn)證明,該數(shù)據(jù)集可以有效地訓(xùn)練出高質(zhì)量的視頻編輯模型,在視覺(jué)效果幀間一致性和文本對(duì)齊度等指標(biāo)上有著較大的提升。除此之外,作者采用了不同的編輯架構(gòu)對(duì)視頻編輯進(jìn)行探索,并得出了一系列結(jié)論。作者還設(shè)計(jì)了消融實(shí)驗(yàn),證明使用相同基礎(chǔ)模型的情況下,使用該數(shù)據(jù)集的數(shù)據(jù)會(huì)大大提升編輯模型的編輯能力。