拒絕復制粘貼!Snap&卡內(nèi)基梅隆提出多主體開集個性化視頻生成新范式Video Alchemist!
文章鏈接:https://arxiv.org/pdf/2501.06187
項目鏈接:https://snap-research.github.io/open-set-video-personalization/
亮點直擊
- 提出了Video Alchemist,這是一種支持前景對象和背景的多主體、開放集合個性化的新型視頻生成模型。
- 精心構(gòu)建了大規(guī)模訓練數(shù)據(jù)集,并引入訓練技術(shù)以降低模型過擬合。
- 引入了 MSRVTT-Personalization,這是一種新的視頻個性化基準,提供多種條件模式并能準確測量主體保真度。
總結(jié)速覽
解決的問題
- 現(xiàn)有視頻個性化生成方法領(lǐng)域有限,無法支持多主體或開放集合的個性化。
- 多數(shù)方法需要耗時的測試時優(yōu)化,僅支持單一主體或前景對象。
- 缺乏包含參考圖像和視頻的開放集合數(shù)據(jù)集,模型難以泛化到新背景或上下文。
- 缺乏適用于多主體視頻個性化的評估基準。
提出的方案
- 提出Video Alchemist,一種支持多主體和開放集合視頻個性化生成的模型,能處理前景對象和背景的個性化生成,無需測試時優(yōu)化。
- 引入Diffusion Transformer 模塊,通過雙重交叉注意力層將參考圖像嵌入和主體級文本提示融入視頻生成過程。
- 設(shè)計自動數(shù)據(jù)構(gòu)建管道,通過目標視頻中提取對象片段并結(jié)合多種數(shù)據(jù)增強技術(shù),增強模型對主體身份的關(guān)注,避免“復制粘貼效應(yīng)”。
- 構(gòu)建MSRVTT-Personalization,一個針對多主體視頻個性化的評估基準,支持多種條件模式下的個性化場景測試。
應(yīng)用的技術(shù)
- Diffusion Transformer 模塊:
- 結(jié)合文本提示和參考圖像嵌入,通過兩層交叉注意力實現(xiàn)主體級融合。
- 多主體條件下,融合每個主體的文本描述與圖像嵌入,實現(xiàn)多主體個性化生成。
- 數(shù)據(jù)增強與數(shù)據(jù)管道:
- 自動提取視頻對象片段,結(jié)合個性化數(shù)據(jù)增強(改變背景、光照、姿態(tài)等)生成多樣化訓練數(shù)據(jù)。
- 評估基準:
- 提出基于 MSRVTT 數(shù)據(jù)集的個性化評估協(xié)議,對多主體場景下的主體保真度逐一評估。
達到的效果
- 在定量和定性評估中顯著優(yōu)于現(xiàn)有個性化方法,實現(xiàn)更高的主體保真度和背景多樣性。
- 通過數(shù)據(jù)增強有效緩解“復制粘貼效應(yīng)”,生成背景、光照和姿態(tài)豐富的視頻內(nèi)容。
- MSRVTT-Personalization 提供全面評估能力,支持多主體、開放集合的個性化場景驗證。
- 模型無需測試時優(yōu)化,生成效率大幅提升,同時擴展了視頻個性化應(yīng)用的領(lǐng)域和復雜性。
方法
本文的目標是學習一個生成性視頻模型,該模型以文本提示和表示提示中每個實體詞的一組圖像為條件。
數(shù)據(jù)集收集
如下圖2所示,通過三個步驟整理數(shù)據(jù)集:
提取實體詞
為了實現(xiàn)多主體個性化,本文使用大語言模型從單個字幕中提取多個實體詞。定義了三種類型的實體詞:主體(例如,人類、動物)、物體(例如,汽車、夾克)和背景(例如,房間、海灘)。主體和物體在視頻中應(yīng)清晰可見。根據(jù)若干標準對訓練數(shù)據(jù)集進行過濾和增強質(zhì)量。例如,排除了字幕中包含復數(shù)形式主體實體詞(例如,一群人、幾只狗)的視頻,以避免個性化中的歧義。此外,還移除了沒有主體實體詞的視頻,因為這些視頻的動態(tài)通常由無意義的攝像機運動主導。
準備主體圖像
從視頻的開頭、中間和結(jié)尾分別選取三幀(位于5%、50%和95%百分位)。此方法的目的是捕捉目標主體或物體在不同姿勢和光照條件下的樣子。隨后,對每幀應(yīng)用 GroundingDINO 檢測邊界框。這些邊界框隨后被SAM用于分割與每個實體對應(yīng)的mask區(qū)域。此外,對于描繪人類的參考圖像,使用人臉檢測 提取人臉區(qū)域。
準備背景圖像
最后,通過移除主體和物體創(chuàng)建一個干凈的背景圖像。由于 SAM 有時會生成不精確的邊界,在應(yīng)用修復算法 之前擴展了前景mask。使用背景實體詞作為正向提示,并使用“任何人類或任何物體、復雜圖案和紋理”作為反向提示。為了確保背景一致性,我們僅使用每個視頻序列的中間幀。
視頻個性化模型
通過文本提示、參考圖像及其對應(yīng)的實體詞作為條件,通過去噪視頻來學習Video Alchemist。
視頻生成骨干
如下圖3所示,本文的模型是一個隱空間擴散Transformer(DiT),首先使用自動編碼器將視頻壓縮為隱空間表示,并使用分詞器將其編碼為1D視頻token序列。添加高斯噪聲以獲得一個噪聲樣本,并遵循修正流公式 [35, 38] 學習去噪網(wǎng)絡(luò)。
本文的網(wǎng)絡(luò)是深度 DiT 塊的級聯(lián)。與普通 DiT 設(shè)計不同,本文的模塊通過結(jié)合文本和圖像條件的信息,支持內(nèi)置個性化功能。DiT 塊包括三層:一層多頭自注意力層,后接兩層分別用于文本和個性化條件的多頭交叉注意力層。采用 RoPE 的位置嵌入和自注意力,因為它在視頻token數(shù)量變化時依然高效。此外,還采用了快速注意力 和融合層規(guī)范來加速模型的訓練和推理。
圖像和詞語概念的綁定
對于多主體個性化,模型可以基于多個主體進行條件生成,每個主體由一個或多個參考圖像表示。因此,為對應(yīng)的文本token和圖像token提供綁定信息至關(guān)重要。如圖6第二行所示,缺乏這種綁定信息時,模型往往會將圖像條件應(yīng)用于錯誤的主體,例如將參考人臉放置到狗身上。
個性化條件
個性化嵌入f用于與視頻token進行交叉注意力計算。盡管IP-Adapter使用單一的解耦交叉注意力層同時處理文本和圖像條件,但通過實驗證明,在本文的場景中使用單獨的交叉注意力層效果更好。這可能是因為多圖像條件引入了更長的圖像token序列。因此,在共享層中混合文本和圖像token會導致圖像token占主導地位,從而削弱與文本提示的對齊。
將模型訓練分為兩個階段。在第一階段,僅使用一個交叉注意力層進行文本條件的訓練。接著,在第二階段引入額外的交叉注意力層以處理個性化條件,并通過熱身方式對整個模型進行微調(diào)。
降低模型過擬合
這種過擬合通常會導致“復制粘貼”效應(yīng),即模型直接在視頻中復制參考圖像,而未引入姿態(tài)和光照變化。這種現(xiàn)象在基于重構(gòu)的方法(例如IP-Adapter )中尤為明顯,如下圖5所示。
為了緩解這些問題,對參考圖像應(yīng)用數(shù)據(jù)增強。使用下采樣和高斯模糊來防止過擬合到圖像分辨率,使用顏色抖動和亮度調(diào)整來緩解光照條件的過擬合,并使用隨機水平翻轉(zhuǎn)、圖像切變和旋轉(zhuǎn)來削弱對主體姿態(tài)的過擬合。關(guān)鍵思想是引導模型關(guān)注主體的身份,而不是學習參考圖像中泄露的非意圖信息。
實驗
本屆介紹了MSRVTT-Personalization,這是一個全面的個性化基準,提供了與最新方法的定量和定性比較,討論了模型訓練和架構(gòu)設(shè)計的消融研究。
MSRVTT-Personalization基準
現(xiàn)有方法[55, 75, 82, 85]通過參考圖像與生成圖像或視頻之間的圖像相似度來評估主體保持性。然而,這些指標在多個主體的情況下效果不佳,因為圖像級別的相似度無法聚焦于目標主體。為了解決這個問題,本文提出了MSRVTT-Personalization,提供了一個更全面且準確的個性化任務(wù)評估。它支持各種條件場景,包括對面部裁剪、單個或多個主體,以及前景物體和背景的條件。
基于MSRVTT構(gòu)建了測試基準,并將數(shù)據(jù)集處理分為三步。首先,使用TransNetV2,一種鏡頭邊界檢測算法,將長視頻分割成多個片段,并應(yīng)用內(nèi)部字幕算法為每個片段創(chuàng)建詳細字幕。接著,為每個視頻-字幕對生成注釋。最后,為了確保數(shù)據(jù)質(zhì)量,手動選擇符合以下標準的樣本:
- 視頻不是沒有實際主體運動的動畫靜態(tài)圖像。
- 視頻不包含大量文本疊加。
- 檢索的主體和物體覆蓋了視頻中的所有主要主體和物體。
- 由修復算法生成的背景圖像成功移除了前景物體,并且沒有生成新的物體。
為了增加數(shù)據(jù)的多樣性,從每個長視頻中選擇一個片段,收集了2130個片段。下圖4顯示了一個標注的測試樣本。
評估指標
理想的個性化視頻輸出應(yīng)該與文本對齊,保持主體的保真度,并展現(xiàn)自然的視頻動態(tài)。因此,使用以下五個指標:
- 文本相似度:文本和生成幀的CLIP ViT-L/14特征之間的余弦相似度。它衡量生成的視頻與文本提示的對齊程度。
- 視頻相似度:真值和生成幀的CLIP ViT-L/14特征之間的平均余弦相似度。
- 主體相似度:參考圖像和生成幀的分割主體之間的DINO ViT-B/16特征的平均余弦相似度。使用Grounding-DINO Swin-T和SAM ViT-B/16進行主體分割。
- 面部相似度:參考面部裁剪和生成面部裁剪之間的ArcFace R100特征的平均余弦相似度。使用YOLOv9-C 檢測生成的面部。
- 動態(tài)程度:連續(xù)生成幀之間的光流大小。使用RAFT計算光流。
請注意,缺少主體或面部的視頻幀會被分配一個相似度得分為0。該基準將公開發(fā)布,網(wǎng)址為snap-research.github.io/MSRVTT-Personalization。
與現(xiàn)有方法的比較
本節(jié)將Video Alchemist與現(xiàn)有的個性化模型在MSRVTT-Personalization基準上進行定量和定性比較。
實驗設(shè)置
廣泛比較了多種個性化模型,包括文本到圖像模型、文本到視頻模型,以及基于優(yōu)化的方法和基于編碼器的方法。由于現(xiàn)有方法使用不同類型的條件圖像,我們引入了兩種評估模式:主體模式和面部模式。主體模式使用完整的主體圖像作為輸入,而面部模式僅使用面部裁剪圖像。對于主體模式,收集了1,736個包含單一主體的測試視頻;對于面部模式,收集了1,285個包含單一面部裁剪的測試視頻。
對于文本到圖像模型,將輸出圖像視為單幀視頻。對于基于優(yōu)化的模型,使用官方代碼庫中的默認超參數(shù)進行微調(diào)。對于IP-Adapter,使用IP-Adapter-FaceID+的檢查點。如果模型支持多個參考圖像,會分別使用單一和多個輸入圖像進行評估。我們還在主體模式下,通過額外輸入背景參考圖像來評估本文的模型。
MSRVTT-Personalization上的定量評估
下表1顯示了定量評估結(jié)果。與現(xiàn)有的開放集個性化方法相比,Video Alchemist在主體保真度上取得了更高的成績,主體相似度比VideoBooth高出23.2%。與此同時,本文的模型在文本對齊和視頻動態(tài)方面取得了最佳成績。本文的開放集模型在面部保真度上超過了面部特定模型,比IP-Adapter高出11.3%的面部相似度。
此外,當提供更多參考圖像時,Video Alchemist可以生成更高保真度的目標主體或面部,展示了多圖像條件的優(yōu)勢。此外,通過利用額外的背景參考圖像,Video Alchemist能夠合成更接近真值視頻的輸出,突出了背景條件的有效性。然而,更多的參考圖像有時會導致較差的文本對齊,這可能是由于更多參考圖像帶來的靈活性有限。
MSRVTT-Personalization上的定性評估
在前面圖5中,展示了不同方法生成的視頻與真值視頻的對比。與現(xiàn)有模型相比,本文的方法生成了更具真實感的視頻,并且目標主體的保真度更高。
人類評估
為了補充自動化評估,進行了一項用戶研究,評估視覺質(zhì)量和主體保真度。分別從主體模式和面部模式中隨機選擇200個測試樣本,并將條件圖像和生成結(jié)果展示給5位參與者。對于每個樣本,參與者需要選擇出最能保留主體細節(jié)并具有最佳視覺質(zhì)量的結(jié)果。
下表2總結(jié)了結(jié)果。本文的方法在視覺質(zhì)量和主體保真度上顯著優(yōu)于現(xiàn)有的最先進方法。值得注意的是,人類評估的保真度評分與表1中的主體相似度和面部相似度評分呈正相關(guān),展示了所提的MSRVTT-Personalization的有效性。
消融研究
本節(jié)展示了三種訓練或架構(gòu)選擇的消融研究。定量和定性評估分別顯示在表3和圖6中。
不同的圖像編碼器使用兩種圖像編碼器訓練模型,分別是CLIP和DINOv2,并發(fā)現(xiàn)CLIP在文本相似度方面表現(xiàn)更好,而DINOv2在主體相似度方面表現(xiàn)更佳。我們假設(shè),DINOv2采用自監(jiān)督學習目標進行訓練,能夠捕捉獨特的物體特征。相比之下,CLIP旨在連接視覺和文本模態(tài),重點關(guān)注通常在提示中描述的細節(jié),這可以改善文本與圖像的對齊效果。
圖像與詞匯概念綁定的必要性
本文提出了一種機制,將圖像的概念與相應(yīng)的實體詞匯綁定。如果沒有這樣的綁定,模型可能會錯誤地將圖像條件應(yīng)用于錯誤的主體。例如,模型將一個參考人臉放置在狗身上,如下圖6第二行所示。這種錯位也會導致主體缺失和主體相似度降低。
數(shù)據(jù)增強的效果
本文引入了數(shù)據(jù)增強來減少模型的過擬合。如果沒有數(shù)據(jù)增強,模型會遭遇復制粘貼問題。雖然這有助于實現(xiàn)更高的主體相似度,但卻會降低動態(tài)度,并減少文本相似度。盡管圖6中的提示是“女人在微笑...”,第三行的合成主體并沒有微笑。相反,它復制了參考圖像中的相同面部表情。
結(jié)論
本文提出了Video Alchemist,這是一種支持多主體和開放集個性化功能的視頻個性化模型,能夠處理前景物體和背景,而無需在測試時進行優(yōu)化。該模型基于一個擴散Transformer模塊,通過交叉注意力層將條件圖像與其主體級別的提示進行整合。通過我們的數(shù)據(jù)集策劃和數(shù)據(jù)增強,我們減少了模型在參考圖像上不希望出現(xiàn)的過擬合現(xiàn)象。此外,我們還提出了一個新的基準,用于評估個性化模型在各種條件下的表現(xiàn)。實驗結(jié)果表明,本文的方法在定量和定性度量上均優(yōu)于現(xiàn)有方法。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
