視覺文本視頻生成最強(qiáng)方案!Text-Animator效果確實(shí)好!
文章鏈接:https://arxiv.org/pdf/2406.17777
github鏈接:laulampaul.github.io/text-animator.html
視頻生成在游戲、電子商務(wù)和廣告等各行業(yè)中都是一個(gè)具有挑戰(zhàn)性但至關(guān)重要的任務(wù)。在文本到視頻(T2V)生成領(lǐng)域中,有效地在生成的視頻中視覺文本是一個(gè)尚未解決的重要方面。盡管在文本到視頻生成方面取得了一些進(jìn)展,但現(xiàn)有的方法仍然無法直接在視頻中有效地視覺文本,因?yàn)樗鼈冎饕性诳偨Y(jié)語義場(chǎng)景信息、理解和描繪動(dòng)作。雖然最近在圖像級(jí)別的視覺文本生成方面的進(jìn)展顯示出了一些希望,但將這些技術(shù)轉(zhuǎn)移到視頻領(lǐng)域面臨著一些問題,特別是在保持文本保真度和運(yùn)動(dòng)一致性方面。
本文提出了一種名為Text-Animator的創(chuàng)新方法,用于視覺文本視頻生成。Text-Animator包含一個(gè)文本embedding注入模塊,可以精確地描繪生成視頻中視覺文本的結(jié)構(gòu)。此外,還開發(fā)了一個(gè)攝像機(jī)控制模塊和一個(gè)文本優(yōu)化模塊,通過控制攝像機(jī)運(yùn)動(dòng)和視覺文本的運(yùn)動(dòng)來提高生成的視覺文本的穩(wěn)定性。定量和定性實(shí)驗(yàn)結(jié)果表明,Text-Animator在生成視覺文本的準(zhǔn)確性方面優(yōu)于最先進(jìn)的視頻生成方法。
主要貢獻(xiàn)可以概括為:
- 提出了Text-Animator,這是一種新穎的方法,可以在視頻中生成視覺文本并保持生成視覺文本的結(jié)構(gòu)一致性。這是首次嘗試解決視覺文本視頻生成問題。
- 為Text-Animator開發(fā)了一個(gè)文本embedding注入模塊,可以精確描繪視覺文本的結(jié)構(gòu)信息。此外,還提出了一個(gè)攝像機(jī)控制和文本優(yōu)化模塊,以準(zhǔn)確控制攝像機(jī)運(yùn)動(dòng)和生成視覺文本的運(yùn)動(dòng),從而提高生成的穩(wěn)定性。
- 大量實(shí)驗(yàn)表明,Text-Animator在生成視覺文本的準(zhǔn)確性方面,比現(xiàn)有的文本到視頻和圖像到視頻的生成方法有顯著的優(yōu)勢(shì)。
方法
本節(jié)首先介紹Text-Animator的流程。然后分別介紹關(guān)鍵組件的詳細(xì)信息。
文本條件的視頻生成流程
首先,介紹下網(wǎng)絡(luò)的整體框架,如下圖2所示。
文本embedding注入模塊
在生成包含視覺文本的視頻時(shí),首先需要考慮的是如何將所需文本的視覺特征有效地embedding到基礎(chǔ)模型(預(yù)訓(xùn)練的UNet模型)中。受到之前在圖像中視覺文本方法的啟發(fā),通過結(jié)合文本框的位置和渲染的字形,將文本條件embedding到潛在空間中。文本框指示了在生成的圖像中進(jìn)行渲染的位置,而渲染的字形利用現(xiàn)有的字體樣式(即‘Arial Unicode’)來預(yù)初始化字符的樣式。此外,與圖像生成不同,視頻生成涉及跨多個(gè)幀處理特征。為了利用用于圖像生成的預(yù)訓(xùn)練特征提取器,使用逐幀特征提取器從每個(gè)幀中提取特征,然后在輸入預(yù)訓(xùn)練UNet模型之前連接這些特征。
穩(wěn)定文本生成的攝像機(jī)控制
在引入文本embedding注入模塊后,Text-Animator現(xiàn)在能夠生成視覺文本視頻,并使文本隨場(chǎng)景移動(dòng)。然而,這種文本移動(dòng)有時(shí)會(huì)與視頻中物體的移動(dòng)脫節(jié)。例如,在提示“寫有‘STOP’的標(biāo)志”中,“STOP”部分可能會(huì)向右移動(dòng),而標(biāo)志則向左移動(dòng)。為了生成更穩(wěn)定的視頻,需要設(shè)計(jì)額外的控制模塊。因此,建議使用攝像機(jī)位姿信息來控制文本的移動(dòng),并確保與場(chǎng)景內(nèi)容的一致性。本節(jié)主要討論如何將攝像機(jī)位姿信息embedding到基礎(chǔ)模型中。
輔助文本字形和位置優(yōu)化
為了實(shí)現(xiàn)攝像機(jī)控制模塊與文本embedding注入模塊之間的協(xié)作,有必要使用視頻中的攝像機(jī)位置信息作為指導(dǎo),通過考慮第一幀的指導(dǎo)來生成后續(xù)幀的位置圖和字形圖。生成方法如下:
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
選擇AnimateDiffV3作為基礎(chǔ)文本到視頻(T2V)模型。模型的運(yùn)動(dòng)模塊權(quán)重使用AnimateDiffV3進(jìn)行初始化。其他部分的權(quán)重使用DreamShaper或原始的SD1.5進(jìn)行初始化。攝像機(jī)控制網(wǎng)和文本及位置控制網(wǎng)的訓(xùn)練方法和數(shù)據(jù)集使用[11]和[27]中的方法。最后,將所有部分整合并固定參數(shù)進(jìn)行推理。G和P的圖像尺寸分別設(shè)置為1024×1024和512×512。擴(kuò)展尺寸e設(shè)置為1.2。在采樣過程中,隨機(jī)選擇一些提示語(如“這些文本寫在上面:xxx”)并將它們連接到標(biāo)題上。推理步驟和指導(dǎo)尺度分別設(shè)置為25和7.5。最終,模型輸出尺寸為16×256×384的視頻。
數(shù)據(jù)集和指標(biāo)
由于缺乏用于視覺文本生成評(píng)估的文本到視頻數(shù)據(jù)集,使用AnyText-benchmark的LAION子集來評(píng)估視覺文本視頻生成的效果。然而,在該數(shù)據(jù)集中,有些圖像的文本和主要內(nèi)容是分開的,而有些圖像只有文本沒有任何圖像內(nèi)容,這對(duì)于視頻生成是沒有意義的。因此,從數(shù)據(jù)集中選擇了約90張圖像組成測(cè)試集,命名為LAION子集。
首先,需要評(píng)估文本生成的準(zhǔn)確性和質(zhì)量。根據(jù)論文[27],采用了句子準(zhǔn)確率(Sen. Acc)指標(biāo),其中每一行生成的文本根據(jù)指定位置裁剪并輸入OCR模型以獲得預(yù)測(cè)結(jié)果。此外,使用歸一化編輯距離(NED)來衡量?jī)蓚€(gè)字符串之間的相似性。為了確保Text-Animator具有更好的視頻生成能力,利用弗里切特embedding距離(FID)來評(píng)估生成視頻與真實(shí)視頻之間的視頻外觀質(zhì)量。此外,還采用了提示相似性和幀相似性指標(biāo)。前者評(píng)估輸入描述與輸出視頻之間的語義相似性,后者評(píng)估生成視頻的連貫性。
定量結(jié)果
定量結(jié)果如下表1所示。比較方法分為兩部分。第一部分是特定圖像視覺文本生成工作的組合(GlyphControl和 Anytext)+ 最先進(jìn)的圖像到視頻(I2V)工作(AnimateLCM,I2VGEN-XL)。第二部分是一階段方法。使用Animatediff-SDXL作為基礎(chǔ)模型,并使用CIVIAI的兩個(gè)微調(diào)lora權(quán)重,分別表示為Animatediff-SDXL(Text Lora A)1和Animatediff-SDXL(Text Lora B)2。這兩個(gè)lora權(quán)重使用一些具有視覺文本的圖像進(jìn)行微調(diào)。從表1可以看出,這些方法的參數(shù)比Text-Animator大得多(超過41%)。
此外,Text-Animator在生成視覺文本的準(zhǔn)確性方面顯著優(yōu)于其他方法,根據(jù)評(píng)價(jià)指標(biāo)Sen. ACC和NED(分別比最佳方法高出191.8%和30.4%)。這反映了本文方法生成文本的準(zhǔn)確性,且生成的視頻中文本沒有崩潰。對(duì)于衡量生成視頻與輸入文本相似度的指標(biāo)(FID和Prompt相似度),Text-Animator取得了第二好的結(jié)果。在提示相似度方面,與最佳方法的差距僅為0.6%。在衡量視頻穩(wěn)定性和幀相似度的指標(biāo)上,Text-Animator取得了第二好的結(jié)果。觀察到,最佳方法Pika傾向于生成移動(dòng)較小的視頻,使其在該指標(biāo)上具有優(yōu)勢(shì)。
此外,在下表2中,還與Open-SORA和最近的三個(gè)最先進(jìn)API,Morph Studio,Pika 和Gen-2進(jìn)行了比較。Open-SORA和Morph Studio沒有Sen. ACC得分,因?yàn)樗鼈儫o法生成正確的句子或單詞。Text-Animator在Sen. ACC方面顯著優(yōu)于其他方法,并且在NED方面也表現(xiàn)優(yōu)于其他方法。
定性結(jié)果
研究者們首先將本文模型與文本到視頻生成領(lǐng)域的最先進(jìn)T2V模型或API進(jìn)行比較(包括ModelScope、SVD(Stable Video Diffusion)、AnimatedDiff、Open-SORA和Pika),如下圖3所示。這些模型展示了對(duì)上下文的理解能力,但無法生成特定文本并保持文本一致性。與SVD相比,本文的模型不僅能準(zhǔn)確渲染每個(gè)字符(本文的:‘HELLO’ vs SVD:‘HELO’或Pika:‘HHLLLO’),而且還能保持一致性。SVD未能學(xué)習(xí)文本的運(yùn)動(dòng)信息,導(dǎo)致文本隨著時(shí)間的推移變得越來越混亂。
至于與特定視覺文本生成工作的比較,由于目前沒有專門為視覺文本生成設(shè)計(jì)的T2V工作,將Text-Animator與特定T2I工作的組合(如GlyphControl和Anytext)和最先進(jìn)的I2V工作(如AnimateLCM、I2VGen-XL和SVD )進(jìn)行對(duì)比。如下圖4所示,Text-Animator在生成文本與背景的整合方面表現(xiàn)優(yōu)越,而Anytext無法生成海邊背景。當(dāng)使用I2V方法從參考幀圖像生成視頻時(shí),文本部分往往會(huì)變得模糊或扭曲。Text-Animator很好地保持了文本部分的清晰度,并與圖像內(nèi)容協(xié)調(diào)移動(dòng)。
此外,在下圖5中,展示了LAION子集數(shù)據(jù)集的一個(gè)示例。只有Text-Animator能夠正確顯示視覺字符(CHRISTMAS)和包的數(shù)量(兩個(gè))。
同時(shí),還進(jìn)行了實(shí)驗(yàn)以驗(yàn)證本文方法的魯棒性。在下圖6中,展示了Text-Animator在文本區(qū)域大幅移動(dòng)時(shí)的魯棒性。現(xiàn)有的SOTA方法在小幅移動(dòng)期間變形了文本區(qū)域(如上例所示),因此這些方法的可視化結(jié)果未在此展示。這兩個(gè)示例的文本分別為“帶有‘cafe’字樣的辦公室桌上的咖啡杯”和“帶有‘MILK’字樣的牛奶瓶”。移動(dòng)方向從右到左??梢钥吹?,即使在大范圍的相機(jī)移動(dòng)下,Text-Animator仍然能夠保持文本的結(jié)構(gòu)。
下圖7展示了在相同的相機(jī)信息下,通過采樣間隔幀的相機(jī)信息,可以控制其移動(dòng)速度。即使在原速的4倍或6倍速度下,Text-Animator仍然能夠保持文本的結(jié)構(gòu)。
消融研究
在這一部分中,為了說明本文方法的貢獻(xiàn),在LAION子集上進(jìn)行了消融研究。定量比較結(jié)果如表3所示。
雙重控制: 進(jìn)行了消融研究以分析雙重控制設(shè)計(jì)的有效性。一般來說,僅使用位置框進(jìn)行引導(dǎo)而不使用相機(jī)姿態(tài)是可行的。因此,設(shè)計(jì)了“沒有相機(jī)控制”的模型,該模型相對(duì)于原始模型去掉了相機(jī)引導(dǎo)模塊。此外,還移除了位置塊,僅使用相機(jī)姿態(tài)和字形embedding,并將此模型命名為“沒有位置控制”。在上表3中,可以看到,在NED指標(biāo)上,“沒有相機(jī)控制”模型的性能比原始模型下降了0.016,而“沒有位置控制”模型的性能比原始模型下降了0.027。
位置精細(xì)化和擴(kuò)展尺寸: 研究者們還進(jìn)行了實(shí)驗(yàn),以分析提出的精細(xì)化模塊的有效性。當(dāng)移除視頻位置精細(xì)化時(shí),使用LAION子集中的默認(rèn)位置,并在上表3中將模型表示為“沒有位置精細(xì)化”??梢钥吹剑褂媚J(rèn)位置會(huì)降低準(zhǔn)確性。此外,還進(jìn)行了適當(dāng)擴(kuò)展尺寸的實(shí)驗(yàn)。嘗試了兩個(gè)擴(kuò)展系數(shù):0.9(小于1.2)和1.4(大于1.2)。可以觀察到,雖然較小的擴(kuò)展系數(shù)提高了視頻中文本的準(zhǔn)確性,但對(duì)視頻生成的質(zhì)量產(chǎn)生了負(fù)面影響。另一方面,較大的擴(kuò)展系數(shù)導(dǎo)致一些字符在視頻中重復(fù)出現(xiàn),從而降低了文本的準(zhǔn)確性。
結(jié)論
本文提出了Text-Animator,一種創(chuàng)新的方法,用于解決在視覺文本視頻生成領(lǐng)域中將文本元素有效地集成到生成視頻中的挑戰(zhàn)。Text-Animator不僅強(qiáng)調(diào)文本的語義理解,還注重細(xì)粒度的文本語義,確保視覺文本在動(dòng)態(tài)集成到視頻內(nèi)容中的同時(shí)保持運(yùn)動(dòng)連貫性。Text-Animator引入了雙重控制機(jī)制——相機(jī)和位置控制,以同步文本動(dòng)畫與視頻運(yùn)動(dòng),從而增強(qiáng)文本元素與視頻場(chǎng)景之間的統(tǒng)一性和協(xié)調(diào)性。通過廣泛的定量和視覺實(shí)驗(yàn),證明了Text-Animator在視頻質(zhì)量和文本表示的保真度方面優(yōu)于現(xiàn)有的T2V和混合T2I/I2V方法。
本文的貢獻(xiàn)不僅解決了當(dāng)前的挑戰(zhàn),還激發(fā)了對(duì)這一快速發(fā)展的多媒體內(nèi)容生成領(lǐng)域的進(jìn)一步探索和創(chuàng)新。
本文轉(zhuǎn)自 AI生成未來,作者:Lin Liu等
