自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒

發(fā)布于 2025-2-27 12:26
瀏覽
0收藏

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2502.15894 項(xiàng)目鏈接:https://riflex-video.github.io/ 


亮點(diǎn)直擊

  • 通過(guò)分析現(xiàn)有方法的失敗模式并揭示位置嵌入中各個(gè)頻率成分的作用,提供了對(duì)視頻長(zhǎng)度外推的全面理解。
  • 提出了RIFLEx,一種簡(jiǎn)單而有效的解決方案,通過(guò)適當(dāng)降低內(nèi)在頻率來(lái)減少重復(fù),且無(wú)需任何額外修改。
  • RIFLEx提供了一種真正的“免費(fèi)午餐”——在最先進(jìn)的視頻擴(kuò)散Transformer上以完全無(wú)需訓(xùn)練的方式實(shí)現(xiàn)高質(zhì)量的2倍外推。此外,通過(guò)少量微調(diào)且無(wú)需長(zhǎng)視頻,它進(jìn)一步提升了質(zhì)量并實(shí)現(xiàn)了3倍外推。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

  1. 生成長(zhǎng)視頻的挑戰(zhàn):現(xiàn)有的視頻生成模型在生成長(zhǎng)視頻時(shí)面臨時(shí)間一致性差的問(wèn)題,容易出現(xiàn)時(shí)間重復(fù)或運(yùn)動(dòng)減速的現(xiàn)象。
  2. 長(zhǎng)度外推技術(shù)的不足:現(xiàn)有的長(zhǎng)度外推方法在應(yīng)用于視頻生成時(shí)表現(xiàn)不佳,導(dǎo)致時(shí)間重復(fù)和運(yùn)動(dòng)減速。

提出的方案

  1. RIFLEx方法:提出了一種名為RIFLEx(Reducing Intrinsic Frequency for Length Extrapolation)的方法,通過(guò)降低內(nèi)在頻率來(lái)抑制時(shí)間重復(fù),同時(shí)保持運(yùn)動(dòng)一致性。
  2. 訓(xùn)練自由和微調(diào):RIFLEx在2倍外推時(shí)無(wú)需任何訓(xùn)練即可實(shí)現(xiàn)高質(zhì)量視頻生成,而在3倍外推時(shí)僅需少量微調(diào)。

應(yīng)用的技術(shù)

  1. 頻率成分分析:通過(guò)隔離和調(diào)整位置嵌入中的頻率成分,發(fā)現(xiàn)高頻成分導(dǎo)致時(shí)間重復(fù),低頻成分導(dǎo)致運(yùn)動(dòng)減速。
  2. 內(nèi)在頻率調(diào)整:識(shí)別并降低內(nèi)在頻率,確保外推后頻率保持在一個(gè)周期內(nèi),從而抑制重復(fù)并保持運(yùn)動(dòng)一致性。
  3. 擴(kuò)散Transformer:應(yīng)用了擴(kuò)散Transformer(diffusion transformers)技術(shù),結(jié)合了擴(kuò)散模型的可擴(kuò)展性和Transformer的表達(dá)能力。

達(dá)到的效果

  1. 高質(zhì)量視頻生成:RIFLEx在2倍外推時(shí)實(shí)現(xiàn)了高質(zhì)量、自然的視頻生成,且無(wú)需額外訓(xùn)練。
  2. 3倍外推:通過(guò)少量微調(diào),RIFLEx進(jìn)一步提升了樣本質(zhì)量,并實(shí)現(xiàn)了3倍外推。
  3. 廣泛驗(yàn)證:在多個(gè)先進(jìn)的視頻擴(kuò)散Transformer(如CogVideoX-5B和HunyuanVideo)上進(jìn)行了廣泛實(shí)驗(yàn),驗(yàn)證了RIFLEx的有效性。
  4. 空間外推:RIFLEx還可以同時(shí)應(yīng)用于空間域,擴(kuò)展視頻時(shí)長(zhǎng)和空間分辨率。

方法

本文目標(biāo)是全面理解并解決視頻長(zhǎng)度外推問(wèn)題。首先強(qiáng)調(diào)了現(xiàn)有方法的失敗模式,分析了位置嵌入中不同頻率成分的作用,并識(shí)別了一個(gè)內(nèi)在頻率?;诖?,推導(dǎo)出了內(nèi)在頻率。作為副產(chǎn)品,本文方法不僅為現(xiàn)有方法在視頻外推中的失敗提供了理論解釋,還為圖像空間外推提供了見(jiàn)解。

現(xiàn)有方法的失敗模式

盡管“外推”一詞在不同領(lǐng)域被廣泛使用,但它在視頻生成中的作用與文本和圖像有根本不同。在視頻生成中,目標(biāo)是創(chuàng)建新的、時(shí)間上連貫的內(nèi)容,并使其隨時(shí)間平滑演變。相比之下,文本外推主要是擴(kuò)展上下文窗口,而圖像外推通常涉及添加高分辨率細(xì)節(jié),而不是生成有意義的新內(nèi)容。


因此,為文本和圖像開(kāi)發(fā)的外推策略在視頻長(zhǎng)度外推中失敗,并表現(xiàn)出有趣的失敗模式,如圖2所示。為了更好地理解這些模式,還在圖像空間外推中進(jìn)行了對(duì)比實(shí)驗(yàn),揭示了與視頻的相似之處。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

  • PE(直接擴(kuò)展位置編碼超出訓(xùn)練范圍)會(huì)導(dǎo)致時(shí)間重復(fù),使視頻循環(huán)播放而不是自然推進(jìn)(圖2a)。在圖像生成中,類似現(xiàn)象表現(xiàn)為空間重復(fù),而不是生成新內(nèi)容。
  • PI(Chen et al., 2023b)將位置編碼壓縮在訓(xùn)練范圍內(nèi),導(dǎo)致運(yùn)動(dòng)變慢,通過(guò)拉伸幀時(shí)間來(lái)實(shí)現(xiàn)(圖2b)。雖然這種方法保持了結(jié)構(gòu)一致性,但缺乏時(shí)間上的新穎性。在圖像生成中,這會(huì)導(dǎo)致細(xì)節(jié)模糊而不是新內(nèi)容(圖2e)。
  • 如圖2c所示,NTK也會(huì)引起時(shí)間重復(fù),無(wú)法生成有意義的運(yùn)動(dòng)進(jìn)展。在圖像生成中,它會(huì)導(dǎo)致空間重復(fù)(圖2f)。雖然其他方法(Peng et al., 2023; Lu et al., 2024b; Zhuo et al., 2024)在實(shí)現(xiàn)上與NTK不同,但它們都不可避免地遭受這兩種失敗模式中的一種或兩種:要么是運(yùn)動(dòng)減速,要么是內(nèi)容重復(fù)。


除了揭示這些局限性外,本文的發(fā)現(xiàn)還提供了對(duì)位置嵌入如何從根本上塑造時(shí)間運(yùn)動(dòng)的直觀理解,這為在下一節(jié)中的頻率成分分析提供了動(dòng)機(jī)。

RoPE中的頻率成分分析

首先分析了RoPE(Su et al., 2021)中各個(gè)頻率成分的作用。為了簡(jiǎn)化,專注于時(shí)間軸并省略下標(biāo)。我們通過(guò)將其他頻率成分置零來(lái)隔離特定頻率成分,并在目標(biāo)模型的訓(xùn)練長(zhǎng)度上進(jìn)行微調(diào),以適應(yīng)修改后的RoPE。通過(guò)這一分析,得出了兩個(gè)關(guān)鍵見(jiàn)解。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

給定訓(xùn)練L長(zhǎng)度,時(shí)間重復(fù)的次數(shù)可以量化為:

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

令人驚訝的是,盡管N在不同視頻中存在輕微變化,但同一模型生成的不同視頻中,這種內(nèi)在頻率保持一致。例如,CogVideoX-5B的k為2,而HunyuanVideo的k為4。


在極少數(shù)情況下,如果模型在不同視頻中表現(xiàn)出不一致的內(nèi)在頻率,建議將所有此類頻率視為內(nèi)在頻率。我們的初步實(shí)驗(yàn)進(jìn)一步驗(yàn)證了這一假設(shè),表明將所有低頻成分納入我們的方法中仍能保持強(qiáng)大的性能,詳見(jiàn)附錄E的討論。

降低內(nèi)在頻率:一種最小化解決方案

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

我們進(jìn)一步研究了RIFLEx是否需要微調(diào)。令人驚訝的是,對(duì)于2倍外推,RIFLEx可以在無(wú)需訓(xùn)練的情況下生成高質(zhì)量視頻,如圖4所示。僅使用20,000個(gè)原始長(zhǎng)度視頻和1/50,000的預(yù)訓(xùn)練計(jì)算量進(jìn)行微調(diào),可以進(jìn)一步增強(qiáng)動(dòng)態(tài)質(zhì)量和視覺(jué)質(zhì)量。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

對(duì)于3倍外推,內(nèi)在頻率的變化過(guò)大,導(dǎo)致無(wú)需訓(xùn)練的RIFLEx失效。然而,微調(diào)過(guò)程仍然成功,如圖4所示。

現(xiàn)有方法的理論解釋

我們的發(fā)現(xiàn)為第3.1節(jié)中觀察到的失敗模式提供了理論解釋。在PE和NTK中觀察到的重復(fù)現(xiàn)象源于它們的內(nèi)在頻率成分違反了公式(8)中的非重復(fù)條件。因此,生成的視頻內(nèi)容循環(huán)播放而不是自然推進(jìn)。


PI和YaRN通過(guò)對(duì)高頻成分進(jìn)行插值導(dǎo)致運(yùn)動(dòng)變慢,而這些成分對(duì)快速運(yùn)動(dòng)至關(guān)重要。在這些方法中,這些成分被除,因此無(wú)法生成快速運(yùn)動(dòng)。TASR結(jié)合了上述兩種方法,導(dǎo)致時(shí)間重復(fù)和運(yùn)動(dòng)減速的混合。更多細(xì)節(jié)和實(shí)驗(yàn)請(qǐng)參見(jiàn)附錄C。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

我們描述了數(shù)據(jù)集和評(píng)估設(shè)置,具體實(shí)現(xiàn)細(xì)節(jié)見(jiàn)表3(見(jiàn)附錄D)。


數(shù)據(jù)集:我們使用一個(gè)包含20,000個(gè)視頻的私有數(shù)據(jù)集進(jìn)行微調(diào)。對(duì)于CogVideoX-5B,我們采用VBench的提示詞,以確保與之前的工作(Yang et al., 2024)一致。由于HunyuanVideo的高計(jì)算成本,我們使用100個(gè)跨多個(gè)類別的多樣化提示詞對(duì)其進(jìn)行評(píng)估。

評(píng)估指標(biāo):根據(jù)之前的工作(Huang et al., 2024; Yang et al., 2024),我們使用圖像質(zhì)量(Imaging Quality)、動(dòng)態(tài)程度(Dynamic Degree)主體一致性(Subject Consistency)來(lái)評(píng)估視頻生成,分別衡量視覺(jué)質(zhì)量、運(yùn)動(dòng)幅度和時(shí)間一致性。此外,我們引入了無(wú)重復(fù)分?jǐn)?shù)(NoRepeat Score),分?jǐn)?shù)越高表示重復(fù)越少(詳見(jiàn)附錄D)。我們還進(jìn)行了包含10名參與者的用戶研究,評(píng)估視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量和整體偏好。運(yùn)動(dòng)質(zhì)量反映了重復(fù)和慢動(dòng)作的情況。用戶在所有外推方法中對(duì)偏好進(jìn)行排名,允許并列。我們還對(duì)正常樣本和RIFLEx的結(jié)果進(jìn)行了成對(duì)比較。更多細(xì)節(jié)見(jiàn)附錄D。

性能比較

結(jié)果:定量結(jié)果總結(jié)在表1中。我們的方法在整體性能上表現(xiàn)優(yōu)異,生成了新的時(shí)間內(nèi)容,同時(shí)不損害視頻質(zhì)量的其他方面。例如,在CogVideoX-5B中,PI和YaRN因慢動(dòng)作問(wèn)題導(dǎo)致動(dòng)態(tài)程度較低,而PE和NTK因重復(fù)問(wèn)題導(dǎo)致無(wú)重復(fù)分?jǐn)?shù)較低。通過(guò)有效解決這兩個(gè)挑戰(zhàn),我們的方法顯著提升了運(yùn)動(dòng)質(zhì)量,并在用戶研究中在所有方法中排名最高。


值得注意的是,NTK在HunyuanVideo的2倍外推中表現(xiàn)良好,但我們的分析將其歸因于意外的內(nèi)在頻率降低,恰好滿足了公式(8)中的非重復(fù)條件,而非其設(shè)計(jì)機(jī)制。這一點(diǎn)在NTK在CogVideo-X和HunyuanVideo的2.3倍外推中失敗時(shí)尤為明顯,反映在表1中的低無(wú)重復(fù)分?jǐn)?shù)上。


定性結(jié)果如圖5所示(HunyuanVideo),CogVideoX-5B的額外對(duì)比見(jiàn)附錄F。圖5與定量結(jié)果一致,展示了我們的方法在有效緩解慢動(dòng)作和重復(fù)問(wèn)題方面的能力,從而提高了整體視頻質(zhì)量。此外,僅需1/50,000預(yù)訓(xùn)練計(jì)算量的最小微調(diào)程序進(jìn)一步提升了動(dòng)態(tài)程度、圖像質(zhì)量和無(wú)重復(fù)分?jǐn)?shù)。最后,借助強(qiáng)大的HunyuanVideo基礎(chǔ)模型,我們的方法實(shí)現(xiàn)了接近訓(xùn)練長(zhǎng)度的性能——56.0%和61.6%的用戶更傾向于訓(xùn)練長(zhǎng)度而非我們的方法。


下圖5. 基于HunyuanVideo的長(zhǎng)度外推可視化結(jié)果。通過(guò)有效解決慢動(dòng)作和重復(fù)問(wèn)題,實(shí)現(xiàn)了更好的視頻質(zhì)量。值得注意的是,雖然HunyuanVideo中的NTK在2倍外推時(shí)偶然避免了重復(fù),但在更長(zhǎng)的外推(如2.3倍)時(shí)仍然遇到了顯著的重復(fù)問(wèn)題。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

最大外推范圍:實(shí)驗(yàn)表明,RIFLEx支持最多3倍外推,超過(guò)此范圍后質(zhì)量顯著下降(例如4倍外推,見(jiàn)下圖9)。這可能是因?yàn)檫^(guò)度的頻率降低削弱了RoPE的有效性,導(dǎo)致在訓(xùn)練長(zhǎng)度內(nèi)的編碼變化極小。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)


擴(kuò)展到其他外推類型:進(jìn)一步探索了RIFLEx在空間外推和聯(lián)合時(shí)空外推中的應(yīng)用。如圖1b和圖1c所示,調(diào)整對(duì)應(yīng)維度的內(nèi)在頻率可以實(shí)現(xiàn)分辨率外推和聯(lián)合時(shí)空擴(kuò)展。

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"!RIFLEx顛覆性發(fā)現(xiàn):調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒-AI.x社區(qū)

從129幀到261幀的2倍時(shí)間外推的更多結(jié)果

結(jié)論

通過(guò)分析RoPE中頻率成分的作用,提供了對(duì)視頻長(zhǎng)度外推的全面理解?;谶@些見(jiàn)解,提出了RIFLEx,這是一種簡(jiǎn)單而有效的解決方案,通過(guò)降低內(nèi)在頻率來(lái)防止重復(fù)。RIFLEx在無(wú)需訓(xùn)練的情況下,在SOTA視頻擴(kuò)散Transformer上實(shí)現(xiàn)了高質(zhì)量的2倍外推,并通過(guò)少量微調(diào)實(shí)現(xiàn)了3倍外推,且無(wú)需長(zhǎng)視頻。


盡管在現(xiàn)有預(yù)訓(xùn)練模型上證明了RIFLEx的有效性,但尚未探索其從頭訓(xùn)練的性能,這留待未來(lái)工作。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/ABQzvmRM74pzP1bmm3J1wA??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦