自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文本生成無限長視頻,無需任何訓(xùn)練

發(fā)布于 2025-2-13 13:59
瀏覽
0收藏

韓國首爾國立大學(xué)的研究人員推出了一個創(chuàng)新文生視頻模型——FIFO-Diffusion。


在傳統(tǒng)的文生視頻模型中,尤其是在基于擴散模型的產(chǎn)品中,生成長視頻經(jīng)常面臨著質(zhì)量和連貫性上的挑戰(zhàn)。這是因為模型在訓(xùn)練時只能看到有限的幀數(shù),而在實際應(yīng)用中卻需要生成遠超過訓(xùn)練時長度的視頻。


FIFO-Diffusion模型使用了一種創(chuàng)新的“對角去噪”方法來克服生成長視頻的難題,以隊列的方式來處理視頻幀的連續(xù),該技術(shù)靈感來源于工廠的流水線作業(yè)。


在每一步中,完全去噪的幀從前端出隊,新的隨機噪聲幀在末端入隊。這確保了每幀生成時都能參考到足夠數(shù)量的前導(dǎo)幀,從而維持視頻的整體流暢度、邏輯一致性,同時無需訓(xùn)練就能生成無限長的視頻。

文本生成無限長視頻,無需任何訓(xùn)練-AI.x社區(qū)

FIFO-Diffusion生成的視頻

對角線去噪是FIFO-Diffusion模型的核心模塊,通過一個隊列來維護一系列具有不同噪聲水平的視頻幀。這個隊列按照時間順序排列,噪聲水平隨時間增加。


在每一步迭代中,隊列頭部的幀會被完全去噪并從隊列中移除,同時在隊列尾部加入一個新的帶有隨機噪聲的幀,類似于生產(chǎn)中的流水線作業(yè)。

文本生成無限長視頻,無需任何訓(xùn)練-AI.x社區(qū)

但由于模型在訓(xùn)練時通常是在相同噪聲水平下對所有幀進行去噪,而在對角線去噪中,模型需要處理不同噪聲水平的幀,會產(chǎn)生訓(xùn)練與推理之間的差異以及噪聲級別差異可能導(dǎo)致的去噪不準確性。


所以,研究人員又引入了潛在分割和前瞻去噪兩大模塊,來優(yōu)化去噪流程。


潛在分割模塊主要是為了解決在對角線去噪過程中,引入的訓(xùn)練推理差距問題。潛在分割將連續(xù)的幀序列分成多個塊,每個塊中的幀具有相似的噪聲水平。使得模型在處理每個塊時,只需要關(guān)注一個較小的噪聲范圍內(nèi)的幀,而不是在整個去噪過程中處理噪聲水平差異很大的幀。

文本生成無限長視頻,無需任何訓(xùn)練-AI.x社區(qū)

潛在分割會定義一個隊列,這個隊列按照時間順序包含了從高噪聲水平到低噪聲水平的所有幀。然后,這個隊列被等分成多個塊,每個塊包含了一定數(shù)量的幀。


在去噪過程中,模型將對每個塊分別進行處理,而不是像傳統(tǒng)的對角線去噪那樣一次性處理所有幀。每個塊內(nèi)的幀都可以被更細致地去噪,因為它們之間的噪聲水平差異更小。

文本生成無限長視頻,無需任何訓(xùn)練-AI.x社區(qū)

此外,潛在分割還能提升去噪過程中的并行計算效率。由于每個塊可以獨立于其他塊進行處理,因此可以同時在多個GPU上進行去噪計算。這種并行化處理極大提高了視頻生成的效率,使得生成長視頻變得更加高效。


前瞻去噪則是用來解決對角線去噪產(chǎn)生的,噪聲級別差異可能導(dǎo)致的去噪不準確性問題??蓭椭P驮谌ピ氘斍皫瑫r,能夠參考未來的幀。


該方法利用了對角線去噪的一個技術(shù)優(yōu)勢,在隊列中,較晚的幀可以從前幾步中更干凈的幀中獲益,即使是噪聲水平較高的幀也能夠獲得更準確的去噪結(jié)果。

文本生成無限長視頻,無需任何訓(xùn)練-AI.x社區(qū)

在前瞻去噪的過程中,模型需要對隊列中的幀進行兩次處理:首先,模型按照對角線去噪的方式對幀進行初步去噪;然后,在前瞻步驟中,模型再次處理這些幀會利用未來幀的信息來改進去噪結(jié)果。

文本生成無限長視頻,無需任何訓(xùn)練-AI.x社區(qū)

此外,前瞻去噪在保持生成視頻的質(zhì)量、連貫性以及自然度方面也有很大的幫助。

文本生成無限長視頻,無需任何訓(xùn)練-AI.x社區(qū)

研究人員將FIFO-Diffusion與FreeNoise、Gen-L-Video等同類模型進行了綜合評估。結(jié)果顯示,F(xiàn)IFO-Diffusion在運動平滑度、幀質(zhì)量以及場景多樣性方面有顯著優(yōu)勢。即便是與需要訓(xùn)練的分塊自回歸方法LaVie+SEINE相比,其生成的視頻在連續(xù)性和文本符合度上也更出色。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/1bCy4xa-0xS1h8x4p3naag??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦