自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型 精華

發(fā)布于 2024-6-5 12:25
瀏覽
0收藏

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

論文鏈接: https://arxiv.org/pdf/2405.18750

項(xiàng)目鏈接:https://t2v-turbo.github.io/


基于擴(kuò)散的文本到視頻(T2V)模型取得了顯著的成功,但仍然受到迭代采樣過程速度緩慢的影響。為了解決這一挑戰(zhàn),一些一致性模型被提出來(lái)促進(jìn)快速推理,盡管以犧牲樣本質(zhì)量為代價(jià)。在這項(xiàng)工作中,旨在突破視頻一致性模型(VCM)的質(zhì)量瓶頸,實(shí)現(xiàn)快速且高質(zhì)量的視頻生成。本文引入了T2V-Turbo,將來(lái)自不同可微分獎(jiǎng)勵(lì)模型混合的反饋集成到預(yù)訓(xùn)練T2V模型的一致性蒸餾(CD)過程中。值得注意的是,本文直接優(yōu)化與單步生成相關(guān)的獎(jiǎng)勵(lì),這些獎(jiǎng)勵(lì)自然產(chǎn)生于計(jì)算CD損失,有效地繞過了通過迭代采樣過程反向傳播梯度所施加的內(nèi)存限制。值得注意的是,本文的T2V-Turbo產(chǎn)生的4步生成在VBench上取得了最高的總分,甚至超過了Gen-2和Pika。


本文進(jìn)一步進(jìn)行了人類評(píng)估來(lái)證實(shí)結(jié)果,驗(yàn)證了本文的T2V-Turbo產(chǎn)生的4步生成優(yōu)于它們的教師模型產(chǎn)生的50步DDIM樣本,這表示視頻生成質(zhì)量的提升了十倍以上,同時(shí)加速了視頻生成的過程。

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

介紹

擴(kuò)散模型(DM)已經(jīng)成為神經(jīng)圖像和視頻合成的強(qiáng)大框架,加速了文本到視頻(T2V)模型的前沿發(fā)展,例如Sora,Gen-2和Pika。盡管這些基于擴(kuò)散的模型的迭代采樣過程確保了高質(zhì)量的生成,但它顯著減慢了推理速度,阻礙了它們的實(shí)時(shí)應(yīng)用。另一方面,現(xiàn)有的開源T2V模型,包括VideoCrafter和ModelScopeT2V,是在網(wǎng)絡(luò)規(guī)模的視頻數(shù)據(jù)集上訓(xùn)練的,例如WebVid-10M,視頻質(zhì)量各不相同。因此,生成的視頻通常在視覺上看起來(lái)不吸引人,并且無(wú)法準(zhǔn)確與文本提示對(duì)齊,偏離了人類的偏好。


為了解決上述列出的問題,已經(jīng)進(jìn)行了一些努力。為了加速推理過程,Wang等人應(yīng)用了一致性蒸餾(CD)理論,從教師T2V模型中蒸餾出一個(gè)視頻一致性模型(VCM),使得在只需4-8個(gè)推理步驟中便能生成合理的視頻。然而,VCM生成的質(zhì)量受到教師模型性能的自然瓶頸限制,并且減少的推理步驟進(jìn)一步降低了其生成質(zhì)量。另一方面,為了使生成的視頻與人類偏好保持一致,InstructVideo借鑒了圖像生成技術(shù),并提出通過迭代視頻采樣過程反向傳播可微分獎(jiǎng)勵(lì)模型(RM)的梯度。然而,計(jì)算完整的獎(jiǎng)勵(lì)梯度成本過高,導(dǎo)致了巨大的內(nèi)存成本。因此,InstructVideo通過將梯度計(jì)算限制為僅在最終DDIM步驟中截?cái)嗖蓸渔?,從而損害了優(yōu)化精度。此外,InstructVideo受限于其依賴于圖像文本RM,無(wú)法充分捕捉視頻的過渡動(dòng)態(tài)。從經(jīng)驗(yàn)上看,InstructVideo僅對(duì)有限的一組用戶提示進(jìn)行實(shí)驗(yàn),其中大多數(shù)與動(dòng)物相關(guān)。因此,它對(duì)更廣泛范圍提示的泛化性仍然是未知的。


本文旨在通過打破VCM的質(zhì)量瓶頸,實(shí)現(xiàn)快速且高質(zhì)量的視頻生成。本文介紹了T2V-Turbo,它將來(lái)自多種RM混合的獎(jiǎng)勵(lì)反饋集成到從教師T2V模型中蒸餾VCM的過程中。除了利用圖像文本RM來(lái)使單個(gè)視頻幀與人類偏好對(duì)齊之外,本文進(jìn)一步結(jié)合了來(lái)自視頻文本RM的獎(jiǎng)勵(lì)反饋,全面評(píng)估生成視頻中的時(shí)間動(dòng)態(tài)和過渡。本文強(qiáng)調(diào),本文的獎(jiǎng)勵(lì)優(yōu)化避免了通過迭代采樣過程反向傳播梯度所涉及的高度消耗內(nèi)存的問題。相反,本文直接優(yōu)化由計(jì)算CD損失而產(chǎn)生的單步生成的獎(jiǎng)勵(lì),有效地規(guī)避了傳統(tǒng)方法面臨的優(yōu)化DM時(shí)的內(nèi)存限制。


根據(jù)經(jīng)驗(yàn),本文展示了T2V-Turbo在4-8個(gè)推理步驟內(nèi)生成高質(zhì)量視頻的優(yōu)越性。為了說明本文方法的適用性,分別從VideoCrafter2和ModelScopeT2V中提取T2V-Turbo(VC2)和T2V-Turbo(MS)。值得注意的是,T2V-Turbo的兩個(gè)變體在4個(gè)步驟生成的結(jié)果都優(yōu)于視頻評(píng)估基準(zhǔn)VBench上的SOTA模型,甚至超過了使用大量資源訓(xùn)練的專有系統(tǒng),如Gen-2和Pika。本文進(jìn)一步通過使用EvalCrafter基準(zhǔn)中的700個(gè)提示進(jìn)行人類評(píng)估來(lái)證實(shí)這些結(jié)果,驗(yàn)證了T2V-Turbo的4步生成優(yōu)于其教師T2V模型的50步DDIM樣本,這代表了十倍以上的推理加速和增強(qiáng)的視頻生成質(zhì)量。


本文的貢獻(xiàn)有三點(diǎn):

  • 從多種RM的反饋中學(xué)習(xí)T2V模型,包括視頻文本模型。據(jù)作者所知,本文是第一個(gè)這樣做的。
  • 在僅4個(gè)推理步驟中在VBench上建立了一個(gè)新的SOTA,優(yōu)于使用大量資源訓(xùn)練的專有模型。
  • 根據(jù)人類評(píng)估,本文T2V-Turbo的4步生成優(yōu)于其教師T2V模型的50步生成,代表了超過10倍的推理加速和質(zhì)量改進(jìn)。

使用混合獎(jiǎng)勵(lì)反饋訓(xùn)練T2V-Turbo

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

特別是,本文利用圖像文本 RM 的獎(jiǎng)勵(lì)反饋來(lái)提高每個(gè)單獨(dú)視頻幀的人類偏好,并進(jìn)一步利用視頻文本 RM 的反饋來(lái)改善生成視頻中的時(shí)間動(dòng)態(tài)和過渡。

優(yōu)化人類對(duì)個(gè)人視頻片段的偏好

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

優(yōu)化Video-Text反饋模型

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

總結(jié)

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

為了減少內(nèi)存和計(jì)算成本,將本文的T2V-Turbo初始化為教師模型,并且僅優(yōu)化LoRA權(quán)重,而不是執(zhí)行完整的模型訓(xùn)練。在完成訓(xùn)練后,本文合并LoRA權(quán)重,使得本文的T2V-Turbo每步推理成本保持與教師模型相同。

實(shí)驗(yàn)結(jié)果

本文的實(shí)驗(yàn)旨在展示T2V-Turbo在4-8個(gè)推理步驟內(nèi)生成高質(zhì)量視頻的能力。本文首先在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試集VBench上進(jìn)行自動(dòng)評(píng)估,以綜合評(píng)估本文的方法在各個(gè)維度上的性能,并與廣泛的基線方法進(jìn)行比較。然后,本文使用來(lái)自EvalCrafter的700個(gè)提示進(jìn)行人類評(píng)估,比較T2V-Turbo的4步和8步生成與教師T2V模型的50步生成以及基線VCM的4步生成。最后,對(duì)關(guān)鍵設(shè)計(jì)選擇進(jìn)行消融研究。


10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

VBench 自動(dòng)求值

本文評(píng)估了本文的T2V-Turbo(VC2)和T2V-Turbo(MS),并將它們與廣泛的基線方法進(jìn)行比較,使用了標(biāo)準(zhǔn)視頻評(píng)估基準(zhǔn)VBench。VBench旨在從16個(gè)解耦維度全面評(píng)估T2V模型。VBench中的每個(gè)維度都根據(jù)特定的提示和評(píng)估方法進(jìn)行了定制。


下表1比較了本文方法的4步生成與VBench排行榜上各種基線方法的比較,包括Gen-2、Pika、VideoCrafter1、VideoCrafter2、Show-1、LaVie和 ModelScopeT2V。原文附錄中的表4進(jìn)一步將本文的方法與VideoCrafter0.9、LaVie-Interpolation、Open-Sora和 CogVideo 進(jìn)行了比較。每個(gè)基線方法的性能直接來(lái)自于VBench排行榜。為了獲得本文方法的結(jié)果,本文嚴(yán)格遵循VBench的評(píng)估協(xié)議,為每個(gè)提示生成5個(gè)視頻以計(jì)算指標(biāo)。本文進(jìn)一步從VideoCrafter2和ModelScopeT2V中提取VCM(VC2)和VCM(MS),并將它們的結(jié)果進(jìn)行比較,而不包括獎(jiǎng)勵(lì)反饋。

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

VBench已經(jīng)制定了自己的規(guī)則來(lái)計(jì)算總得分、質(zhì)量得分和語(yǔ)義得分。質(zhì)量得分是使用頂部表格中的7個(gè)維度計(jì)算的。語(yǔ)義得分是使用底部表格中的9個(gè)維度計(jì)算的。而總得分是質(zhì)量得分和語(yǔ)義得分的加權(quán)和。正如上表1所示,本文的T2V-Turbo(MS)和T2V-Turbo(VC2)的4步生成在總得分方面超過了VBench上的所有基線方法。這些結(jié)果尤其引人注目,因?yàn)楸疚纳踔脸^了使用大量資源訓(xùn)練的專有系統(tǒng)Gen-2和Pika。即使從一個(gè)較不先進(jìn)的教師模型ModelScopeT2V進(jìn)行提取,本文的T2V-Turbo(MS)也獲得了第二高的總得分,僅次于本文的T2V-Turbo(VC2)。此外,本文的T2V-Turbo通過超越其教師T2V模型打破了VCM的質(zhì)量瓶頸,明顯優(yōu)于基線VCM。

使用 700 個(gè) EvalCrafter 提示進(jìn)行人工評(píng)估

為了驗(yàn)證本文的T2V-Turbo的有效性,本文將T2V-Turbo的4步和8步生成與相應(yīng)教師T2V模型的50步DDIM樣本進(jìn)行比較。本文進(jìn)一步比較了從相同教師T2V模型提取時(shí),本文的T2V-Turbo的4步生成與它們基線VCM的4步生成。


本文利用來(lái)自EvalCrafter視頻評(píng)估基準(zhǔn)的700個(gè)提示,這些提示是基于真實(shí)世界的用戶數(shù)據(jù)構(gòu)建的。本文從亞馬遜的 Mechanical Turk 平臺(tái)雇用人類標(biāo)注員來(lái)比較使用相同提示生成的不同模型的視頻。對(duì)于每次比較,標(biāo)注員需要回答三個(gè)問題:

  • Q1)哪個(gè)視頻在視覺上更吸引人?
  • Q2)哪個(gè)視頻更符合文本描述?
  • Q3)在給定的提示下,您更喜歡哪個(gè)視頻?

下圖3提供了完整的人類評(píng)估結(jié)果。本文還在圖4中對(duì)不同的方法進(jìn)行了定性比較。附錄F進(jìn)一步包括了額外的定性比較結(jié)果。值得注意的是,與其教師T2V模型的50步生成相比,本文的T2V-Turbo的4步生成受到人類的青睞,表示推理加速了25倍并提升了性能。通過將推理步驟增加到8步,本文可以進(jìn)一步改善從本文的T2V-Turbo生成的視頻的視覺質(zhì)量和文本-視頻對(duì)齊,事實(shí)上,本文的8步生成在所有3個(gè)評(píng)估指標(biāo)中都更受人類喜愛,相比本文的4步生成。此外,本文的T2V-Turbo顯著優(yōu)于其基線VCM,證明了將混合獎(jiǎng)勵(lì)反饋納入模型訓(xùn)練的方法的有效性。

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

消融實(shí)驗(yàn)

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)


10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)

結(jié)論 & 限制

在本文中,提出了T2V-Turbo,通過打破VCM的質(zhì)量瓶頸,實(shí)現(xiàn)了快速和高質(zhì)量的T2V生成。具體來(lái)說,本文將混合獎(jiǎng)勵(lì)反饋集成到教師T2V模型的VCD過程中。從經(jīng)驗(yàn)上講,本文通過從VideoCrafter2和ModelScopeT2V中提取T2V-Turbo(VC2)和T2V-Turbo(MS)來(lái)說明本文方法的適用性。值得注意的是,本文的兩個(gè)T2V-Turbo的4步生成都優(yōu)于VBench上的SOTA方法,甚至超過了它們的教師T2V模型和專有系統(tǒng),包括Gen-2和Pika。人類評(píng)估進(jìn)一步證實(shí)了這些結(jié)果,顯示出本文的T2V-Turbo的4步生成受到人類的青睞,而不是它們的教師的50步DDIM樣本,這代表了超過十倍的推理加速和質(zhì)量改進(jìn)。


10倍速度突破質(zhì)量瓶頸,效果超越Gen-2和Pika!T2V-Turbo:新一代視頻生成模型-AI.x社區(qū)


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Jiachen Li 等


原文鏈接:??https://mp.weixin.qq.com/s/xxD4CYuYLBlO55bWQnRNBg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦