自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊

發(fā)布于 2024-7-18 09:50
瀏覽
0收藏

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2407.08737

git鏈接:https://vader-vid.github.io/

亮點(diǎn)直擊:

  • 引入獎勵模型梯度對齊方法:VADER通過利用獎勵模型的梯度,對多種視頻擴(kuò)散模型進(jìn)行調(diào)整和對齊,包括文本到視頻和圖像到視頻的擴(kuò)散模型。
  • 廣泛使用預(yù)訓(xùn)練視覺模型:該方法涵蓋了多種預(yù)訓(xùn)練視覺模型,以提高對不同任務(wù)的適應(yīng)能力和性能。
  • 內(nèi)存使用優(yōu)化技巧:VADER提出了多種技巧,有效改善內(nèi)存使用效率,使得可以在單個16GB VRAM的GPU上進(jìn)行訓(xùn)練。
  • 顯著改進(jìn)模型生成質(zhì)量:定性可視化結(jié)果顯示,VADER顯著改進(jìn)了基礎(chǔ)模型在多種任務(wù)上的生成質(zhì)量和效果。
  • 超越傳統(tǒng)對齊方法的性能:與傳統(tǒng)方法如DPO或DDPO相比,VADER展示了更高的性能,特別是在未見過的提示上的泛化能力。

目前已經(jīng)在建立基礎(chǔ)視頻擴(kuò)散模型方面取得了顯著進(jìn)展。由于這些模型是使用大規(guī)模無監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練的,因此將這些模型調(diào)整到特定的下游任務(wù)變得至關(guān)重要。通過監(jiān)督微調(diào)來適應(yīng)這些模型需要收集視頻目標(biāo)數(shù)據(jù)集,這是具有挑戰(zhàn)性和繁瑣的。本文利用預(yù)訓(xùn)練的獎勵模型,通過對頂尖視覺辨別模型的偏好進(jìn)行學(xué)習(xí),來適應(yīng)視頻擴(kuò)散模型。這些模型包含關(guān)于生成的RGB像素的密集梯度信息,這對于在復(fù)雜的搜索空間(如視頻)中進(jìn)行高效學(xué)習(xí)至關(guān)重要。本文展示了從這些獎勵模型向視頻擴(kuò)散模型反向傳播梯度的結(jié)果,可以實(shí)現(xiàn)計(jì)算和采樣的高效對齊。本文展示了在多種獎勵模型和視頻擴(kuò)散模型上的結(jié)果,表明本文的方法在獎勵查詢和計(jì)算方面比之前無梯度方法能夠更高效地學(xué)習(xí)。

VADER: 通過獎勵梯度進(jìn)行視頻擴(kuò)散

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

本文的方法,用于將視頻擴(kuò)散模型調(diào)整為執(zhí)行通過獎勵函數(shù) R(.) 指定的特定任務(wù)。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

VADER在去噪進(jìn)度上非常靈活,本文展示了與DDIM和EDM求解器的結(jié)果。為了防止過度優(yōu)化,本文使用截?cái)喾聪騻鞑?,其中梯度僅向后傳播K步,其中K < T,T為總擴(kuò)散時(shí)間步數(shù)。使用較小的K值還可以減少梯度向后傳播的內(nèi)存負(fù)擔(dān),使訓(xùn)練更加可行。本文在下面的算法1中提供了完整訓(xùn)練過程的偽代碼。接下來,本文討論用于對齊視頻模型的獎勵函數(shù)類型。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

本文使用多種類型的獎勵函數(shù)來對齊視頻擴(kuò)散模型。以下是本文考慮的不同類型的獎勵函數(shù)。


圖像-文本相似度獎勵  擴(kuò)散模型生成的視頻與用戶提供的文本相對應(yīng)。為確保視頻與提供的文本對齊,本文可以定義一個獎勵,用于衡量生成的視頻與提供的文本之間的相似性。為了利用流行的大規(guī)模圖像-文本模型如CLIP,本文可以采取以下方法。為了使整個視頻能夠很好地對齊,視頻的每個單獨(dú)幀很可能需要與上下文 c 具有高相似度。假設(shè)存在一個圖像-上下文相似度模型gimg有:

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)


如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)


減少內(nèi)存開銷: 訓(xùn)練視頻擴(kuò)散模型非常消耗內(nèi)存,因?yàn)閮?nèi)存使用量與生成幀的數(shù)量成線性關(guān)系。雖然VADER顯著提高了微調(diào)這些模型的樣本效率,但卻增加了內(nèi)存的消耗。這是因?yàn)榭晌ⅹ剟钍窃谏傻膸嫌?jì)算的,而這些幀是通過順序去噪步驟生成的。

  • 常規(guī)技巧:為了減少內(nèi)存使用, 本文使用 LoRA只更新模型參數(shù)的子集,此外使用混合精度(mixed precision),將不可訓(xùn)練參數(shù)存儲為 fp16。在反向傳播過程中,為了減少內(nèi)存使用,使用梯度檢查點(diǎn)(gradient checkpointing),對于長時(shí)間跨度的任務(wù),將反向計(jì)算圖的存儲從GPU內(nèi)存轉(zhuǎn)移到CPU內(nèi)存。
  • 截?cái)喾聪騻鞑ィ捍送?,在本文的?shí)驗(yàn)中,僅通過擴(kuò)散模型進(jìn)行一步時(shí)間步長的反向傳播,而不是通過多個時(shí)間步長進(jìn)行反向傳播,本文發(fā)現(xiàn)這種方法在需要更少內(nèi)存的同時(shí)能夠獲得競爭力的結(jié)果。
  • 幀子采樣:由于本文考慮的所有視頻擴(kuò)散模型都是潛在擴(kuò)散模型,本文進(jìn)一步通過不將所有幀解碼為RGB像素來減少內(nèi)存使用。相反,隨機(jī)對幀進(jìn)行子采樣,僅對子采樣的幀解碼并應(yīng)用損失。


本文在2塊A6000顯卡(每塊48GB VRAM)上進(jìn)行實(shí)驗(yàn),本文的模型平均需要12小時(shí)進(jìn)行訓(xùn)練。然而,本文的代碼庫支持在單塊16GB VRAM的GPU上進(jìn)行訓(xùn)練。

結(jié)果

這項(xiàng)工作專注于通過一系列針對圖像和視頻定制的獎勵模型,對各種條件視頻擴(kuò)散模型進(jìn)行微調(diào),包括 VideoCrafter, Open-Sora, Stable Video Diffusion 和 ModelScope。這些獎勵模型包括圖像美學(xué)模型,用于圖像文本對齊的 HPSv2 和 PickScore,用于物體移除的 YOLOS,用于動作分類的 VideoMAE,以及用于時(shí)序一致性的自監(jiān)督損失 V-JEPA。本文的實(shí)驗(yàn)旨在回答以下問題:

  • VADER在樣本效率和計(jì)算需求上與無梯度技術(shù)(如DDPO或DPO)相比如何?
  • 模型在多大程度上能夠推廣到訓(xùn)練過程中未見的提示?
  • 經(jīng)過人類評估者評判,微調(diào)的模型彼此之間如何比較?
  • VADER在各種圖像和視頻獎勵模型上的表現(xiàn)如何?


這個評估框架評估了VADER在從各種輸入條件生成高質(zhì)量、對齊的視頻內(nèi)容方面的效果。

基準(zhǔn)方法。 本文將VADER與以下方法進(jìn)行比較:

  • VideoCrafter, Open-Sora 1.2 和 ModelScope 是當(dāng)前公開的文本到視頻擴(kuò)散模型,被用作微調(diào)和比較的基礎(chǔ)模型。
  • Stable Video Diffusion 是當(dāng)前公開的圖像到視頻擴(kuò)散模型,在所有圖像到視頻空間的實(shí)驗(yàn)中,使用它們的基礎(chǔ)模型進(jìn)行微調(diào)和比較。
  • DDPO 是一種最近的圖像擴(kuò)散對齊方法,使用策略梯度來調(diào)整擴(kuò)散模型的權(quán)重。具體地,它應(yīng)用了PPO算法到擴(kuò)散去噪過程中。研究者們擴(kuò)展了他們的代碼來適應(yīng)視頻擴(kuò)散模型。
  • Diffusion-DPO 擴(kuò)展了最近在LLM空間中開發(fā)的直接偏好優(yōu)化(DPO)到圖像擴(kuò)散模型。他們表明,直接使用偏好數(shù)據(jù)來建模似然性可以減少對獎勵模型的需求。作者擴(kuò)展了他們的實(shí)現(xiàn)來對齊視頻擴(kuò)散模型,其中使用獎勵模型來獲得所需的偏好數(shù)據(jù)。

?

獎勵模型。本文使用以下獎勵模型來微調(diào)視頻擴(kuò)散模型:

  • 美學(xué)獎勵模型:本文使用LAION美學(xué)預(yù)測器V2,它以圖像作為輸入并輸出其在1-10范圍內(nèi)的美學(xué)評分。該模型基于CLIP圖像嵌入進(jìn)行訓(xùn)練,使用包含17.6萬張圖像評分的數(shù)據(jù)集,評分從1到10不等,其中評分為10的圖像被分類為藝術(shù)品。
  • 人類偏好獎勵模型:本文使用HPSv2和PickScore,它們以圖像-文本對作為輸入,并預(yù)測人類對生成圖像的偏好。HPSv2通過對CLIP模型進(jìn)行微調(diào),使用包含約79.8萬個人類偏好排名的數(shù)據(jù)集,涵蓋了43.376萬對圖像。而PickScore則通過對CLIP模型進(jìn)行微調(diào),使用了58.4萬個人類偏好示例的數(shù)據(jù)集。這些數(shù)據(jù)集在領(lǐng)域內(nèi)屬于最廣泛的,為增強(qiáng)圖像-文本對齊提供了堅(jiān)實(shí)的基礎(chǔ)。
  • 物體移除獎勵模型:本文設(shè)計(jì)了基于YOLOS的獎勵模型,YOLOS是基于Vision Transformer的物體檢測模型,訓(xùn)練數(shù)據(jù)包括11.8萬個注釋圖像。獎勵是目標(biāo)物體類別置信度分?jǐn)?shù)的反數(shù),通過該獎勵模型,視頻模型學(xué)習(xí)從視頻中移除目標(biāo)物體類別。
  • 視頻動作分類獎勵模型:雖然以上獎勵模型作用于單個圖像,作者采用一個獎勵模型,將整個視頻作為輸入。這有助于獲取視頻生成的時(shí)間方面的梯度。具體而言,考慮了VideoMAE,它在Kinetics數(shù)據(jù)集上進(jìn)行了動作分類任務(wù)的微調(diào)。獎勵是動作分類器為期望行為預(yù)測的概率。
  • 時(shí)間一致性獎勵模型:雖然動作分類模型僅限于固定的動作標(biāo)簽集,但考慮了一個更通用的獎勵函數(shù)。具體來說,使用自監(jiān)督的遮蔽預(yù)測目標(biāo)作為獎勵函數(shù),以提高時(shí)間一致性。本文使用V-JEPA作為獎勵模型,獎勵是在V-JEPA特征空間中遮蔽自編碼損失的負(fù)值。

?

提示數(shù)據(jù)集。 本文考慮以下一組提示數(shù)據(jù)集,用于對文本到視頻和圖像到視頻擴(kuò)散模型進(jìn)行獎勵微調(diào):

  • 活動提示(文本):考慮來自DDPO的活動提示。每個提示結(jié)構(gòu)化為"a(n) [動物] [活動]",使用了包含45種常見動物的集合。每個提示的活動來自三個選項(xiàng)之一:"騎自行車"、"下棋"和"洗碗"。
  • HPSv2動作提示(文本):本文從HPSv2數(shù)據(jù)集中的一組提示中篩選出了50個提示。篩選這些提示以確保它們包含動作或運(yùn)動信息。
  • ChatGPT生成的提示(文本):本文提示ChatGPT生成一些生動且創(chuàng)意設(shè)計(jì)的文本描述,涵蓋各種場景,例如書籍放在杯子旁邊,動物穿著衣服,以及動物演奏樂器。
  • ImageNet狗類別(圖像):對于圖像到視頻擴(kuò)散模型,本文考慮ImageNet中拉布拉多犬和馬爾濟(jì)斯犬類別的圖像作為提示集。
  • Stable Diffusion圖像(圖像):這里本文考慮Stable Diffusion在線演示網(wǎng)頁中的全部25張圖像作為提示數(shù)據(jù)集。

樣本和計(jì)算效率

大規(guī)模視頻擴(kuò)散模型的訓(xùn)練由少數(shù)擁有大量計(jì)算資源的實(shí)體完成;然而,這些模型的微調(diào)卻由許多擁有有限計(jì)算資源的實(shí)體完成。因此,擁有既能提升樣本效率又能提升計(jì)算效率的微調(diào)方法變得至關(guān)重要。


在本節(jié)中,將比較VADER在樣本和計(jì)算效率上與其他強(qiáng)化學(xué)習(xí)方法如DDPO和DPO的表現(xiàn)。在下圖7中,可視化了訓(xùn)練過程中的獎勵曲線,圖中上半部分的x軸是獎勵查詢次數(shù),下半部分的x軸是GPU小時(shí)數(shù)。從圖中可以看出,與DDPO或DPO相比,VADER在樣本和計(jì)算效率上顯著更高。這主要是因?yàn)閷碜元剟钅P偷拿芗荻劝l(fā)送到擴(kuò)散模型的權(quán)重中,而基線方法只是反向傳播標(biāo)量反饋。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

通用化能力

微調(diào)的一個期望屬性是泛化能力,即在有限提示集上微調(diào)的模型能夠泛化到未見過的提示上。在本節(jié)中,通過多個獎勵模型和基準(zhǔn)模型廣泛評估這一屬性。在訓(xùn)練文本到視頻(T2V)模型時(shí),在訓(xùn)練集中使用了HPSv2行動提示,而在測試集中使用了活動提示。對于訓(xùn)練圖像到視頻(I2V)模型,在訓(xùn)練集中使用了拉布拉多犬類別,而馬耳他犬類別則形成了本文的測試集。下表1展示了VADER的泛化能力。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

人類評估

研究者們進(jìn)行了一項(xiàng)研究,通過Amazon Mechanical Turk評估人類偏好。測試包括VADER和ModelScope之間的并排比較。為了測試從這兩種模型生成的視頻如何與它們的文本提示對齊,向參與者展示了由VADER和基線方法生成的兩個視頻,并要求他們選擇哪個視頻更符合給定的文本。為了評估視頻質(zhì)量,研究者們要求參與者比較以相同提示生成的兩個視頻,一個來自VADER,另一個來自基線方法,并決定哪個視頻的質(zhì)量更高。每個比較收集了100個回復(fù)。下表2中的結(jié)果顯示,相比基線方法,人們更偏好VADER。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

定性可視化

本節(jié)將展示VADER生成的視頻及其相應(yīng)的基準(zhǔn)模型。將在各種基礎(chǔ)模型上,通過所有考慮的獎勵函數(shù)進(jìn)行廣泛的可視化展示。


HPS獎勵模型: 在下圖3中,可視化了使用HPSv2.1和美學(xué)獎勵函數(shù)對VideoCrafter進(jìn)行微調(diào)前后的結(jié)果,前三行展示了這些結(jié)果。在微調(diào)前,浣熊沒有拿著雪球,狐貍也沒有戴帽子,這與文本描述不一致;然而,從VADER生成的視頻中不會出現(xiàn)這些不一致之處。此外,如圖3的第三行所示,VADER成功地泛化到未見過的提示,狗的爪子看起來不像左側(cè)視頻中的人類手那樣。類似的改進(jìn)也可以在使用Open-Sora V1.2和ModelScope生成的視頻中觀察到,如下圖6的第二和第三行所示。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

美學(xué)獎勵模型: 在上圖3中,前三行可視化了使用美學(xué)獎勵函數(shù)和HPSv2.1模型組合微調(diào)ModelScope前后的結(jié)果。此外,還通過美學(xué)獎勵函數(shù)微調(diào)了ModelScope,并在上圖6的最后一行展示了其生成的視頻。觀察到,美學(xué)微調(diào)使得生成的視頻更具藝術(shù)感。


PickScore模型: 在上圖3的最后三行,展示了通過PickScore微調(diào)的VideoCrafter生成的視頻。VADER顯示出比基準(zhǔn)模型更好的文本到視頻對齊效果。在最后一行,測試了兩個模型對在訓(xùn)練時(shí)未見過的提示的響應(yīng)。此外,通過PickScore微調(diào)的Open-Sora生成的視頻顯示在上圖6的第一行。


對象移除: 在下圖5中,顯示了經(jīng)過使用基于YOLOS的對象移除獎勵函數(shù)微調(diào)后,由VideoCrafter生成的視頻。在這個例子中,書籍是要移除的目標(biāo)對象。這些視頻展示了成功將書籍替換為其他物體,比如毯子或面包。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

視頻動作分類: 在下圖8中,展示了ModelScope和VADER的視頻生成結(jié)果。在這種情況下,使用動作分類目標(biāo)對VADER進(jìn)行微調(diào),以符合提示中指定的動作。對于提示中的“一個人在吃甜甜圈”,發(fā)現(xiàn)VADER使人臉更加明顯,并在甜甜圈上添加了彩色的糖珠。之前的生成通常被錯誤分類為烘烤餅干,這是Kinetics數(shù)據(jù)集中的另一個動作類別。向甜甜圈添加顏色和糖珠使其與餅干更易于區(qū)分,從而獲得更高的獎勵。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

V-JEPA 獎勵模型: 在下圖9中,展示了通過Stable Video Diffusion(SVD)增加視頻長度的結(jié)果。為了在SVD上生成長距離視頻,使用自回歸推理,其中由SVD生成的最后一幀作為條件輸入,用于生成下一組圖像。進(jìn)行了三步推理,因此將SVD的上下文長度擴(kuò)展了三倍。然而,正如在紅色邊框中可以看到的那樣,在進(jìn)行一步推理后,SVD開始在預(yù)測中累積錯誤。這導(dǎo)致了泰迪熊的變形,或者影響了運(yùn)動中的火箭。VADER使用V-JEPA目標(biāo)的掩碼編碼,以強(qiáng)制生成的視頻自一致性。如下圖9所示,這成功解決了生成中的時(shí)間和空間差異問題。

如何高效定制視頻擴(kuò)散模型?卡內(nèi)基梅隆提出VADER:通過獎勵梯度進(jìn)行視頻擴(kuò)散對齊-AI.x社區(qū)

結(jié)論

本文介紹了VADER,這是一個通過獎勵梯度對預(yù)訓(xùn)練視頻擴(kuò)散模型進(jìn)行微調(diào)的樣本和計(jì)算高效框架。本文利用在圖像或視頻上評估的各種獎勵函數(shù)來微調(diào)視頻擴(kuò)散模型。此外,展示了本文的框架對條件無關(guān),并且可以在文本到視頻和圖像到視頻擴(kuò)散模型上都能工作。希望本文的工作能夠引起更多人對調(diào)整視頻擴(kuò)散模型的興趣。


本文轉(zhuǎn)自 AI生成未來 ,作者:Zheyang Qin等


原文鏈接:??https://mp.weixin.qq.com/s/PrLTm0REv801yFTUNntHOw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦