自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架

發(fā)布于 2024-4-11 10:24
瀏覽
0收藏

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2404.05595
github鏈接:???https://uni-fl.github.io/??


擴(kuò)散模型已經(jīng)徹底改變了圖像生成領(lǐng)域,導(dǎo)致高質(zhì)量模型和多樣化的下游應(yīng)用不斷涌現(xiàn)。然而,盡管取得了重大進(jìn)展,當(dāng)前競(jìng)爭(zhēng)性解決方案仍然存在一些局限性,包括視覺(jué)質(zhì)量較差、缺乏美學(xué)吸引力以及推理效率低,而沒(méi)有全面的解決方案。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

  • 感知反饋學(xué)習(xí),提高視覺(jué)質(zhì)量;
  • 解耦反饋學(xué)習(xí),提高美學(xué)吸引力;
  • 對(duì)抗反饋學(xué)習(xí),優(yōu)化推理速度。


深入的實(shí)驗(yàn)和廣泛的用戶研究驗(yàn)證了本文提出的方法在提高生成模型質(zhì)量和加速性能方面的卓越表現(xiàn)。例如,UniFL在生成質(zhì)量方面超過(guò)了ImageReward 17%的用戶偏好,并在4步推理中超越了LCM和SDXL Turbo分別為57%和20%。此外,也已驗(yàn)證了本文的方法在下游任務(wù)中的有效性,包括LoRA、ControlNet和AnimateDiff。

優(yōu)化后效果

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

效果比較

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

介紹

擴(kuò)散模型的出現(xiàn)將文本到圖像(T2I)領(lǐng)域推向了前所未有的進(jìn)步領(lǐng)域,其突出貢獻(xiàn)如DALLE-3、Imagen、Midjourney等。特別是,開(kāi)源圖像生成模型的引入,如Stable Diffusion,開(kāi)啟了一個(gè)變革性的文本到圖像時(shí)代,產(chǎn)生了許多下游應(yīng)用,如T2I個(gè)性化、可控生成和文本生成視頻(T2V)。盡管迄今為止取得了顯著進(jìn)展,但當(dāng)前基于Stable Diffusion的圖像生成模型仍存在一定的局限性。


  • 低質(zhì)量:生成的圖像通常質(zhì)量較差,缺乏真實(shí)性。例如,角色可能出現(xiàn)殘缺的肢體或扭曲的身體部位,以及在風(fēng)格表示方面的有限保真度。
  • 缺乏美學(xué):生成的圖像在美學(xué)吸引力方面存在明顯的偏差,往往無(wú)法與人類(lèi)偏好相一致。在關(guān)鍵方面如細(xì)節(jié)、光照和氛圍方面的不足進(jìn)一步加劇了這種美學(xué)差距。
  • 推理效率低:擴(kuò)散模型采用的迭代去噪過(guò)程引入了顯著的效率低,從而顯著降低了推理速度,限制了這些模型在各種應(yīng)用場(chǎng)景中的實(shí)用性。


最近,許多工作致力于解決上述挑戰(zhàn)。例如,SDXL通過(guò)改進(jìn)訓(xùn)練策略來(lái)提高擴(kuò)散模型的生成質(zhì)量,而RAPHAEL則采用了專(zhuān)家混合技術(shù)(MoE)。RAFT、HPS、ImageReward和DPO提出了將人類(lèi)反饋納入擴(kuò)散模型以引導(dǎo)其與人類(lèi)偏好一致的技術(shù)。另一方面,SDXL Turbo、PGD和LCM則通過(guò)蒸餾和一致性模型等技術(shù)解決了推理加速的問(wèn)題。


然而,這些方法主要集中于通過(guò)專(zhuān)門(mén)的設(shè)計(jì)解決單個(gè)問(wèn)題,這對(duì)于直接集成這些技術(shù)提出了重大挑戰(zhàn)。例如,MoE顯著復(fù)雜化了流程,使加速方法變得不可行,而一致性模型改變了擴(kuò)散模型的去噪過(guò)程,使得直接應(yīng)用ImageReward提出的ReFL框架變得困難。


問(wèn)題出現(xiàn)了:我們能否設(shè)計(jì)一種更有效的方法,全面提升擴(kuò)散模型在圖像質(zhì)量、美學(xué)外觀和生成速度方面的性能?

?

本文提出了UniFL,通過(guò)統(tǒng)一的反饋學(xué)習(xí)為擴(kuò)散模型提供全面改進(jìn)。UniFL旨在提升視覺(jué)生成質(zhì)量、增強(qiáng)偏好美學(xué),并加速推理過(guò)程。為了實(shí)現(xiàn)這些目標(biāo),提出了三個(gè)關(guān)鍵組成部分。


首先,引入了一個(gè)開(kāi)創(chuàng)性的感知反饋學(xué)習(xí)(PeFL)框架,有效利用了各種現(xiàn)有感知模型中嵌入的廣泛知識(shí),以提高視覺(jué)生成質(zhì)量。該框架使得能夠提供更精確和有針對(duì)性的反饋信號(hào),最終在各個(gè)方面增強(qiáng)視覺(jué)生成的質(zhì)量。


其次,采用解耦反饋學(xué)習(xí)來(lái)優(yōu)化美學(xué)質(zhì)量。通過(guò)將粗略的美學(xué)概念分解為色彩、氛圍和紋理等不同方面,UniFL簡(jiǎn)化了美學(xué)優(yōu)化的挑戰(zhàn)。此外,引入了一種主動(dòng)提示選擇策略,選擇更具信息量和多樣性的提示,以促進(jìn)更有效的美學(xué)偏好反饋學(xué)習(xí)。


最后,UniFL開(kāi)發(fā)了對(duì)抗反饋學(xué)習(xí),在其中獎(jiǎng)勵(lì)模型和擴(kuò)散模型進(jìn)行對(duì)抗訓(xùn)練,使得在低去噪步驟下的樣本通過(guò)獎(jiǎng)勵(lì)反饋得到很好的優(yōu)化,最終實(shí)現(xiàn)了優(yōu)越的推理加速。提出了一個(gè)統(tǒng)一的反饋學(xué)習(xí)公式,既簡(jiǎn)單又多才多藝,使其適應(yīng)于各種模型,并獲得了令人印象深刻的改進(jìn)。

貢獻(xiàn)總結(jié)如下:

  • 新的領(lǐng)悟:提出的方法UniFL引入了一個(gè)統(tǒng)一的反饋學(xué)習(xí)框架,以優(yōu)化擴(kuò)散模型的視覺(jué)質(zhì)量、美學(xué)和推理速度。據(jù)我們所知,UniFL首次嘗試同時(shí)解決生成質(zhì)量和速度的問(wèn)題,在該領(lǐng)域提供了新的視角。
  • 新穎性和開(kāi)創(chuàng)性:揭示了利用現(xiàn)有感知模型在擴(kuò)散模型的反饋學(xué)習(xí)中的潛力。強(qiáng)調(diào)了解耦獎(jiǎng)勵(lì)模型的重要性,并通過(guò)對(duì)抗訓(xùn)練闡明了加速機(jī)制。相信消融實(shí)驗(yàn)提供了寶貴的見(jiàn)解,豐富了社區(qū)對(duì)這些技術(shù)的理解。
  • 高效性:通過(guò)大量實(shí)驗(yàn),UniFL展示了在多種類(lèi)型的擴(kuò)散模型上取得的顯著改進(jìn),包括SD1.5和SDXL,在生成質(zhì)量和加速方面。此外,UniFL優(yōu)于競(jìng)爭(zhēng)性的現(xiàn)有方法,并在各種下游任務(wù)中展現(xiàn)出強(qiáng)大的泛化能力。

相關(guān)工作

文本到圖像擴(kuò)散模型

近年來(lái),擴(kuò)散模型引起了廣泛關(guān)注,并成為文本到圖像生成的事實(shí)標(biāo)準(zhǔn)方法,超越了傳統(tǒng)的概率模型如GAN和VAE。已經(jīng)提出了許多相關(guān)工作,包括GLIDE、DALL-E2、Imagen、CogView等。在這些工作中,潛在擴(kuò)散模型(LDM)將擴(kuò)散過(guò)程擴(kuò)展到潛在空間,并顯著提高了擴(kuò)散模型的訓(xùn)練和推理效率,為可控生成、圖像編輯、圖像個(gè)性化等各種應(yīng)用打開(kāi)了大門(mén)。盡管迄今取得了進(jìn)展,但當(dāng)前的文本到圖像擴(kuò)散模型仍存在視覺(jué)生成質(zhì)量較差、偏離人類(lèi)審美偏好和推理效率低等限制。本文的目標(biāo)是提供一種全面解決這些問(wèn)題的方法。

文本到圖像擴(kuò)散模型的改進(jìn)

鑒于上述限制,研究人員提出了各種方法來(lái)解決這些問(wèn)題。值得注意的是,[6, 32, 59]致力于通過(guò)更先進(jìn)的訓(xùn)練策略來(lái)改善生成質(zhì)量。在以RLHF(reinforcement learning with human feedback)在LLM領(lǐng)域的成功為基礎(chǔ)上,[2,54,55,57,64]探索了將人類(lèi)反饋納入以改善圖像美學(xué)質(zhì)量。另一方面,[27,28,39,41,46]專(zhuān)注于加速技術(shù),例如蒸餾和一致性模型來(lái)實(shí)現(xiàn)推理加速。盡管這些方法已經(jīng)證明了它們?cè)诮鉀Q特定挑戰(zhàn)方面的有效性,但它們的獨(dú)立性使得將它們結(jié)合起來(lái)進(jìn)行全面改進(jìn)具有挑戰(zhàn)性。相反,本文的研究通過(guò)反饋學(xué)習(xí)框架統(tǒng)一了提高視覺(jué)質(zhì)量、符合人類(lèi)審美偏好和加速的目標(biāo)。

準(zhǔn)備工作

文本到圖像擴(kuò)散模型

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

獎(jiǎng)勵(lì)反饋學(xué)習(xí)。獎(jiǎng)勵(lì)反饋學(xué)習(xí)(ReFL)是一個(gè)旨在通過(guò)人類(lèi)偏好反饋來(lái)改進(jìn)擴(kuò)散模型的偏好微調(diào)框架。它主要包括兩個(gè)階段:

  • (1)獎(jiǎng)勵(lì)模型訓(xùn)練
  • (2)偏好微調(diào)

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

本文的方法遵循與ReFL類(lèi)似的學(xué)習(xí)框架,但設(shè)計(jì)了幾個(gè)新穎的組件,以實(shí)現(xiàn)全面的改進(jìn)。

:統(tǒng)一反饋學(xué)習(xí)

本文提出的方法UniFL旨在從多個(gè)方面改進(jìn)Stable Diffusion,包括視覺(jué)生成質(zhì)量、人類(lèi)審美質(zhì)量和推理效率。我們的方法采用統(tǒng)一的反饋學(xué)習(xí)視角,提供了一種全面而簡(jiǎn)潔的解決方案。


UniFL的概述如下圖2所示。接下來(lái)將深入探討三個(gè)關(guān)鍵組成部分的細(xì)節(jié):感知反饋學(xué)習(xí)以增強(qiáng)視覺(jué)生成質(zhì)量;解耦反饋學(xué)習(xí)以改善美學(xué)吸引力;和對(duì)抗反饋學(xué)習(xí)以促進(jìn)推理加速。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

感知反饋學(xué)習(xí)

當(dāng)前的擴(kuò)散模型在實(shí)現(xiàn)高質(zhì)量視覺(jué)生成方面存在局限性,特別是在圖像風(fēng)格轉(zhuǎn)換和對(duì)象結(jié)構(gòu)失真等方面。這些限制源于僅在潛在空間中依賴重構(gòu)損失,缺乏基于圖像空間的視覺(jué)感知監(jiān)督。


為了解決這個(gè)問(wèn)題,如下圖3所示,本文提出了感知反饋學(xué)習(xí)(PeFL),利用現(xiàn)有感知模型提供的視覺(jué)反饋來(lái)微調(diào)擴(kuò)散模型。我們的關(guān)鍵見(jiàn)解是,各種視覺(jué)感知模型已經(jīng)從不同方面包含了豐富的視覺(jué)先驗(yàn)知識(shí)。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

完整的PeFL過(guò)程總結(jié)如算法1所示。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

  • 風(fēng)格:為了捕捉圖像風(fēng)格,我們使用VGG模型對(duì)圖像特征進(jìn)行編碼,并使用廣泛采用的gram矩陣在風(fēng)格轉(zhuǎn)換中提取視覺(jué)風(fēng)格。風(fēng)格的反饋計(jì)算如下:

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

其中,V 是 VGG 網(wǎng)絡(luò),Gram 是gram矩陣的計(jì)算。

  • 結(jié)構(gòu):為了提取視覺(jué)結(jié)構(gòu)信息,利用視覺(jué)實(shí)例分割模型,因?yàn)閷?shí)例masks提供了基本的對(duì)象結(jié)構(gòu)描述。目標(biāo)被公式化為:

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

其中, 是實(shí)例分割模型, 是的實(shí)例分割標(biāo)注真值,是實(shí)例分割損失。PeFL 的靈活性使我們能夠利用各種現(xiàn)有的視覺(jué)感知模型,例如語(yǔ)義分割模型,以提供特定的視覺(jué)反饋。更多的實(shí)驗(yàn)和結(jié)果可以在附錄中找到。

解耦反饋學(xué)習(xí)

解耦美學(xué)微調(diào)。與客觀視覺(jué)質(zhì)量不同,美學(xué)質(zhì)量是抽象且主觀的,需要人類(lèi)美學(xué)偏好反饋來(lái)引導(dǎo)模型根據(jù)人類(lèi)偏好進(jìn)行優(yōu)化。ImageReward通過(guò)在ReFL框架內(nèi)訓(xùn)練收集到的偏好數(shù)據(jù)的人類(lèi)偏好獎(jiǎng)勵(lì)模型來(lái)解決這個(gè)問(wèn)題。雖然有效,但我們認(rèn)為ImageReward 不夠優(yōu)化,因?yàn)樗蕾囉谝粋€(gè)使用粗糙標(biāo)注的美學(xué)偏好數(shù)據(jù)訓(xùn)練的單一獎(jiǎng)勵(lì)模型。主要挑戰(zhàn)來(lái)自于試圖在單一獎(jiǎng)勵(lì)模型中封裝跨多個(gè)維度的人類(lèi)偏好,這將導(dǎo)致固有的沖突,正如某些大語(yǔ)言模型 (LLM) 研究所證明的那樣。


為了解決這個(gè)問(wèn)題,我們提出在偏好建模過(guò)程中解耦不同的美學(xué)維度,以實(shí)現(xiàn)更有效的美學(xué)反饋學(xué)習(xí)。具體來(lái)說(shuō),將通用的美學(xué)概念分解為代表性維度,并分別對(duì)其進(jìn)行標(biāo)注。這些維度包括顏色、布局、光照和細(xì)節(jié)。數(shù)據(jù)收集過(guò)程在附錄中詳細(xì)描述。隨后,使用這些標(biāo)注的數(shù)據(jù)訓(xùn)練美學(xué)偏好獎(jiǎng)勵(lì)模型,根據(jù)公式2。解耦反饋學(xué)習(xí)的目標(biāo)是:

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

主動(dòng)提示選擇。觀察到,當(dāng)使用隨機(jī)選擇的提示進(jìn)行偏好微調(diào)時(shí),由于語(yǔ)義豐富度有限,擴(kuò)散模型往往會(huì)迅速過(guò)擬合,導(dǎo)致獎(jiǎng)勵(lì)模型的有效性降低。這種現(xiàn)象通常被稱(chēng)為過(guò)度優(yōu)化。


為了解決這個(gè)問(wèn)題,本文進(jìn)一步提出了一種主動(dòng)提示選擇策略,該策略從提示數(shù)據(jù)庫(kù)中選擇最具信息量和多樣性的提示。這個(gè)選擇過(guò)程涉及兩個(gè)關(guān)鍵組件:基于語(yǔ)義的提示過(guò)濾器和最近鄰提示壓縮。通過(guò)利用這些技術(shù),過(guò)度優(yōu)化可以得到極大的緩解,實(shí)現(xiàn)更有效的美學(xué)獎(jiǎng)勵(lì)微調(diào)。

對(duì)抗反饋學(xué)習(xí)

文本到圖像擴(kuò)散模型中采用的緩慢迭代去噪過(guò)程對(duì)其實(shí)際應(yīng)用構(gòu)成了重大障礙。為了解決這一限制,最近的進(jìn)展,如UFOGen和SDXL-Turbo,提出將對(duì)抗訓(xùn)練目標(biāo)納入微調(diào)擴(kuò)散模型中?;谶@一見(jiàn)解,我們介紹了一種對(duì)抗反饋學(xué)習(xí)方法,將反饋學(xué)習(xí)與對(duì)抗目標(biāo)相結(jié)合,旨在加速推理過(guò)程。


擴(kuò)散模型的原始優(yōu)化目標(biāo)是增加輸出圖像的獎(jiǎng)勵(lì)得分,同時(shí)保持獎(jiǎng)勵(lì)模型不變。不凍結(jié)獎(jiǎng)勵(lì)模型,而是在微調(diào)過(guò)程中將對(duì)抗獎(jiǎng)勵(lì)模型ra (·) 的優(yōu)化納入其中,將其視為一個(gè)鑒別器。這樣,擴(kuò)散模型充當(dāng)生成器,被優(yōu)化以增強(qiáng)獎(jiǎng)勵(lì)得分,而獎(jiǎng)勵(lì)模型充當(dāng)鑒別器,旨在區(qū)分首選和非首選樣本。因此,對(duì)抗反饋學(xué)習(xí)的目標(biāo)可以重新表述如下:

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

在實(shí)踐中,我們遵循 PeFL 來(lái)實(shí)現(xiàn)對(duì)抗訓(xùn)練,將GT圖像視為首選樣本,將去噪圖像視為非首選樣本。通過(guò)這種方式,我們不斷引導(dǎo)擴(kuò)散模型生成具有更高保真度和視覺(jué)質(zhì)量的樣本,從而極大地加速了推理速度。

訓(xùn)練流程

我們的訓(xùn)練過(guò)程包括兩個(gè)階段,每個(gè)階段針對(duì)特定的目標(biāo)。 在第一階段,專(zhuān)注于提高視覺(jué)生成質(zhì)量和美學(xué)。在第二階段,應(yīng)用對(duì)抗反饋學(xué)習(xí)來(lái)加速擴(kuò)散推理速度,同時(shí)使用對(duì)抗訓(xùn)練目標(biāo)更新擴(kuò)散模型和獎(jiǎng)勵(lì)模型。我們還整合了解耦反饋學(xué)習(xí)來(lái)保持美感。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)和指標(biāo)

數(shù)據(jù)集。對(duì)于 PeFL 訓(xùn)練階段,精選了一個(gè)包含約 15 萬(wàn)個(gè)藝術(shù)風(fēng)格文本圖像的大型高質(zhì)量數(shù)據(jù)集,用于風(fēng)格優(yōu)化,并利用了具有實(shí)例標(biāo)注和標(biāo)題的 COCO2017 訓(xùn)練集數(shù)據(jù)集進(jìn)行結(jié)構(gòu)優(yōu)化。此外,從不同方面(如顏色、布局、細(xì)節(jié)和光照)收集了解耦美學(xué)反饋學(xué)習(xí)的人類(lèi)偏好數(shù)據(jù)集。從 DiffusionDB 中通過(guò)主動(dòng)提示選擇篩選出了 10 萬(wàn)個(gè)用于美學(xué)優(yōu)化的提示。在對(duì)抗反饋學(xué)習(xí)期間,僅使用了 LAION的美學(xué)子集,其圖像美學(xué)得分高于 5。


完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)


基線模型。本文選擇了兩個(gè)具有不同生成能力的代表性文本到圖像擴(kuò)散模型,全面評(píng)估了  的有效性,包括 (i) SD1.5;(ii) SDXL?;谶@些模型,選擇了幾種最先進(jìn)的方法(例如,ImageReward、Dreamshaper 和 DPO 用于提高生成質(zhì)量,LCM、SDXL-Turbo 和 SDXL-Lightning用于推理加速),以比較其質(zhì)量改進(jìn)和加速效果。所有這些方法的結(jié)果都是使用提供的官方代碼重新實(shí)現(xiàn)的。


評(píng)估指標(biāo)。使用來(lái)自 COCO2017 驗(yàn)證集的提示生成 5K 張圖像,報(bào)告了 Fréchet Inception Distance(FID) 作為總體視覺(jué)質(zhì)量指標(biāo)。還報(bào)告了使用 ViT-B-32 的 CLIP 分?jǐn)?shù)和 LAION 美學(xué)預(yù)測(cè)器的美學(xué)評(píng)分,以分別評(píng)估生成圖像的文本到圖像對(duì)齊和美學(xué)質(zhì)量。考慮到質(zhì)量評(píng)估的主觀性,還進(jìn)行了全面的用戶研究,以獲得更準(zhǔn)確的評(píng)估。

主要結(jié)果

定量比較。下表1 總結(jié)了在 SD1.5 和 SDXL 上與競(jìng)爭(zhēng)性方法的定量比較。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

總體而言, UniFL在兩種架構(gòu)上都表現(xiàn)出一致的性能改進(jìn),并超越了現(xiàn)有的專(zhuān)注于改善生成質(zhì)量或加速的方法。具體而言,DreamShaper 在 SD1.5 中獲得了相當(dāng)高的美學(xué)質(zhì)量(5.44),而 ImageReard 在 SDXL 中表現(xiàn)最佳(5.88)。即便如此, UniFL在 SD1.5 和 SDXL 上的所有這些指標(biāo)上都超過(guò)了這些方法。就加速而言, UniFL仍然表現(xiàn)出顯著的性能優(yōu)勢(shì),在 SD1.5 和 SDXL 上的相同 4 步推理上超過(guò)了 LCM。


令人驚訝的是, UniFL有時(shí)在更少的推理步驟下獲得了更好的美學(xué)質(zhì)量。例如,當(dāng)應(yīng)用于 SD1.5 時(shí),美學(xué)得分從 5.26 提升到了 5.54,而不加速。在使用對(duì)抗反饋學(xué)習(xí)進(jìn)行加速后,美學(xué)得分進(jìn)一步提高到了 5.88,而推理步驟明顯減少。相關(guān)原因?qū)⒃谙趯?shí)驗(yàn)中進(jìn)行調(diào)查。還比較了 SDXL 上的兩種最新加速方法,包括 SDXL Turbo 和 SDXL Lightning。盡管保留了高的文本到圖像對(duì)齊性,我們發(fā)現(xiàn) SDXL Turbo 生成的圖像往往缺乏保真度,導(dǎo)致 FID 分?jǐn)?shù)較低。SDXL Lightning 在所有這些方面都達(dá)到了最平衡的性能,并在 4 步推理中達(dá)到了令人印象深刻的美學(xué)質(zhì)量。然而, UniFL在所有指標(biāo)中仍然表現(xiàn)出色,并取得了最佳性能。


用戶研究。使用 SDXL 進(jìn)行了全面的用戶研究,以評(píng)估我們的方法在提高生成質(zhì)量和加速方面的有效性。如下圖4所示,本文的方法在生成質(zhì)量方面顯著改善了原始的 SDXL,偏好率達(dá)到了 68%,并分別超過(guò)了 DreamShaper 和 DPO,偏好率分別提高了 36% 和 25%。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

由于感知反饋學(xué)習(xí)和解耦美學(xué)反饋學(xué)習(xí),即使與競(jìng)爭(zhēng)性的 ImageReward 相比,我們的方法也表現(xiàn)出改善,并且被額外的 17% 人偏好。在加速方面,我們的方法在 4 步推理中大幅超過(guò)了廣泛使用的 LCM,偏好率提高了 57%。即使與最新的加速方法如 SDXL-Turbo 和 SDXL-Lightning 相比, UniFL仍然表現(xiàn)出優(yōu)勢(shì),并獲得了更多的偏好。這凸顯了對(duì)抗反饋學(xué)習(xí)在實(shí)現(xiàn)加速方面的有效性。


定性比較。如下圖5所示,與其他方法相比, UniFL實(shí)現(xiàn)了更優(yōu)秀的生成結(jié)果。例如,與 ImageReward 相比, UniFL生成的圖像表現(xiàn)出更連貫的物體結(jié)構(gòu)(例如,馬),更合適的風(fēng)格(例如,雞尾酒),以及更吸引人的美學(xué)質(zhì)量(例如,戰(zhàn)士)。值得注意的是,即使推理步驟較少, UniFL仍然始終展示出更高的生成質(zhì)量,優(yōu)于其他方法。值得注意的是,由于 SDXL-Turbo 修改了擴(kuò)散假設(shè),它往往會(huì)生成具有獨(dú)特風(fēng)格的圖像。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

消融研究

PeFL 的工作原理。 為了更好地理解 PeFL 的工作原理,我們以 PeFL 進(jìn)行結(jié)構(gòu)優(yōu)化的示例為例,并可視化中間結(jié)果。如下圖6所示,實(shí)例分割模型有效地捕獲了生成對(duì)象的整體結(jié)構(gòu),并成功地識(shí)別了結(jié)構(gòu)缺陷,例如小女孩的扭曲肢體、缺失的滑板、模糊的大象和馬等。與簡(jiǎn)單的擴(kuò)散損失分配給每個(gè)像素相比,這種類(lèi)型的反饋使得擴(kuò)散模型更加關(guān)注特定的結(jié)構(gòu)概念。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

在下圖7中展示了通過(guò) PeFL 優(yōu)化風(fēng)格和結(jié)構(gòu)后的一些生成結(jié)果。顯然,與簡(jiǎn)單的擴(kuò)散損失相比,PeFL 顯著提升了風(fēng)格生成(例如“壁畫(huà)”、“濃厚油彩”風(fēng)格)和物體結(jié)構(gòu)優(yōu)化(例如女性眼鏡、芭蕾舞者的腿)。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

解耦式反饋學(xué)習(xí)的效果。 為了驗(yàn)證這種解耦合美學(xué)策略的重要性,通過(guò)使用一個(gè)全局美學(xué)獎(jiǎng)勵(lì)模型對(duì) SD1.5 模型進(jìn)行微調(diào),該模型使用了不同維度的所有收集到的美學(xué)偏好數(shù)據(jù)。如下圖8(a)所示,由于緩解了抽象美學(xué)學(xué)習(xí)的挑戰(zhàn),采用解耦式美學(xué)獎(jiǎng)勵(lì)調(diào)整的生成結(jié)果受到更多個(gè)體的喜愛(ài),超過(guò)了非解耦式方式約 17%。圖8(a)還顯示,積極的提示選擇獲得了更高的偏好率(54.6% vs 45.4%),這表明了提示選擇策略的重要性。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

對(duì)于加速,UniFL引入了對(duì)抗反饋學(xué)習(xí),并且在某些情況下,加速結(jié)果甚至超過(guò)了非加速模型;根據(jù)我們的實(shí)驗(yàn)觀察,加速和顯著性能可以歸因于兩個(gè)潛在因素:

  • 對(duì)抗訓(xùn)練使獎(jiǎng)勵(lì)模型能夠持續(xù)提供指導(dǎo):如圖9(a)所示,傳統(tǒng)的反饋微調(diào)在擴(kuò)散模型中往往會(huì)迅速過(guò)度擬合于由凍結(jié)獎(jiǎng)勵(lì)模型生成的反饋信號(hào),這被稱(chēng)為過(guò)度優(yōu)化。通過(guò)采用對(duì)抗性反饋學(xué)習(xí),可訓(xùn)練的獎(jiǎng)勵(lì)模型(作為鑒別器)能夠迅速適應(yīng)擴(kuò)散模型輸出的分布偏移,從而顯著減輕了過(guò)度優(yōu)化現(xiàn)象,這使得獎(jiǎng)勵(lì)模型能夠在整個(gè)優(yōu)化過(guò)程中提供有效的指導(dǎo)。
  • 對(duì)抗訓(xùn)練擴(kuò)展了反饋學(xué)習(xí)優(yōu)化的時(shí)間步:在訓(xùn)練過(guò)程中引入強(qiáng)有力的對(duì)抗目標(biāo),迫使高噪聲時(shí)間步通過(guò)對(duì)抗目標(biāo)生成更清晰的圖像,這使得獎(jiǎng)勵(lì)模型即使在較少的降噪步驟下也能表現(xiàn)良好。如圖9(b)所示,禁用對(duì)抗性損失并保留包含整個(gè)去噪過(guò)程的優(yōu)化步驟后,獎(jiǎng)勵(lì)模型無(wú)法為較少去噪步驟下的樣本提供有效指導(dǎo),由于高水平的噪聲,這導(dǎo)致了較差的推理結(jié)果。有了這兩個(gè)好處,對(duì)抗反饋學(xué)習(xí)顯著提高了在較低推理步驟中樣本的生成質(zhì)量,最終實(shí)現(xiàn)了更優(yōu)秀的加速性能。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

為進(jìn)一步驗(yàn)證UniFL的泛化能力,我們進(jìn)行了LoRA、ControlNet和AnimateDiff等下游任務(wù)的實(shí)驗(yàn)。具體來(lái)說(shuō),選擇了幾種流行的LoRA風(fēng)格、幾種類(lèi)型的ControlNet和AnimateDiff模塊,并將它們分別插入我們的模型中執(zhí)行相應(yīng)的任務(wù)。如圖10和圖8(b)所示,我們的模型在風(fēng)格學(xué)習(xí)、可控生成和視頻生成方面展現(xiàn)出了出色的能力。

完美提升Stable Diffusion生成質(zhì)量和效率!UniFL:統(tǒng)一反饋學(xué)習(xí)框架-AI.x社區(qū)

討論與局限性

 UniFL在生成高質(zhì)量圖像方面展現(xiàn)出了令人期待的結(jié)果。然而,還有幾個(gè)方面可以進(jìn)一步改進(jìn):

  • 大型視覺(jué)感知模型:我們正在積極研究利用先進(jìn)的大型視覺(jué)感知模型提供增強(qiáng)監(jiān)督的可能性。
  • 極端加速:雖然目前的一步模型的性能可能相對(duì)較差,但我們?cè)?步推斷中取得的顯著成功表明,UniFL在一步推斷方面具有重要的探索潛力。
  • 簡(jiǎn)化為單階段優(yōu)化:探索將當(dāng)前的兩階段優(yōu)化過(guò)程簡(jiǎn)化為更簡(jiǎn)潔的單階段方法的可能性是進(jìn)一步研究的有前途的方向。

結(jié)論

UniFL,這是一個(gè)通過(guò)反饋學(xué)習(xí)增強(qiáng)視覺(jué)質(zhì)量、審美吸引力和推斷效率的統(tǒng)一框架。通過(guò)整合感知、解耦和對(duì)抗性反饋學(xué)習(xí),UniFL在生成質(zhì)量和推斷加速方面超越了現(xiàn)有方法,并且在各種類(lèi)型的擴(kuò)散模型和不同的下游任務(wù)中具有很好的泛化能力。


本文轉(zhuǎn)自AI生成未來(lái),作者:iacheng Zhang等


原文鏈接:??https://mp.weixin.qq.com/s/QwQLPLK4INNeui5sOiOMHA??



標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦