“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯(lián)合發(fā)布IterComp 精華
文章鏈接:https://arxiv.org/pdf/2410.07171
項目鏈接:https://github.com/YangLing0818/IterComp
亮點直擊
- 提出了第一個基于獎勵控制的迭代組合感知框架IterComp,以全面提升基礎擴散模型的組合性。
- 精心挑選了模型庫,并開發(fā)了一個高質(zhì)量的組合感知模型偏好數(shù)據(jù)集,該數(shù)據(jù)集包含大量圖像排序?qū)Α?/li>
- 使用了新的迭代反饋學習框架,逐步增強獎勵模型和基礎擴散模型。
- 與之前的SOTA方法進行的大量定性和定量比較表明,本文的方法在組合生成能力上具有顯著優(yōu)勢。
總結速覽
解決的問題
現(xiàn)有的擴散模型(如RPG、Stable Diffusion 3 和 FLUX)在生成組合性圖像時各有所長,有的擅長屬性綁定,有的則在空間關系上表現(xiàn)更好。然而,這些模型無法全面解決組合性生成的多方面需求,缺乏一種能夠綜合各模型優(yōu)勢的方法。
總之,要解決以下兩個問題:
1. 如何提取不同模型在各自領域的優(yōu)勢,并引導模型進行有效學習?
針對該問題,我們首先構建了模型庫(model gallery),其包含多種在不同方面表現(xiàn)出色的模型,每個模型都具備特定的組合生成偏好(composition-aware model preference)。我們嘗試通過擴散模型對齊方法,將base diffusion model與模型庫中的組合生成偏好進行對齊。
我們聚焦于compositional generation的三個關鍵方面:屬性綁定(attribute binding)、空間關系(spatial relationship)和非空間關系(non-spatial relationship)。為此,我們收集了不同模型在這些方面的偏好數(shù)據(jù),并通過人工排序,構建了一個面向組合生成的模型偏好數(shù)據(jù)集(composition-aware model preference dataset)。針對這三個方面,我們分別訓練三個composition-aware reward models,并對base模型進行多獎勵反饋優(yōu)化。
2. 組合生成任務很難優(yōu)化,如何更充分地學習到不同模型的組合偏好?
我們在diffusion領域創(chuàng)新地引入迭代式學習框架(iterative feedback learning),實現(xiàn)reward models與base diffusion model之間“左腳踩右腳登天”。
具體地,在上述第一輪優(yōu)化后,我們將optimized base diffusion model以及額外選擇的其他模型(例如Omost等)添加進model gallery。對新增模型進行偏好采樣,與初始model gallery中的圖像按照預訓練的reward model構建圖像對。這些圖像對被用于進一步優(yōu)化獎勵模型,隨后繼續(xù)用更新的獎勵模型優(yōu)化基礎擴散模型。具體的流程如下偽代碼所示:
提出的方案
本文提出了一個名為IterComp的框架,通過聚合多個模型在組合生成任務中的偏好,利用迭代反饋學習方法,逐步優(yōu)化組合性生成能力。該框架構建了一個由六個強大的開源擴散模型組成的模型庫,并基于三項關鍵組合性指標(屬性綁定、空間關系、非空間關系)評估這些模型。隨后,通過圖像排序?qū)Φ臄?shù)據(jù)集訓練組合偏好獎勵模型,并在封閉循環(huán)中使用迭代反饋學習方法逐步優(yōu)化基礎模型和獎勵模型的組合性生成能力。
應用的技術
- 多模型組合偏好聚合
- 迭代反饋學習方法
- 獎勵模型訓練
- 組合性生成指標評估(屬性綁定、空間關系、非空間關系)
達到的效果
理論證明了IterComp的有效性,實驗結果表明,與現(xiàn)有的SOTA方法(如Omost和FLUX)相比,IterComp在多類別對象組合和復雜語義對齊方面表現(xiàn)出明顯的優(yōu)勢,顯著提高了組合性生成的效果。
動機
自2022年以來,基于diffusion的文生圖模型取得了快速的發(fā)展,尤其在復雜組合生成(complex/compositional generation)任務上取得了顯著進展。例如,今年8月發(fā)布的FLUX展現(xiàn)出了十分震撼的復雜場景生成能力與美學質(zhì)量;RPG通過MLLM的輔助,將復雜的組合生成任務分解為簡單子任務;InstanceDiffusion通過布局控制(layout-based),實現(xiàn)了與布局分布高度一致的精確圖像生成。
然而,我們發(fā)現(xiàn)這些模型的優(yōu)勢僅限于某些特定的組合生成任務,且存在諸多局限?;谖谋荆╰ext-based)的生成方法(如SDXL、SD3、FLUX等)由于其訓練數(shù)據(jù)和框架的優(yōu)勢,在物體與場景的模擬上表現(xiàn)出色,特別在美學質(zhì)量、屬性綁定和非空間關系(non-spatial relationships)方面表現(xiàn)出色。然而,當涉及多個物體,且存在復雜的空間關系時,這類模型往往表現(xiàn)出明顯的不足。
基于大語言模型(LLM-based)的生成方法,如Omost和RPG,通常需要對LLM進行額外訓練或設計復雜的提示提示。然而,對于LLM處理后的復雜指令,diffusion backbone并不具備復雜指令下精確生成的能力?;诓季郑╨ayout-based)的生成方法,如Instancediffusion和LMD+,雖然提供了精確的控制,但在圖像的美學質(zhì)量和真實性上存在明顯下降,并且需要人為設計布局。
因此,一個值得深入探討的問題是:我們能否設計出一個強大的模型,在上述多個方面都表現(xiàn)出色,同時不引入額外的復雜指令或增加計算開銷?
基于此,我們提出一個全新的文生圖框架:IterComp。
方法
本節(jié)介紹了方法IterComp,它從模型庫中收集組合感知的模型偏好,并利用迭代反饋學習來增強基礎擴散模型在組合生成中的綜合能力。下圖2展示了IterComp的概覽。首先介紹了從模型庫中收集組合感知模型偏好數(shù)據(jù)集的方法。再描述了組合感知獎勵模型的訓練過程及多獎勵反饋學習。然后提出了迭代反饋學習框架,以實現(xiàn)基礎擴散模型和獎勵模型的自我優(yōu)化,逐步提升組合生成能力。
收集組合性的人類偏好
組合性指標與模型庫
專注于組合性的三個關鍵方面:屬性綁定、空間關系和非空間關系,以收集組合感知的模型偏好。初步選擇了六個在不同組合生成方面表現(xiàn)突出的開源模型作為我們的模型庫:FLUX-dev、Stable Diffusion 3、SDXL、Stable Diffusion 1.5、RPG、InstanceDiffusion。
屬性綁定的人工排名
對于屬性綁定,我們從T2I-CompBench的顏色、形狀和紋理類別中隨機選擇了500個提示。三位專業(yè)專家對六個模型為每個提示生成的圖像進行了排名,并通過加權得出了最終結果。主要標準是生成的圖像是否準確反映了提示中提到的屬性,尤其是屬性是否正確綁定到相應的對象上。
復雜關系的人工排名
對于空間和非空間關系,從T2I-CompBench中為每個類別選擇了1,000個提示,并使用相同的人工注釋方法來獲得排名。對于空間關系,主要排名標準是對象是否被正確生成以及它們的空間位置是否與提示匹配。對于非空間關系,重點是對象是否展示了自然和逼真的動作。
組合感知模型偏好數(shù)據(jù)集分析
在下圖3中可視化了每個模型生成的圖像中排名第一的比例。結果表明,不同模型在組合生成的各個方面表現(xiàn)出不同的優(yōu)勢,該數(shù)據(jù)集有效地捕捉了多樣的組合感知模型偏好。
組合感知的多獎勵反饋學習
組合感知獎勵模型訓練
為了在組合生成中實現(xiàn)全面的提升,我們利用3.1節(jié)中描述的三類組合感知數(shù)據(jù)集,將組合性分解為三個子任務,并為每個子任務訓練一個特定的獎勵模型。
多獎勵反饋學習
由于擴散模型中的多步去噪過程,無法為其生成結果提供概率,因此在語言模型中使用的RLHF方法不適用于擴散模型。一些現(xiàn)有的方法通過將獎勵模型的分數(shù)視為人類偏好損失,直接微調(diào)擴散模型。為了使用多個組合感知獎勵模型優(yōu)化基礎擴散模型,我們設計了以下?lián)p失函數(shù):
組合感知反饋學習的迭代優(yōu)化
組合生成因其復雜性和多方面特征而難以優(yōu)化,這需要我們的獎勵模型和基礎擴散模型在復雜文本理解以及復雜關系生成等方面表現(xiàn)出色。為了確保更徹底的優(yōu)化,我們提出了一個迭代反饋學習框架,逐步優(yōu)化獎勵模型和基礎擴散模型。
迭代反饋學習的有效性
通過這個迭代反饋學習框架,獎勵模型在理解復雜的組合提示詞方面變得更加有效,并為基礎擴散模型的組合生成提供了更全面的指導。迭代反饋學習過程的優(yōu)化目標在以下引理中形式化:
引理 1
迭代反饋學習的統(tǒng)一優(yōu)化框架可以表述為:
優(yōu)于 Diffusion-DPO 和 ImageReward
在此,我們闡明 IterComp 相較于 Diffusion-DPO 和 ImageReward 的一些優(yōu)勢。首先,IterComp 專注于組合感知的獎勵,旨在優(yōu)化文本到圖像 (T2I) 模型,使其能夠應對復雜的生成場景,并構建了一個強大的模型庫來收集多個組合感知的模型偏好。其次,我們創(chuàng)新的迭代反饋學習框架能夠有效實現(xiàn)基礎擴散模型和獎勵模型在多個迭代中的漸進自我優(yōu)化。
實驗
實驗設置
數(shù)據(jù)集和訓練設置
基線模型
研究者們策劃了一個包含六個開源模型的模型庫,每個模型在組合生成的不同方面表現(xiàn)優(yōu)異:FLUX、Stable Diffusion 3、SDXL、Stable Diffusion 1.5、RPG 和 InstanceDiffusion。為了確?;A擴散模型能夠充分、全面地學習組合感知模型偏好,我們通過在每次迭代中引入新模型(如 Omost 、Stable Cascade 、PixArt-α)來逐步擴展模型庫。為了在組合生成性能上進行比較,我們選擇了幾種最先進的方法,包括 FLUX、SDXL 和 RPG 與我們的方法進行比較。我們使用 GPT-4o 進行 LLM 控制的方法,并根據(jù)提示推斷布局以實現(xiàn)布局控制的方法。
主要結果
定性比較
如下圖 4 所示,IterComp 在組合生成結果上優(yōu)于三種主要類型的組合生成方法:文本控制、LLM 控制和布局控制的方法。與文本控制方法 FLUX相比,IterComp 在處理空間關系方面表現(xiàn)出色,顯著減少了諸如物體遺漏和數(shù)量及位置不準確等錯誤。與 LLM 控制方法 RPG 相比,IterComp 產(chǎn)生了更合理的物體放置,避免了 LLM 幻覺造成的不切實際的定位。與布局控制方法 InstanceDiffusion 相比,IterComp 在語義美學和組合性方面明顯占優(yōu)勢,特別是在復雜提示下的生成表現(xiàn)更佳。
定量比較
在 T2I-CompBench 上將 IterComp 與之前出色的組合文本/布局到圖像模型進行了比較,涵蓋六個關鍵組合場景。如表 2 所示,IterComp 在所有評估任務中表現(xiàn)出色。布局控制的方法,如 LMD+ 和 InstanceDiffusion ,在生成準確的空間關系方面表現(xiàn)優(yōu)異,而文本到圖像模型,如 SDXL 和 GenTron,在屬性綁定和非空間關系上具有特別優(yōu)勢。相比之下,IterComp 在組合生成方面實現(xiàn)了全面的改進。它通過收集組合感知模型偏好,整合了各種模型的優(yōu)點,并采用了新穎的迭代反饋學習方法,以閉環(huán)的方式實現(xiàn)基礎擴散模型和獎勵模型的自我優(yōu)化。IterComp 在提高生成圖像的真實感和美學的同時,實現(xiàn)了高水平的組合性。
如下表 3 所示,我們通過計算 CLIP 分數(shù)、美學分數(shù)和圖像獎勵來評估圖像真實感的提升。IterComp 在所有三個場景中顯著優(yōu)于之前的模型,在與復雜文本提示對齊時展現(xiàn)出卓越的保真度和精確性。這些令人鼓舞的結果突顯了 IterComp 在組合性和保真度方面的多樣性。在附錄 A.3 中提供了 IterComp 與其他擴散對齊方法之間的更多定量比較結果。
IterComp 生成高質(zhì)量圖像所需的時間更少。在下表 4 中,將 IterComp 的推理時間與其他優(yōu)秀模型(如 FLUX、RPG)生成單張圖像的時間進行了比較。使用相同的文本提示,并將去噪步數(shù)固定為 40,IterComp 顯示出更快的生成速度,因為它避免了 RPG 和 Omost 中復雜的注意力計算。我們的方法能夠在不增加任何計算開銷的情況下,整合來自不同模型的組合感知知識。這種效率凸顯了其在各種應用中的潛力,并為處理復雜生成任務提供了新的視角。
用戶研究
我們進行了一個全面的用戶研究,以評估 IterComp 在組合生成中的有效性。如下圖 5 所示,我們隨機選擇了 16 個提示進行比較,并邀請了來自不同背景的 23 位用戶對圖像組合性進行投票,共獲得 1,840 票。結果顯示,IterComp 在組合生成方面獲得了廣泛的用戶認可。
消融研究
模型庫大小的影響
在模型庫大小的消融研究中,如下圖 6 所示,我們觀察到增加模型庫的大小會提高 IterComp 在各項評估任務上的性能。為了利用這一發(fā)現(xiàn)并提供更細粒度的獎勵指導,我們通過逐步擴展模型庫,結合優(yōu)化后的基礎擴散模型和新模型(如 Omost)來進行多次迭代。
組合感知迭代反饋學習的影響
研究者們進行了消融研究(見下圖 7),以評估組合感知迭代反饋學習的影響。結果顯示,這種方法顯著提高了組合生成的準確性和生成圖像的美學質(zhì)量。隨著迭代次數(shù)的增加,模型的偏好逐漸收斂?;谶@一觀察,在 IterComp 中將迭代次數(shù)設置為 3。
泛化研究
IterComp 可以作為各種組合生成任務的強大基礎,充分利用其在空間意識、復雜提示理解和更快推理方面的優(yōu)勢。如下圖 8 所示,將 IterComp 集成到 Omost 和 RPG 中。結果表明,配備更強大 IterComp 骨干的 Omost 和 RPG 實現(xiàn)了出色的組合生成性能,突顯了 IterComp 的強泛化能力和更廣泛應用的潛力。
結論
本文提出了一種新穎的框架,IterComp,旨在解決復雜的組合文本到圖像生成的挑戰(zhàn)。IterComp 從模型庫中聚合組合感知模型偏好,并采用迭代反饋學習方法,逐步優(yōu)化獎勵模型和基礎擴散模型,以實現(xiàn)多次迭代的精細化。未來的工作中,我們計劃通過引入更復雜的輸入條件以及將其擴展到更實用的應用中,進一步增強該框架的能力。
本文轉自AI生成未來 ,作者:AI生成未來
