超越DiffEdit、SDEdit等6大編輯模型!字節(jié)等提出人像服飾、卡通表情編輯新SOTA! 精華
文章鏈接:https://arxiv.org/pdf/2407.20455
亮點(diǎn)直擊:
- 一種數(shù)據(jù)生成技術(shù),提供了具有更好身份和布局對齊的配對數(shù)據(jù);
- 一種多條件擴(kuò)散模型,能夠生成保留特征的結(jié)果,并在推理中提供準(zhǔn)確的編輯mask指導(dǎo);
- 實(shí)現(xiàn)了最先進(jìn)的人像編輯效果。
現(xiàn)有的技術(shù)在進(jìn)行人像編輯時面臨挑戰(zhàn),難以保留主體特征(如身份)。本文提出了一種基于訓(xùn)練的方法,通過自動生成的配對數(shù)據(jù)來學(xué)習(xí)所需的編輯,同時確保保留未更改的主體特征。具體來說,本文設(shè)計(jì)了一個數(shù)據(jù)生成過程,以低成本創(chuàng)建合理的編輯訓(xùn)練對?;谶@些數(shù)據(jù)對,引入了一個多條件擴(kuò)散模型(Multi-Conditioned Diffusion Model),能夠有效地學(xué)習(xí)編輯方向并保留主體特征。在推理過程中,該模型生成準(zhǔn)確的編輯mask,可以在推理過程中進(jìn)一步指導(dǎo),保留主體的細(xì)節(jié)特征。在服裝編輯和卡通表情編輯的實(shí)驗(yàn)中,本文的方法在定量和定性方面均達(dá)到了最先進(jìn)的質(zhì)量水平。
效果對比鎮(zhèn)樓
Pipeline
- 然后,設(shè)計(jì)并訓(xùn)練了一個多條件擴(kuò)散模型(MCDM)(圖2右)在生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練。通過以不同方式利用多個條件,MCDM能夠有效地從訓(xùn)練數(shù)據(jù)對中學(xué)習(xí)編輯方向,同時保留不應(yīng)改變的主體細(xì)節(jié)特征
- 在推理過程中,使用訓(xùn)練好的MCDM生成編輯結(jié)果,并通過自動生成的編輯mask進(jìn)一步保留中的主體細(xì)節(jié)
配對數(shù)據(jù)生成
本文的目標(biāo)是設(shè)計(jì)一種數(shù)據(jù)生成策略,能夠根據(jù)文本提示定義的特定編輯方向(例如,從普通服裝到圣誕老人服裝)生成配對樣本。然而,生成具有完美空間對齊和身份一致性的配對樣本非常具有挑戰(zhàn)性。因此,尋求設(shè)計(jì)一種策略(上圖2左),能夠生成合理的配對數(shù)據(jù),并滿足以下基本條件:
相反,本文在Composable Diffusion的基礎(chǔ)上構(gòu)建了一種條件配對生成策略,以滿足上述三個要求。關(guān)鍵設(shè)計(jì)包括:
值得注意的是,設(shè)計(jì)(2)(用于姿態(tài))和設(shè)計(jì)(3)(用于身份)在生成良好配對樣本中起著至關(guān)重要的作用。前面圖3說明了這一點(diǎn)。省略其中一個設(shè)計(jì)會導(dǎo)致明顯的空間錯位(圖(b))和面部形狀的顯著差異(圖(c))。此外,設(shè)計(jì)(3)也有助于在不同的配對樣本中生成多樣化的個體。這對于增強(qiáng)泛化能力至關(guān)重要,如下圖4所示。
訓(xùn)練多條件擴(kuò)散模型
因此,針對這些不完美的配對數(shù)據(jù),本文設(shè)計(jì)了一個圖像編輯模型,以有效地從生成的配對數(shù)據(jù)中學(xué)習(xí)相關(guān)信息,如編輯方向和未編輯的主體特征的保留,同時過濾掉意外的噪聲——特別是身份和布局中的細(xì)微變化。受到[22]的啟發(fā),本文的模型的關(guān)鍵設(shè)計(jì)是在Stable Diffusion架構(gòu)中以不同方式整合各種條件。將此模型稱為多條件擴(kuò)散模型(Multi-Conditioned Diffusion Model,MCDM)。將首先定義這些條件,并詳細(xì)說明它們?nèi)绾瓮ㄟ^不同的注入方式幫助從不完美數(shù)據(jù)中學(xué)習(xí)相關(guān)信息。MCDM的詳細(xì)結(jié)構(gòu)如下圖5所示。
為了將這些embeddings整合到本文的模型中,對Stable Diffusion架構(gòu)進(jìn)行了如下修改:
下圖6展示了這些設(shè)計(jì)選擇的消融實(shí)驗(yàn)結(jié)果,強(qiáng)調(diào)了同時使用所有條件信號的有效性,如前文所述。
使用訓(xùn)練模型進(jìn)行mask引導(dǎo)編輯
為了增強(qiáng)這些細(xì)節(jié)的保留,可以從訓(xùn)練好的MCDM中生成一個mask,為去噪過程提供明確的指導(dǎo)。這個mask指示了需要編輯的區(qū)域和不應(yīng)更改的區(qū)域。本文采用了DiffEdit的方法來自動生成這樣的mask。本文與DiffEdit的mask生成策略的主要區(qū)別在于,本文并非依賴預(yù)訓(xùn)練的Stable Diffusion模型,而是利用訓(xùn)練好的MCDM及其重構(gòu)能力來實(shí)現(xiàn)更精確的mask生成。通過將DiffEdit應(yīng)用于本文的MCDM而非原始Stable Diffusion模型,可以通過MCDM的重構(gòu)能力實(shí)現(xiàn)更精確的mask生成。
上面圖7(c)展示了一個由本文訓(xùn)練的模型生成的編輯mask示例,其精確度比用于生成配對數(shù)據(jù)的DiffEditmask(圖7(b))更高。這一演示突顯了MCDM即使在不完美的數(shù)據(jù)集上訓(xùn)練,也能夠辨別應(yīng)進(jìn)行編輯的內(nèi)容類型的能力。
一旦得到了mask M,在每個時間步t,通過以下方式計(jì)算mask引導(dǎo)的預(yù)測噪聲:
實(shí)驗(yàn)
數(shù)據(jù)集: 在兩個不同的人像編輯任務(wù)中評估了本文的pipeline性能:服裝編輯和卡通表情編輯。對于每個任務(wù),我們在特定域中定義了四個不同的編輯方向。對于服裝編輯,輸入圖像是穿著日常服裝的真實(shí)人像,輸出是同一人物穿著花朵、羊、圣誕老人或皇家服裝的圖像。對于卡通表情編輯,輸入圖像是帶有中性表情的卡通肖像,而輸出是相同的卡通角色,帶有四種不同的表情:生氣、震驚、大笑或哭泣。對于每個任務(wù),本文生成了一個包含69,900對圖像的訓(xùn)練數(shù)據(jù)集(每個編輯方向17475對圖像)。用于測試的野外圖像來自[40]。
Baselines: 本文選擇了6種最新的圖像編輯baselines方法進(jìn)行比較。特別是,Prompt2Prompt、pix2pix-zero、DiffEdit、SDEdit是無需訓(xùn)練的擴(kuò)散方法,通過文本提示引導(dǎo)編輯方向。由于SDEdit對強(qiáng)度參數(shù)敏感,本文測試了它的兩個不同參數(shù),即SDEdit 0.5和SDEdit 0.8。較大的強(qiáng)度會生成遵循編輯方向但偏離輸入圖像的輸出。SPADE 和BBDM是基于生成對抗網(wǎng)絡(luò)和擴(kuò)散模型的訓(xùn)練型圖像編輯框架。
實(shí)際應(yīng)用: 本文通過兩個不同場景展示了在兩個數(shù)據(jù)集上訓(xùn)練的模型的實(shí)際應(yīng)用。第一個應(yīng)用涉及真實(shí)人像的服裝編輯,其中輸入是野外拍攝的人像圖像。如下圖8的前四行所示,無論是訓(xùn)練型還是無需訓(xùn)練的方法,結(jié)果都不令人滿意;前者顯示出明顯的偽影,而后者往往未能與提供的提示對齊。
第二個應(yīng)用是貼紙包生成。目標(biāo)是基于野外拍攝的人像圖像生成一個卡通貼紙包。為此,首先對真實(shí)輸入圖像進(jìn)行數(shù)據(jù)增強(qiáng),包含裁剪和單應(yīng)性變換等處理。然后,使用這些增強(qiáng)的數(shù)據(jù)訓(xùn)練DreamBooth。接著,利用訓(xùn)練好的DreamBooth生成受精心設(shè)計(jì)的文本提示指導(dǎo)下的卡通化人像圖像。最后,本文的模型應(yīng)用于卡通化圖像,以生成四種不同訓(xùn)練過的表情。請注意,直接使用DreamBooth生成具有各種表情的圖像由于布局變化和過擬合問題,效果并不理想。如前面圖8的最后四行所示,無需訓(xùn)練的baselines方法優(yōu)于其訓(xùn)練型對手。這是因?yàn)橛?xùn)練型baselines方法在處理不完美的訓(xùn)練配對時不夠魯棒。相比之下,本文的方法在編輯準(zhǔn)確性和主體特征保留方面超越了所有baselines,同時保持了高圖像質(zhì)量。
用戶研究: 本文在兩個實(shí)際應(yīng)用場景上進(jìn)行了用戶研究,每個場景有12個示例。參與者被展示了由DiffEdit、SDEdit 0.5、SPADE、BBDM和本文提出的pipeline生成的輸入和輸出圖像,順序隨機(jī)打亂。32名參與者被要求對每個輸出圖像給予1到5的評分(評分越高表示效果越好)。研究者們對每個示例和用戶的評分進(jìn)行了歸一化處理,以消除用戶偏差。在服裝編輯任務(wù)中,本文的方法獲得了最高的平均評分,超過了DiffEdit 3.3倍,SDEdit 0.5 1.8倍,SPADE 2.1倍,BBDM 2.5倍。同樣,在表情編輯任務(wù)中,本文的方法也獲得了最佳評分,超越了DiffEdit 1.7倍,SDEdit 0.5 1.4倍,SPADE 2.9倍,BBDM 1.6倍。這些結(jié)果表明,本文的方法在兩個任務(wù)中均比baselines方法產(chǎn)生了更優(yōu)的視覺效果。
局限性和未來工作: 數(shù)據(jù)集生成策略假設(shè)Stable Diffusion能夠生成源域和目標(biāo)域的圖像,但這并非總是可能的。當(dāng)處理大多數(shù)配對數(shù)據(jù)中存在顯著噪聲(如顯著的布局和身份差異)時,編輯性能會受到影響。未來計(jì)劃:(1)擺脫配對數(shù)據(jù)的限制,探索有效處理非配對數(shù)據(jù)的方法,(2)減少所需的訓(xùn)練數(shù)據(jù)量,使pipeline更加高效和可擴(kuò)展。
結(jié)論: 本文旨在實(shí)現(xiàn)人像編輯,如更改服裝和表情,同時保留未目標(biāo)化的特征。本文引入了一種新穎的多條件擴(kuò)散模型,該模型在我們提出的數(shù)據(jù)集生成策略生成的訓(xùn)練配對上進(jìn)行訓(xùn)練。在推理過程中,模型生成一個編輯mask,并使用它進(jìn)一步保留主體特征的細(xì)節(jié)。在兩個編輯任務(wù)上的結(jié)果在定量和定性上均顯示出相對于現(xiàn)有最先進(jìn)方法的優(yōu)越性。
本文轉(zhuǎn)自 AI生成未來 ,作者:Bowei Chen等
