T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細個性化圖像!
論文鏈接:https://arxiv.org/pdf/2408.05083
工程主頁:https://rishubhpar.github.io/PreciseControl.home/
git鏈接:https://github.com/rishubhpar/PreciseControl
最近,大家看到了一波針對文本到圖像(T2I)擴散模型的個性化方法的興起,這些方法通過少量圖像來學(xué)習(xí)一個概念?,F(xiàn)有的方法在用于人臉個性化時,難以實現(xiàn)具有身份保留的令人信服的反演,并依賴于對生成的人臉進行語義文本編輯。然而,人們希望對面部屬性進行更細粒度的控制,這僅靠文本提示是難以實現(xiàn)的。
方法
提要
文本到圖像擴散模型。 本研究使用StableDiffusion-v2.1作為代表性的文本到圖像(T2I)擴散模型。Stable Diffusion 基于潛在擴散模型,它在潛在空間中應(yīng)用擴散過程。其訓(xùn)練包括兩個階段:a)訓(xùn)練一個VAE或VQ-VAE自編碼器,將圖像映射到壓縮的潛在空間;b)在潛在空間中訓(xùn)練一個擴散模型,以文本為條件引導(dǎo)生成。這個框架將自編碼器中細粒度細節(jié)的學(xué)習(xí)與擴散模型中的語義特征學(xué)習(xí)分離開來,從而使得擴展更加容易。
概覽
潛在適配器 M
訓(xùn)練
本文進行兩階段訓(xùn)練,首先在面部數(shù)據(jù)集上對潛在適配器M進行預(yù)訓(xùn)練,然后對M和擴散 U-Net 進行幾次特定主體的訓(xùn)練,使用低秩更新來改善身份識別,具體如下所述。
推理
人臉屬性的細粒度控制
多人組成
本文的方法可以擴展到在單個場景中組合多個主體身份。簡單地在文本提示中 embedding多個令牌 embedding(每個主體一個),而不進行主體特定的調(diào)整,會導(dǎo)致身份失真(如下圖5a所示)。聯(lián)合進行主體特定調(diào)整可以改善身份識別,但會出現(xiàn)屬性混合的問題,即一個主體的面部屬性被轉(zhuǎn)移到另一個主體上,如下圖5b中的年齡和頭發(fā)。這是文本到圖像(T2I)生成中的一個常見問題,模型在處理場景中的多個對象時,容易綁定錯誤的屬性。本文采用了一種不同的方法,靈感來自于MultiDiffusion,在這個方法中,本文運行多個串聯(lián)的擴散過程,每個主體和背景各一個。在每一步的去噪過程中,將這些過程的輸出進行組合。
本文使用實例分割mask來進行處理。對于每個主體,本文通過其對應(yīng)的主體特定微調(diào)模型運行擴散過程。這種方法能夠保留每個微調(diào)模型學(xué)習(xí)到的主體細節(jié),并實現(xiàn)多個人物的高保真組合,而不會出現(xiàn)屬性混合的問題。為了獲得實例分割mask,本文使用包含兩個人物的提示運行單個擴散過程,并在生成的圖像上應(yīng)用現(xiàn)成的分割模型SAM。此外,本文可以在W+空間中通過潛在變量操控對單個主體進行細粒度的屬性編輯,同時保留其他主體的完整性,如上圖1所示。
實驗
本文在StableDiffusion-v2.1上進行所有實驗,將其作為代表性的文本到圖像(T2I)模型。對于反演,本文使用在面部數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練StyleGAN2 e4e編碼器,將圖像映射到W+空間。在接下來的章節(jié)中,本文首先討論數(shù)據(jù)集和指標,然后是單主體和多主體個性化的結(jié)果、細粒度屬性編輯以及消融研究。
數(shù)據(jù)集 & 評估指標
數(shù)據(jù)集:潛在適配器的訓(xùn)練使用了由StyleGAN2生成的合成圖像和來自FFHQ數(shù)據(jù)集的真實圖像的組合。數(shù)據(jù)集包含了70,000張圖像及其對應(yīng)的通過e4e獲得的w潛在代碼。本文收集了一個包含30個主體的評估數(shù)據(jù)集,其中包括科學(xué)家、名人、運動員和科技高管。本文還在補充材料中對“非名人”身份和合成面孔進行了評估。本文使用了一組25種多樣化的文本提示,包括用于風(fēng)格化、背景更改和執(zhí)行特定動作的文本。
評估指標:本文使用兩個廣泛使用的指標來評估個性化性能:提示相似性(Prompt similarity)——使用CLIP來測量提示與生成圖像的對齊程度;身份相似性(Identity similarity, CS)——通過計算來自面部 embedding的余弦相似度來測量輸入圖像與生成圖像之間的身份相似性。為了評估細粒度屬性編輯,本文計算屬性提示(例如,“一個微笑的人”)編輯前后的提示相似性變化(? CLIP)。此外,本文使用LPIPS和身份相似性來測量編輯過程中圖像的變化。對于理想的細粒度屬性編輯,較高的? CLIP表示有意義的編輯,而較低的LPIPS和較高的身份相似性表示源身份的保留。
與個性化方法的比較。
單主體個性化。
Custom Diffusion能夠 embedding主體并保持其身份;然而,它主要生成特寫面孔,并且不根據(jù)文本提示對主體進行風(fēng)格化或使其執(zhí)行動作。Dreambooth無法忠實地 embedding主體的身份,而通過LoRA訓(xùn)練,身份保留得到改善,同時文本對齊性提高,這有助于避免過擬合。Textual Inversion和Celeb Basis的身份保留效果較差,因為它們僅微調(diào)token embedding而不是U-Net。
這段文字討論了Celeb Basis方法在文本對齊方面的表現(xiàn)。由于Celeb Basis方法在跨越名人姓名的基礎(chǔ)上施加了強有力的正則化,因此在文本對齊上表現(xiàn)最佳。本文的方法在文本對齊和身份保留之間找到了完美的平衡。需要注意的是,本文的方法和Celeb Basis都只使用1張輸入圖像,這在一定程度上會影響身份識別,而Custom-diffusion方法需要5張圖像。本文還在補充材料中提供了與基于編碼器的模型以及最近的IP-adaptor方法的額外比較。
這段文字討論了多主體個性化的生成結(jié)果。本文在下圖8、14中展示了 embedding多人物組合的結(jié)果,具體來說,本文在生成過程中結(jié)合了主體特定調(diào)優(yōu)模型的中間輸出。本文與多概念個性化方法、Textual Inversion、Custom Diffusion和Celeb Basis進行了比較。
對于Textual Inversion和Celeb Basis,本文為每個主體分別學(xué)習(xí)了兩個不同的token embedding。對于Custom Diffusion,本文對兩個主體的投影矩陣進行了聯(lián)合微調(diào)。Textual Inversion無法在場景中生成兩個主體。Celeb Basis和Custom Diffusion能夠生成兩個主體,但存在屬性混合的問題(例如,v4的眼鏡被轉(zhuǎn)移到了v3上)。如前所述,Celeb Basis大多數(shù)情況下會生成卡通化的面孔。
本文的方法通過運行多個主體特定的擴散過程解決了屬性混合問題,并生成了高度逼真的組合。
通過潛在操縱進行細粒度控制
提出的方法將StyleGAN的解耦W+潛空間與T2I模型的token embedding空間匹配,通過潛空間操作實現(xiàn)對圖像屬性的連續(xù)控制。本文展示了由StyleGAN解耦潛空間驅(qū)動的兩個重要圖像編輯應(yīng)用:1)細粒度屬性編輯和2)平滑身份插值。此外,本文的模型還可以恢復(fù)受損的人臉圖像,如低分辨率或修復(fù)被遮蓋的面部特征。
細粒度屬性編輯。本文通過在輸入圖像的W編碼中添加一個全局潛在編輯方向來執(zhí)行屬性編輯。為了對所有屬性采用統(tǒng)一的方法,本文采取了一種簡化的方法來獲取編輯方向,收集了一小組(<20)的在屬性編輯前后的配對人像圖像(使用現(xiàn)成的屬性編輯方法生成)。接下來,本文計算對應(yīng)配對W的潛向量之間的差異,并對其進行平均以獲得全局編輯方向。
身份插值。W+空間還允許在兩個身份之間進行平滑插值。給定兩個輸入圖像,本文獲得它們對應(yīng)的潛向量,并進行線性插值以獲得中間潛向量。當(dāng)通過潛在適配器作為條件使用時,這些潛向量會產(chǎn)生逼真的人臉插值,面部之間的變化平滑,同時保留背景,如圖9底部所示。
消融實驗
結(jié)論
本文提出了一種新穎的框架,將T2I擴散模型與StyleGAN2模型的W+空間結(jié)合,用于細粒度屬性控制。具體來說,本文學(xué)習(xí)了一種潛在映射器,將來自W+的潛在代碼投射到通過去噪、正則化和身份保留損失學(xué)習(xí)的T2I模型的輸入token embedding空間。這個框架提供了一種自然的方法,通過使用GAN編碼器模型獲取潛在代碼來 embedding真實的人臉圖像。然后可以通過兩種方式編輯 embedding的人臉——粗略的基于文本的編輯和通過在W+中進行潛在操控的細粒度屬性編輯。
本文轉(zhuǎn)自 AI生成未來 ,作者:IISc
