自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!

發(fā)布于 2024-9-2 11:07
瀏覽
0收藏

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2408.05083
工程主頁(yè):https://rishubhpar.github.io/PreciseControl.home/
git鏈接:https://github.com/rishubhpar/PreciseControl

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

亮點(diǎn)直擊

  • 首次提出將大型文本到圖像(T2I)模型與StyleGAN2結(jié)合的方法,通過(guò)將T2I模型條件化在豐富的潛在空間上實(shí)現(xiàn)。
  • 使用單張肖像圖像進(jìn)行有效個(gè)性化的方法,使得在空間中進(jìn)行細(xì)粒度的屬性編輯,并通過(guò)文本提示實(shí)現(xiàn)粗略編輯。
  • 引入了一種通過(guò)鏈?zhǔn)綌U(kuò)散過(guò)程融合多個(gè)個(gè)性化模型的新方法,用于多人合成。


最近,大家看到了一波針對(duì)文本到圖像(T2I)擴(kuò)散模型的個(gè)性化方法的興起,這些方法通過(guò)少量圖像來(lái)學(xué)習(xí)一個(gè)概念。現(xiàn)有的方法在用于人臉個(gè)性化時(shí),難以實(shí)現(xiàn)具有身份保留的令人信服的反演,并依賴于對(duì)生成的人臉進(jìn)行語(yǔ)義文本編輯。然而,人們希望對(duì)面部屬性進(jìn)行更細(xì)粒度的控制,這僅靠文本提示是難以實(shí)現(xiàn)的。


相比之下,StyleGAN模型學(xué)習(xí)了豐富的人臉先驗(yàn),并通過(guò)潛在空間的操控實(shí)現(xiàn)了對(duì)細(xì)粒度屬性編輯的平滑控制。本文利用了StyleGANs的解耦的W+空間來(lái)對(duì)T2I模型進(jìn)行條件化。這種方法使我們能夠精確地操控面部屬性,例如平滑地引入微笑,同時(shí)保留T2I模型中固有的粗粒度文本控制。為了使T2I模型能夠在W+空間上進(jìn)行條件化,本文訓(xùn)練了一個(gè)潛在映射器,將W+中的潛在編碼翻譯到T2I模型的token embedding空間。所提出的方法在實(shí)現(xiàn)面部圖像的精確反演和屬性保留方面表現(xiàn)出色,并促進(jìn)了對(duì)細(xì)粒度屬性編輯的連續(xù)控制。此外,本文的方法可以很容易地?cái)U(kuò)展到生成涉及多個(gè)個(gè)體的合成圖像。本文進(jìn)行了廣泛的實(shí)驗(yàn),以驗(yàn)證本文的方法在面部個(gè)性化和細(xì)粒度屬性編輯方面的有效性。

方法

提要

文本到圖像擴(kuò)散模型。 本研究使用StableDiffusion-v2.1作為代表性的文本到圖像(T2I)擴(kuò)散模型。Stable Diffusion 基于潛在擴(kuò)散模型,它在潛在空間中應(yīng)用擴(kuò)散過(guò)程。其訓(xùn)練包括兩個(gè)階段:a)訓(xùn)練一個(gè)VAE或VQ-VAE自編碼器,將圖像映射到壓縮的潛在空間;b)在潛在空間中訓(xùn)練一個(gè)擴(kuò)散模型,以文本為條件引導(dǎo)生成。這個(gè)框架將自編碼器中細(xì)粒度細(xì)節(jié)的學(xué)習(xí)與擴(kuò)散模型中的語(yǔ)義特征學(xué)習(xí)分離開(kāi)來(lái),從而使得擴(kuò)展更加容易。


基于風(fēng)格的GAN, [6, 17, 18]已經(jīng)被廣泛應(yīng)用于生成逼真的特定對(duì)象圖像,如人臉。此外,這些模型具有解耦的潛在空間W/W+,使得圖像之間的平滑插值和細(xì)粒度屬性編輯成為可能。這些特性是通過(guò)將高斯?jié)撛诳臻g映射到一個(gè)學(xué)習(xí)的潛在空間  并使用映射網(wǎng)絡(luò)實(shí)現(xiàn)的。此外,GAN編碼器模型可以對(duì)真實(shí)圖像進(jìn)行編碼和編輯,將給定圖像反演到W+空間,從而允許對(duì)真實(shí)圖像進(jìn)行細(xì)粒度編輯。

概覽

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

潛在適配器 M

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

訓(xùn)練

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

推理

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

人臉屬性的細(xì)粒度控制

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

多人組成

本文的方法可以擴(kuò)展到在單個(gè)場(chǎng)景中組合多個(gè)主體身份。簡(jiǎn)單地在文本提示中 embedding多個(gè)令牌 embedding(每個(gè)主體一個(gè)),而不進(jìn)行主體特定的調(diào)整,會(huì)導(dǎo)致身份失真(如下圖5a所示)。聯(lián)合進(jìn)行主體特定調(diào)整可以改善身份識(shí)別,但會(huì)出現(xiàn)屬性混合的問(wèn)題,即一個(gè)主體的面部屬性被轉(zhuǎn)移到另一個(gè)主體上,如下圖5b中的年齡和頭發(fā)。這是文本到圖像(T2I)生成中的一個(gè)常見(jiàn)問(wèn)題,模型在處理場(chǎng)景中的多個(gè)對(duì)象時(shí),容易綁定錯(cuò)誤的屬性。本文采用了一種不同的方法,靈感來(lái)自于MultiDiffusion,在這個(gè)方法中,本文運(yùn)行多個(gè)串聯(lián)的擴(kuò)散過(guò)程,每個(gè)主體和背景各一個(gè)。在每一步的去噪過(guò)程中,將這些過(guò)程的輸出進(jìn)行組合。

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

本文使用實(shí)例分割mask來(lái)進(jìn)行處理。對(duì)于每個(gè)主體,本文通過(guò)其對(duì)應(yīng)的主體特定微調(diào)模型運(yùn)行擴(kuò)散過(guò)程。這種方法能夠保留每個(gè)微調(diào)模型學(xué)習(xí)到的主體細(xì)節(jié),并實(shí)現(xiàn)多個(gè)人物的高保真組合,而不會(huì)出現(xiàn)屬性混合的問(wèn)題。為了獲得實(shí)例分割mask,本文使用包含兩個(gè)人物的提示運(yùn)行單個(gè)擴(kuò)散過(guò)程,并在生成的圖像上應(yīng)用現(xiàn)成的分割模型SAM。此外,本文可以在W+空間中通過(guò)潛在變量操控對(duì)單個(gè)主體進(jìn)行細(xì)粒度的屬性編輯,同時(shí)保留其他主體的完整性,如上圖1所示。

實(shí)驗(yàn)

本文在StableDiffusion-v2.1上進(jìn)行所有實(shí)驗(yàn),將其作為代表性的文本到圖像(T2I)模型。對(duì)于反演,本文使用在面部數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練StyleGAN2 e4e編碼器,將圖像映射到W+空間。在接下來(lái)的章節(jié)中,本文首先討論數(shù)據(jù)集和指標(biāo),然后是單主體和多主體個(gè)性化的結(jié)果、細(xì)粒度屬性編輯以及消融研究。

數(shù)據(jù)集 & 評(píng)估指標(biāo)

數(shù)據(jù)集:潛在適配器的訓(xùn)練使用了由StyleGAN2生成的合成圖像和來(lái)自FFHQ數(shù)據(jù)集的真實(shí)圖像的組合。數(shù)據(jù)集包含了70,000張圖像及其對(duì)應(yīng)的通過(guò)e4e獲得的w潛在代碼。本文收集了一個(gè)包含30個(gè)主體的評(píng)估數(shù)據(jù)集,其中包括科學(xué)家、名人、運(yùn)動(dòng)員和科技高管。本文還在補(bǔ)充材料中對(duì)“非名人”身份和合成面孔進(jìn)行了評(píng)估。本文使用了一組25種多樣化的文本提示,包括用于風(fēng)格化、背景更改和執(zhí)行特定動(dòng)作的文本。


評(píng)估指標(biāo):本文使用兩個(gè)廣泛使用的指標(biāo)來(lái)評(píng)估個(gè)性化性能:提示相似性(Prompt similarity)——使用CLIP來(lái)測(cè)量提示與生成圖像的對(duì)齊程度;身份相似性(Identity similarity, CS)——通過(guò)計(jì)算來(lái)自面部 embedding的余弦相似度來(lái)測(cè)量輸入圖像與生成圖像之間的身份相似性。為了評(píng)估細(xì)粒度屬性編輯,本文計(jì)算屬性提示(例如,“一個(gè)微笑的人”)編輯前后的提示相似性變化(? CLIP)。此外,本文使用LPIPS和身份相似性來(lái)測(cè)量編輯過(guò)程中圖像的變化。對(duì)于理想的細(xì)粒度屬性編輯,較高的? CLIP表示有意義的編輯,而較低的LPIPS和較高的身份相似性表示源身份的保留。

與個(gè)性化方法的比較。

單主體個(gè)性化。  本文在評(píng)估集中使用多樣化的文本提示進(jìn)行單圖像個(gè)性化,如下圖7、13所示。本文與以下基于微調(diào)的個(gè)性化方法進(jìn)行比較:Custom Diffusion、Dreambooth、Dreambooth+LoRA(即通過(guò)低秩更新來(lái)避免過(guò)擬合的Dreambooth)、Textual Inversion 和 Celeb Basis。除了Celeb Basis和本文的方法外,所有方法都使用每個(gè)主體的5張圖像進(jìn)行訓(xùn)練,而Celeb Basis和本文的方法僅使用單張輸入圖像。關(guān)于競(jìng)爭(zhēng)方法的超參數(shù)細(xì)節(jié)在補(bǔ)充材料中提供。

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

Custom Diffusion能夠 embedding主體并保持其身份;然而,它主要生成特寫(xiě)面孔,并且不根據(jù)文本提示對(duì)主體進(jìn)行風(fēng)格化或使其執(zhí)行動(dòng)作。Dreambooth無(wú)法忠實(shí)地 embedding主體的身份,而通過(guò)LoRA訓(xùn)練,身份保留得到改善,同時(shí)文本對(duì)齊性提高,這有助于避免過(guò)擬合。Textual Inversion和Celeb Basis的身份保留效果較差,因?yàn)樗鼈儍H微調(diào)token embedding而不是U-Net。


這段文字討論了Celeb Basis方法在文本對(duì)齊方面的表現(xiàn)。由于Celeb Basis方法在跨越名人姓名的基礎(chǔ)上施加了強(qiáng)有力的正則化,因此在文本對(duì)齊上表現(xiàn)最佳。本文的方法在文本對(duì)齊和身份保留之間找到了完美的平衡。需要注意的是,本文的方法和Celeb Basis都只使用1張輸入圖像,這在一定程度上會(huì)影響身份識(shí)別,而Custom-diffusion方法需要5張圖像。本文還在補(bǔ)充材料中提供了與基于編碼器的模型以及最近的IP-adaptor方法的額外比較。


這段文字討論了多主體個(gè)性化的生成結(jié)果。本文在下圖8、14中展示了 embedding多人物組合的結(jié)果,具體來(lái)說(shuō),本文在生成過(guò)程中結(jié)合了主體特定調(diào)優(yōu)模型的中間輸出。本文與多概念個(gè)性化方法、Textual Inversion、Custom Diffusion和Celeb Basis進(jìn)行了比較。

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

對(duì)于Textual Inversion和Celeb Basis,本文為每個(gè)主體分別學(xué)習(xí)了兩個(gè)不同的token embedding。對(duì)于Custom Diffusion,本文對(duì)兩個(gè)主體的投影矩陣進(jìn)行了聯(lián)合微調(diào)。Textual Inversion無(wú)法在場(chǎng)景中生成兩個(gè)主體。Celeb Basis和Custom Diffusion能夠生成兩個(gè)主體,但存在屬性混合的問(wèn)題(例如,v4的眼鏡被轉(zhuǎn)移到了v3上)。如前所述,Celeb Basis大多數(shù)情況下會(huì)生成卡通化的面孔。


本文的方法通過(guò)運(yùn)行多個(gè)主體特定的擴(kuò)散過(guò)程解決了屬性混合問(wèn)題,并生成了高度逼真的組合。

通過(guò)潛在操縱進(jìn)行細(xì)粒度控制

提出的方法將StyleGAN的解耦W+潛空間與T2I模型的token embedding空間匹配,通過(guò)潛空間操作實(shí)現(xiàn)對(duì)圖像屬性的連續(xù)控制。本文展示了由StyleGAN解耦潛空間驅(qū)動(dòng)的兩個(gè)重要圖像編輯應(yīng)用:1)細(xì)粒度屬性編輯和2)平滑身份插值。此外,本文的模型還可以恢復(fù)受損的人臉圖像,如低分辨率或修復(fù)被遮蓋的面部特征。


細(xì)粒度屬性編輯。本文通過(guò)在輸入圖像的w編碼中添加一個(gè)全局潛在編輯方向來(lái)執(zhí)行屬性編輯。為了對(duì)所有屬性采用統(tǒng)一的方法,本文采取了一種簡(jiǎn)化的方法來(lái)獲取編輯方向,收集了一小組(<20)的在屬性編輯前后的配對(duì)人像圖像(使用現(xiàn)成的屬性編輯方法生成)。接下來(lái),本文計(jì)算對(duì)應(yīng)配對(duì)的w潛向量之間的差異,并對(duì)其進(jìn)行平均以獲得全局編輯方向。


T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

身份插值。W+空間還允許在兩個(gè)身份之間進(jìn)行平滑插值。給定兩個(gè)輸入圖像,本文獲得它們對(duì)應(yīng)的w潛向量,并進(jìn)行線性插值以獲得中間潛向量。當(dāng)通過(guò)潛在適配器作為條件使用時(shí),這些潛向量會(huì)產(chǎn)生逼真的人臉插值,面部之間的變化平滑,同時(shí)保留背景,如圖9底部所示。

消融實(shí)驗(yàn)

T2I與StlyeGAN2首次聯(lián)手!PreciseControl:單肖像生成精細(xì)個(gè)性化圖像!-AI.x社區(qū)

結(jié)論

本文提出了一種新穎的框架,將T2I擴(kuò)散模型與StyleGAN2模型的W+空間結(jié)合,用于細(xì)粒度屬性控制。具體來(lái)說(shuō),本文學(xué)習(xí)了一種潛在映射器,將來(lái)自W+的潛在代碼投射到通過(guò)去噪、正則化和身份保留損失學(xué)習(xí)的T2I模型的輸入token embedding空間。這個(gè)框架提供了一種自然的方法,通過(guò)使用GAN編碼器模型獲取潛在代碼來(lái) embedding真實(shí)的人臉圖像。然后可以通過(guò)兩種方式編輯 embedding的人臉——粗略的基于文本的編輯和通過(guò)在W+中進(jìn)行潛在操控的細(xì)粒度屬性編輯。


本文轉(zhuǎn)自 AI生成未來(lái),作者:IISc 


原文鏈接:??https://mp.weixin.qq.com/s/Iu9LDpkg83P_6rXLBFFi5w??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦