自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)

發(fā)布于 2024-4-2 12:50
瀏覽
0收藏

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2403.13535

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

先看效果

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

利用Stable Diffusion技術(shù)進(jìn)行個(gè)性化肖像生成已經(jīng)成為一種強(qiáng)大而引人注目的工具,使用戶能夠根據(jù)特定的prompts創(chuàng)建高保真度的定制角色頭像。然而,現(xiàn)有的個(gè)性化方法面臨著挑戰(zhàn),包括測(cè)試時(shí)微調(diào)、需要多個(gè)輸入圖像、身份保存度低以及生成結(jié)果的多樣性有限等。


為了克服這些挑戰(zhàn),本文引入了IDAdapter,這是一種無(wú)需調(diào)整的方法,可增強(qiáng)來(lái)自單個(gè)人臉圖像的個(gè)性化圖像生成中的多樣性和身份保留度。IDAdapter通過(guò)文本和視覺(jué)注入以及人臉身份損失將個(gè)性化概念整合到生成過(guò)程中。在訓(xùn)練階段,將來(lái)自特定身份的多個(gè)參考圖像的混合特征納入到模型中,以豐富與身份相關(guān)的內(nèi)容細(xì)節(jié),引導(dǎo)模型生成具有更多樣化風(fēng)格、表情和角度的圖像,相比之前的作品更為豐富。廣泛的評(píng)估表明了本文方法的有效性,在生成的圖像中實(shí)現(xiàn)了多樣性和身份保真度。

介紹

最近,文本到圖像(T2I)合成領(lǐng)域取得了顯著進(jìn)展,特別是隨著擴(kuò)散模型的出現(xiàn)。諸如Imagen、DALL-E2以及Stable Diffusion等模型因其能夠從自然語(yǔ)言提示生成逼真的圖像而受到關(guān)注。雖然這些模型擅長(zhǎng)從大量文本-圖像數(shù)據(jù)集生成復(fù)雜、高保真度的圖像,但從用戶提供的照片中生成特定主題的圖像仍然是一個(gè)重大挑戰(zhàn)。


在文本到圖像(T2I)合成中實(shí)現(xiàn)個(gè)性化主要通過(guò)采用預(yù)訓(xùn)練模型的方法來(lái)實(shí)現(xiàn)。這些方法通常涉及使用一組特定的參考圖像(3到20張)對(duì)模型進(jìn)行微調(diào)。雖然有效,但這種方法需要對(duì)某些網(wǎng)絡(luò)層進(jìn)行專(zhuān)門(mén)訓(xùn)練,通常需要大量的計(jì)算資源和在高端GPU上的額外處理時(shí)間,這對(duì)于面向用戶的應(yīng)用可能是不可行的。


還有一種策略,是利用大規(guī)模個(gè)性化圖像數(shù)據(jù)集訓(xùn)練的adapters等額外參數(shù)增強(qiáng)預(yù)訓(xùn)練的擴(kuò)散模型。這種方法實(shí)現(xiàn)了無(wú)需調(diào)整的條件生成,但通常缺乏微調(diào)方法的保真度和多樣性。例如,如[6]和[37]所示,這種方法通常將生成的圖像限制在輸入圖像中存在的表情中,從而限制了擴(kuò)散模型的廣泛創(chuàng)造潛力。


受到利用多個(gè)參考圖像進(jìn)行測(cè)試時(shí)微調(diào)方法和adapters系列的啟發(fā),本文引入了IDAdapter。該創(chuàng)新方法在訓(xùn)練期間合成來(lái)自同一個(gè)人的各種圖像的特征,有效地減輕了對(duì)非身份屬性的過(guò)擬合。IDAdapter通過(guò)凍結(jié)基本擴(kuò)散模型的主要權(quán)重運(yùn)行,在單個(gè)GPU上進(jìn)行不到10小時(shí)的訓(xùn)練。


在推理期間,IDAdapter僅需要一個(gè)參考圖像和文本提示就能生成多樣化、高保真度的圖像,保持人物的身份,如圖1所示。

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

它擴(kuò)展了基本模型可以生成的范圍,使結(jié)果更加多樣化同時(shí)保持身份,超越了以前模型的局限性。本文的貢獻(xiàn)有三個(gè)方面:

  • 提出了一種在訓(xùn)練期間合并同一個(gè)人的多個(gè)參考圖像的混合特征的方法,從而產(chǎn)生了一個(gè)避免測(cè)試時(shí)微調(diào)的T2I模型。
  • 在無(wú)需測(cè)試時(shí)微調(diào)的情況下,能夠在多個(gè)風(fēng)格中生成多樣化的角度和表情,以單張照片和文本提示為指導(dǎo),這是以前無(wú)法實(shí)現(xiàn)的能力。
  • 綜合實(shí)驗(yàn)驗(yàn)證了本文的模型在產(chǎn)生與輸入人臉緊密相似的圖像、展示多種角度和展示更廣泛表情的方面優(yōu)于早期模型。

相關(guān)工作

文本到圖像模型

隨著深度生成模型在文本到圖像合成領(lǐng)域的發(fā)展,計(jì)算圖像生成領(lǐng)域取得了顯著進(jìn)步。諸如生成對(duì)抗網(wǎng)絡(luò)(GANs)、自回歸模型和擴(kuò)散模型等技術(shù)起到了關(guān)鍵作用。


最初,這些模型只能在特定領(lǐng)域和文本條件下生成圖像。然而,大規(guī)模圖像文本數(shù)據(jù)集的引入和先進(jìn)的語(yǔ)言模型編碼器顯著提高了文本到圖像合成的能力。開(kāi)創(chuàng)性的DALL-E利用自回歸模型從文本提示創(chuàng)建多樣化的圖像。隨后的GLIDE引入了擴(kuò)散模型,以生成更真實(shí)、更高分辨率的圖像。因此,擴(kuò)散模型越來(lái)越成為文本到圖像合成的主流方法。最近的發(fā)展如DALL-E 2、Imagen和LDM進(jìn)一步增強(qiáng)了這些模型,提供了更多的真實(shí)感、更好的語(yǔ)言理解和多樣化的輸出。Stable Diffusion在開(kāi)源社區(qū)中的成功引起了其廣泛的使用和各種微調(diào)模型的開(kāi)發(fā)。本文的方法論是基于Stable Diffusion模型。

通過(guò)主題驅(qū)動(dòng)調(diào)整進(jìn)行個(gè)性化

個(gè)性化生成的目標(biāo)是根據(jù)參考圖像在不同場(chǎng)景和風(fēng)格中創(chuàng)建特定主題的變體。最初,生成對(duì)抗網(wǎng)絡(luò)(GANs)被用于這個(gè)目的,通過(guò)對(duì)大約100張面部圖像微調(diào)StyleGAN實(shí)現(xiàn)了個(gè)性化。隨后,pivotal tuning涉及在StyleGAN中微調(diào)潛在空間code,從而實(shí)現(xiàn)了變體圖像的創(chuàng)建。然而,這些基于GAN的方法在主題保真度和風(fēng)格多樣性方面存在局限性。


最近的進(jìn)展隨著Stable Diffusion模型的出現(xiàn)而取得了進(jìn)步,提高了主題保真度和輸出多樣性。文本反演通過(guò)使用少量圖像優(yōu)化輸入文本 embeddings以生成主題圖像。[42]的研究增強(qiáng)了文本反演以捕獲詳細(xì)的主題信息。DreamBooth為了獲得更高的保真度,優(yōu)化了整個(gè)T2I網(wǎng)絡(luò)。隨后,幾種方法如CustomDiffusion、SVDiff、LoRA、StyleDrop以及[18]的方法提出了部分優(yōu)化。DreamArtist展示了單張圖像的風(fēng)格個(gè)性化。盡管這些方法有效,但它們涉及耗時(shí)的多步微調(diào)過(guò)程,對(duì)于每個(gè)新概念都有限制,限制了它們?cè)诂F(xiàn)實(shí)世界應(yīng)用中的實(shí)用性。

無(wú)調(diào)整文本到圖像個(gè)性化

一個(gè)獨(dú)特的研究方向涉及使用大量特定領(lǐng)域的數(shù)據(jù)訓(xùn)練模型,從而消除了推理階段的額外微調(diào)的需要。Instruct-Pix2Pix通過(guò)將參考圖像的潛在特征整合到噪聲注入過(guò)程中,促進(jìn)了對(duì)象替換和風(fēng)格變化。ELITE引入了一個(gè)訓(xùn)練協(xié)議,結(jié)合了全局和局部映射,利用了OpenImages測(cè)試集。UMM-Diffusion利用LAION-400M數(shù)據(jù)集,提出了一種結(jié)合文本和圖像輸入的多模態(tài)潛在擴(kuò)散方法。幾項(xiàng)研究,如UMM、ELITE和SuTI,已經(jīng)證明了無(wú)需微調(diào)即可生成主題圖像。


類(lèi)似地,Taming-Encoder和InstantBooth專(zhuān)注于人類(lèi)和動(dòng)物主題,采用了擴(kuò)散模型的新條件分支。FastComposer、Face0和PhotoVerse也在這一領(lǐng)域提出了新穎的方法。盡管取得了這些進(jìn)展,一個(gè)關(guān)鍵挑戰(zhàn)仍然在于在易用性與生成質(zhì)量和多樣性之間的平衡。本文提出的解決方案,IDAdapter,通過(guò)協(xié)調(diào)模型的可用性和輸出的質(zhì)量與多樣性來(lái)解決這個(gè)問(wèn)題。

方法

考慮到一個(gè)特定人物的單張面部圖像,打算通過(guò)文本提示生成該人物的一系列生動(dòng)圖像,并具有多樣性。例如多樣性包括不僅調(diào)整著裝、屬性、背景等語(yǔ)義修改(本文中稱為“風(fēng)格”),而且生成各種面部表情和姿勢(shì)。接下來(lái)簡(jiǎn)要回顧了潛在擴(kuò)散模型的必要符號(hào),以及從單張圖像中簡(jiǎn)單提取面部特征的方法,然后提出了從少量圖像中提取混合面部特征的技術(shù),最后通過(guò)adapter層將其作為新概念合并到生成器結(jié)構(gòu)中。下圖2顯示了本文基于Stable Diffusion結(jié)構(gòu)的方法概述。

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

準(zhǔn)備工作

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

面部特征

本文的目標(biāo)是從輸入圖像中提取面部特征,將它們與文本提示所表示的風(fēng)格信息注入,并生成一系列具有與識(shí)別出的面部特征保真度相符的圖像。直觀地說(shuō),這種多樣性至少包括以下三個(gè)方面:

  • 風(fēng)格的多樣性,生成的圖像必須符合提示所指示的風(fēng)格
  • 面部角度的多樣性,表示能夠產(chǎn)生該人物的各種面部姿勢(shì)的圖像
  • 表情的多樣性,指生成該人物展示一系列不同表情或情緒的圖像的能力。

一個(gè)直觀的方法是學(xué)習(xí)輸入面部圖像在文本空間中的特征,并將這些特征嵌入到Stable Diffusion的生成引導(dǎo)過(guò)程中,以便可以通過(guò)一個(gè)特定的標(biāo)識(shí)詞控制該人物的圖像生成。然而,正如一些研究所指出的,僅使用文本空間embedding會(huì)限制生成圖像的最終質(zhì)量。導(dǎo)致這種陷阱的一個(gè)潛在原因可能是文本空間特征在捕獲身份(ID)特征方面的限制。因此,必須通過(guò)基于圖像特征的引導(dǎo)來(lái)補(bǔ)充文本條件引導(dǎo),以增強(qiáng)圖像生成能力。

常用的通用CLIP圖像編碼器和來(lái)自人臉識(shí)別網(wǎng)絡(luò)的特征向量編碼器都與輸入圖像的非身份(non-ID)信息(如面部姿勢(shì)和表情)有很強(qiáng)的綁定。這種綁定導(dǎo)致生成的圖像在人物級(jí)別缺乏多樣性,如下圖3所示。為了解決這個(gè)問(wèn)題,本文提出了混合面部特征模塊(MFF)。該模塊旨在在擴(kuò)散模型的生成過(guò)程中控制ID和非ID特征的解耦,從而實(shí)現(xiàn)生成具有增強(qiáng)多樣性的圖像。

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

混合面部特征(MFF)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

這個(gè)豐富的特征是從同一身份的多個(gè)圖像中獲得的,因此它們的共同特征(即身份信息)將得到極大增強(qiáng),而其他特征(如任何特定圖像的面部角度和表情)將略有削弱。因此,可以在很大程度上幫助增加生成結(jié)果的多樣性。發(fā)現(xiàn)當(dāng)N = 4時(shí),個(gè)性化結(jié)果強(qiáng)大且保持身份保真度、可編輯性和面部變化。

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)


個(gè)性化概念整合

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

其中,y是自注意力層的輸出,S是自注意力運(yùn)算符,γ是一個(gè)可學(xué)習(xí)的標(biāo)量,初始化為0,β是一個(gè)常數(shù),用于平衡adapter層的重要性。


然后,通過(guò)更新每個(gè)交叉注意力塊中的鍵和值投影矩陣,模型能夠?qū)W⒂诿娌康囊曈X(jué)特征,并將它們與文本空間中的個(gè)性化概念聯(lián)系起來(lái)。


面部身份損失:實(shí)驗(yàn)將展示通過(guò)學(xué)習(xí)混合面部特征實(shí)現(xiàn)的生成多樣性,這會(huì)降低面部區(qū)域的正則化。然而,它也引發(fā)了保持身份的問(wèn)題。因此,引入了一個(gè)面部身份損失,監(jiān)督模型保留參考圖像的身份。這使得模型能夠生成多樣的外觀,同時(shí)保留身份特征。具體而言,利用了一個(gè)預(yù)訓(xùn)練的人臉識(shí)別模型R:

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)


評(píng)估指標(biāo):本文評(píng)估中的一個(gè)關(guān)鍵方面是生成圖像中面部身份的保真度。為了量化這一點(diǎn),本文計(jì)算了平均身份保持,即生成圖像的面部特征與其真實(shí)對(duì)應(yīng)物之間的成對(duì)余弦相似度(ID-Sim)。這個(gè)計(jì)算是使用一個(gè)預(yù)訓(xùn)練的人臉識(shí)別模型進(jìn)行的,如[9]中所述。此外,引入了兩個(gè)新的指標(biāo)來(lái)評(píng)估生成圖像的多樣性:姿勢(shì)多樣性(Pose-Div)和表情多樣性(Expr-Div)。

  • 姿勢(shì)多樣性(Pose-Div):該指標(biāo)評(píng)估了生成圖像與輸入圖像之間的面部角度差異。為了量化這種差異,計(jì)算了所有測(cè)試圖像中面部角度的平均偏差。為了更好地反映實(shí)際情況,本文特別報(bào)告了俯仰角(Pose-Div pitch)和偏航角的結(jié)果(Pose-Div yaw)。這種方法能夠評(píng)估模型生成具有一系列不同面部方向的圖像的能力。
  • 表情多樣性(Expr-Div):該指標(biāo)評(píng)估了生成圖像與輸入圖像之間的面部表情變化。利用預(yù)訓(xùn)練的表情分類(lèi)模型,測(cè)量了整個(gè)測(cè)試數(shù)據(jù)集中具有不同表情類(lèi)別的生成圖像的比例。該指標(biāo)中的較高值表示模型生成多樣的面部表情的能力更強(qiáng)。

這些指標(biāo)對(duì)于確定本文的方法生成的圖像不僅個(gè)性化,而且在姿勢(shì)和表情方面也多樣化至關(guān)重要,反映了更全面的人類(lèi)面部外觀范圍。

比較

定性結(jié)果:本文的方法與幾種領(lǐng)先技術(shù)進(jìn)行了基準(zhǔn)比較,包括文本反演、Dreambooth、E4T、ProFusion和Photoverse,如下圖5所示。

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

定量結(jié)果:在定量實(shí)驗(yàn)中,使用三個(gè)指標(biāo)評(píng)估了IDAdapter的能力:身份保持(ID-Sim)、姿勢(shì)多樣性(Pose-Div)和表情多樣性(Expr-Div)。此外,這些模型在生成不同的面部表情和姿勢(shì)方面表現(xiàn)不佳。因此,僅對(duì)需要進(jìn)行微調(diào)的開(kāi)源模型進(jìn)行了Pos-Div和Expr-Div指標(biāo)的評(píng)估。在這個(gè)實(shí)驗(yàn)中,作者選擇了參數(shù)N = 4。如下表1所示,本文的方法在幾乎所有指標(biāo)上都取得了最高分??梢钥闯?,IDAdapter有效地利用基礎(chǔ)模型生成保留身份的更多樣化結(jié)果。

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

消融研究

如下表2和圖7所示,本文的分析揭示了IDAdapter方法不同組件對(duì)生成圖像質(zhì)量的影響。

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

重大突破!IDAdapter:首個(gè)無(wú)需微調(diào),單張圖像生成多樣和個(gè)性化頭像方案(北大&格靈深瞳)-AI.x社區(qū)

身份文本Embedding的影響:當(dāng)從過(guò)程中移除身份文本embedding組件(無(wú)文本Embedding)時(shí),生成圖像的身份保持明顯下降。這種急劇下降表明文本條件在指導(dǎo)Stable Diffusion生成個(gè)性化圖像方面發(fā)揮了關(guān)鍵作用。沒(méi)有身份文本Embedding,個(gè)性化生成的基本特征幾乎喪失了。


MFF視覺(jué)Embedding的移除:消除MFF(無(wú)MFF)輸出的視覺(jué)Embedding組件會(huì)導(dǎo)致身份保持和多樣性顯著下降。這表明MFF模塊為模型提供了豐富的身份相關(guān)內(nèi)容細(xì)節(jié)。MFF對(duì)抗過(guò)擬合是至關(guān)重要的,并有助于保持基礎(chǔ)模型生成個(gè)人多樣化圖像的能力。


不同N值的影響:改變訓(xùn)練過(guò)程中使用的圖像數(shù)量N對(duì)多樣性和身份保持有不同影響。在測(cè)試不同的N值后,發(fā)現(xiàn)N = 4提供了最佳平衡。它在保持身份相似性和增強(qiáng)多樣性之間取得了出色的折衷。這種平衡對(duì)于生成既個(gè)性化又多樣化的圖像至關(guān)重要。


身份損失的影響:訓(xùn)練了IDAdapter(N = 4),沒(méi)有使用面部身份損失(無(wú)ID損失)。模型在學(xué)習(xí)面部特征方面的表現(xiàn)下降,生成的面孔與輸入的相似性不如加入ID損失時(shí)那樣高。

結(jié)論

本文介紹了一種名為IDAdapter的方法,它是第一個(gè)能夠在推理階段使用單個(gè)輸入面部圖像以多種風(fēng)格、角度和表情生成圖像的方法,而無(wú)需進(jìn)行微調(diào),在個(gè)性化頭像生成領(lǐng)域取得了重大突破。


本文轉(zhuǎn)自  AI生成未來(lái) ,作者:Siying Cui等


原文鏈接:??https://mp.weixin.qq.com/s/SJqlXrwH49Erw24lXt2ozA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦