自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!

發(fā)布于 2024-7-24 10:00
瀏覽
0收藏

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

論文鏈接: https://arxiv.org/pdf/2407.14078
github鏈接: https://xiaojiu-z.github.io/Stable-Hair.github.io/

亮點(diǎn)直擊

  • Stable-Hair:這是第一個(gè)基于擴(kuò)散的發(fā)型移植框架。與現(xiàn)有的基于GAN的發(fā)型移植方法相比,Stable-Hair在保真度和魯棒性方面表現(xiàn)更佳。實(shí)驗(yàn)結(jié)果證實(shí),Stable-Hair優(yōu)于其他最新的方法。
  • 創(chuàng)新架構(gòu):本文的方法使用了Hair Extractor結(jié)合Hair Cross-attention Layers來(lái)有效地注入?yún)⒖及l(fā)型特征。為了在轉(zhuǎn)移過(guò)程中保持源內(nèi)容的一致性,本文引入了一種新的Latent ControlNet架構(gòu)。該架構(gòu)既用作Bald Converter,又用作Latent IdentityNet,從像素空間到潛在空間促進(jìn)發(fā)型移植過(guò)程。
  • 自動(dòng)化數(shù)據(jù)生產(chǎn)pipeline:本文開(kāi)發(fā)了一條自動(dòng)化數(shù)據(jù)生產(chǎn)pipeling,這在本文的框架成功訓(xùn)練中起到了關(guān)鍵作用。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

當(dāng)前的發(fā)型移植方法在處理多樣且復(fù)雜的發(fā)型時(shí)存在困難,從而限制了它們?cè)诂F(xiàn)實(shí)場(chǎng)景中的適用性。在本文中,本文提出了一種新型的基于擴(kuò)散的發(fā)型移植框架,名為Stable-Hair,該框架能夠穩(wěn)健地將各種真實(shí)世界的發(fā)型移植到用戶(hù)提供的面部圖像上,以實(shí)現(xiàn)虛擬試發(fā)。為了實(shí)現(xiàn)這一目標(biāo),本文的Stable-Hair框架設(shè)計(jì)為一個(gè)兩階段的流程。


  • 在第一階段,本文訓(xùn)練了一個(gè)光頭轉(zhuǎn)換器(Bald Converter)與 Stable diffusion一起使用,以去除用戶(hù)提供的面部圖像中的頭發(fā),生成光頭圖像。
  • 在第二階段,本文專(zhuān)門(mén)設(shè)計(jì)了三個(gè)模塊:頭發(fā)提取器(Hair Extractor)、潛在身份網(wǎng)絡(luò)(Latent IdentityNet)和頭發(fā)交叉注意力層(Hair Cross-Attention Layers),以將目標(biāo)發(fā)型高細(xì)節(jié)和高保真度地轉(zhuǎn)移到光頭圖像上。


具體來(lái)說(shuō),頭發(fā)提取器被訓(xùn)練用來(lái)編碼具有所需發(fā)型的參考圖像。為了保持源圖像與轉(zhuǎn)移結(jié)果之間身份內(nèi)容和背景的一致性,本文采用了潛在身份網(wǎng)絡(luò)來(lái)編碼源圖像。在U-Net中借助本文的頭發(fā)交叉注意力層,可以準(zhǔn)確而精確地將高度詳細(xì)和高保真度的發(fā)型移植到光頭圖像上。


大量實(shí)驗(yàn)表明,本文的方法在現(xiàn)有的發(fā)型移植方法中實(shí)現(xiàn)了最先進(jìn)的(SOTA)結(jié)果。

方法

Stable-Hair

概述。 本文的設(shè)計(jì)將發(fā)型移植過(guò)程分為兩個(gè)階段。首先,使用Bald Converter將用戶(hù)輸入的源圖像轉(zhuǎn)換為光頭agent圖像。其次,本文的模型將參考發(fā)型移植到光頭agent圖像上。這確保了發(fā)型移植的最佳穩(wěn)定性,并保持源圖像內(nèi)容的一致性。


我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

Latent ControlNet。 在本方法中,源圖像分兩步處理。第一步是通過(guò)Bald Converter將源圖像轉(zhuǎn)換為光頭agent圖像。第二步是利用Latent IdentityNet保持光頭人物圖像的非頭發(fā)區(qū)域的內(nèi)容一致性。通過(guò)這兩步保持源圖像的內(nèi)容一致性至關(guān)重要。任何偏離預(yù)期目標(biāo)的情況,例如顏色或結(jié)構(gòu)的變化,都會(huì)導(dǎo)致內(nèi)容不一致的最終圖像。因此,設(shè)計(jì)這兩個(gè)內(nèi)容維護(hù)模塊成為本文發(fā)型移植框架的關(guān)鍵方面。


一種簡(jiǎn)單的基線(xiàn)方法是利用ControlNet結(jié)構(gòu)作為Bald Converter和Latent IdentityNet來(lái)確保內(nèi)容一致性。然而,本文的實(shí)驗(yàn)結(jié)果表明,盡管ControlNet能夠有效地保持源圖像的結(jié)構(gòu)一致性,但它在保持顏色一致性方面存在困難。如下圖4所示,由于在這兩個(gè)步驟中累積的顏色偏差,最終的顏色發(fā)生了明顯的變化。


為什么ControlNet會(huì)產(chǎn)生顏色差異?本文認(rèn)為原因在于像素空間和潛在空間在根本上以不同的方式表示圖像信息。像素空間處理的是圖像的原始像素值,而潛在空間則涉及由VAE編碼器創(chuàng)建的更抽象的高維表示。對(duì)于擴(kuò)散模型,這兩個(gè)空間中信息的特征和分布可能會(huì)顯著不同,使得在訓(xùn)練過(guò)程中對(duì)齊變得具有挑戰(zhàn)性。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

因此,如下圖2所示,本文改進(jìn)了ControlNet結(jié)構(gòu),并提出了一種新的變體,稱(chēng)為L(zhǎng)atent ControlNet。在圖像輸入ControlNet之前,圖像首先通過(guò)VAE編碼器編碼到潛在空間,然后通過(guò)一個(gè)新的可訓(xùn)練卷積層發(fā)送到U-Net的可訓(xùn)練副本。最后,本文基于提出的Latent ControlNet結(jié)構(gòu)訓(xùn)練本文的Bald Converter和Latent IdentityNet,并獲得了最佳的一致性效果。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

模型訓(xùn)練和推理

訓(xùn)練數(shù)據(jù)收集。 如下圖5所示,本文創(chuàng)建發(fā)型配對(duì)數(shù)據(jù)集的流程包括兩個(gè)主要步驟。 首先,本文使用光頭轉(zhuǎn)換器生成光頭圖像,這些圖像在訓(xùn)練期間作為光頭的agent圖像。 其次,基于原始圖像中的發(fā)型mask,本文使用Stable Diffusion修復(fù)模型和ChatGPT來(lái)編輯原始數(shù)據(jù)集的非發(fā)型部分,改變身份和背景,以創(chuàng)建訓(xùn)練用的參考圖像。 最終,本文獲得了一個(gè)三元數(shù)據(jù)集,包括原始圖像、參考圖像和光頭agent圖像。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

訓(xùn)練。 在第一階段,本文使用類(lèi)似于 ControlNet 的簡(jiǎn)單方法在現(xiàn)有數(shù)據(jù)集上訓(xùn)練光頭轉(zhuǎn)換器。這使本文能夠?qū)崿F(xiàn)一個(gè)高效的光頭轉(zhuǎn)換器。在第二階段,本文專(zhuān)注于訓(xùn)練模型的主要組件。在這兩個(gè)訓(xùn)練過(guò)程中,本文使用了多種增強(qiáng)技術(shù),這對(duì)于適應(yīng)真實(shí)世界的場(chǎng)景和實(shí)現(xiàn)成功的發(fā)型移植至關(guān)重要。這些增強(qiáng)技術(shù)包括對(duì)源圖像、光頭agent圖像和目標(biāo)圖像應(yīng)用同步仿射變換。


這兩個(gè)階段的損失函數(shù)與原始的Stable Diffusion訓(xùn)練目標(biāo)相似,可以用數(shù)學(xué)公式表示如下:

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)


推理。 在推理過(guò)程中,有兩個(gè)階段。在第一個(gè)階段,用戶(hù)提供的源圖像被輸入到光頭轉(zhuǎn)換器中以獲得光頭agent圖像。在第二個(gè)階段,光頭agent圖像和參考圖像被輸入到本文的發(fā)型移植框架中,以指導(dǎo)擴(kuò)散生成過(guò)程。

實(shí)驗(yàn)

Evaluation Metrics

給定一個(gè)發(fā)型參考圖像和一個(gè)發(fā)色參考圖像,發(fā)型移植的目的是將相應(yīng)的發(fā)型和發(fā)色屬性應(yīng)用到輸入圖像中。將本文的方法與當(dāng)前最先進(jìn)的方法進(jìn)行了比較,包括:Barbershop、SYH、HairFastGAN、hairclip 和 hairclipv2。所有比較算法均使用其官方實(shí)現(xiàn)中的默認(rèn)參數(shù)。


為了全面和客觀(guān)地評(píng)估每種算法在發(fā)型移植不同方面的性能,本文計(jì)算了源圖像和生成的目標(biāo)圖像的FID指標(biāo)。發(fā)型移植后,源圖像和生成圖像的結(jié)構(gòu)和內(nèi)容信息應(yīng)該一致,因此本文使用SSIM指標(biāo)來(lái)評(píng)估源圖像和生成的目標(biāo)圖像之間的結(jié)構(gòu)和內(nèi)容相似性。此外,本文使用PSNR指標(biāo)來(lái)評(píng)估生成圖像的質(zhì)量,并使用Insightface來(lái)評(píng)估原始源圖像和生成的目標(biāo)圖像之間的身份相似性(IDS)。

實(shí)驗(yàn)結(jié)果

定性比較。 如下圖6所示,本文對(duì)各種發(fā)型進(jìn)行了定性比較實(shí)驗(yàn)??傮w而言,本文的方法在發(fā)型移植的精細(xì)度和完整性方面顯著優(yōu)于其他方法,同時(shí)在很大程度上保持了源圖像的結(jié)構(gòu)和身份一致性。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

在本文比較的方法中,Barbershop 經(jīng)常出現(xiàn)簡(jiǎn)單的頭發(fā)粘貼問(wèn)題,且頭發(fā)和臉部的融合常常顯得不自然(如第三和第四行所示)。“Style Your Hair”和“Hair Fast GAN”在發(fā)型移植上表現(xiàn)得相當(dāng)粗糙,常常忽略頭發(fā)細(xì)節(jié),并且在有色頭發(fā)上顯示出顏色不一致的現(xiàn)象?!癏airclip”和“Hairclip v2”在發(fā)型移植能力上表現(xiàn)最弱,難以準(zhǔn)確移植參考發(fā)型。


相比之下,本文的方法在不同發(fā)型和顏色的轉(zhuǎn)移上始終表現(xiàn)出強(qiáng)大而穩(wěn)定的能力。本文的方法不僅生成的結(jié)果更加精細(xì)和完整,而且保持了源圖像的結(jié)構(gòu)完整性和身份一致性,確保了自然和協(xié)調(diào)的外觀(guān)。


定量比較實(shí)驗(yàn)。 實(shí)驗(yàn)使用 CelebA-HQ 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),隨機(jī)選擇 2500 張人臉圖像作為輸入,并從剩余的 CelebA-HQ 數(shù)據(jù)集中選擇相同數(shù)量的參考圖像。下表 1 顯示了本文在不同方法上的定量評(píng)估。總體而言,本文的方法在大多數(shù)指標(biāo)上都超過(guò)了以往的方法。具體來(lái)說(shuō),更高的 SSIM 和 IDS 分?jǐn)?shù)表明 Stable-Hair 在轉(zhuǎn)移發(fā)型的同時(shí),有效地保留了源圖像的內(nèi)容和身份,展示了本文方法在保持結(jié)構(gòu)和內(nèi)容一致性方面的優(yōu)越性。此外,較高的 FID 分?jǐn)?shù)表明本文的方法在轉(zhuǎn)移后生成了高保真和高度逼真的結(jié)果。本文的方法在 PSNR 指標(biāo)上排名第二。雖然在這一特定指標(biāo)上略遜于 Hairclip v2,但綜合考慮其他指標(biāo),本文的方法仍展示了高圖像保真度和質(zhì)量。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

用戶(hù)研究。 考慮到發(fā)型移植任務(wù)的主觀(guān)性,本文進(jìn)行了全面的用戶(hù)研究,涉及 30 名志愿者。具體來(lái)說(shuō),本文從定量實(shí)驗(yàn)中隨機(jī)抽取了 20 組數(shù)據(jù),并從社交媒體上選擇了 10 種流行發(fā)型作為參考樣式,使用從 FFHQ 數(shù)據(jù)集中隨機(jī)抽取的相應(yīng)數(shù)量的源圖像,通過(guò)各種算法創(chuàng)建了額外的 10 組數(shù)據(jù)。這導(dǎo)致一共生成了 30 組三元組,每組包含一張?jiān)紙D像、一張參考圖像和轉(zhuǎn)移結(jié)果。與以往的方法(Wei 等人,2022)一樣,不同算法的測(cè)試結(jié)果是隨機(jī)化的。對(duì)于每個(gè)測(cè)試樣本,志愿者被要求根據(jù)三個(gè)標(biāo)準(zhǔn)選擇最佳選項(xiàng):轉(zhuǎn)移準(zhǔn)確性、無(wú)關(guān)屬性的保留和視覺(jué)自然度。下表2中的結(jié)果表明,本文的方法在轉(zhuǎn)移準(zhǔn)確性、無(wú)關(guān)屬性的保留和視覺(jué)自然度方面均優(yōu)于對(duì)比方法。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

在本文的消融研究中,本文旨在通過(guò)系統(tǒng)地去除各個(gè)組件并觀(guān)察其對(duì)性能的影響,徹底調(diào)查本文方法中每個(gè)模塊的作用。如下圖7所示,結(jié)果清楚地表明,使用ControlNet進(jìn)行像素條件輸入訓(xùn)練的模型通常會(huì)出現(xiàn)顏色差異,特別是在結(jié)果的第一列和第三列中。這些差異導(dǎo)致源圖像和目標(biāo)圖像之間的不一致。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

為了解決這個(gè)問(wèn)題,本文提出了Latent ControlNet,它將去除頭發(fā)和轉(zhuǎn)移過(guò)程從像素空間映射到潛在空間。這種方法有效地消除了像素條件輸入所觀(guān)察到的顏色不一致性,顯著增強(qiáng)了內(nèi)容保留。此外,本文在第一階段輸出的光頭圖像看起來(lái)非常自然,促進(jìn)了向第二階段的無(wú)縫過(guò)渡。因此,這導(dǎo)致了非常令人滿(mǎn)意的轉(zhuǎn)移結(jié)果。


跨域轉(zhuǎn)移結(jié)果。 如下圖8所示,本文方法的魯棒性使得發(fā)型可以在不同領(lǐng)域之間進(jìn)行轉(zhuǎn)移,這是以前的方法無(wú)法實(shí)現(xiàn)的能力。 這表明了本文方法在發(fā)型移植領(lǐng)域的顯著進(jìn)步。

我的發(fā)型我做主!上交聯(lián)合Tiamat發(fā)布首個(gè)基于擴(kuò)散的商業(yè)級(jí)發(fā)型移植框架:Stable-Hair!-AI.x社區(qū)

結(jié)論

在本文中,介紹了Stable-Hair,這是第一個(gè)使用擴(kuò)散技術(shù)解決發(fā)型移植問(wèn)題的框架。這一方法標(biāo)志著一個(gè)顯著的進(jìn)步,實(shí)現(xiàn)了以前無(wú)法實(shí)現(xiàn)的穩(wěn)定且細(xì)粒度的真實(shí)世界發(fā)型移植。Stable-Hair具有一個(gè)兩階段的流程。第一階段使用光頭轉(zhuǎn)換器將源圖像轉(zhuǎn)換為光頭agent圖像。第二階段包括一個(gè)頭發(fā)提取器、一個(gè)潛在身份網(wǎng)絡(luò)(Latent IdentityNet)和頭發(fā)交叉注意力層,以準(zhǔn)確地將目標(biāo)發(fā)型移植到光頭圖像上。頭發(fā)提取器對(duì)具有所需發(fā)型的參考圖像進(jìn)行編碼,而潛在身份網(wǎng)絡(luò)則保留身份內(nèi)容和背景一致性。U-Net中的頭發(fā)交叉注意力層確保發(fā)型移植的精確性和高保真度。廣泛的實(shí)驗(yàn)表明,Stable-Hair實(shí)現(xiàn)了商業(yè)級(jí)的發(fā)型移植能力,設(shè)立了該領(lǐng)域的新標(biāo)準(zhǔn)。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Yuxuan Zhang等


原文鏈接:??https://mp.weixin.qq.com/s/ciqrnFgIWTXD1llQ_paKig??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄