自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人! 精華

發(fā)布于 2024-7-29 08:41
瀏覽
1收藏

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2407.16224
git鏈接: https://humanaigc.github.io/outfit-anyone/
huggingface:  https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

?

亮點(diǎn)直擊

  • 頂尖逼真度:OutfitAnyone 方法為虛擬試穿設(shè)立了新的行業(yè)標(biāo)準(zhǔn),提供行業(yè)領(lǐng)先的高質(zhì)量結(jié)果。
  • 高魯棒性:OutfitAnyone 可以支持任何人、任何服裝、任何體型和任何場(chǎng)景的虛擬試穿。
  • 靈活控制:支持各種姿勢(shì)和體型引導(dǎo)方法,包括 (openpose,SMP,densepose)。
  • 高質(zhì)量:支持靈活尺寸的虛擬試穿合成,尺寸范圍從 384(寬)× 684(高)到 1080(寬)× 1920(高)。


虛擬試穿 (VTON) 已成為一種變革性技術(shù),使用戶能夠在不實(shí)際試穿衣服的情況下嘗試時(shí)尚。然而,現(xiàn)有的方法通常難以生成高保真和細(xì)節(jié)一致的結(jié)果。雖然擴(kuò)散模型(如 Stable Diffusion 1/2/3)在創(chuàng)建高質(zhì)量和逼真的圖像方面展示了其能力,但在 VTON 這樣的條件生成場(chǎng)景中,它們遇到了巨大的挑戰(zhàn)。具體來(lái)說(shuō),這些模型在生成虛擬試穿圖像時(shí)難以在控制和一致性之間保持平衡。


OutfitAnyone 通過(guò)利用雙流條件擴(kuò)散模型解決了這些限制,使其能夠巧妙地處理服裝變形,從而生成更加逼真的結(jié)果。它的特點(diǎn)在于可擴(kuò)展性——可以調(diào)節(jié)姿勢(shì)、體型等因素,且應(yīng)用范圍廣泛,從動(dòng)漫圖像到實(shí)際場(chǎng)景圖像均可適用。OutfitAnyone 在各種場(chǎng)景中的表現(xiàn)突顯了其實(shí)用性和現(xiàn)實(shí)世界部署的準(zhǔn)備程度。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

整體框架

如下圖2所示,開(kāi)發(fā)了一個(gè)框架,結(jié)合了ReferenceNet,該網(wǎng)絡(luò)在服裝圖像作為主要生成流程中的條件時(shí),有效地保持了圖案和紋理信息的完整性。該設(shè)計(jì)確保了在生成過(guò)程中服裝的合身性和視覺(jué)細(xì)節(jié)能夠準(zhǔn)確保留。內(nèi)部網(wǎng)絡(luò)分為兩個(gè)流,用于獨(dú)立處理模型和服裝數(shù)據(jù)。這些流在融合網(wǎng)絡(luò)中匯合,從而將服裝細(xì)節(jié)嵌入到模型的特征表示中。在此基礎(chǔ)上,建立了OutfitAnyone,包括兩個(gè)關(guān)鍵元素:用于初始試穿圖像的零樣本試穿網(wǎng)絡(luò)(Zero-shot Try-on Network),以及用于增強(qiáng)輸出圖像中服裝和皮膚紋理細(xì)節(jié)的事后優(yōu)化器(Post-hoc Refiner)。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

服裝特征注入

Stable Diffusion (SD) 及其增強(qiáng)版 SDXL都采用了預(yù)訓(xùn)練的自動(dòng)編碼器進(jìn)行復(fù)雜度降低,該自動(dòng)編碼器由編碼器和解碼器組成。為了擴(kuò)展此框架以解決虛擬試穿問(wèn)題,保持服裝外觀一致性至關(guān)重要,因此需要額外的服裝圖像條件輸入。輸入的服裝圖像被輸入到編碼器中,以提取其在潛在空間中的相應(yīng)特征。研究者們?cè)O(shè)計(jì)了一個(gè)專門的服裝特征處理網(wǎng)絡(luò) ReferenceNet,該網(wǎng)絡(luò)的結(jié)構(gòu)與原始 SD 模型中的 U-Net相似。兩個(gè)網(wǎng)絡(luò)都以相同的預(yù)訓(xùn)練參數(shù)初始化,以確保一致性。通過(guò)集成空間注意力和交叉注意力層,成功地將與服裝相關(guān)的特征納入去噪流程,從而顯著提升試穿圖像生成的質(zhì)量。

無(wú)分類器引導(dǎo)

在原始SD的背景下,無(wú)分類器引導(dǎo)(classifier-free guidance)是一種在不依賴外部分類器的情況下控制生成過(guò)程的技術(shù)。該方法利用單個(gè)擴(kuò)散模型在有條件和無(wú)條件數(shù)據(jù)上進(jìn)行訓(xùn)練。通過(guò)調(diào)整引導(dǎo)比例,可以引導(dǎo)生成過(guò)程生成與給定文本提示一致的圖像。


在虛擬試穿框架中,將服裝圖像確定為關(guān)鍵控制元素,強(qiáng)調(diào)其相對(duì)于文本提示的重要性。因此,調(diào)整了無(wú)條件分類器引導(dǎo),使用空白服裝圖像作為無(wú)條件輸入,而使用實(shí)際提供的服裝圖像作為條件輸入。能夠有效地利用引導(dǎo)比例,從而提供更加精確和一致的生成結(jié)果。

背景和光照保留

為了保持生成圖像與原始圖像在光照和背景上的一致性,之前的工作如TryonDiffusion使用了人物服裝分割模型,從模型圖像中獲取服裝mask。這個(gè)mask會(huì)稍微擴(kuò)展,然后擦除模型圖像中對(duì)應(yīng)的區(qū)域。將部分擦除的圖像輸入生成模型,生成模型學(xué)習(xí)基于該圖像和給定的服裝圖像填充服裝區(qū)域。這種方法在更換相似風(fēng)格的服裝時(shí)效果很好,而無(wú)需大量數(shù)據(jù)。然而,對(duì)于風(fēng)格差異顯著的服裝更換,如從短褲換成長(zhǎng)裙或從緊身?yè)Q成寬松的衣服,則不適用。原因是原始服裝mask的區(qū)域可能限制新服裝的生成,并且mask形狀可能導(dǎo)致與風(fēng)格的不良耦合。


本文的方法首先檢測(cè)模型圖像中人物的邊界框,然后擦除除了面部和手部以外的所有部分。這種方法避免了mask形狀與風(fēng)格的不良耦合,并提供了足夠大的區(qū)域支持上下裝的更換。然而,增加生成的背景區(qū)域可能導(dǎo)致顯著的背景差異。在這種情況下,可以使用精確的人物分割模型提取生成的人物并將其粘貼回原始背景中。

姿勢(shì)和形狀引導(dǎo)

傳統(tǒng)方法在更換單件衣服時(shí),通過(guò)選擇性地替換圖像部分來(lái)保留身體形狀的真實(shí)度,保留軀干以生成合理的身體輪廓。然而,這種方法在更換整套衣服時(shí)失敗,需要額外的姿勢(shì)和形狀引導(dǎo)器進(jìn)行指導(dǎo)。


在控制人物姿勢(shì)方面,雖然之前的研究如ControlNet已展示了令人印象深刻的結(jié)果,但它們需要額外的訓(xùn)練階段和參數(shù)。相比之下,作者采用了一種更簡(jiǎn)化的架構(gòu)方法。如前面所述,為確保一致的背景和光照,結(jié)合了反映姿勢(shì)和形狀的條件圖像。所有這些組件可以一起連接并作為輸入送入去噪U(xiǎn)-Net中??刂茍D像可以包括骨架圖像、密集姿勢(shì)圖像或使用SMP模型渲染的與目標(biāo)圖像對(duì)應(yīng)的圖像。在實(shí)驗(yàn)中,作者實(shí)現(xiàn)了與ControlNet類似的姿勢(shì)和形狀控制效果,而無(wú)需額外的參數(shù)或訓(xùn)練階段。

細(xì)節(jié)優(yōu)化器

為了創(chuàng)建適用于任何服裝和任何人的虛擬試穿體驗(yàn),在數(shù)據(jù)集中引入了各種服裝風(fēng)格和人類主體。然而,確保數(shù)據(jù)集的多樣性同時(shí)保持高圖像質(zhì)量和細(xì)節(jié)是一個(gè)挑戰(zhàn)。為了解決這個(gè)問(wèn)題,從數(shù)據(jù)集中選取了最高質(zhì)量的圖像,并將它們與虛擬試穿初始版本生成的圖像配對(duì),這些初始圖像缺乏清晰和高質(zhì)量的細(xì)節(jié)。參見(jiàn)下圖3的示意圖。通過(guò)這種方式,構(gòu)建了一個(gè)特定任務(wù)的數(shù)據(jù)集,包括高質(zhì)量和低質(zhì)量圖像的配對(duì)。隨后,重新利用虛擬試穿框架,將低質(zhì)量圖像作為輸入,高質(zhì)量圖像作為目標(biāo),訓(xùn)練擴(kuò)散模型有效地恢復(fù)精細(xì)和真實(shí)的細(xì)節(jié)。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

結(jié)果

本節(jié)展示了本文方法的強(qiáng)大性能,支持任何服裝、體型、人物和背景變化的單件和多件虛擬試穿。值得注意的是,本文的技術(shù)還能夠在未包含在訓(xùn)練數(shù)據(jù)集中的動(dòng)畫人物上進(jìn)行虛擬服裝更換。

任何服裝

如下圖4所示,OutfitAnyone 不僅支持單件服裝的虛擬試穿,還允許同時(shí)更換上下裝等完整的服裝套裝。此外,它能夠有效生成適合各種服裝風(fēng)格的真實(shí)試穿效果,包括長(zhǎng)袖和短袖上衣、長(zhǎng)褲和短褲,以及連衣裙和類似服裝。與之前的方法相比,OutfitAnyone 在處理各種服裝風(fēng)格和組合方面展示了卓越的適應(yīng)性和效果。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

任何人物

OutfitAnyone 能夠適用于各種膚色、年齡和性別的模型虛擬試穿,如下圖5和圖6所示。此外,它能夠巧妙處理日常用戶的自拍圖像,這些圖像的質(zhì)量和光照通常與專業(yè)模特照片差異很大。盡管存在這些差異,OutfitAnyone 依然能一致地提供令人信服的服裝轉(zhuǎn)換效果,如下圖13最后一列所示。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

此外,本文的技術(shù)還擴(kuò)展到了未包含在訓(xùn)練數(shù)據(jù)中的動(dòng)畫角色,如下圖7所示。這一能力表明,本文的模型不僅僅是簡(jiǎn)單的學(xué)習(xí)和模仿,它還獲得了真正的理解和智能能力,能夠在各種情境下有效地應(yīng)用服裝更換!

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

任何體型

本文的框架包含一個(gè)額外的通道用于姿勢(shì)和形狀引導(dǎo),它提取類似于DensePose的數(shù)據(jù)(工作還支持SMPL和OpenPose),這些數(shù)據(jù)反映了身體的輪廓。這些信息對(duì)于引導(dǎo)最終生成的模型復(fù)制原始圖像的精確體型至關(guān)重要。如下圖8所示,本文的方法在各種體型上,即使在進(jìn)行全面的服裝更換后,也能很好地保持原始模型的體型。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

任何背景

OutfitAnyone 在各種背景和光照?qǐng)鼍爸斜憩F(xiàn)出卓越的魯棒性。它能夠在復(fù)雜的戶外場(chǎng)景中生成合理的服裝光照效果,并在各種室內(nèi)和戶外背景下保持良好表現(xiàn),如上圖5、下圖11以及上圖13的最后一列所示。這種適應(yīng)性展示了它在不同環(huán)境條件和現(xiàn)實(shí)世界背景下的有效性。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

細(xì)節(jié)優(yōu)化器

本文提出利用自循環(huán)優(yōu)化器模型來(lái)增強(qiáng)虛擬試穿結(jié)果的真實(shí)感。下圖9顯示,該優(yōu)化器模型顯著提升了渲染圖像的清晰度和紋理逼真度,而下圖12強(qiáng)調(diào)了其保留清晰、局部細(xì)節(jié)的能力。在OutfitAnyone中,這個(gè)額外的優(yōu)化步驟對(duì)于實(shí)現(xiàn)更加生動(dòng)和令人信服的虛擬試穿體驗(yàn)至關(guān)重要。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

比較

將本文的方法與一些流行的社區(qū)方法進(jìn)行了比較,如OOTDiffusion(在GitHub上有5k星)和IDM-VTON(在GitHub上有3k星)。本文的模型在特別具有挑戰(zhàn)性的場(chǎng)景中表現(xiàn)出明顯更好的性能。如前面圖13所示,OutfitAnyone即使在處理普通用戶照片時(shí)也表現(xiàn)出色,這些照片通常具有復(fù)雜的背景和光照條件,使得實(shí)現(xiàn)令人滿意的虛擬試穿結(jié)果更加困難。這突顯了本文方法在處理現(xiàn)實(shí)世界情況時(shí)的卓越魯棒性,能夠在各種情況下保持高質(zhì)量的表現(xiàn)。

時(shí)尚設(shè)計(jì)助手

實(shí)際上,OutfitAnyone模型被證明是一個(gè)多功能且有用的時(shí)尚設(shè)計(jì)資源。通過(guò)利用其生成獨(dú)特和時(shí)尚服裝設(shè)計(jì)的能力,它可以激發(fā)設(shè)計(jì)師探索新風(fēng)格和新想法。此外,當(dāng)只提供一件上裝時(shí),本文的模型可以生成潛在的下裝設(shè)計(jì)建議,提供額外的創(chuàng)意可能性并促進(jìn)設(shè)計(jì)過(guò)程,如下圖10所示。盡管有一些細(xì)節(jié)需要關(guān)注,但相信,隨著訓(xùn)練數(shù)據(jù)的增加和模型的優(yōu)化,可以實(shí)現(xiàn)更好的結(jié)果。

顛覆虛擬試衣行業(yè)標(biāo)準(zhǔn)!阿里發(fā)布OutfitAnyone:任意服裝+任意人!-AI.x社區(qū)

結(jié)論

自2023年底初次發(fā)布以來(lái),OutfitAnyone經(jīng)歷了多個(gè)版本的迭代,基于SD 1.5和SDXL版本不斷改進(jìn)。其最初的開(kāi)源版本在Hugging Face平臺(tái)上排名第14位,位列整個(gè)Hugging Face平臺(tái)(超過(guò)20萬(wàn)個(gè)項(xiàng)目)前0.01% ,贏得了廣泛的認(rèn)可和關(guān)注。強(qiáng)大的擴(kuò)散技術(shù)(如SD、SDXL、DDPM/DDIM/DPM、ControlNet等)和谷歌在虛擬試穿方面的開(kāi)創(chuàng)性探索TryonDiffusion,這使研究者們能夠?yàn)樘摂M試穿開(kāi)辟出一條獨(dú)特、成熟的發(fā)展路徑??傊?,OutfitAnyone有幸為AI生成內(nèi)容(AIGC)的實(shí)際部署提供了一個(gè)基準(zhǔn)應(yīng)用。


本文轉(zhuǎn)自  AI生成未來(lái) ,作者:Ke Sun等


原文鏈接:??https://mp.weixin.qq.com/s/BPIALSBkhWPDZdyhRxVy9A??

標(biāo)簽
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄