自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔

發(fā)布于 2024-7-19 09:46
瀏覽
0收藏

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2407.12705
github鏈接:https://imagdressing.github.io/
Demo試用:https://sf.dictdoc.site/

?

亮點直擊

  • 為商家引入了一項新的虛擬試衣(VD)任務(wù),并設(shè)計了一個綜合親和力測量指數(shù)(CAMI)用于評估生成圖像與參考服裝之間的一致性。
  • 提出了IMAGDressing-v1,其中包括一個用于提取細(xì)粒度服裝特征的服裝UNet和一個帶有混合注意力模塊的去噪UNet,以平衡服裝特征與文本提示控制。在所有評估指標(biāo)上表現(xiàn)優(yōu)于其他SOTA方法。
  • IMAGDressing-v1可以與其他擴展插件(如ControlNet和IP-Adapter)結(jié)合,以增強生成圖像的多樣性和可控性。
  • 收集并發(fā)布了一個大規(guī)模的互動服裝配對(IGPair)數(shù)據(jù)集,包含超過30萬對服裝和穿戴圖像,供社區(qū)探索和研究。


目前已經(jīng)通過使用潛在擴散模型的局部服裝修復(fù)實現(xiàn)了逼真的虛擬試衣(VTON),顯著提升了消費者的在線購物體驗。然而,現(xiàn)有的VTON技術(shù)忽略了商家全面展示服裝的需求,包括對服裝、面孔、姿勢和場景的靈活控制。


為了解決這一問題,本文定義了一個虛擬試衣(VD)任務(wù),專注于生成具有固定服裝和可選條件的可自由編輯的人像。同時,設(shè)計了一個綜合親和力指標(biāo)(CAMI),用于評估生成圖像與參考服裝之間的一致性。并提出了IMAGDressing-v1,它結(jié)合了一個捕捉CLIP語義特征和VAE紋理特征的服裝UNet。同時提出了一種混合注意力模塊,包括一個凍結(jié)的自注意力和一個可訓(xùn)練的交叉注意力,將服裝UNet中的服裝特征整合到一個凍結(jié)的去噪UNet中,確保用戶可以通過文本控制不同的場景。IMAGDressing-v1可以與其他擴展插件(如ControlNet和IP-Adapter)結(jié)合,以增強生成圖像的多樣性和可控性。此外,為了解決數(shù)據(jù)缺乏的問題,發(fā)布了互動服裝配對(IGPair)數(shù)據(jù)集,包含超過300,000對服裝和穿戴圖像,并建立了一個標(biāo)準(zhǔn)的數(shù)據(jù)組裝流程。大量實驗表明,IMAGDressing-v1在各種受控條件下實現(xiàn)了最先進(jìn)的人像合成性能。

與MagicClothing對比

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

與IP-Adapter結(jié)合

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

與IP-Adapter 和 ControlNet-Pose結(jié)合

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

支持不同場景的文本提示

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

支持在特定區(qū)域更換(實驗特性)

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

Demo展示:

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

方法

IMAGDressing-v1

如下圖3所示,提出的IMAGDressing-v1主要由一個可訓(xùn)練的服裝UNet組成,其架構(gòu)與Stable Diffusion V1.5(SD v1.5)相同。不同之處在于服裝UNet能夠同時捕捉來自CLIP的服裝語義特征和來自VAE的紋理特征,因為VAE可以近乎無損地重建圖像。下部是一個凍結(jié)的去噪UNet,類似于SD v1.5,用于在特定條件下對潛在圖像進(jìn)行去噪。與SD v1.5不同,研究者們用混合注意力模塊替換了所有自注意力模塊,以更容易地整合來自服裝UNet的服裝特征,并利用現(xiàn)有的文本生成圖像功能通過文本提示進(jìn)行場景控制。此外,IMAGDressing-v1包括一個用于編碼服裝特征的圖像編碼器和投影層,以及一個用于編碼文本特征的文本編碼器。

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

服裝UNet

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

混合注意力

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

訓(xùn)練和推理

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

在推理階段,也根據(jù)公式7使用無分類器指導(dǎo)。

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

Q: 如何支持自定義生成?如前面圖3所示,去噪UNet中的基本模塊權(quán)重是凍結(jié)的,這使得服裝UNet實際上成為一個適配器模塊,與其他社區(qū)適配器兼容,以實現(xiàn)自定義面部和姿勢生成。例如,要生成穿著給定服裝和一致姿勢的人的圖像,IMAGDressing-v1可以與ControlNet-Openpose結(jié)合。要生成穿著指定服裝的特定個人,IMAGDressing-v1可以與IP-Adapter集成。此外,如果需要同時指定姿勢和面部,IMAGDressing-v1可以與ControlNet-Openpose和IP-Adapter結(jié)合使用。此外,對于虛擬試衣(VTON)任務(wù),IMAGDressing-v1也可以與ControlNet-Inpaint結(jié)合使用。

實驗

實施細(xì)節(jié)

實驗中,通過繼承Stable Diffusion v1.5中UNet的預(yù)訓(xùn)練權(quán)重來初始化服裝UNet的權(quán)重,并微調(diào)其權(quán)重。本文的模型在IGPair數(shù)據(jù)集的配對圖像上以512×640的分辨率進(jìn)行訓(xùn)練。采用固定學(xué)習(xí)率為5e-5的AdamW優(yōu)化器。模型在10個NVIDIA RTX3090 GPU上以批次大小為5進(jìn)行訓(xùn)練,共200,000步。在推理階段,圖像使用UniPC采樣器進(jìn)行50步采樣,并將指導(dǎo)尺度w設(shè)置為7.0。

主要比較

將IMAGDressing-v1與四種最新的(SOTA)方法進(jìn)行比較:Blip-Diffusion,Versatile Diffusion,Versatile Diffusion,以及MagicClothing。

定量結(jié)果

如下表2所示,由于Blip-Diffusion、Versatile Diffusion和IP-Adapter并非專門設(shè)計的VD模型,它們難以提取細(xì)粒度的服裝特征并生成精確匹配文本、姿勢和服裝屬性的角色圖像。這導(dǎo)致其在多個指標(biāo)上表現(xiàn)不佳。此外,這些模型與多個插件不兼容,因此無法計算CAMI-S指標(biāo)。與MagicClothing相比,IMAGDressing-v1通過其圖像編碼器分支捕捉更多細(xì)節(jié)服裝特征,并采用混合注意力機制。這種機制在保留原有文本編輯和生成能力的同時,整合了額外的服裝特征。因此,IMAGDressing-v1在所有評估指標(biāo)上表現(xiàn)優(yōu)于其他SOTA方法。

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

定性結(jié)果

下圖4展示了IMAGDressing-v1與SOTA方法的定性結(jié)果對比,包括非特定條件和特定條件生成的結(jié)果。在圖4(a)中,在非特定條件下,BLIP-Diffusion 和Versatile Diffusion未能忠實地再現(xiàn)服裝紋理。雖然IP-Adapter保持了服裝的整體外觀,但無法很好地保留細(xì)節(jié),更重要的是,未能準(zhǔn)確遵循文本提示。MagicClothing與文本條件高度一致;然而,它在保留服裝整體外觀和細(xì)節(jié)(如印刷文字或顏色)方面表現(xiàn)不佳。相比之下,IMAGDressing-v1不僅遵循文本提示,還保留了細(xì)粒度的服裝細(xì)節(jié),在VD任務(wù)中表現(xiàn)出色。本文的方法支持自定義文本提示場景,如圖4(a)的最后三行所示。此外,圖4(b)展示了在特定條件下的定性結(jié)果。觀察到,IMAGDressing-v1在涉及給定姿勢、面部或兩者的場景中顯著優(yōu)于MagicClothing。IMAGDressing-v1生成的結(jié)果表現(xiàn)出更優(yōu)越的紋理細(xì)節(jié)和更逼真的外觀。這表明IMAGDressing-v1與社區(qū)適配器的兼容性增強,提升了生成圖像的多樣性和可控性。

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

消融研究

各組件的有效性。下表3展示了一項消融研究,以驗證所提出的圖像編碼器分支(IEB)和混合注意力(HA)模塊的有效性。這里,A0(基礎(chǔ))表示沒有IEB和HA的設(shè)置。觀察到使用IEB的A1在所有指標(biāo)上都有所提升,表明IEB有效地捕捉到了語義服裝特征。此外,A2超越了A1,表明IEB和HA的結(jié)合進(jìn)一步提升了定量結(jié)果。

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

此外,下圖5提供了定性比較。A0未能在具有復(fù)雜紋理的圖像中充分捕捉服裝特征(第二行)。盡管IEB(A1)部分解決了這個問題,但將IEB直接注入去噪UNet會導(dǎo)致與主模型特征沖突,導(dǎo)致服裝細(xì)節(jié)模糊(第三行)。因此,HA模塊(A2)通過調(diào)整服裝UNet中服裝細(xì)節(jié)的強度來提高圖像保真度(第四行),這與本文的定量結(jié)果一致。

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

潛在應(yīng)用

下圖7展示了IMAGDressing-v1在虛擬試衣(VTON)中的潛在應(yīng)用。通過將IMAGDressing-v1與ControlNet-Inpaint結(jié)合并遮罩服裝區(qū)域,實現(xiàn)了VTON。結(jié)果表明,IMAGDressing-v1可以實現(xiàn)高保真的VTON,展示了顯著的潛力。

虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔-AI.x社區(qū)

結(jié)論

盡管最近使用潛在擴散模型在VTON方面取得了顯著進(jìn)展,增強了在線購物體驗,但它們?nèi)匀粺o法讓商家全面展示服裝,并靈活控制面部、姿勢和場景。為了彌補這一差距,本文引入了虛擬試衣(VD)任務(wù),旨在生成在可選條件下穿著固定服裝的可編輯人像。本文提出的IMAGDressing-v1采用了服裝UNet和混合注意力模塊,整合服裝特征,通過文本實現(xiàn)場景控制。它支持像ControlNet和IP-Adapter這樣的插件,以提供更大的多樣性和可控性。此外,研究者們發(fā)布了包含超過300,000對服裝和穿著圖像的IGPair數(shù)據(jù)集,提供了一個強大的數(shù)據(jù)組裝流程。廣泛的實驗驗證表明,IMAGDressing-v1在受控人像合成方面達(dá)到了業(yè)界領(lǐng)先的性能水平。


本文轉(zhuǎn)自  AI生成未來 ,作者:Fei Shen等


原文鏈接:??https://mp.weixin.qq.com/s/Ik8BRNa-ADWCJqKIHN_hhA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦