上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit:任意場景、任意組合! 精華
文章鏈接:https://arxiv.org/pdf/2405.18172
工程鏈接:https://colorful-liyu.github.io/anyfit-page/
今天和大家一起學(xué)習(xí)的是一種名為AnyFit的新型虛擬試穿系統(tǒng),旨在解決現(xiàn)有技術(shù)在處理不同場景和服飾組合時出現(xiàn)的衣物風(fēng)格不匹配和質(zhì)量下降問題。通過引入輕量級、可擴(kuò)展的Hydra Block操作符和并行注意力機(jī)制,AnyFit能夠有效地將多種服飾特征注入主網(wǎng)絡(luò),實現(xiàn)高保真度的試穿效果。此外,通過合成多個模型的殘差和實施mask區(qū)域增強(qiáng)策略,AnyFit顯著提高了模型在真實世界場景中的魯棒性和表達(dá)能力。實驗結(jié)果表明,AnyFit在高清基準(zhǔn)測試和實際數(shù)據(jù)上均超越了現(xiàn)有技術(shù),能夠生成細(xì)節(jié)豐富且逼真的試穿圖像。
主要貢獻(xiàn)
確立AnyFit為一種新穎的虛擬試衣(VTON)范式,能夠熟練應(yīng)對各種場景下任意服裝組合的挑戰(zhàn),如下圖1所示。AnyFit主要由兩個同構(gòu)的U-Net組成,即HydraNet和MainNet。前者負(fù)責(zé)提取細(xì)粒度的服裝特征,而后者負(fù)責(zé)生成試穿效果。
可擴(kuò)展性:AnyFit的一個顯著特點是創(chuàng)新引入了Hydra編碼塊,僅在共享的HydraNet中并行化注意力矩陣,從而使每增加一個分支參數(shù)量僅增加8%,即可輕松擴(kuò)展到任何數(shù)量的條件。這種并行化提案基于以下洞察:只有自注意力層對于隱式變形至關(guān)重要,其余組件主要作為通用特征提取器。研究者們進(jìn)一步發(fā)明了Hydra融合塊,以無縫整合Hydra編碼的特征到MainNet中,并通過位置嵌入?yún)^(qū)分來自不同來源的編碼。需要注意的是,當(dāng)僅限于單一條件時,ReferenceNet或GarmentNet可以視為HydraNet的特定實例。
穩(wěn)健性:觀察表明,現(xiàn)有虛擬試穿(VTON)工作生成的圖像在穩(wěn)健性和質(zhì)量上明顯低于原始穩(wěn)定擴(kuò)散表現(xiàn)。受社區(qū)討論的啟發(fā),提出了先驗?zāi)P脱莼呗?。這種創(chuàng)新方法涉及在模型家族(例如,一系列微調(diào)版本的SDXL)內(nèi)合并參數(shù)變化,使得基礎(chǔ)模型的多種能力能夠獨(dú)立演化。在訓(xùn)練前放大模型固有潛力,這種策略被證明為直觀且高效的方法,特別是當(dāng)面對雙U-Net訓(xùn)練成本顯著增加的問題時,這在之前的研究中被忽略。此外,引入了自適應(yīng)mask增強(qiáng),以進(jìn)一步優(yōu)化服裝的合身度。它需要在訓(xùn)練階段延長無解析mask區(qū)域的長度,使模型能夠自主理解服裝的整體形狀,從而擺脫之前依賴于服裝mask提示的局限。在推理過程中,根據(jù)目標(biāo)服裝的縱橫比調(diào)整mask區(qū)域的形狀,從而顯著提升試穿效果,特別是對于長款服裝(如風(fēng)衣)。
方法
模型概述
可擴(kuò)展性:為了保留服裝的細(xì)節(jié),并支持單件和多件服裝的VTON,采用了一個鏡像MainNet的HydraNet來編碼服裝信息。它與MainNet共享相同的權(quán)重初始化,并根據(jù)條件數(shù)量并行化注意力矩陣,創(chuàng)建不同條件編碼的Hydra編碼塊。
穩(wěn)健性:在訓(xùn)練過程中,觀察到mask 信息泄漏和質(zhì)量下降等問題。為了解決這些問題,分別采用了自適應(yīng)mask 增強(qiáng)和先驗?zāi)P脱莼?,這顯著增強(qiáng)了模型在不同場景下的穩(wěn)健性,且成本效益高且簡單易行。
HydraNet用于多條件VTON
HydraNet。受在人像編輯領(lǐng)域成功實踐的啟發(fā),本文引入了一個與主要生成網(wǎng)絡(luò)(MainNet)同構(gòu)的服裝編碼網(wǎng)絡(luò),以精確保留服裝的細(xì)節(jié)。在處理多服裝VTON時,一個直接的方法可能涉及復(fù)制多個服裝編碼網(wǎng)絡(luò)以管理不同的條件。然而,這種方法會導(dǎo)致參數(shù)數(shù)量顯著增加,使其計算量過于龐大。實驗表明,對于具有相似內(nèi)容的條件(如不同類型的服裝),自注意模塊在隱變量變形和將服裝對齊到需要修補(bǔ)的位置方面起著至關(guān)重要的作用。相反,其他網(wǎng)絡(luò)結(jié)構(gòu)通常負(fù)責(zé)一般特征提取,可以在不同條件編碼分支之間共享,而不會影響模型的性能。
通過模型演化和mask增強(qiáng)實現(xiàn)穩(wěn)健的VTON
自適應(yīng)mask增強(qiáng)。以前的工作在跨類別試穿場景中通常表現(xiàn)出有限的穩(wěn)健性,導(dǎo)致渲染的服裝樣式不準(zhǔn)確,如下圖6和圖9所示。這主要是由于依賴于從服裝解析中得出的無關(guān)mask ,這在訓(xùn)練期間往往會泄露服裝形狀的邊緣。這種泄露可能導(dǎo)致生成的服裝幾乎完全覆蓋無關(guān)mask區(qū)域。針對這些局限性,采用了一種直觀且有效的方法,即自適應(yīng)mask增強(qiáng)策略,大大增強(qiáng)了模型在跨類別試穿方面的穩(wěn)健性。該策略主要包括訓(xùn)練期間的mask增強(qiáng)和推理期間的自適應(yīng)延長。
實驗
定性結(jié)果
單服裝試穿。圖3和圖4在VITON-HD、更具挑戰(zhàn)性的專有數(shù)據(jù)和野外數(shù)據(jù)上提供了AnyFit與基線方法的定性比較,涵蓋了開放服裝和分層渲染場景。為了與基線方法進(jìn)行公平比較,包括了在VITON-HD上訓(xùn)練的AnyFit的結(jié)果。AnyFit在保留復(fù)雜圖案細(xì)節(jié)方面表現(xiàn)出色,這歸功于HydraNet和IP-Adapter之間的有效協(xié)作。它還在語義級別上保持了正確的服裝輪廓。這表明,通過mask 增強(qiáng),AnyFit增強(qiáng)了對服裝原始形狀的回憶,而其他受mask 影響的模型往往會生成不正確的外觀。先前的模型演化進(jìn)一步增強(qiáng)了服裝的紋理表示。值得注意的是,當(dāng)在專有數(shù)據(jù)集上訓(xùn)練時,AnyFit會根據(jù)姿勢自動填充內(nèi)衣或解開衣物,而在VITON-HD上訓(xùn)練的版本則因缺乏此類訓(xùn)練數(shù)據(jù)而無法做到。
多服裝試穿。下圖5提供了使用編譯的DressCode-multiple數(shù)據(jù)集進(jìn)行多服裝試穿的定性比較。首先,AnyFit展示了高保真的布料保留。由于位于不同條件分支中的獨(dú)特和個體的Hydra-Blocks,AnyFit準(zhǔn)確地描繪了上衣和下衣之間的分界線,并展示了連接處的合理過渡。相比之下,VTON-concat在串聯(lián)后處理相對服裝尺寸時處理不當(dāng),導(dǎo)致服裝失真和模糊。與此同時,IDM-2Stage在上下衣交接處面臨著偽影,因為在試穿一個服裝時,它會掩蓋另一個服裝的部分。值得注意的是,盡管訓(xùn)練時一個服裝呈現(xiàn)為平鋪圖像,另一個服裝為從人物圖像裁剪的扭曲布料,但在推理時,AnyFit在面對兩種都作為平鋪圖像呈現(xiàn)的服裝時仍然表現(xiàn)出色。
定量結(jié)果
如下表1、2、3所示,在VITON-HD、DressCode、專有數(shù)據(jù)集和DressCode-multiple上進(jìn)行了廣泛的實驗,結(jié)果一致表明AnyFit顯著優(yōu)于所有基線方法。這證實了AnyFit在單件服裝和多件服裝任務(wù)中在各種場景下提供優(yōu)越的試穿質(zhì)量的能力。此外,注意到AnyFit在未配對設(shè)置下在FID和KID指標(biāo)方面顯示出顯著改善,展示了本文模型在跨類別試穿中的魯棒性。
消融研究
Hydra Blocks。為驗證本文提出的Hydra Blocks的有效性,直接使用一個條件化的單一HydraNet作為基線“w/o Hydra Block”,實際上退化為ReferenceNet,同時編碼頂部和底部服裝條件,然后將它們連接到MainNet中。如下表4、圖7和10所示,缺乏Hydra Block的模型往往在上衣和下衣交接處產(chǎn)生偽影。這些模型還經(jīng)常允許一個服裝的特征影響另一個,導(dǎo)致不正確的服裝風(fēng)格。然而,引入Hydra Block后,AnyFit始終展現(xiàn)出更穩(wěn)定的結(jié)果。
Prior Model Evolution。在下圖12和6(a)中定性展示了Prior Model Evolution的效果。SDXL-evolved模型顯著減少了偽影,并顯著增強(qiáng)了魯棒性,而沒有Prior Model Evolution的輸出通常具有過度飽和的顏色,以及與背景不協(xié)調(diào)的光照和陰影。模型能力的逐步增強(qiáng)在圖6(c)中可視化。還在圖7和表4中從經(jīng)驗和定量上驗證了Prior Model Evolution策略的有效性。通過增強(qiáng)模型的初始能力,Prior Model Evolution減少了學(xué)習(xí)的難度,并顯著提升了服裝裝配能力和標(biāo)志保真度。
Adaptive Mask Boost。在上圖6(b)和下圖9中圖示展示了先前方法中發(fā)現(xiàn)的信息泄露和mask 依賴的問題。在表4和圖9中經(jīng)驗和定量上驗證了Adaptive Mask Boost策略的有效性。該策略顯著增強(qiáng)了模型對不同服裝類別的魯棒性,使其能夠自主確定適當(dāng)?shù)姆b長度,而不是依賴于mask 。此外,在推理過程中手動調(diào)整了長寬比σ,顯示了自適應(yīng)延伸的積極影響。
結(jié)論
AnyFit,這是一個適用于任何場景下任意服裝組合的新穎而強(qiáng)大的VTON pipeline,為實現(xiàn)逼真的試穿效果邁出了關(guān)鍵性的一步。為支持多件服裝試穿,AnyFit構(gòu)建了具有輕量級和可擴(kuò)展并行化注意力的HydraNet,促進(jìn)了多件服裝的特征注入。通過在真實場景中觀察到的偽影,通過合成多模型的殘差以及實施mask區(qū)域增強(qiáng)策略來提升其潛力。對高分辨率基準(zhǔn)和真實數(shù)據(jù)的全面實驗表明,AnyFit在各方面顯著超越了所有基線方法。
更廣泛的影響
隨著生成圖像的能力,AnyFit可能被用于違反知識產(chǎn)權(quán)或隱私規(guī)范的不當(dāng)目的。因此,基于這些風(fēng)險,強(qiáng)烈主張謹(jǐn)慎使用這項技術(shù)。
本文轉(zhuǎn)自 AI生成未來 ,作者:Yuhan Li等
