革新在線購物體驗:CatV2TON引領(lǐng)虛擬試穿技術(shù)新紀元
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
在這個數(shù)字化飛速發(fā)展的時代,圖像與視頻合成技術(shù)正以前所未有的速度重塑著我們的生活,尤其在在線零售領(lǐng)域,一場關(guān)于購物體驗的革命正在悄然上演。想象一下,無需親自試穿,僅憑一張照片或一段視頻,就能精準預(yù)覽任何心儀服裝的上身效果——這聽起來仿佛科幻電影中的場景,中山大學和新加坡國立大學提出的基于視覺的虛擬試穿(CatV2TON)技術(shù)正將其變?yōu)楝F(xiàn)實。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2501.11325v1
- 主頁:https://github.com/Zheng-Chong/CatV2TON
論文介紹
虛擬試穿 (VTON) 技術(shù)因其通過實現(xiàn)圖像和視頻的逼真服裝可視化來改變在線零售的潛力而備受關(guān)注。然而,大多數(shù)現(xiàn)有方法都難以在圖像和視頻試穿任務(wù)中獲得高質(zhì)量的結(jié)果,尤其是在長視頻場景中。
CatV2TON是一種簡單有效的基于視覺的虛擬試穿 (V2TON) 方法,它使用單個擴散變壓器模型支持圖像和視頻試穿任務(wù)。通過在時間上連接服裝和人員輸入并在混合圖像和視頻數(shù)據(jù)集上進行訓(xùn)練,CatV2TON在靜態(tài)和動態(tài)設(shè)置中實現(xiàn)了強大的試穿性能。
為了高效地生成長視頻,論文還提出了一種基于重疊剪輯的推理策略,該策略使用順序幀引導(dǎo)和自適應(yīng)剪輯規(guī)范化 (AdaCN) 來保持時間一致性并減少資源需求。還介紹了 ViViD-S,這是一個經(jīng)過精煉的視頻試穿數(shù)據(jù)集,通過過濾背面幀并應(yīng)用 3D 蒙版平滑來增強時間一致性。綜合實驗表明,CatV2TON 在圖像和視頻試穿任務(wù)中均優(yōu)于現(xiàn)有方法,為跨不同場景的逼真虛擬試穿提供了多功能且可靠的解決方案。
方法
CatV2TON 架構(gòu)概述。 CatV2TON 使用 DiT 作為主干,第一個 DiT 塊被復(fù)制為Pose Encoder。人和服裝條件在時間上連接為試穿條件。整個可訓(xùn)練部分僅由自注意力層和 Pose Encoder 組成,占總參數(shù)的不到 1/5。
基于重疊片段的推理策略說明。(a)一段長視頻被分成 n 個重疊片段,每個片段由重復(fù)的幀組成。每個片段的最后 k 幀用作生成下一個片段的提示幀。(b)自適應(yīng)片段歸一化 (AdaCN) 用于根據(jù)提示幀特征和去噪提示幀的平均值和標準差對整個片段進行歸一化,確保生成的視頻中各個片段之間的平滑連續(xù)性。
結(jié)果
在 ViViD 數(shù)據(jù)集上對連衣裙進行定性比較。我們使用 Stable 和 OOTD 作為 StableVITON 和 OOTDiffusion 的簡稱。
在 ViViD 數(shù)據(jù)集上進行定性比較。我們使用 Stable 和 OOTD 作為 StableVITON 和 OOTDiffusion 的縮寫。
對 ViViD 數(shù)據(jù)集進行定性比較。我們使用 Stable 和 OOTD 作為 StableVITON 和 OOTDiffusion 的縮寫。
關(guān)于 AdaCN 的消融視覺結(jié)果。當不使用 AdaCN 進行推理時,試穿結(jié)果中的服裝部分將出現(xiàn)色差問題,并且通常會隨著視頻長度的增加而加劇。
結(jié)論
CatV2TON是一個簡單而高效的擴散變換器框架,適用于圖像和視頻虛擬試穿任務(wù)。通過時間連接服裝和人員輸入并使用混合圖像視頻數(shù)據(jù)集進行訓(xùn)練,模型僅使用 20% 的主干參數(shù)作為可訓(xùn)練組件即可獲得高質(zhì)量的結(jié)果。為了支持長時間、時間一致的試穿視頻生成,引入了一種基于重疊剪輯的推理策略和自適應(yīng)剪輯規(guī)范化 (AdaCN),在保持時間連續(xù)性的同時減少了資源需求。
此外論文提出了一個精選的視頻試穿數(shù)據(jù)集 ViViD-S,它是通過過濾后視幀并應(yīng)用 3D 蒙版平滑來增強蒙版的時間一致性而創(chuàng)建的。大量實驗表明,CatV2TON 在定量和定性評估方面均優(yōu)于基線方法,標志著基于視覺的虛擬試穿研究統(tǒng)一模型向前邁出了重要一步。