NVIDIA提出虛擬試衣新方法EARSB,讓時尚與科技完美融合!
在數(shù)字化浪潮席卷全球的今天,科技正以前所未有的方式融入我們的生活,包括我們追求時尚的方式。想象一下,無需親臨實體店,只需輕點屏幕,就能輕松試穿心儀的衣物,這不再是遙不可及的夢想。NVIDIA聯(lián)合波士頓大學(xué)提出了 EARSB,該模型能夠智能地識別并修正初始試衣圖像中的錯誤區(qū)域,能夠針對特定錯誤進(jìn)行精準(zhǔn)修正,顯著提升試衣效果的真實感和細(xì)節(jié)表現(xiàn)??梢岳萌祟悎D像生成合成服裝圖像,從而創(chuàng)建(人類,合成服裝)對。這些合成對極大地豐富了訓(xùn)練數(shù)據(jù)集,使得虛擬試衣模型的訓(xùn)練更加高效和準(zhǔn)確。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2501.04666v1
論文介紹
給定一個標(biāo)準(zhǔn)產(chǎn)品視圖中的孤立服裝圖像和一個單獨的人物圖像,虛擬試穿任務(wù)旨在生成穿著目標(biāo)服裝的人的新圖像。 先前的虛擬試穿工作在實現(xiàn)這一目標(biāo)時面臨兩大挑戰(zhàn):
- 配對的(人類,服裝)訓(xùn)練數(shù)據(jù)可用性有限;
- 生成與提示服裝完美匹配的人體紋理很困難,通常會導(dǎo)致文本扭曲和紋理褪色。
論文探索了通過合成數(shù)據(jù)和模型細(xì)化解決這些問題的方法。引入了一種服裝提取模型,該模型可以從穿著衣服的個體的單個圖像生成(人類,合成服裝)對。 然后可以使用合成對來增強(qiáng)虛擬試穿的訓(xùn)練。 論文還提出了一種基于錯誤感知細(xì)化的薛定諤橋(EARSB),它可以精確地針對局部生成錯誤來糾正基礎(chǔ)虛擬試穿模型的輸出。為了識別可能的錯誤,論文提出了一個弱監(jiān)督錯誤分類器,它可以定位區(qū)域以進(jìn)行細(xì)化,隨后使用其置信度熱圖增強(qiáng) Schrodinger Bridge 的噪聲計劃。在 VITON-HD 和 DressCode-Upper 上的實驗表明,合成數(shù)據(jù)增強(qiáng)增強(qiáng)了先前工作的性能,而 EARSB 提高了整體圖像質(zhì)量。在用戶研究中,該模型在平均 59% 的情況下受到用戶的青睞。
方法
基于細(xì)化的 EARSB 中的擴(kuò)散過程。首先對輸入圖像進(jìn)行預(yù)處理,然后使用基本試穿模型,該模型將蒙版人體圖像 xˉ0、其姿勢表示 P 及其服裝 C 作為輸入,以生成初始人體圖像 x1。x1 被輸入到我們的弱監(jiān)督分類器 (WSC) 以獲得誤差圖 M。該圖將噪聲分布 ? 重新加權(quán)為 I 2SB 擴(kuò)散中的 ?r,并將具有生成誤差的 x1 細(xì)化為地面真實圖像x0。
實驗
數(shù)據(jù)集
數(shù)據(jù)集。我們使用 VITON-HD、DressCode-Upper 以及我們的合成 H2G-UH 和 H2G-FH 進(jìn)行訓(xùn)練。它們分別包括11,647、13,564、12,730、8,939 張訓(xùn)練圖像。對于合成數(shù)據(jù)增強(qiáng),我們將 VITON-HD 與我們的 H2G-UH 相結(jié)合,因為它們都主要包含人體上半身圖像。DressCode-Upper 與 H2G-FH 相結(jié)合,因為兩者都由全身人體照片組成。
對于評估,VITON-HD 包含 2,032 個(人體、服裝)測試對,DressCode-Upper 有 1,800 個測試對。針對配對和非配對設(shè)置進(jìn)行了實驗。在配對設(shè)置中,輸入服裝圖像和人體圖像中的服裝是同一件物品。相反,非配對設(shè)置使用不同的服裝圖像。指標(biāo)。我們使用結(jié)構(gòu)相似性指數(shù)測量 (SSIM) 、Frechet 初始距離 (FID) 、核初始距離 (KID) 和學(xué)習(xí)感知圖像塊相似性 (LPIPS) 來評估圖像質(zhì)量。所有比較的方法在計算上述指標(biāo)時都使用相同的圖像大小 512x512和填充。
結(jié)果
VITON-HD(上行)和 DressCode(下行)上的可視化。EARSB+H2G-UH 和 EARSBSD+H2G-UH 更好地恢復(fù)了服裝中復(fù)雜的紋理。
不同時間步驟的結(jié)果。提出方法的誤差圖重點關(guān)注低質(zhì)量區(qū)域,并保持足夠好區(qū)域的質(zhì)量。
提出的 H2G-UH 上的(人體、合成服裝)對的可視化示例。
VITON-HD 上的可視化示例。EARSB 和 EARSB+H2G-UH 更好地恢復(fù)了服裝中復(fù)雜的紋理。
結(jié)論
本文提出了一種方法來解決虛擬試穿方面的先前研究的兩個缺點。首先通過引入人衣模型來解決數(shù)據(jù)可用性有限的問題,該模型可以從穿著衣服的個體的單張圖像生成(人衣、合成服裝)對。其次提出了一個改進(jìn)模型 EARSB,該模型可以精準(zhǔn)地針對先前模型輸出中的局部生成誤差。EARSB 根據(jù)針對已知偽影的空間變化噪聲計劃改進(jìn)了初始生成圖像的低質(zhì)量區(qū)域。在兩個基準(zhǔn)數(shù)據(jù)集上進(jìn)行的實驗表明合成數(shù)據(jù)增強(qiáng)提高了現(xiàn)有方法的性能,并且 EARSB 提高了先前模型生成的圖像的質(zhì)量。