自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊優(yōu)圖提出首個(gè)基于DiT的高保真虛擬試衣算法FitDiT

人工智能 新聞
對(duì)于豐富的紋理感知維護(hù),我們提出了一種服裝先驗(yàn)進(jìn)化策略,以更好地精確掌握服裝的圖案知識(shí),并在像素空間中采用頻譜距離損失來(lái)保留復(fù)雜的圖案。

今天介紹的文章來(lái)自公眾號(hào)粉絲投稿,騰訊優(yōu)圖提出首個(gè)基于DiT的高保真虛擬試衣算法FitDiT,給定一個(gè)人像圖像和一個(gè)衣物圖像,就可以生成一個(gè)展示人物穿著所提供衣物的圖像。FitDiT 在虛擬試穿中表現(xiàn)出色,解決了各種場(chǎng)景中與紋理感知保存和尺寸感知試穿相關(guān)的挑戰(zhàn)。

1. 引言

基于圖像的虛擬試穿是當(dāng)前電商場(chǎng)景流行且前景看好的圖像合成技術(shù),能夠顯著改善消費(fèi)者的購(gòu)物體驗(yàn)并降低服裝商家的廣告成本。顧名思義,虛擬換衣任務(wù)的目標(biāo)是生成穿著給定服裝的目標(biāo)模特的圖像。但是目前的基于GAN 和 U-Net Diffusion的模型在豐富紋理維持以及服裝尺寸適配方面有所欠缺,其中我們發(fā)現(xiàn)U-Net的擴(kuò)散結(jié)構(gòu)的對(duì)高分辨率潛在特征的關(guān)注較少,會(huì)導(dǎo)致紋理維持較差。為了解決這個(gè)問(wèn)題,我們提出了 FitDiT ,是首個(gè)基于DiT結(jié)構(gòu)的高保真虛擬換衣工作,通過(guò)更加關(guān)注高分辨率特征,克服了當(dāng)前 U-Net 擴(kuò)散模型在復(fù)雜紋理維護(hù)方面的局限性。

對(duì)于豐富的紋理感知維護(hù),我們提出了一種服裝先驗(yàn)進(jìn)化策略,以更好地精確掌握服裝的圖案知識(shí),并在像素空間中采用頻譜距離損失來(lái)保留復(fù)雜的圖案。此外,對(duì)于尺寸感知試穿,我們提出了一種擴(kuò)張松弛掩模增強(qiáng)方法,使用粗矩形掩模來(lái)降低服裝形狀的泄漏,并使模型能夠自適應(yīng)地學(xué)習(xí)服裝的整體形狀。大量的定性和定量實(shí)驗(yàn)有力地證明了 FitDiT 優(yōu)于最先進(jìn)的虛擬試穿模型,特別是在處理尺寸不匹配的紋理豐富的服裝方面。此外,它對(duì)單個(gè) 1024 × 768 圖像的推理時(shí)間達(dá)到了 4.57 秒,超越了現(xiàn)有方法。這些發(fā)現(xiàn)是推動(dòng)虛擬試穿領(lǐng)域發(fā)展的重要里程碑,使現(xiàn)實(shí)世界中更復(fù)雜的應(yīng)用成為可能。

FitDiT方案相比現(xiàn)有的開(kāi)源算法有以下優(yōu)勢(shì):

  1. 1. 更清晰的紋理信息
  2. 2. 更好的衣服版型維持能力 3.更少的推理耗時(shí)

相關(guān)鏈接

  • ? 論文地址:https://arxiv.org/pdf/2411.10499
  • ? 項(xiàng)目主頁(yè):https://byjiang.com/FitDiT/
  • ? 代碼倉(cāng)庫(kù):https://github.com/BoyuanJiang/FitDiT
  • ? 體驗(yàn)地址:http://demo.fitdit.byjiang.com/

2. 效果展示

圖 1. FitDiT 在虛擬試穿中表現(xiàn)出色,解決了各種場(chǎng)景中與紋理感知保存和尺寸感知試穿相關(guān)的挑戰(zhàn)。

圖 2. 具有復(fù)雜服裝紋理、CVDD 視覺(jué)效果。放大后效果最佳。

3. 方法介紹

3.1 模型概述

FitDiT的目標(biāo)是給定一個(gè)人像圖像和一個(gè)衣物圖像,生成一個(gè)展示人物穿著所提供衣物的圖像。這一過(guò)程可以被視為一個(gè)基于示例的圖像修復(fù)任務(wù),涉及使用衣物 作為參考來(lái)填充被掩碼的人像圖像。FitDiT采用并行分支架構(gòu),其中GarmentDiT從輸入的衣物圖像中提取詳細(xì)的衣物特征,然后通過(guò)混合注意力機(jī)制將這些特征注入到DenoisingDiT中。

3.2 DiT的定制化

原始的穩(wěn)定擴(kuò)散模型(SD3)是一個(gè)文本到圖像的模型,由一系列堆疊的MM-DiT塊組成。我們分析了文本到圖像和虛擬試衣任務(wù)之間的差異,并為虛擬試衣特別定制了模型。

  • ? 結(jié)構(gòu)精簡(jiǎn):原始SD3使用OpenCLIP bigG/14, CLIP-ViT/L和T5-xxl作為文本編碼器來(lái)處理文本提示,但對(duì)于虛擬試衣,生成的圖像主要由給定的衣服決定,文本提示的影響有限。因此,我們移除了SD3中的文本編碼器,節(jié)省了約72%的參數(shù),同時(shí)提高了模型訓(xùn)練和推理的速度,并減少了內(nèi)存使用。
  • ? 將服裝作為全局控制條件:在虛擬試衣任務(wù)中,不同類型的衣物(如上身、下身、連衣裙)通常使用統(tǒng)一的模型進(jìn)行訓(xùn)練,這可能會(huì)導(dǎo)致訓(xùn)練過(guò)程中的混淆。我們提出使用OpenCLIP bigG/14,和CLIP-ViT/L的圖像編碼器將給定的衣物編碼成garment-aware embedding,然后與時(shí)間步embedding結(jié)合,產(chǎn)生DiT模塊中AdaLN的控制參數(shù),以衣物感知的方式調(diào)制DiT塊中的特征。
  • ? 衣物特征注入:為了提取衣物特征,我們首先將衣物輸入到GarmentDiT中,并在時(shí)間步 t=0 時(shí)保存GarmentDiT注意力模塊中的key和value的特征,這些特征包含了豐富的衣物紋理信息。然后在每個(gè)去噪步驟中,我們使用混合注意力機(jī)制將保存的衣物特征注入到DenoisingDiT中。

3.3 擴(kuò)張放松掩碼策略

傳統(tǒng)的跨類別試衣方法通常會(huì)遇到形狀渲染不準(zhǔn)確的問(wèn)題,因?yàn)樗鼈兺ǔ;谌梭w解析輪廓嚴(yán)格構(gòu)建mask。這種掩碼構(gòu)建策略可能導(dǎo)致訓(xùn)練過(guò)程中衣物形狀信息的泄露,導(dǎo)致模型在推理時(shí)傾向于填充整個(gè)掩碼區(qū)域。為了緩解這個(gè)問(wèn)題,我們提出了一種擴(kuò)張放松掩碼策略,允許模型在訓(xùn)練期間自動(dòng)學(xué)習(xí)目標(biāo)衣物的最優(yōu)長(zhǎng)度。

3.4 衣物紋理增強(qiáng)

為了在試衣過(guò)程中保持豐富的紋理,我們提出了一個(gè)兩階段訓(xùn)練策略。首先,我們通過(guò)衣物先驗(yàn)演化階段來(lái)微調(diào)GarmentDiT,使其能夠更好的捕捉衣服的細(xì)節(jié)信息。其次是DenoisingDiT訓(xùn)練,它結(jié)合了頻率損失和去噪損失。

  • ? 衣物先驗(yàn)演化:衣物特征提取器在試衣任務(wù)中保持紋理細(xì)節(jié)方面起著至關(guān)重要的作用。我們提出了一個(gè)簡(jiǎn)單而有效的衣物先驗(yàn)演化策略來(lái)增強(qiáng)我們的GarmentDiT。
  • ? 頻率學(xué)習(xí):我們提出了像素空間中的頻率譜距離損失,使模型在優(yōu)化過(guò)程中更多地關(guān)注頻率域中存在顯著差距的部分。

4. 實(shí)驗(yàn)結(jié)果

在開(kāi)源數(shù)據(jù)集上的對(duì)比

在我們提出的復(fù)雜換衣數(shù)據(jù)集(CVDD)上的對(duì)比

不同算法的性能對(duì)比,統(tǒng)一使用H20測(cè)試,分辨率為768x1024,20步去噪。結(jié)合CPU offload技術(shù),F(xiàn)itDiT推理需要的顯存可以進(jìn)一步降低到6G。

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2022-03-31 10:51:20

算法訓(xùn)練研究

2021-04-14 15:03:16

數(shù)據(jù)性能存儲(chǔ)

2024-11-26 09:43:37

2022-07-17 13:07:26

模型開(kāi)源

2023-08-21 12:10:08

算法AI

2024-05-15 17:30:51

開(kāi)源模型

2024-12-30 08:50:00

AI數(shù)據(jù)訓(xùn)練

2024-09-12 12:46:36

2023-12-09 14:29:32

AI算法

2024-12-23 15:46:59

2025-04-03 10:17:23

2021-01-06 10:51:56

量子互聯(lián)網(wǎng)網(wǎng)絡(luò)安全

2025-01-23 10:08:00

虛擬數(shù)字AI

2024-04-03 14:11:49

模型訓(xùn)練

2021-08-06 08:20:38

微軟Teams音樂(lè)傳輸

2021-06-07 09:00:00

科技深度學(xué)習(xí)技術(shù)

2024-11-25 08:50:00

2025-03-10 08:47:00

模型AI訓(xùn)練

2010-06-01 09:21:52

Java 7閉包

2024-12-10 15:50:00

AI生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)