自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="sqri1"><abbr id="sqri1"><dfn id="sqri1"></dfn></abbr></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

騰訊優(yōu)圖提出首個(gè)基于DiT的高保真虛擬試衣算法FitDiT

作者：AIGC Studio 2025-02-20 09:36:45

人工智能新聞

對(duì)于豐富的紋理感知維護(hù)，我們提出了一種服裝先驗(yàn)進(jìn)化策略，以更好地精確掌握服裝的圖案知識(shí)，并在像素空間中采用頻譜距離損失來(lái)保留復(fù)雜的圖案。

今天介紹的文章來(lái)自公眾號(hào)粉絲投稿，騰訊優(yōu)圖提出首個(gè)基于DiT的高保真虛擬試衣算法FitDiT，給定一個(gè)人像圖像和一個(gè)衣物圖像，就可以生成一個(gè)展示人物穿著所提供衣物的圖像。FitDiT 在虛擬試穿中表現(xiàn)出色，解決了各種場(chǎng)景中與紋理感知保存和尺寸感知試穿相關(guān)的挑戰(zhàn)。

1. 引言

基于圖像的虛擬試穿是當(dāng)前電商場(chǎng)景流行且前景看好的圖像合成技術(shù)，能夠顯著改善消費(fèi)者的購(gòu)物體驗(yàn)并降低服裝商家的廣告成本。顧名思義，虛擬換衣任務(wù)的目標(biāo)是生成穿著給定服裝的目標(biāo)模特的圖像。但是目前的基于GAN 和 U-Net Diffusion的模型在豐富紋理維持以及服裝尺寸適配方面有所欠缺，其中我們發(fā)現(xiàn)U-Net的擴(kuò)散結(jié)構(gòu)的對(duì)高分辨率潛在特征的關(guān)注較少，會(huì)導(dǎo)致紋理維持較差。為了解決這個(gè)問(wèn)題，我們提出了 FitDiT ，是首個(gè)基于DiT結(jié)構(gòu)的高保真虛擬換衣工作，通過(guò)更加關(guān)注高分辨率特征，克服了當(dāng)前 U-Net 擴(kuò)散模型在復(fù)雜紋理維護(hù)方面的局限性。

對(duì)于豐富的紋理感知維護(hù)，我們提出了一種服裝先驗(yàn)進(jìn)化策略，以更好地精確掌握服裝的圖案知識(shí)，并在像素空間中采用頻譜距離損失來(lái)保留復(fù)雜的圖案。此外，對(duì)于尺寸感知試穿，我們提出了一種擴(kuò)張松弛掩模增強(qiáng)方法，使用粗矩形掩模來(lái)降低服裝形狀的泄漏，并使模型能夠自適應(yīng)地學(xué)習(xí)服裝的整體形狀。大量的定性和定量實(shí)驗(yàn)有力地證明了 FitDiT 優(yōu)于最先進(jìn)的虛擬試穿模型，特別是在處理尺寸不匹配的紋理豐富的服裝方面。此外，它對(duì)單個(gè) 1024 × 768 圖像的推理時(shí)間達(dá)到了 4.57 秒，超越了現(xiàn)有方法。這些發(fā)現(xiàn)是推動(dòng)虛擬試穿領(lǐng)域發(fā)展的重要里程碑，使現(xiàn)實(shí)世界中更復(fù)雜的應(yīng)用成為可能。

FitDiT方案相比現(xiàn)有的開(kāi)源算法有以下優(yōu)勢(shì)：

1. 更清晰的紋理信息
2. 更好的衣服版型維持能力 3.更少的推理耗時(shí)

相關(guān)鏈接

? 論文地址：https://arxiv.org/pdf/2411.10499
? 項(xiàng)目主頁(yè)：https://byjiang.com/FitDiT/
? 代碼倉(cāng)庫(kù)：https://github.com/BoyuanJiang/FitDiT
? 體驗(yàn)地址：http://demo.fitdit.byjiang.com/

2. 效果展示

圖 1. FitDiT 在虛擬試穿中表現(xiàn)出色，解決了各種場(chǎng)景中與紋理感知保存和尺寸感知試穿相關(guān)的挑戰(zhàn)。

圖 2. 具有復(fù)雜服裝紋理、CVDD 視覺(jué)效果。放大后效果最佳。

3. 方法介紹

3.1 模型概述

FitDiT的目標(biāo)是給定一個(gè)人像圖像和一個(gè)衣物圖像，生成一個(gè)展示人物穿著所提供衣物的圖像。這一過(guò)程可以被視為一個(gè)基于示例的圖像修復(fù)任務(wù)，涉及使用衣物作為參考來(lái)填充被掩碼的人像圖像。FitDiT采用并行分支架構(gòu)，其中GarmentDiT從輸入的衣物圖像中提取詳細(xì)的衣物特征，然后通過(guò)混合注意力機(jī)制將這些特征注入到DenoisingDiT中。

3.2 DiT的定制化

原始的穩(wěn)定擴(kuò)散模型（SD3）是一個(gè)文本到圖像的模型，由一系列堆疊的MM-DiT塊組成。我們分析了文本到圖像和虛擬試衣任務(wù)之間的差異，并為虛擬試衣特別定制了模型。

? 結(jié)構(gòu)精簡(jiǎn)：原始SD3使用OpenCLIP bigG/14, CLIP-ViT/L和T5-xxl作為文本編碼器來(lái)處理文本提示，但對(duì)于虛擬試衣，生成的圖像主要由給定的衣服決定，文本提示的影響有限。因此，我們移除了SD3中的文本編碼器，節(jié)省了約72%的參數(shù)，同時(shí)提高了模型訓(xùn)練和推理的速度，并減少了內(nèi)存使用。
? 將服裝作為全局控制條件：在虛擬試衣任務(wù)中，不同類型的衣物（如上身、下身、連衣裙）通常使用統(tǒng)一的模型進(jìn)行訓(xùn)練，這可能會(huì)導(dǎo)致訓(xùn)練過(guò)程中的混淆。我們提出使用OpenCLIP bigG/14,和CLIP-ViT/L的圖像編碼器將給定的衣物編碼成garment-aware embedding，然后與時(shí)間步embedding結(jié)合，產(chǎn)生DiT模塊中AdaLN的控制參數(shù)，以衣物感知的方式調(diào)制DiT塊中的特征。
? 衣物特征注入：為了提取衣物特征，我們首先將衣物輸入到GarmentDiT中，并在時(shí)間步 t=0 時(shí)保存GarmentDiT注意力模塊中的key和value的特征，這些特征包含了豐富的衣物紋理信息。然后在每個(gè)去噪步驟中，我們使用混合注意力機(jī)制將保存的衣物特征注入到DenoisingDiT中。

3.3 擴(kuò)張放松掩碼策略

傳統(tǒng)的跨類別試衣方法通常會(huì)遇到形狀渲染不準(zhǔn)確的問(wèn)題，因?yàn)樗鼈兺ǔ；谌梭w解析輪廓嚴(yán)格構(gòu)建mask。這種掩碼構(gòu)建策略可能導(dǎo)致訓(xùn)練過(guò)程中衣物形狀信息的泄露，導(dǎo)致模型在推理時(shí)傾向于填充整個(gè)掩碼區(qū)域。為了緩解這個(gè)問(wèn)題，我們提出了一種擴(kuò)張放松掩碼策略，允許模型在訓(xùn)練期間自動(dòng)學(xué)習(xí)目標(biāo)衣物的最優(yōu)長(zhǎng)度。

3.4 衣物紋理增強(qiáng)

為了在試衣過(guò)程中保持豐富的紋理，我們提出了一個(gè)兩階段訓(xùn)練策略。首先，我們通過(guò)衣物先驗(yàn)演化階段來(lái)微調(diào)GarmentDiT，使其能夠更好的捕捉衣服的細(xì)節(jié)信息。其次是DenoisingDiT訓(xùn)練，它結(jié)合了頻率損失和去噪損失。

? 衣物先驗(yàn)演化：衣物特征提取器在試衣任務(wù)中保持紋理細(xì)節(jié)方面起著至關(guān)重要的作用。我們提出了一個(gè)簡(jiǎn)單而有效的衣物先驗(yàn)演化策略來(lái)增強(qiáng)我們的GarmentDiT。
? 頻率學(xué)習(xí)：我們提出了像素空間中的頻率譜距離損失，使模型在優(yōu)化過(guò)程中更多地關(guān)注頻率域中存在顯著差距的部分。

4. 實(shí)驗(yàn)結(jié)果

在開(kāi)源數(shù)據(jù)集上的對(duì)比

在我們提出的復(fù)雜換衣數(shù)據(jù)集（CVDD）上的對(duì)比

不同算法的性能對(duì)比，統(tǒng)一使用H20測(cè)試，分辨率為768x1024，20步去噪。結(jié)合CPU offload技術(shù)，F(xiàn)itDiT推理需要的顯存可以進(jìn)一步降低到6G。

責(zé)任編輯：張燕妮來(lái)源： AIGC Studio

圖像生成 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="5y6qw"></blockquote>}

<sub id="5y6qw"></sub>

<style id="5y6qw"></style>