CVPR 2025 | 電商退貨率或?qū)⒀鼣?!VTON 360突破3D虛擬試衣天花板:無(wú)死角虛擬換裝 精華
文章鏈接: https://arxiv.org/pdf/2503.12165
項(xiàng)目鏈接:https://scnuhealthy.github.io/VTON360
亮點(diǎn)直擊
- 一種新穎的3D虛擬試衣(VTON)方法,即VTON 360,能夠從任意視角實(shí)現(xiàn)高保真度的虛擬試衣。
- 利用3D模型與其渲染的多視角2D圖像之間的等價(jià)性,將3D VTON重新定義為2D VTON的擴(kuò)展,確保多視角下的一致性結(jié)果。具體而言,引入了多項(xiàng)新技術(shù),包括:(i)偽3D姿態(tài)表示;(ii)多視角空間注意力機(jī)制;以及(iii)多視角CLIP嵌入。這些創(chuàng)新增強(qiáng)了傳統(tǒng)2D VTON模型,使其能夠生成多視角且3D一致的結(jié)果。
- 在兩個(gè)大型真實(shí)數(shù)據(jù)集以及來(lái)自電子商務(wù)平臺(tái)的真實(shí)服裝圖像上進(jìn)行的大量實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。
效果速覽
總結(jié)速覽
解決的問(wèn)題
- 2D VTON的局限性:現(xiàn)有的2D虛擬試衣(VTON)技術(shù)在表示與視角相關(guān)的特征方面存在固有局限性,無(wú)法支持高保真度的多視角渲染。
- 3D VTON的挑戰(zhàn):現(xiàn)有的3D VTON方法在實(shí)現(xiàn)高保真度和支持任意視角渲染方面仍面臨挑戰(zhàn),尤其是在服裝的幾何一致性和紋理保真度方面。
- 數(shù)據(jù)獲取成本高:早期的3D VTON方法依賴(lài)昂貴的3D掃描設(shè)備和物理存在的人體/服裝,限制了其在實(shí)際應(yīng)用中的實(shí)用性。
- 多視角信息缺失:現(xiàn)有的基于圖像的3D VTON方法由于輸入圖像(通常是正面)缺乏多視角信息,難以重建高質(zhì)量的多視角服裝模型。
提出的方案
- VTON 360方法:通過(guò)擴(kuò)展2D VTON模型,引入多視角服裝和與服裝無(wú)關(guān)的人體圖像作為輸入,確保多視角下的3D一致性。
- 偽3D姿態(tài)表示:使用從SMPL-X 3D人體模型導(dǎo)出的法線圖來(lái)表示偽3D姿態(tài),捕捉細(xì)粒度的表面方向細(xì)節(jié),提供跨視角的幾何一致性。
- 多視角空間注意力機(jī)制:設(shè)計(jì)了一種多視角空間注意力機(jī)制,建模不同視角特征之間的相關(guān)性,通過(guò)“相關(guān)性”矩陣來(lái)建模不同輸入視角之間的關(guān)系。
- 多視角CLIP嵌入:提出了多視角CLIP嵌入,增強(qiáng)了2D VTON方法中使用的服裝CLIP嵌入,加入相機(jī)信息,促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)與特定視角相關(guān)的特征。
應(yīng)用的技術(shù)
- 2D VTON模型擴(kuò)展:將2D VTON模型擴(kuò)展為支持多視角輸入,包括前后視角的服裝圖像和從隨機(jī)方位角采樣的多視角與服裝無(wú)關(guān)的人體圖像。
- SMPL-X 3D人體模型:利用SMPL-X 3D人體模型生成法線圖,用于偽3D姿態(tài)表示。
- 多視角空間注意力機(jī)制:通過(guò)設(shè)計(jì)多視角空間注意力機(jī)制,建模不同視角特征之間的相關(guān)性。
- 多視角CLIP嵌入:將相機(jī)信息融入CLIP嵌入,增強(qiáng)網(wǎng)絡(luò)對(duì)特定視角特征的學(xué)習(xí)能力。
達(dá)到的效果
- 高保真度3D VTON:在Thuman2.0和MVHumanNet數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,VTON 360方法能夠?qū)崿F(xiàn)高保真度的3D VTON,并支持任意視角渲染。
- 多視角一致性:通過(guò)引入多視角輸入和偽3D姿態(tài)表示,確保了多視角下的3D一致性。
- 實(shí)際應(yīng)用驗(yàn)證:通過(guò)在電子商務(wù)平臺(tái)的服裝上進(jìn)行測(cè)試,驗(yàn)證了該方法的有效性和通用性。
方法
本文的方法利用3D模型與其渲染的多視角2D圖像之間的等價(jià)性,實(shí)現(xiàn)高保真度、任意視角的3D虛擬試衣(VTON)。具體而言,如圖2所示,給定輸入的3D人體模型和服裝圖像,本文的方法:
- 將3D模型渲染為多視角2D圖像;
- 將3D VTON定義為在這些渲染視角上一致且統(tǒng)一的2D VTON過(guò)程;
- 通過(guò)使用現(xiàn)有的3D重建方法將編輯后的圖像重建為3D模型,確保從任意視角觀看時(shí)的視覺(jué)一致性和精確的服裝對(duì)齊。其中,第二步至關(guān)重要,因?yàn)楝F(xiàn)有的2D VTON方法缺乏3D知識(shí),無(wú)法生成具有3D一致性的多視角圖像。
為了解決這一挑戰(zhàn),本文提出了多項(xiàng)新技術(shù),為典型的2D VTON網(wǎng)絡(luò) 賦予了生成3D一致性結(jié)果的能力。該網(wǎng)絡(luò)基于隱空間擴(kuò)散模型,并使用高斯?jié)姙R(Gaussian Splatting)作為3D表示。
2D VTON框架回顧
具有3D一致性的多視角2D VTON
為了使上述2D VTON模型能夠生成多視角且3D一致的結(jié)果,對(duì)其設(shè)計(jì)提出了以下新穎的改進(jìn):
相應(yīng)地,將三個(gè)組件連接起來(lái)作為Main UNet的增強(qiáng)輸入:
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集:本文在兩個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):Thuman2.0 和 MVHumanNet。Thuman2.0 包含 526 個(gè)重建的穿衣人體掃描,從中渲染多視角輸入圖像。其中 426 個(gè)樣本用于訓(xùn)練,剩余的 100 個(gè)用于測(cè)試。為了進(jìn)一步評(píng)估本文方法的有效性和魯棒性,還在 MVHumanNet 上進(jìn)行了實(shí)驗(yàn)。MVHumanNet 是一個(gè)大規(guī)模的多視角人體圖像數(shù)據(jù)集,涵蓋了多樣化的主體、日常服裝和運(yùn)動(dòng)序列。MVHumanNet 中的圖像使用 48 或 24 個(gè)相機(jī)的多視角系統(tǒng)捕獲。我們從該數(shù)據(jù)集中使用了 4,990 個(gè)主體,其中 4,790 個(gè)用于訓(xùn)練,200 個(gè)用于測(cè)試。對(duì)于每個(gè)主體,我們從其整個(gè)運(yùn)動(dòng)序列中隨機(jī)選擇兩幀多視角圖像。雖然 MVHumanNet 直接提供了多視角圖像用于編輯和重建,但在 Thuman2.0 中為每個(gè)主體渲染均勻分布的視角以確保輸入的一致性。
基線方法:主要將本文的方法與三種現(xiàn)有方法進(jìn)行比較:DreamWaltz、GaussCtrl和 TIP-Editor。DreamWaltz 是一種基于文本描述直接生成 3D 人體的方法,而 GaussCtrl 和 TIP-Editor 是基于輻射場(chǎng)的編輯方法。GaussCtrl 基于 Stable Diffusion,使用類(lèi)似描述的提示編輯場(chǎng)景。TIP-Editor 接受文本和圖像提示。我們通過(guò)指定人體為編輯區(qū)域,并將目標(biāo)服裝作為圖像提示來(lái)配置它。使用 ChatGPT 生成與服裝圖像對(duì)應(yīng)的文本提示。
評(píng)估指標(biāo):為了定量評(píng)估,評(píng)估編輯后的人體與參考圖像之間的服裝對(duì)齊情況。根據(jù) [63],計(jì)算參考圖像與編輯后的 3D 場(chǎng)景渲染的多視角圖像之間的平均 DINO 相似度。此外,為了評(píng)估多視角一致性,按照 [17] 計(jì)算 CLIP 方向一致性分?jǐn)?shù)。由于實(shí)驗(yàn)規(guī)模較大(重復(fù)的 3DGS 重建),從數(shù)據(jù)集中選擇了一部分樣本進(jìn)行指標(biāo)評(píng)估。從 Thuman 和 MVHumanNet 的測(cè)試集中,隨機(jī)抽取了 10 個(gè)人體掃描,每個(gè)人體掃描使用 6 個(gè)隨機(jī)選擇的服裝進(jìn)行虛擬試衣。
本文還進(jìn)行了一項(xiàng)用戶研究,邀請(qǐng)了 50 名參與者對(duì)本文的方法和三種基線方法的結(jié)果進(jìn)行評(píng)分,評(píng)分標(biāo)準(zhǔn)包括整體“質(zhì)量”和與參考圖像的“對(duì)齊”程度。每次評(píng)估包含兩個(gè)問(wèn)題:(1) 哪種方法生成的編輯后 3D 人體質(zhì)量最高?(2) 哪種方法與目標(biāo)服裝的對(duì)齊最一致?參與者通過(guò)觀看隨機(jī)旋轉(zhuǎn)的視頻序列來(lái)評(píng)估 VTON 結(jié)果。
實(shí)現(xiàn)細(xì)節(jié):在預(yù)處理階段,我們將多視角圖像裁剪到人體周?chē)倪吔缈颍⑵湔{(diào)整為 768 × 576 的分辨率。服裝圖像的前視圖和后視圖從相應(yīng)的穿衣人體圖像中獲取。編輯后,我們將圖像填充回原始大小。Thuman2.0 和 MVHumanNet 數(shù)據(jù)集的數(shù)據(jù)處理流程相同。
與最先進(jìn)方法的比較
定性評(píng)估:下圖5展示了本文的方法與基線方法的視覺(jué)對(duì)比。DreamWaltz 從文本提示重新生成3D穿衣人體,但難以準(zhǔn)確保留身體和服裝的特征。GaussCtrl 由于不支持圖像提示,無(wú)法保持詳細(xì)的服裝紋理。雖然Tip-Editor 利用LoRA 進(jìn)行個(gè)性化,但由于個(gè)性化概念在2D空間中是語(yǔ)義的,它在將兩個(gè)視角的服裝輸入一致映射到3D人體時(shí)遇到困難。相比之下,本文的方法有效地保留了復(fù)雜的服裝細(xì)節(jié),如文字、條紋和標(biāo)志。
定量評(píng)估:下表1展示了在Thuman2.0和MVHumanNet數(shù)據(jù)集上的CLIP方向一致性分?jǐn)?shù)和DINO相似度的結(jié)果。本文的方法在DINO相似度上優(yōu)于其他方法,清楚地展示了我們?cè)诜b紋理保留方面的優(yōu)勢(shì)。雖然我們的CLIP一致性結(jié)果與其他方法相當(dāng),但需要注意的是,這些方法結(jié)合了SDS損失,這在一定程度上平滑了3D空間中的人體表示。此外,其他方法的“更平坦”紋理也可能導(dǎo)致人為更高的一致性分?jǐn)?shù)。此外,用戶研究表明,本文的方法在編輯后的3D人體質(zhì)量和服裝細(xì)節(jié)對(duì)齊方面顯著優(yōu)于基線方法。
使用電子商務(wù)服裝的視覺(jué)結(jié)果
下圖6展示了使用MVG數(shù)據(jù)集中的服裝進(jìn)行的VTON結(jié)果,這些圖像來(lái)自YOOX NET-A-PORTER、淘寶和抖音等電子商務(wù)平臺(tái),并在Thuman2.0數(shù)據(jù)集上訓(xùn)練的模型。結(jié)果表明,本文的方法有效地保留了復(fù)雜的服裝細(xì)節(jié)和紋理。例如,它準(zhǔn)確地保留了第一行中的條紋圖案、第二行中的可愛(ài)領(lǐng)帶以及第三行中的紐扣,突出了本文方法在處理多樣化和現(xiàn)實(shí)服裝項(xiàng)目時(shí)的魯棒性。
消融研究
在Thuman2.0數(shù)據(jù)集上進(jìn)行了消融研究,如下表2和圖7所示,以評(píng)估本文提出的三個(gè)模塊在增強(qiáng)典型2D VTON網(wǎng)絡(luò)以具備3D一致性生成能力方面的影響。從使用DensePose的2D VTON基線 開(kāi)始,我們逐步用偽3D姿態(tài)替換DensePose,加入多視角CLIP嵌入,并最終在最終配置中整合MVAttention。表2中的結(jié)果表明,每個(gè)模塊都對(duì)指標(biāo)改進(jìn)有所貢獻(xiàn)。圖7展示了一個(gè)多視角圖像編輯的示例。與2D VTON基線相比,偽3D姿態(tài)的引入顯著改善了肢體生成。比較第4行和第5行,在整合多視角CLIP嵌入之前,模型捕捉到的空間信息有限,導(dǎo)致在特定角度(第3、4和6列)出現(xiàn)細(xì)節(jié)丟失。最后,提出的MVAttention實(shí)現(xiàn)了跨視角的更一致生成。
結(jié)論
VTON 360,一種新穎的3D虛擬試衣(VTON)方法,能夠?qū)崿F(xiàn)高保真度的虛擬試衣,并支持從任意視角渲染服裝。本文的方法通過(guò)將3D VTON重新定義為2D VTON的擴(kuò)展,確保多視角下的3D一致性結(jié)果。為了彌合2D VTON模型與3D一致性需求之間的差距,引入了多項(xiàng)關(guān)鍵創(chuàng)新,包括多視角輸入、偽3D姿態(tài)表示、多視角空間注意力機(jī)制以及多視角CLIP嵌入。大量實(shí)驗(yàn)證明了本文方法的有效性,在保真度和任意視角渲染方面顯著優(yōu)于現(xiàn)有的3D VTON技術(shù)。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
