YYDS!數(shù)字人終于實(shí)現(xiàn)穿、脫衣自由!上大、騰訊等提出3D服裝合成新方法:ClotheDreamer 精華
文章鏈接:https://arxiv.org/pdf/2406.16815
項(xiàng)目地址:https://ggxxii.github.io/clothedreamer
高保真度的基于文本的3D服裝合成對(duì)于數(shù)字化人物創(chuàng)建是可取的,但也具有挑戰(zhàn)性。最近基于擴(kuò)散的方法,通過評(píng)分蒸餾抽樣(SDS)實(shí)現(xiàn)了新的可能性,但要么與人體緊密耦合,要么難以重復(fù)使用。
本文引入了ClotheDreamer,這是一種基于3D高斯的方法,用于從文本提示生成可穿戴的、適合生產(chǎn)的3D服裝資產(chǎn)。本文提出了一種新穎的表示方法,稱為解耦服裝Gaussian Splatting(DCGS),以實(shí)現(xiàn)分離優(yōu)化。DCGS將著裝的人物頭像表示為一個(gè)高斯模型,但凍結(jié)了身體高斯斑點(diǎn)。為了提高質(zhì)量和完整性,本文結(jié)合了雙向SDS來監(jiān)督著裝的人物頭像和服裝的RGBD渲染,分別帶有姿勢(shì)條件,并提出了一種新的寬松服裝修剪策略。
本文的方法還可以支持自定義的服裝模板作為輸入。通過本文的設(shè)計(jì),合成的3D服裝可以輕松應(yīng)用于虛擬試穿,并支持物理精確的動(dòng)畫。廣泛的實(shí)驗(yàn)展示了本文方法優(yōu)越且具有競(jìng)爭(zhēng)力的性能。
亮點(diǎn)直擊
- 本文引入了ClotheDreamer,這是一種結(jié)合了解耦服裝Gaussian Splatting(DCGS)的新型3D服裝合成方法。本文的技術(shù)通過基于ID的初始化,有效地將服裝與人體分離,便于從文本提示生成多樣化且可穿戴的服裝資產(chǎn)。
- 本文提出了雙向SDS指導(dǎo),以高效地正則化服裝高斯的基礎(chǔ)幾何,并提出了一種修剪策略,以增強(qiáng)寬松服裝的完整性。
- 本文的方法通過模板網(wǎng)格指導(dǎo)支持定制化服裝生成,并通過模擬網(wǎng)格先驗(yàn)實(shí)現(xiàn)準(zhǔn)確的服裝動(dòng)畫。廣泛的實(shí)驗(yàn)表明,ClotheDreamer在文本一致性和整體質(zhì)量方面優(yōu)于現(xiàn)有方法。
方法
在本文中,本文介紹了一種基于3D高斯的高保真可重復(fù)使用3D服裝生成方法,命名為ClotheDreamer。本文的框架概述如下圖2所示。為了改善合成服裝與人體的互動(dòng),本文提出了一種新穎的解耦服裝Gaussian Splatting(DCGS),將穿著的身體部分分為SMPL身體部分和服裝部分。在第一部分中,本文根據(jù)文本指令開始使用來自SMPL的相對(duì)語義ID初始化DCGS。然后提出通過操控優(yōu)化梯度來學(xué)習(xí)身體部位和服裝之間的解耦。在第二部分中,本文介紹了對(duì)單個(gè)渲染的雙向SDS指導(dǎo)和一種新的寬松服裝修剪策略。在第三部分中進(jìn)一步展示了本文框架的有效性,可以實(shí)現(xiàn)模板引導(dǎo)生成,以簡(jiǎn)化定制化。最后展示了合成服裝在多樣化身體動(dòng)作下的動(dòng)畫過程。
Zero-shot服裝生成
基于ID的DCGS初始化。人類服裝展示了多樣且復(fù)雜的形狀。以前的方法使用 SfM 點(diǎn)或 Shap-E 和 Point-E 生成的通用點(diǎn)云作為初始點(diǎn),這在人體類別中表現(xiàn)不佳,難以提供強(qiáng)有力的先驗(yàn)。最近一種流行的初始化選擇是使用一致的身體模型,如 SMPL 或 SMPL-X,因?yàn)樗鼈兘Y(jié)構(gòu)良好且可參數(shù)化以進(jìn)行優(yōu)化。然而,這些方法通常在整個(gè)身體網(wǎng)格表面上采樣點(diǎn),使得難以單獨(dú)操控服裝。
本文在每次反向傳播過程后跟蹤采樣的身體點(diǎn),并屏蔽它們的梯度。在自適應(yīng)密度化過程中,本文屏蔽了高斯位置梯度積累張量,以在光柵化之前使用部分有效梯度進(jìn)行更新。此外,本文僅選擇服裝點(diǎn)進(jìn)行密度化或修剪確定,以減少計(jì)算成本。
雙向SDS引導(dǎo)
本文觀察到雙向 SDS 指導(dǎo)可以提升生成服裝的質(zhì)量并減少高斯偽影,詳見后面消融實(shí)驗(yàn)結(jié)果。然而,SDS 監(jiān)督可能不穩(wěn)定并導(dǎo)致服裝幾何形狀失真。LZT*23 中的尺寸條件高斯修剪策略在僅修剪階段通常是有效的,但可能誤刪對(duì)于寬松服裝(如長(zhǎng)裙、禮服)有用的高斯點(diǎn)。如下圖5所示,在優(yōu)化的早期階段可以獲得合理的結(jié)果。然而,由于不恰當(dāng)?shù)男藜舨呗?,大量有用的高斯點(diǎn)被剪除,導(dǎo)致生成結(jié)果不理想。因此,本文提出針對(duì)寬松服裝生成的新的修剪策略。本文在訓(xùn)練的中期僅進(jìn)行一次修剪,并增加尺度因子范圍作為條件。這確保了消除過度拉伸的點(diǎn)同時(shí)保持生成服裝的完整性。具體細(xì)節(jié)請(qǐng)參見實(shí)驗(yàn)部分。
模板引導(dǎo)的服裝生成
為了增加個(gè)性化實(shí)用性,本文展示了一種新穎的技術(shù),用于通過自定義模板服裝網(wǎng)格來引導(dǎo) 3D 服裝生成。模板網(wǎng)格旨在作為整體形狀指導(dǎo)服裝生成的基礎(chǔ)。本文的目標(biāo)是鼓勵(lì)高斯點(diǎn)在一般情況下靠近輸入網(wǎng)格形狀,但不局限于表面位置。實(shí)現(xiàn)這一目標(biāo)的初始方法是在零射擊DCGS初始化期間改變采樣的服裝點(diǎn)。然而,自定義模板網(wǎng)格可能具有非常不同的比例和位置信息。簡(jiǎn)單地改變服裝采樣點(diǎn)會(huì)導(dǎo)致3D高斯點(diǎn)位置錯(cuò)誤。
因此,本文首先將輸入的模板服裝和 SMPL-X 網(wǎng)格移動(dòng)到它們的中心,以在世界空間中進(jìn)行位置對(duì)齊。然后,在局部空間中,將兩組頂點(diǎn)連接起來進(jìn)行統(tǒng)一的縮放和變換。在變換后分別跟蹤每個(gè)部分并采樣3D高斯點(diǎn)。通過基于網(wǎng)格的原始方法,可以從文本描述中生成多樣化的服裝幾何形狀和紋理細(xì)節(jié),同時(shí)利用初始點(diǎn)來約束整體的服裝風(fēng)格。使用Marvelous Designer 創(chuàng)建的服裝,如下圖8所示,展示了一些模板引導(dǎo)的服裝生成結(jié)果。
動(dòng)畫化DCGS服裝
本文展示了兩種可能的方法來動(dòng)畫DCGS服裝資產(chǎn)。對(duì)于貼身服裝(例如襯衫、短袖、牛仔褲), 本文將訓(xùn)練好的高斯化身注冊(cè)為 SMPL-X,并使用一系列SMPL-X 姿勢(shì)參數(shù)進(jìn)行動(dòng)畫化。然而,這個(gè)過程將生成的高斯視為一個(gè)集成模型,并且在嘗試動(dòng)畫寬松服裝(如長(zhǎng)袍、裙子、長(zhǎng)裙)時(shí)遇到困難。下部服裝高斯分別綁定到 SMPL-X 的腿部,導(dǎo)致動(dòng)畫過程中的撕裂偽影。通過本文的表示,生成的服裝完全與化身體分離,本文建議使用模擬網(wǎng)格來有效地動(dòng)畫生成的DCGS服裝。
基于網(wǎng)格的服裝動(dòng)畫。受益于高斯明確的表示,可以將生成的高斯資產(chǎn)視為點(diǎn)云。本文旨在利用時(shí)間上的模擬網(wǎng)格作為先驗(yàn)來驅(qū)動(dòng)服裝點(diǎn)。Marvelous Designer是一款強(qiáng)大和先進(jìn)的3D虛擬服裝模擬軟件,利用物理參數(shù)進(jìn)行操作。通過模擬的服裝網(wǎng)格序列,可以通過以下三個(gè)步驟輕松地對(duì)本文的DCGS資產(chǎn)進(jìn)行動(dòng)畫化:1. 迭代最近點(diǎn)(ICP)注冊(cè);2. K維樹綁定;3. 高斯變換。本文首先使用 ICP 注冊(cè)進(jìn)行 DCGS 資產(chǎn)與第一個(gè)模擬網(wǎng)格之間的粗略對(duì)齊。為了加速和精細(xì)化最近鄰搜索,本文構(gòu)建 KD 樹以找到每個(gè)服裝高斯的最近網(wǎng)格點(diǎn)。本文利用網(wǎng)格頂點(diǎn)之間的變形來計(jì)算服裝高斯的變換。需要注意的是,本文的方法能夠使用一個(gè)模擬的網(wǎng)格序列來動(dòng)畫多個(gè)形狀相似的服裝。
實(shí)驗(yàn)
定性比較
本文將 ClotheDreamer 與最新的文本引導(dǎo) 3D 生成方法進(jìn)行了比較,包括基于網(wǎng)格的Shap-E、基于神經(jīng)輻射場(chǎng)(NeRF)的ProlificDreamer、以及基于高斯的LGM、GaussianDreamer、DreamGaussian。本文使用GPT-4 生成了100個(gè)描述,并隨機(jī)選擇了6個(gè)進(jìn)行定性比較。如下圖6所示,本文的生成結(jié)果在整體質(zhì)量和幾何紋理的精細(xì)度方面均達(dá)到最高水平。需要注意的是,比較的方法往往會(huì)生成不完整的服裝,或者在某些情況下生成額外的人體部位。此外還可以看到,得益于3D高斯表示,如下圖7所示,本文的方法能夠生成復(fù)雜的衣物材質(zhì),例如針織紗線的蓬松外觀。
本文在上圖8中展示了一些模板引導(dǎo)的服裝生成結(jié)果。模板網(wǎng)格在整體上指導(dǎo)了幾何形狀,但不會(huì)限制細(xì)節(jié)部分。本文還在圖9中與 HumanGaussian 的穿衣頭像生成和動(dòng)畫進(jìn)行了比較。HumanGaussian 生成的頭像與身體集成,往往會(huì)導(dǎo)致手部模糊以及衣物上的頭部陰影問題。同時(shí),它也難以處理寬松的服裝(例如短裙、長(zhǎng)裙)。本文使用了兩個(gè)模擬網(wǎng)格序列,并比較了相同動(dòng)作下 HumanGaussian 的穿衣頭像動(dòng)畫。從180幀中隨機(jī)選擇4幀。直接將整個(gè)頭像綁定到SMPL-X上并使用線性混合蒙皮(LBS),HumanGaussian動(dòng)畫會(huì)產(chǎn)生許多偽影,特別是在膝蓋區(qū)域。
定量比較
從文本生成的3D服裝渲染結(jié)果應(yīng)在參考視圖下與輸入文本高度相似,并在新視圖下展示與參考視圖一致的語義。本文使用CLIP評(píng)分來評(píng)估這兩個(gè)方面,該評(píng)分計(jì)算新視圖與參考視圖之間的語義相似性。本文為每種方法生成100個(gè)結(jié)果,并采用各自的訓(xùn)練設(shè)置。隨機(jī)選擇每個(gè)渲染視頻中的4幀來計(jì)算CLIP評(píng)分。如下表1顯示,本文的方法在文本一致性方面取得了最佳成績(jī)。
用戶研究。本文進(jìn)一步進(jìn)行了用戶研究,以評(píng)估從文本生成的服裝。本文收集了20名參與者對(duì)30個(gè)比較對(duì)的600個(gè)反饋。要求參與者根據(jù)每種方法的整體質(zhì)量和與給定提示的一致性進(jìn)行評(píng)分(1-6)。如上表1所示,本文的方法獲得了最高的偏好評(píng)分。
消融研究
Bidirectional SDS 的效果。在下圖10中,本文設(shè)計(jì)了一個(gè)變體,通過去除對(duì)單獨(dú)的服裝渲染的額外SDS指導(dǎo)來進(jìn)行實(shí)驗(yàn)。觀察到生成的服裝質(zhì)量明顯低于本文的方法,尤其是在角色頭部區(qū)域周圍,容易生成多余的浮動(dòng)高斯偽影。這與本文的直覺一致,即需要對(duì)服裝進(jìn)行額外的單獨(dú)指導(dǎo)以獲得更好的服裝生成效果。相比之下,本文的雙向SDS指導(dǎo)能產(chǎn)生更干凈和穩(wěn)健的生成結(jié)果。
松散服裝剪枝策略的效果。在圖11中,本文設(shè)計(jì)了一個(gè)變體,通過采用 HumanGaussian 中使用的剪枝策略進(jìn)行實(shí)驗(yàn)。將縮放因子作為剪枝條件被證明是消除冗余高斯斑點(diǎn)的有效方法。然而,在松散服裝的情況下,鳥窩觀察到這種策略會(huì)錯(cuò)誤地移除許多有用的高斯點(diǎn)。相比之下,本文的方法在幾何結(jié)構(gòu)的完整性和細(xì)紋理細(xì)節(jié)方面表現(xiàn)得更加出色。
應(yīng)用
自動(dòng)適配。本文方法的一個(gè)重要優(yōu)勢(shì)是能夠?qū)⒎b生成與角色身體解耦。本文生成的3D服裝資產(chǎn)可以適配于多種不同的角色體型,如下圖12所示。將網(wǎng)格視為密集點(diǎn)云,可以使用ICP配準(zhǔn)來計(jì)算兩個(gè)身體網(wǎng)格之間的變換矩陣。由于生成的服裝在中性形態(tài)下非常貼合,本文可以輕松地將點(diǎn)綁定到其網(wǎng)格表面?;谏眢w變換矩陣,本文可以優(yōu)化服裝變換矩陣以適應(yīng)各種體型,可能為快速虛擬試穿開辟新的可能。
結(jié)論
本文介紹了 ClotheDreamer,這是一種從文本提示生成多樣且可穿戴的3D服裝的創(chuàng)新方法。本文提出了一種新穎的表示方法,名為Disentangled Clothe Gaussian Splatting (DCGS),能夠有效地將衣服與身體解耦。本文還提出了雙向SDS指導(dǎo),它分別監(jiān)督帶有姿態(tài)條件的服裝化身RGBD渲染,并引入了一種新的修剪策略,以增強(qiáng)寬松服裝的生成完整性。此外,本文展示了通過結(jié)合模板網(wǎng)格原語進(jìn)行個(gè)性化生成的多樣性。本文的DCGS服裝可以通過模擬的網(wǎng)格先驗(yàn)實(shí)現(xiàn)逼真的布料動(dòng)畫。實(shí)驗(yàn)和用戶研究表明,本文的方法在外觀和幾何質(zhì)量方面優(yōu)于最先進(jìn)的方法。
局限性和未來工作。盡管 ClotheDreamer 展示了令人鼓舞的結(jié)果,但它仍然存在一些局限性。首先,本文的方法目前整合了上衣和下衣,更精細(xì)的解耦將適用于更復(fù)雜的試穿場(chǎng)景。其次,類似于其他基于SDS的方法,本文的方法在某些情況下也會(huì)出現(xiàn)顏色過飽和的問題。本文相信,探索改進(jìn)SDS的方法可以幫助緩解這個(gè)問題。最后,探索為3D高斯表示disentangling lighting以增強(qiáng)逼真度也是一個(gè)有趣的未來方向。最后,disentangling lighting 增強(qiáng)真實(shí)感的 3D 高斯表示也是一個(gè)有趣的未來方向。
本文轉(zhuǎn)自 AI生成未來 ,作者:Yufei Liu等
