按需搭配一鍵疊穿,效果拿下新SOTA!中山大學&字節(jié)智創(chuàng)數(shù)字人團隊提出虛擬試穿新框架
多件衣服按指定穿法一鍵虛擬試穿!
中山大學&字節(jié)智創(chuàng)數(shù)字人團隊提出了一個名為MMTryon的虛擬試穿框架,可以通過輸入多個服裝圖像及指定穿法的文本指令來生成高質量的組合試穿結果。
比如選中一件大衣、一條褲子,再配一個包,用語言描述穿法,“啪”的一鍵就穿到了人像上:
無論是真人圖像又或是漫畫人物,都能一鍵按照搭配試穿衣服:
對于單圖換裝,MMTryon有效利用了大量的數(shù)據(jù)設計了一個表征能力強大的服裝編碼器,使得該方案能處理復雜的換裝場景及任意服裝款式;
對于組合換裝,MMTryon消除了傳統(tǒng)虛擬換裝算法中對服裝精細分割的依賴,可依靠一條文本指令從多張服裝參考圖像中選擇需要試穿的服裝及對應的穿法,生成真實自然的組合換裝效果。
在基準測試中,MMTryon拿下新SOTA。
多模態(tài)多參考注意機制加持,效果更精確靈活
虛擬換裝技術旨在將模特所穿服飾或者衣服的平鋪圖穿到目標人物身上,達到換裝的效果,但是之前虛擬試穿的方案存在一些技術難點沒有解決。
首先,現(xiàn)有的方法通常是為單件試穿任務(上衣/下衣、連衣裙)而設計的,并且無法自定義著裝風格,例如,外套拉上/拉開拉鏈、上衣塞入/塞出等。
另外,之前的方案嚴重依賴特定于類別的分割模型來識別試穿區(qū)域,如下圖所示如果分割錯誤則將直接導致試穿結果中出現(xiàn)明顯的試穿錯誤或者偽影等情況。
為了解決這些問題,研究團隊提出了MMTryon,將參考圖像中的服裝信息與文本指令中的著裝風格信息通過一種新穎的多模態(tài)和多參考注意機制來進行表示,這使得該方案支持組合式換裝以及多樣的試穿風格。
此外,為了消除對分割的依賴性,MMTryon使用了表征能力豐富的服裝編碼器,并利用新穎的可擴展的數(shù)據(jù)生成流程增強現(xiàn)有的數(shù)據(jù)集,這樣在推理階段,MMtryon無需任何分割,僅僅通過文本以及多個試穿對象即可實現(xiàn)高質量虛擬換裝。
在開源的數(shù)據(jù)集以及復雜場景下進行的大量實驗在定性和定量上證明了MMTryon優(yōu)于現(xiàn)有SOTA方法。
接下來是更具體的方法。
首先研究團隊預訓練了一個服裝編碼器,在這一stage中MMTryon利用文本作為query,將得到的特征與grouding dino+SAM所得到的mask計算一個query損失。
目標是經過text query 后僅激活文本對應區(qū)域的特征,這樣可以擺脫對于服裝分割的依賴。同時,利用大量的pair對更好的編碼服裝特征。
之后,為了更穩(wěn)定的訓練組合換裝,需要多件服裝組合式換裝的pair圖,但是這樣的pair圖采集成本很高。
為此,研究團隊提出了一個基于大模型的數(shù)據(jù)擴增模式,利用視覺語言模型以及grouding dino+SAM去得到了不同區(qū)域的mask,來保護對應的上衣或者下衣區(qū)域,利用stable diffusion XL去重繪保護區(qū)域外剩下的內容,構建了100w的增強數(shù)據(jù)集,訓練中將增強數(shù)據(jù)集與90w原始數(shù)據(jù)一起加入訓練。
基于增強的數(shù)據(jù)集以及服裝編碼器,MMTryon設計了多參考圖像注意力模塊和多模態(tài)圖文注意力模塊,其中多參考圖圖像注意力模塊用于將多件衣服的特征注入到目標圖像來控制多件衣服的試穿,多模態(tài)圖文注意力模塊利用詳細的文本與圖像的clip編碼來控制多樣的試穿風格。
可以看到,MMtryon 由于服飾編碼器豐富的表征能力,對于各種類型的換裝都可以有真實的虛擬試穿效果:
無論是真人圖像還是掛臺服飾,只需要多張服裝參考圖像及文本,就可以組合式換裝并控制換裝風格。
甚至還能作為一個fashion換裝輔助設計來幫你買衣服:
在量化指標上,MMTryon優(yōu)于其他baseline的的效果,在開源數(shù)據(jù)集測試集合的Human evaluation中,MMTryon也超過其它baseline模型
在復雜場景的Human evaluation中,MMTryon也超越了目前的社區(qū)模型outfit anyone。
研究人員收集了復雜場景女裝圖片142張,男裝圖片57張,非服裝圖片87張,共邀請15位參與者參與評測,選擇更喜歡的方案結果。從圖表中可以看出,MMTryon的效果更受測試者的喜歡。
更多細節(jié),感興趣的家人們可以查看論文~
論文鏈接:https://arxiv.org/abs/2405.00448