自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

寡姐帶貨國風(fēng)Polo衫,馬斯克穿牛仔走紅毯!虛擬試衣新框架火了,只需兩張圖30秒即生成

人工智能 新聞
CatVTON重新思考和設(shè)計(jì)了基于擴(kuò)散模型的虛擬試穿框架,將多任務(wù)、多品類的虛擬試衣集成到同一模型中,以輕量化的框架和參數(shù)高效的訓(xùn)練策略實(shí)現(xiàn)了SOTA的試穿效果

只需兩張圖像,不到30秒,就能讓馬斯克穿牛仔走紅毯~

圖片

或者讓寡姐帶貨國風(fēng)Polo衫~

圖片

就是二次元換裝也不在話下。

圖片

來自中山大學(xué)、Pixocial等機(jī)構(gòu)聯(lián)合發(fā)布輕量化模型架構(gòu)CatVTON。他們是以Stable Diffusion v1.5 inpainitng為基礎(chǔ)模型。

來看看更多效果。

用擴(kuò)散模型進(jìn)行虛擬試衣

CatVTON可以實(shí)現(xiàn)傳統(tǒng)平鋪服裝圖到人物的換裝。

圖片

不管是上衣、褲子、裙子,還是套裝,各種不同品類服裝都可以。

圖片

其形狀和紋理都能保持較高的一致性。

另外,CatVTON 還可以實(shí)現(xiàn)人物A到人物B的換裝。

無需顯式地指定類別,根據(jù) Mask 的不同即可完成目標(biāo)服裝的試穿,支持單獨(dú)的上衣、褲子、裙子或者全身多件服裝同時(shí)更換 。

圖片
圖片

既然如此,那又是如何實(shí)現(xiàn)的呢?

輕量化模型架構(gòu)

CatVTON 在功能上豐富多樣, 但其模型架構(gòu)卻十分簡潔高效:

  • 2個(gè)網(wǎng)絡(luò)模塊(VAE+UNet)
  • 899.06M總參數(shù)量
  • < 8G推理顯存(輸出圖像 1024×768 )
    圖片

輕量化的架構(gòu)來源于 CatVTON 對現(xiàn)有方法模塊冗余的觀察:

  • 基于Warping的方法依靠幾何匹配對服裝進(jìn)行形變再利用試穿模塊融合,結(jié)果生硬不自然;
  • 基于擴(kuò)散模型的方法引入ReferenceNet,加重了訓(xùn)練和推理的負(fù)擔(dān);

圖片

具體而言,CatVTON 通過在輸入上把人物、服裝在通道維度拼接(Concatenate),在結(jié)構(gòu)上擺脫了對額外的 ReferenceNet 的依賴,跳過了對圖像虛擬試衣來說沒有顯著幫助的文本交叉注意力,同時(shí)也不需要任何額外的圖像編碼器來輔助生成。

下表詳細(xì)地比較了不同方法與 CatVTON 的模塊數(shù)量、參數(shù)量、可訓(xùn)練參數(shù)量、顯存占用、推理?xiàng)l件。

在網(wǎng)絡(luò)模塊上,CatVTON 只需要 VAE+UNet,無需任何額外的編碼器;在模型總參數(shù)量上,CatVTON 比其他方法至少縮減了44% ;在顯存占用上,CatVTON 也只有其他方法的一半甚至更低,體現(xiàn)了 CatVTON 在模型架構(gòu)輕量化上的優(yōu)勢。

圖片

△模型高效性相關(guān)項(xiàng)詳細(xì)比較

在訓(xùn)練上,CatVTON 探究了在將預(yù)訓(xùn)練擴(kuò)散模型遷移到 TryOn 任務(wù)時(shí)去噪 UNet 中真正起作用的模塊。

首先,去噪 UNet 在結(jié)構(gòu)上是由不同特征尺度的ResNet 和 Transformer Blocks 堆疊而成(如下圖)。其中 ResNet 是卷積網(wǎng)絡(luò),具有空間不變性,適用于特征的提取,并不負(fù)責(zé)跨空間的特征交互,這一部分在擴(kuò)散模型進(jìn)行大規(guī)模預(yù)訓(xùn)練時(shí),已經(jīng)具備了足夠的特征編碼能力,因此與遷移到 TryOn任務(wù)關(guān)聯(lián)性不強(qiáng)。

圖片

Transformer Block 內(nèi)部結(jié)構(gòu)又可以細(xì)化為三個(gè)部分:Self Attention, Cross Attention 和 FFN。其中Cross Attention在 T2I 任務(wù)中用于與文本信息交互,F(xiàn)FN 起到特征映射的作用,因此與服裝、人物特征交互最相關(guān)的便是 Self Attention。

理論上確定了需要訓(xùn)練的模塊后,在實(shí)驗(yàn)上,CatVTON 文中還進(jìn)行了消融,發(fā)現(xiàn)對 UNet、Transformer Block 和 Self Attention 分別進(jìn)行解鎖訓(xùn)練,其可視化結(jié)果并沒有明顯的差異,同時(shí)在指標(biāo)上也十分接近,驗(yàn)證了“Self Attention是將預(yù)訓(xùn)練擴(kuò)散模型遷移到 TryOn 任務(wù)的關(guān)鍵模塊”的假設(shè)。

最后通過理論和實(shí)驗(yàn)鎖定的Self Attention 部分,只有49.57M 參數(shù),僅占總參數(shù)量 5.71% 的部分,對其進(jìn)行微調(diào),就可以實(shí)現(xiàn)逼真的試穿效果,在上一節(jié)表格中可以看到,相較于其他方法,CatVTON 將可訓(xùn)練參數(shù)量減少了10 倍以上。

圖片
最后總結(jié),CatVTON重新思考和設(shè)計(jì)了基于擴(kuò)散模型的虛擬試穿框架,將多任務(wù)、多品類的虛擬試衣集成到同一模型中,以輕量化的框架和參數(shù)高效的訓(xùn)練策略實(shí)現(xiàn)了SOTA的試穿效果,降低了模型的訓(xùn)練、推理計(jì)算需求,更有利于虛擬試衣模型走向落地與應(yīng)用。

項(xiàng)目主頁:https://zheng-chong.github.io/CatVTON
論文地址:https://arxiv.org/abs/2407.15886

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-08-19 14:46:16

視覺框架

2022-05-23 15:57:18

加密貨幣黑客網(wǎng)絡(luò)攻擊

2019-07-16 08:57:15

kafka應(yīng)用Broker

2024-06-21 09:24:03

2022-01-23 10:53:47

星鏈互聯(lián)網(wǎng)衛(wèi)星

2021-06-11 17:14:26

黑客馬斯克加密貨幣

2025-01-16 11:55:00

2025-02-11 11:46:48

OpenAI奧特曼馬斯克

2022-04-15 10:55:59

Web3反壟斷元宇宙

2021-05-13 10:21:34

黑客網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2011-06-03 13:39:58

ibmdwdeveloperWo中文社區(qū)

2022-12-15 17:26:16

2023-03-15 16:09:44

2023-03-03 21:25:28

馬斯克特斯拉

2023-05-26 17:11:25

馬斯克Neuralink接口

2025-02-21 10:51:47

2022-11-29 14:23:08

2020-08-31 12:01:43

網(wǎng)絡(luò)攻擊惡意軟件網(wǎng)絡(luò)安全

2021-12-09 10:18:29

芯片半導(dǎo)體技術(shù)

2023-04-20 17:51:41

馬斯克微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號