LeCun轉(zhuǎn)發(fā)!已開(kāi)源!大連理工盧湖川、賈旭團(tuán)隊(duì)提出可插入圖像/視頻/3D生成的StableIdentity
Github:https://github.com/qinghew/StableIdentity(代碼已全部開(kāi)源)
Project Page:https://qinghew.github.io/StableIdentity/
Paper:???https://arxiv.org/abs/2401.15975??
最近,來(lái)自大連理工大學(xué)的IIAU團(tuán)隊(duì)提出StableIdentity,允許用戶只需上傳一張圖片,通過(guò)優(yōu)化學(xué)習(xí)身份,即可結(jié)合包含動(dòng)作、背景、風(fēng)格的文本提示實(shí)現(xiàn)圖像定制生成,并且無(wú)需微調(diào)即可插入視頻/3D生成。
Yann LeCun此前也點(diǎn)贊轉(zhuǎn)發(fā),調(diào)侃自己從沒(méi)戴過(guò)這樣的帽子。
一、引言:
隨著擴(kuò)散模型的發(fā)展,定制化生成任務(wù)受到廣泛關(guān)注。這項(xiàng)任務(wù)旨在為文本到圖像模型注入新的主題(如身份),并在對(duì)齊輸入文本提示的同時(shí),生成在不同語(yǔ)境下主題一致的圖像。例如,用戶可以上傳自己的照片以獲得有趣的圖片,如 "穿著超人服裝"。定制生成的成功可以促進(jìn)許多應(yīng)用,如個(gè)性化肖像照片虛擬試穿和藝術(shù)設(shè)計(jì)。然而,現(xiàn)有的定制方法是通過(guò)微調(diào)模型的部分/全部參數(shù)或?qū)W習(xí)通用編碼器來(lái)解決這一問(wèn)題的。參數(shù)微調(diào)方法需要花費(fèi)很長(zhǎng)時(shí)間來(lái)搜索最佳參數(shù),但往往會(huì)返回一個(gè)不準(zhǔn)確的平凡解來(lái)表示身份。尤其是在只有單張圖像的情況下,這些方法往往會(huì)過(guò)擬合輸入圖像,導(dǎo)致可編輯性下降。另外,基于編碼器的方法需要大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,很難捕捉到獨(dú)特的身份和細(xì)節(jié)。此外,目前的方法所學(xué)習(xí)到的身份在不同的語(yǔ)境下容易與目標(biāo)身份不一致。因此,迫切需要提出一種新的框架來(lái)解決這一任務(wù)所面臨的巨大挑戰(zhàn)(如身份保持不穩(wěn)定、可編輯性差等)。
二、方法
在這項(xiàng)工作中,研究者們提出了 StableIdentity,如圖所示,給定一張輸入人臉圖像,它將身份先驗(yàn)和可編輯先驗(yàn)集成到了人的定制生成中,旨在通過(guò)優(yōu)化學(xué)習(xí)可以表示目標(biāo)身份的詞向量。
具體來(lái)說(shuō),本文首先引入了一個(gè)經(jīng)過(guò)人臉識(shí)別任務(wù)預(yù)訓(xùn)練的編碼器來(lái)精確地捕捉身份表示。此外,研究者們收集了在Stable Diffusion中可以在不同上下文中生成一致身份的名人姓名,構(gòu)建了統(tǒng)一維度的嵌入空間,以作為定制生成的先驗(yàn)身份分布。為了激勵(lì)目標(biāo)身份在預(yù)訓(xùn)練擴(kuò)散模型中表現(xiàn)得像名人姓名一樣,本文進(jìn)一步將身份表示通過(guò)AdaIN落入到這一先驗(yàn)空間。
此外,為了學(xué)習(xí)更穩(wěn)定的身份和細(xì)粒度重建,本文設(shè)計(jì)了一種two phase擴(kuò)散損失,分別在降噪訓(xùn)練的前期和后期階段分配專門的目標(biāo)函數(shù)。其中降噪前期已被證明決定了生成圖像的布局,因此前期使用原始的降噪損失以保證學(xué)到的身份可以適應(yīng)多樣的布局。降噪后期使用對(duì)預(yù)測(cè)的的重建損失,以提升對(duì)輸入圖像的像素級(jí)感知,從而學(xué)習(xí)更穩(wěn)定的身份。
三、實(shí)驗(yàn)結(jié)果
- 在實(shí)驗(yàn)環(huán)節(jié),本文在多個(gè)指標(biāo)上與6個(gè)baselines進(jìn)行了定性和定量的對(duì)比。如圖1和表4所示,本文的方法取得了最佳的人臉相似性、可編輯性、圖像質(zhì)量。
- 此外,本文進(jìn)一步在與3D模型的結(jié)合上與同類型基于詞向量的方法進(jìn)行了對(duì)比,可以看出StableIdentity可以更好地插入到3D生成中。
本文用TSNE可視化了學(xué)到的身份編碼與具有可編輯性的名人名字編碼的2D分布??梢钥闯?,本文的StableIdentity學(xué)到的embedding分布更加緊湊,更接近于真實(shí)的名人名字embedding的分布。
3. 本文也用單張名人照片作為輸入進(jìn)行了實(shí)驗(yàn),可以看出,學(xué)到的身份在圖像/視頻/3D上都表現(xiàn)不錯(cuò)。
更多的結(jié)果可以在https://qinghew.github.io/StableIdentity/中查看。
四、展望
這一方法可以直接與ControlNet等基于Stable Diffusion的即插即用的模塊配合使用,甚至可以將學(xué)習(xí)到的身份插入現(xiàn)成的視頻/3D生成的模型中,而無(wú)需進(jìn)行微調(diào)即可產(chǎn)生出色的效果。這項(xiàng)工作被認(rèn)為是統(tǒng)一圖像、視頻和3D定制化生成任務(wù)的重要一步。未來(lái)的工作將進(jìn)一步探索通過(guò)更高效的方式學(xué)習(xí)泛化性強(qiáng)的身份表示,以更好地適應(yīng)和解決實(shí)際應(yīng)用中的挑戰(zhàn)。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Qinghe Wang
