無(wú)限創(chuàng)建新角色!大連理工盧湖川、賈旭團(tuán)隊(duì)開(kāi)源CharacterFactory
Huggingface Demo: ??https://huggingface.co/spaces/DecoderWQH666/CharacterFactory???
Github: ??https://github.com/qinghew/CharacterFactory(代碼已經(jīng)開(kāi)源)???
Project Page: ??https://qinghew.github.io/CharacterFactory/???
Paper: ??https://arxiv.org/abs/2404.15677??
最近,來(lái)自大連理工大學(xué)的IIAU團(tuán)隊(duì)提出CharacterFactory,不需要參考圖片,僅需2.5GB顯存訓(xùn)練10分鐘,可以在3秒內(nèi)無(wú)限制地端到端地采樣出新的一致性角色,可以結(jié)合動(dòng)作、背景、風(fēng)格等文本提示實(shí)現(xiàn)一致性圖像生成,并且無(wú)需微調(diào)即可插入視頻/3D生成。
小編表示:這個(gè)工作竟有種女?huà)z造人的感覺(jué)。
一、引言:
在不斷發(fā)展的文本到圖像生成領(lǐng)域,擴(kuò)散模型已成為內(nèi)容創(chuàng)建不可或缺的工具。但生成模型固有的隨機(jī)特性導(dǎo)致無(wú)法直接地在如圖1所示的不同的上下文中生成主體一致的內(nèi)容。這樣的一致性可以驅(qū)動(dòng)許多應(yīng)用:為書(shū)籍和故事繪制插圖、創(chuàng)建品牌形象、開(kāi)發(fā)演示文稿、藝術(shù)設(shè)計(jì)、身份一致的數(shù)據(jù)構(gòu)建等。
近期,主體驅(qū)動(dòng)生成將給定圖像表示為新詞或?qū)W習(xí)圖像特征注入以實(shí)現(xiàn)一致的圖像生成。他們的訓(xùn)練范式通常包括每個(gè)主體的單獨(dú)優(yōu)化和在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練編碼器。前者通常需要對(duì)每個(gè)主體進(jìn)行長(zhǎng)時(shí)間的優(yōu)化,并且往往會(huì)過(guò)擬合輸入圖像中的外觀。后者消耗大量的計(jì)算成本,并且難以穩(wěn)定地捕獲身份及其細(xì)節(jié)。然而,這些方法試圖生成與參考圖像具有相同身份的圖像,而不是創(chuàng)建新的角色。一種可行的方法是預(yù)先使用文本到圖像模型來(lái)創(chuàng)建新的角色圖像,然后采用主體驅(qū)動(dòng)的方法來(lái)生成具有一致身份的圖像。這樣的兩階段工作流可能會(huì)將預(yù)訓(xùn)練的生成模型推離其訓(xùn)練分布,導(dǎo)致生成質(zhì)量下降且與其他擴(kuò)展模塊的兼容性差。因此,迫切需要提出一種新的端到端框架來(lái)實(shí)現(xiàn)一致的角色生成。
二、方法
在這項(xiàng)工作中,研究者們提出了CharacterFactory,如上圖所示,利用GAN采樣出在上下文中具有一致性的身份詞向量,在推理時(shí)將此身份詞向量插入,可以產(chǎn)生身份一致的角色圖片。
具體來(lái)說(shuō),本文將名人名字的詞向量視為身份一致生成的理想樣例,并收集了使用Stable Diffusion可以在不同上下文中生成一致身份的名人名字,作為理想的目標(biāo)空間。為了使生成的身份詞向量在擴(kuò)散模型中表現(xiàn)得像名人名字一樣,研究者們訓(xùn)練了一個(gè)向量級(jí)GAN模型來(lái)學(xué)習(xí)從隱空間到名人詞向量空間的映射,并通過(guò)AdaIN輔助將生成的身份詞向量更自然地與對(duì)齊名人空間的分布:
生成器G被訓(xùn)練最小化這一目標(biāo),而判別器被訓(xùn)練最大化這一目標(biāo)。
此外,CLIP可以將不同上下文中與某個(gè)主體對(duì)應(yīng)的名詞映射為相似的上下文表示,所以這一名詞能夠在生成結(jié)果中表現(xiàn)出一致性。為了讓生成的偽身份詞向量具有同樣的效果(即在不同的上下文中表現(xiàn)出一致的身份),本文設(shè)計(jì)了一種上下文一致性損失,期望詞向量v_1^*,v_2^*結(jié)合不同的文本提示時(shí),在經(jīng)過(guò)CLIP的text transformer之后差距盡可能地縮小。此外,這種損失是即插即用的,可以遷移至其他主體驅(qū)動(dòng)的生成方法,有助于學(xué)習(xí)上下文一致的主體詞嵌入。
整體的目標(biāo)可以表示為:
判別器D的工作保持不變,生成器G的任務(wù)不僅是學(xué)習(xí)名人詞向量的屬性來(lái)騙過(guò)D,還要在text transformer的輸出空間中體現(xiàn)上下文一致性。在此,有兩點(diǎn)值得注意:
1.用于詞向量的GAN:研究者們首次在 CLIP 詞向量空間中引入 GAN,并利用后續(xù)網(wǎng)絡(luò)來(lái)設(shè)計(jì)上下文一致?lián)p失,該損失可以感知不同上下文中生成的偽身份詞向量。這種設(shè)計(jì)類(lèi)似于之前基于GAN的圖像生成模型的思想(例如Pix2pix,Perceptual loss),這些方法證明了將 GAN 目標(biāo)與更傳統(tǒng)的損失(例如 L2 loss)混合是有益的。
- 不需要基于擴(kuò)散模型的訓(xùn)練:顯然,研究者們的訓(xùn)練過(guò)程中不涉及通常用于訓(xùn)練的降噪U(xiǎn)Net和擴(kuò)散損失。值得注意的是,所提出的 IDE-GAN 在推理時(shí)可以與擴(kuò)散模型無(wú)縫集成,以實(shí)現(xiàn)身份一致的生成。
三、實(shí)驗(yàn)結(jié)果
- 在實(shí)驗(yàn)環(huán)節(jié),本文在多個(gè)指標(biāo)上與實(shí)現(xiàn)的兩階段的工作流(主體驅(qū)動(dòng)的方法)進(jìn)行了定性和定量的對(duì)比。如圖和表所示,本文的方法取得了最佳的人臉相似性、可編輯性、可信人臉多樣性和圖像質(zhì)量。
- 此外,與本文最相關(guān)的方法The Chosen One和Consistory沒(méi)有開(kāi)源,研究者們與他們論文里的內(nèi)容進(jìn)行了對(duì)比。視覺(jué)上本文方法與他們?nèi)〉昧讼喈?dāng)?shù)男阅?,但在本文的產(chǎn)生一致角色的速度更快,身份表示成本上更低。
- 像傳統(tǒng)的GAN方法一樣,本文也嘗試了在隱空間中進(jìn)行插值,并在圖像空間展示插值效果,可以看出,本文生成的身份能夠產(chǎn)生平滑的變化,這不僅證明CharacterFactory具有不錯(cuò)的插值特性,也從另一方面證明了CharacterFactory可以與Stable Diffusion無(wú)縫集成。
- 本文的一個(gè)應(yīng)用是為故事插圖方面,可以看出本文生成的身份可以結(jié)合不同的上下文產(chǎn)生相應(yīng)結(jié)果,甚至能夠完成抽象屬性(如年齡)的編輯。
- 本文將得到的一致身份表示與圖像/視頻/3D模型進(jìn)行結(jié)合,得到了更具創(chuàng)造力的結(jié)果。
四、結(jié)論
本文所提出的框架,可以以極低的訓(xùn)練開(kāi)銷(xiāo)和極快的推理速度,端到端地采樣無(wú)限的新角色,在上下文中展現(xiàn)出良好的一致性和可編輯性,并可以與ControlNet、視頻、3D等模型結(jié)合,做到即插即用,這項(xiàng)工作被認(rèn)為是一致角色生成的重要一步。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:AI生成未來(lái)
