自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法 精華

發(fā)布于 2024-5-24 09:44
瀏覽
0收藏

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2405.12970

項目鏈接:https://faceadapter.github.io/face-adapter.github.io/


當(dāng)前的面部重演和交換方法主要依賴于GAN框架,但最近的研究重點已轉(zhuǎn)向預(yù)訓(xùn)練的擴(kuò)散模型,因為它們具有更強(qiáng)的生成能力。然而,訓(xùn)練這些模型需要大量資源,且結(jié)果尚未達(dá)到令人滿意的性能水平。為了解決這個問題,本文引入了FaceAdapter,是一種高效且有效的適配器,專為預(yù)訓(xùn)練的擴(kuò)散模型提供高精度和高保真度的人臉編輯。


本文觀察到,面部重演和交換任務(wù)本質(zhì)上都涉及目標(biāo)結(jié)構(gòu)、身份和屬性的組合。本文旨在充分解耦這些因素的控制,以在一個模型中實現(xiàn)這兩項任務(wù)。具體來說,本文的方法包括:

  • 提供精確的標(biāo)志點和背景的空間條件生成器;
  • 通過Transformer解碼器將人臉embedding轉(zhuǎn)移到文本空間的即插即用身份編碼器;
  • 整合空間條件和詳細(xì)屬性的屬性控制器。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

與完全微調(diào)的面部重演/交換模型相比,F(xiàn)aceAdapter在運動控制精度、身份保留能力和生成質(zhì)量方面實現(xiàn)了相當(dāng)或更優(yōu)的性能。此外,F(xiàn)aceAdapter還能無縫集成到各種StableDiffusion模型中。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

介紹

面部重演旨在將目標(biāo)動作轉(zhuǎn)移到源身份和屬性上,而人臉交換則旨在將源身份轉(zhuǎn)移到目標(biāo)動作和屬性上。這兩項任務(wù)都需要完全解耦并精細(xì)控制身份、屬性和動作。當(dāng)前的面部重演和交換技術(shù)主要依賴于基于GAN的框架。然而,基于GAN的方法在生成能力上存在局限性,難以處理一些復(fù)雜情況,比如在面部重演中處理大角度姿勢,以及在人臉交換中適應(yīng)面部形狀的變化。


現(xiàn)有研究嘗試通過利用擴(kuò)散模型強(qiáng)大的生成能力來解決這些挑戰(zhàn)。然而,這些方法需要對整個模型進(jìn)行訓(xùn)練,導(dǎo)致顯著的計算開銷,且未能成功提供令人滿意的結(jié)果。例如,F(xiàn)ADM對基于GAN的重演方法的結(jié)果進(jìn)行細(xì)化,雖然提高了圖像質(zhì)量,但仍未能解決由于大角度姿勢變化引起的模糊問題。另一方面,DiffSwap由于訓(xùn)練過程中缺乏背景信息,導(dǎo)致生成的面部結(jié)果模糊,從而阻礙了模型的學(xué)習(xí)。此外,這些方法未能充分利用大型預(yù)訓(xùn)練擴(kuò)散模型的潛力。為了降低訓(xùn)練成本,一些方法引入了用于大型預(yù)訓(xùn)練擴(kuò)散模型的面部編輯適配器插件。然而,這些方法主要集中于使用文本進(jìn)行屬性編輯,不可避免地削弱了空間控制以確保文本的可編輯性。例如,它們只能使用五個點來控制面部姿勢,限制了其精確控制表情和視線方向的能力。另一方面,直接用面部區(qū)域的mask進(jìn)行修復(fù)并未考慮面部形狀的變化,導(dǎo)致身份保留能力的下降。


為了解決上述挑戰(zhàn),本文致力于開發(fā)一種高效且有效的面部編輯適配器(Face-Adapter),專門針對預(yù)訓(xùn)練擴(kuò)散模型的面部重演和交換任務(wù)。Face-Adapter的設(shè)計動機(jī)有三點:


  • 完全解耦的身份、目標(biāo)結(jié)構(gòu)和屬性控制,能夠?qū)崿F(xiàn)“一模型雙任務(wù)”;
  • 解決被忽視的問題;
  • 簡單而有效,即插即用。


具體來說,提出的Face-Adapter包括三個組件:

  1. 空間條件生成器(SCG):用于自動預(yù)測3D先驗標(biāo)志點和變化前景區(qū)域的mask,為后續(xù)的受控生成提供更合理和精確的指導(dǎo)。此外,對于面部重演,這種策略可以緩解僅從源圖像中提取背景時可能出現(xiàn)的問題,例如由于攝像機(jī)或面部對象的移動導(dǎo)致目標(biāo)背景變化引起的不一致性;對于人臉交換,模型學(xué)習(xí)保持背景一致性,獲取全局光照和空間參考的線索,并嘗試生成與背景和諧的內(nèi)容。
  2. 身份編碼器(IE):使用預(yù)訓(xùn)練的識別模型提取面部embedding,然后通過Transformer解碼器中的可學(xué)習(xí)查詢將其轉(zhuǎn)移到文本空間。這種方式大大提高了生成圖像的身份一致性。
  3. 屬性控制器(AC):包括兩個子模塊:空間控制將目標(biāo)動作的標(biāo)志點與從空間條件生成器獲得的不變背景結(jié)合起來。屬性模板補(bǔ)充缺失的屬性,涵蓋光照、部分背景和頭發(fā)。這兩項任務(wù)都可以看作是執(zhí)行條件修復(fù)的過程,利用提供的身份和缺失的屬性內(nèi)容。這個過程遵循給定的空間控制規(guī)定,達(dá)到與背景一致和和諧的效果。


通過這種設(shè)計,F(xiàn)ace-Adapter不僅能有效地解決當(dāng)前方法中的問題,還能在保持高精度和高保真度的同時,減少訓(xùn)練成本,并無縫集成到各種穩(wěn)定擴(kuò)散模型中。

本文的貢獻(xiàn)可以總結(jié)如下:


  1. 引入Face-Adapter:本文提出了Face-Adapter,這是一種輕量級的面部編輯適配器,旨在為預(yù)訓(xùn)練的擴(kuò)散模型提供對身份和屬性的精確控制。該適配器在面部重現(xiàn)和交換任務(wù)中表現(xiàn)出色,超越了之前的最先進(jìn)的基于GAN和擴(kuò)散的方法。
  2. 新穎的空間條件生成模塊:本文提出了一種新穎的空間條件生成模塊,用于預(yù)測必要的生成區(qū)域。該模塊與身份編碼器和屬性控制器協(xié)作,將重現(xiàn)和交換任務(wù)框架化為具有充分空間指導(dǎo)、身份和必要屬性的條件修補(bǔ)任務(wù)。通過合理且高度解耦的條件設(shè)計,本文釋放了預(yù)訓(xùn)練擴(kuò)散模型在這兩項任務(wù)中的生成能力。
  3. 高效訓(xùn)練且即插即用:Face-Adapter是一種高效訓(xùn)練、即插即用的面部專用適配器,適用于預(yù)訓(xùn)練的擴(kuò)散模型。通過凍結(jié)去噪U-Net中的所有參數(shù),本文的方法有效地利用了先驗知識,防止了過擬合。此外,F(xiàn)ace-Adapter支持“一種模型用于兩項任務(wù)”的方法,只需簡單的輸入修改即可獨立完成VoxCeleb 1/2 數(shù)據(jù)集上的兩項面部任務(wù),并取得優(yōu)越或具有競爭力的結(jié)果。

相關(guān)工作

面部重演涉及從一個人臉中提取運動并將其轉(zhuǎn)移到另一張臉上,大致可以分為基于變形的方法和基于3DMM的方法?;谧冃蔚姆椒ㄍǔL崛£P(guān)鍵點或區(qū)域?qū)σ怨烙嬤\動場,并在特征圖上進(jìn)行變形以傳遞運動。但是在處理大幅度運動變化時,這些方法由于難以預(yù)測準(zhǔn)確的運動場,往往會產(chǎn)生模糊和失真的結(jié)果?;?DMM的方法使用面部重建系數(shù)或3DMM渲染圖像作為運動控制條件。3DMM提供的面部先驗使這些方法在大姿態(tài)場景中能夠獲得更穩(wěn)健的生成結(jié)果。盡管提供了準(zhǔn)確的結(jié)構(gòu)參考,但它僅提供粗略的面部紋理,并缺乏對頭發(fā)、牙齒和眼睛運動的參考。


StyleHEAT和 HyperReenact使用StyleGAN2來提高生成質(zhì)量。然而,StyleHEAT受限于正面肖像的數(shù)據(jù)集,而HyperReenact則受到分辨率限制和背景模糊的影響。為了進(jìn)一步提高生成質(zhì)量,擴(kuò)散模型越來越受到歡迎。FADM 將之前的重現(xiàn)模型與擴(kuò)散細(xì)化相結(jié)合,但基礎(chǔ)模型限制了驅(qū)動的準(zhǔn)確性。最近,AnimateAnyone 使用重度紋理表示編碼器(CLIP和U-Net的副本)來確保動畫結(jié)果的紋理質(zhì)量,但這種方法成本高昂。


相比之下,本文旨在充分利用預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的生成能力,并尋求全面克服先前方法中提出的挑戰(zhàn),例如低分辨率生成、處理大幅度變化的困難、高效訓(xùn)練和意外的偽影。


人臉交換旨在將源圖像的面部身份轉(zhuǎn)移到目標(biāo)圖像上,同時保持目標(biāo)圖像的其他屬性(如光照、頭發(fā)、背景和運動)不變。最近的方法大致可以分為基于GAN的方法和基于擴(kuò)散的方法。


  1. 基于GAN的方法主要致力于解決身份和其他屬性的解耦與融合問題。其努力包括引入面部解析mask、各種屬性保留損失以及設(shè)計融合模塊。盡管取得了顯著的改進(jìn),這些方法在處理面部形狀或遮擋的顯著變化時,往往會產(chǎn)生明顯的偽影。HifiFace通過利用3DMM重建參考臉,將源臉形狀與目標(biāo)的其他屬性結(jié)合起來,緩解了這個問題。然而,由于依賴于GAN來確保生成質(zhì)量,HifiFace在處理由于面部形狀變化導(dǎo)致的大面積空白區(qū)域時,仍然無法生成和諧的結(jié)果。
  2. 基于擴(kuò)散的方法利用擴(kuò)散模型的生成能力來提高樣本質(zhì)量。然而,在推理過程中,使用屬性保留損失的眾多去噪步驟顯著增加了訓(xùn)練成本。DiffSwap 提出了中點估計來解決這一問題,但由此產(chǎn)生的誤差以及缺乏用于修補(bǔ)參考的背景信息,導(dǎo)致結(jié)果不自然。此外,這些方法需要從頭開始進(jìn)行昂貴的訓(xùn)練。


相反,本文的Face-Adapter僅依賴去噪損失來確保圖像質(zhì)量,同時完全解耦目標(biāo)結(jié)構(gòu)、身份和其他屬性的控制。此外,F(xiàn)ace-Adapter通過凍結(jié)U-Net的所有參數(shù),進(jìn)一步顯著降低了訓(xùn)練成本,這也保留了先驗知識并防止過擬合。


預(yù)訓(xùn)練擴(kuò)散模型的個性化。 個性化旨在將給定身份插入預(yù)訓(xùn)練的文本到圖像(T2I)擴(kuò)散模型中。早期的工作通過使用優(yōu)化或微調(diào)的方式插入身份。后續(xù)研究引入了粗略的空間控制,實現(xiàn)了多主體生成和區(qū)域?qū)傩缘奈谋揪庉?,但這些方法需要對大多數(shù)參數(shù)進(jìn)行微調(diào)。IP-adapter(-FaceID)和InstantID 僅微調(diào)少量參數(shù)。后者在身份保留方面表現(xiàn)出色。然而,作為文本編輯能力的權(quán)衡,InstantID只能應(yīng)用較弱的空間控制。因此,它在面部重演和交換中的細(xì)微動作(表情和視線)處理上存在困難。相比之下,本文的Face-Adapter是一種有效且輕量的適配器,專為預(yù)訓(xùn)練的擴(kuò)散模型設(shè)計,能夠同時完成面部重演和交換。

方法

所提出的Face-Adapter的整體結(jié)構(gòu)如下圖2所示,其目的是將身份信息整合到屬性模板中,該模板基于目標(biāo)動作(例如姿勢、表情和目光)提供必要的屬性(例如光照、部分背景和頭發(fā))。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

空間條件生成器

為了為后續(xù)的受控生成提供更合理和精確的指導(dǎo),本文設(shè)計了一種新穎的空間條件生成器(SCG),用于自動預(yù)測3D先驗標(biāo)志點和變化前景區(qū)域的mask。具體來說,該組件由兩個子模塊組成:


  • 3D標(biāo)志點投影器。為了克服面部形狀的變化,本文利用一種3D人臉重建方法來分別提取源臉和目標(biāo)臉的身份、表情和姿態(tài)系數(shù)。隨后,本文將源臉的身份系數(shù)與目標(biāo)臉的表情和姿態(tài)系數(shù)重新組合,重建一個新的3D人臉,并將其投影以獲取相應(yīng)的標(biāo)志點。
  • 適應(yīng)區(qū)域預(yù)測器。對于面部重演,先前的方法假設(shè)只有主體在運動,而背景在訓(xùn)練數(shù)據(jù)中保持靜止。然而,本文觀察到背景實際上會發(fā)生變化,包括相機(jī)和背景中物體的運動,如下圖3所示。如果模型在訓(xùn)練過程中缺乏對背景運動的了解,它將學(xué)會生成模糊的背景。對于面部交換,提供目標(biāo)背景還可以為模型提供關(guān)于環(huán)境光線和空間參考的線索。這種背景的附加約束顯著降低了模型學(xué)習(xí)的難度,使其從一個從頭生成的任務(wù)轉(zhuǎn)變?yōu)橐粋€條件修復(fù)的任務(wù)。因此,模型變得更善于保持背景一致性并生成與之無縫融合的內(nèi)容。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

基于上述討論,本文引入了一種輕量級的適應(yīng)區(qū)域預(yù)測器,用于面部重演和交換。該預(yù)測器自動識別模型需要生成的區(qū)域(適應(yīng)區(qū)域),同時保持其余部分不變。對于面部重演,適應(yīng)區(qū)域包括重演前后源圖像頭部所占據(jù)的區(qū)域。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

身份編碼器

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

屬性控制器

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

在這個階段,重演和交換任務(wù)都可以被視為執(zhí)行條件修復(fù)的過程,利用給定的身份和其他缺失的屬性內(nèi)容,遵循提供的空間控制。


即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

提高表現(xiàn)的策略

訓(xùn)練

1) 數(shù)據(jù)流: 對于面部重演和人臉交換任務(wù),本文使用同一人的兩個不同姿勢的圖像作為源圖像和目標(biāo)圖像。為了支持“一個模型用于兩個任務(wù)”的方法,本文在訓(xùn)練過程中以50%的概率選擇重演和交換數(shù)據(jù)流,即屬性控制器中的空間控制和屬性模板分別使用紅色和藍(lán)色指示的數(shù)據(jù)流。


2) 分類器無條件引導(dǎo)的條件丟棄: 本文需要丟棄的條件包括輸入到U-Net和ControlNet交叉注意力中的身份token和屬性token。本文以5%的概率同時丟棄身份token和屬性條件,以增強(qiáng)圖像的真實性。為了充分利用身份token生成面部圖像并改善身份保真度,本文使用額外的45%的概率丟棄屬性token。

推理

1) 自適應(yīng)區(qū)域預(yù)測器: 對于重演,輸入是源圖像(與訓(xùn)練不同)和校正后的關(guān)鍵點,輸出是自適應(yīng)區(qū)域。對于人臉交換,輸入是目標(biāo)圖像,輸出是自適應(yīng)區(qū)域。


2) 分類器無條件引導(dǎo)的負(fù)提示: 對于重演,身份token和屬性token的否定提示都是空的提示embedding。對于人臉交換,為了克服目標(biāo)身份在屬性token中的負(fù)面影響,本文使用目標(biāo)圖像的身份token作為身份token的負(fù)提示。

實驗

實驗設(shè)置

數(shù)據(jù)集。在訓(xùn)練過程中,本文利用了VoxCeleb1和VoxCeleb2 數(shù)據(jù)集。在評估過程中,本文利用了VoxCeleb1 數(shù)據(jù)集中的491個測試視頻,并在定量評估面部重演時隨機(jī)抽取了1,000張圖像。本文在定量評估人臉交換時使用了FaceForensics++數(shù)據(jù)集。本文還從VoxCeleb2中保留了1,000張圖像用于定性評估。按照FOMM 中的預(yù)處理方法,本文從原始視頻中裁剪出人臉,并將其調(diào)整為512×512的大小進(jìn)行訓(xùn)練和評估。


評估指標(biāo)。對于面部重演,本文使用PSNR和LPIPS 來評估同一身份重演的重建質(zhì)量。本文使用FID來評估生成圖像的整體質(zhì)量。本文使用計算的余弦相似度(CSIM)來評估身份保真度。運動轉(zhuǎn)移誤差由姿勢(Pose)、表情(Exp)和視線(Gaze)來衡量,這些指標(biāo)計算生成圖像和驅(qū)動圖像之間的姿勢、表情和視線系數(shù)的平均歐氏距離。對于人臉交換,身份檢索(ID)通過檢索最接近的面孔來評估身份修改,而姿勢(Pose)、表情(Exp)和視線(Gaze)則評估生成臉和目標(biāo)臉之間的屬性誤差。


即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

與最先進(jìn)方法的比較

面部重演。 在下表1中,本文在VoxCeleb1測試集上定量比較了當(dāng)前最先進(jìn)的方法(SoTA),包括基于GAN的FOMM、PIRenderer、DG、TPSM 、DAM、HyperReenact,以及基于擴(kuò)散模型的FADM。FOMM、TPSM和DAM是基于圖像形變(warping-based)的技術(shù),而PIRenderer和HyperReenact則是基于3D形態(tài)模型(3DMM-based)的技術(shù)。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

本文在圖像質(zhì)量上達(dá)到了可比甚至最佳的結(jié)果。由于空間條件生成器的作用,在訓(xùn)練過程中,將目標(biāo)背景區(qū)域納入空間條件中,避免了背景運動的干擾。


在推理過程中,將源背景添加到空間條件中顯著降低了生成背景的難度,提高了背景的一致性。結(jié)果是,本文的方法能夠生成高質(zhì)量的圖像,在FID評分以及重建指標(biāo)(如PSNR和LPIPS)上具有明顯的優(yōu)勢。在運動控制方面,本文的方法在姿態(tài)和視線誤差上表現(xiàn)良好,但在表情誤差上表現(xiàn)不佳。由于本文的標(biāo)志點來自D3DFR,重建和投影過程以及標(biāo)志點的稀疏性導(dǎo)致了表情準(zhǔn)確度的損失。因此,本文的方法在表情誤差方面表現(xiàn)相對中等。

在下圖5和下圖6中,本文在VoxCeleb1和VoxCeleb2測試集上與現(xiàn)有的最先進(jìn)(SoTA)方法進(jìn)行了定性比較??臻g條件生成器有效地確保了本文的結(jié)果與源背景一致,同時減少了模型的訓(xùn)練難度,使其能夠更多地關(guān)注面部生成并提高圖像質(zhì)量。凍結(jié)UNet的所有參數(shù)可以避免過擬合,并盡可能保留預(yù)訓(xùn)練擴(kuò)散模型的強(qiáng)大先驗。因此,與其他基于GAN的方法和從頭訓(xùn)練的基于擴(kuò)散的方法(如FADM)相比,本文的方法能夠生成與源圖像一致的真實屬性細(xì)節(jié),即頭發(fā)紋理、帽子和配飾。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

除了局部細(xì)節(jié)外,屬性控制器中的屬性token還能有效地從源圖像中提取全局光照效果,顯著優(yōu)于其他方法。這進(jìn)一步突顯了本文所提出方法在捕捉局部和全局特征方面的優(yōu)勢和能力,從而生成更加逼真和準(zhǔn)確的結(jié)果。即使在處理大姿態(tài)時,身份編碼器也能確保身份的穩(wěn)健保留,預(yù)訓(xùn)練的擴(kuò)散模型合理地生成諸如隨面部移動的長發(fā)等屬性,展示了本文所提出適配器的優(yōu)越性。


在面部替換方面,本文在下表2中定量比較了在FaceForensics++測試集上的最先進(jìn)方法,包括基于GAN的FaceShifter、SimSwap、HifiFace、InfoSwap、BlendFace和基于擴(kuò)散的DiffSwap。


即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

本文的3D標(biāo)志投影器有助于融合源臉的形狀和目標(biāo)的姿勢、表情和視線,以在本文的空間控制中獲得目標(biāo)運動標(biāo)志。本文的適應(yīng)區(qū)域預(yù)測器允許面部形狀的變化有足夠的空間,同時保留足夠的背景用于修復(fù)。這種組合的空間條件有利于模型生成自然圖像。雖然DiffSwap也通過D3DFR利用了形狀感知標(biāo)志作為空間控制,但其修復(fù)過程僅在DDIM采樣期間進(jìn)行。缺乏背景參考使得模型難以生成清晰的面部結(jié)果,這顯著影響了圖像質(zhì)量和身份相似性。


在常用的FaceForensics++測試集上,本文的方法在身份(ID)、姿勢(Pose)、表情(Exp)和視線(Gaze)方面與基于GAN的方法相當(dāng)。因此,與基于GAN和擴(kuò)散的最先進(jìn)方法相比,本文的方法在保持高運動準(zhǔn)確性的同時,在身份方面表現(xiàn)出顯著優(yōu)勢。


下圖7和下圖8展示了本文的方法與最新的現(xiàn)有方法的定性比較。以前的方法在處理面部形狀顯著變化和大角度姿勢時存在困難。當(dāng)將瘦臉的人轉(zhuǎn)移到胖臉的目標(biāo)圖像時,這些方法通常會保持目標(biāo)圖像的面部形狀,導(dǎo)致身份顯著喪失。相比之下,本文的空間控制有效地解決了面部形狀變化的問題。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

與僅僅裁剪面部區(qū)域的以前方法不同,本文的適應(yīng)區(qū)域預(yù)測器為面部形狀變化預(yù)留了充足的空間。借助預(yù)訓(xùn)練的SD模型的強(qiáng)大生成能力,本文可以自然地完成具有面部形狀變化的區(qū)域。此外,通過在換臉推理過程中使用目標(biāo)圖像的身份token作為負(fù)面提示,本文進(jìn)一步增強(qiáng)了與源臉的身份相似性。對于大角度姿勢,以前的方法難以生成合理的結(jié)果,而本文的方法直接從3D標(biāo)志生成面部,不受姿勢影響。

消融研究和進(jìn)一步分析

本文對適應(yīng)區(qū)域預(yù)測器進(jìn)行了消融研究,并評估了微調(diào)CLIP的必要性。為了公平比較,這里所有三個模型都訓(xùn)練了35,000步。在Voxceleb1跨身份測試集上進(jìn)行了定量評估,涵蓋了面部重演和換臉任務(wù)。


適應(yīng)區(qū)域預(yù)測器。 正如下表3和下圖9所示,沒有適應(yīng)區(qū)域預(yù)測器的情況下,空間控制缺乏背景,僅包含來自3D標(biāo)志投影器的標(biāo)志。在訓(xùn)練過程中,模型在面部重演時從源圖像中提取背景特征,同時使用目標(biāo)圖像背景作為真實值。這種差異往往導(dǎo)致模型在背景上產(chǎn)生幻覺,并且在推理過程中難以保持與源圖像背景的一致性。對于換臉任務(wù),由于模型沒有進(jìn)行修復(fù)任務(wù)的訓(xùn)練,在推理過程中將面部與周圍區(qū)域融合時會出現(xiàn)明顯的不自然偽影。

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

即插即用!“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區(qū)

微調(diào)CLIP以提取屬性特征。 正如上表3和上圖9所示,凍結(jié)CLIP會導(dǎo)致詳細(xì)屬性和圖像質(zhì)量下降。預(yù)訓(xùn)練的CLIP用于區(qū)分任務(wù),缺乏生成任務(wù)所需的詳細(xì)紋理特征。微調(diào)CLIP有助于提取詳細(xì)的屬性特征,包括頭發(fā)、衣服、部分缺失的背景和全局照明;此外,微調(diào)后的CLIP模型還提取了一些與面部身份相關(guān)的特征,這有助于提高面部重演中的身份相似性評分。

結(jié)論

本文提出了一種新穎的Face-Adapter框架,這是一種即插即用的面部編輯適配器,支持對預(yù)訓(xùn)練擴(kuò)散模型的身份和屬性進(jìn)行精細(xì)控制。僅使用一個模型,該適配器就能有效解決面部重演和換臉任務(wù),超越了以前基于GAN和擴(kuò)散方法的最新技術(shù)。它包括一個空間條件生成器、一個身份編碼器和一個屬性控制器??臻g條件生成器用于預(yù)測3D先驗標(biāo)志和需要更改區(qū)域的mask,與身份編碼器和屬性控制器協(xié)同工作,將重演和換臉任務(wù)表述為具有充分空間指導(dǎo)、身份和必要屬性的條件修復(fù)。通過合理且高度解耦的條件設(shè)計,本文釋放了預(yù)訓(xùn)練擴(kuò)散模型在面部重演和換臉任務(wù)中的生成能力。廣泛的定性和定量實驗展示了本文方法的優(yōu)越性。


局限性:本文統(tǒng)一的模型在視頻面部重演/換臉中無法實現(xiàn)時間穩(wěn)定性,這需要在未來引入額外的時間微調(diào)。


潛在社會影響:本文首次探索了一種基于擴(kuò)散的輕量級框架,用于同時進(jìn)行面部重演和換臉,這在提高生成內(nèi)容質(zhì)量的同時具有更高的實際應(yīng)用價值。然而,F(xiàn)ace-Adapter的潛在濫用可能導(dǎo)致隱私侵犯、虛假信息傳播和倫理問題。為了減輕這些風(fēng)險,可以結(jié)合可見和不可見的數(shù)字水印,以幫助識別內(nèi)容的來源和真實性。另一方面,F(xiàn)ace-Adapter可以為偽造檢測領(lǐng)域做出貢獻(xiàn),進(jìn)一步增強(qiáng)識別和打擊深度偽造的能力。


本文轉(zhuǎn)自 AI生成未來 ,作者:Yue Han等


原文鏈接:??https://mp.weixin.qq.com/s/7nq3JS32VHmTTSx7v8zYmA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦