自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法

發(fā)布于 2024-8-15 10:31
瀏覽
0收藏

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.05939
git鏈接:https://aigcdesigngroup.github.io/UniPortrait-Page/
demo鏈接:https://huggingface.co/spaces/Junjie96/UniPortrait

?

亮點直擊

  • 本文提出了UniPortrait,一種創(chuàng)新的人像圖像個性化框架,統(tǒng)一了單ID和多ID的個性化,具有高面部保真度和可控性;
  • 提出了一種新的ID embedding模塊,采用解耦策略,在嵌入詳細面部身份信息的同時保持良好的可編輯性;
  • 引入了ID Routing機制,解決了多ID定制中的身份混合問題,同時不影響每個身份的完整性、生成圖像的多樣性以及提示設(shè)計的靈活性。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

本文介紹了UniPortrait,一種創(chuàng)新的人像圖像個性化框架,統(tǒng)一了單ID和多ID的定制,具有高面部保真度、廣泛的面部可編輯性、自由形式的輸入描述以及多樣化的布局生成。

UniPortrait僅由兩個即插即用的模塊組成:ID embedding模塊和ID routing模塊。ID embedding模塊采用解耦策略為每個ID提取多功能可編輯的面部特征,并將其嵌入擴散模型的上下文空間中。然后,ID routing模塊自適應(yīng)地組合并分配這些嵌入到合成圖像的各自區(qū)域內(nèi),實現(xiàn)單ID和多ID的定制。通過精心設(shè)計的雙階段訓(xùn)練方案,UniPortrait在單ID和多ID定制中都表現(xiàn)出卓越的性能。定量和定性實驗表明,UniPortrait相較于現(xiàn)有方法具有優(yōu)勢,同時也具備良好的可擴展性,例如與現(xiàn)有生成控制工具的廣泛兼容性。

方法

本節(jié)詳細說明UniPortrait的兩個關(guān)鍵模塊。最后闡述了UniPortrait的訓(xùn)練方案??蚣芨庞[如下圖2所示。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

ID embedding

ID embedding模塊專門設(shè)計用于傳遞高保真度且可編輯的面部ID信息,從而引導(dǎo)擴散模型生成ID一致且可控的圖像。與大多數(shù)先前的方法利用面部識別骨干網(wǎng)絡(luò)的最終全局特征進行面部ID表示不同,本文使用了倒數(shù)第二層(即全連接層之前)的特征。此調(diào)整旨在保留與ID特征相關(guān)的更豐富的空間信息。由于面部識別骨干網(wǎng)絡(luò)通常在包含數(shù)百萬人ID的大型數(shù)據(jù)集上進行訓(xùn)練,因此其特征預(yù)計對與ID無關(guān)的面部信息(如表情、姿勢和目光)不敏感,尤其是不敏感于面部形狀和紋理細節(jié)。這樣即使考慮到體重或年齡的波動會影響一個人的外貌,但并不會改變其身份。將這些識別特征稱為內(nèi)在ID特征。


然而,用戶常常希望個性化ID圖像,使其與給定的面部參考更加匹配,即在內(nèi)在ID特征之外保持一致的面部形狀和紋理細節(jié)。對此,一些先前的研究利用了從CLIP圖像編碼器中提取的局部特征作為面部結(jié)構(gòu)條件。盡管面部相似性有所增強,但使用CLIP局部特征面臨兩個顯著挑戰(zhàn)。首先,CLIP是在弱對齊的圖像-文本對上進行訓(xùn)練的,其特征在面部身份識別方面不夠區(qū)分性,主要以語義為主。其次,由于缺乏解耦,這些特征可能會與其他與ID無關(guān)的面部信息甚至與面部無關(guān)的表示(如背景光照)耦合在一起。鑒于個性化訓(xùn)練數(shù)據(jù)通常稀少且缺乏多樣性——訓(xùn)練參考和目標面部通常來自相同或相似的圖像——這些無關(guān)特征可能導(dǎo)致模型在非必要的面部細節(jié)上過擬合,進而使面部控制和編輯過程變得復(fù)雜。


為了解決這些問題,首先整合面部識別模型的淺層特征,以增強面部的結(jié)構(gòu)表示。隨后,在結(jié)構(gòu)特征分支上應(yīng)用強大的dropout正則化,以使其與內(nèi)在ID分支解耦。骨干網(wǎng)絡(luò)的淺層特征經(jīng)驗上是低級的,包含更多的紋理細節(jié),并且與ID相關(guān)性更高,從而幫助生成更高保真度的肖像。對面部結(jié)構(gòu)分支的dropout正則化保持了內(nèi)在ID特征和面部結(jié)構(gòu)特征的獨立性,同時使模型更依賴于內(nèi)在ID特征。這種策略允許在ID相似性和可編輯性之間進行更靈活的權(quán)衡,滿足用戶在保持身份的肖像生成中的不同需求。


統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

ID Routing

通過ID embedding模塊,可以為單個ID獲得多樣化的可編輯embeddings。對于多ID場景,利用ID embedding模塊將每個ID信息嵌入上下文空間。值得注意的是,這些嵌入的ID表示是位置無關(guān)的,因為沒有對它們施加任何位置約束。為避免身份混合,先前的方法要么將ID embedding集成到文本embeddings中,要么采用手工制作的布局masks以隔離不同ID的信息。前者需要遵循特定格式的文本描述(例如,主體的單一短語),并可能會降低文本和身份表示的保真度;后者則限制了生成圖像的多樣性。本工作在每個交叉注意力層中引入了一個逐位置ID routing模塊,以自適應(yīng)地route并分配唯一的ID到潛在特征中的每個潛在面部區(qū)域,從而有效緩解身份混合的問題。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

然而,直接應(yīng)用公式2會帶來兩個潛在問題。首先,它不能保證所有ID都會被routed。其次,相同的ID仍然有可能通過關(guān)注多個目標面部的部分區(qū)域而泄露。此外,公式2是不可微的。


為了解決這些問題,本文提出了routing正則化損失,并在訓(xùn)練階段利用Gumbel Softmax技巧。這些措施有助于router的學(xué)習(xí),增強其有效管理和分配ID表示的能力。


Routing正則化損失。具體而言,在訓(xùn)練階段給定一個包含N個不同ID的目標圖像時,首先檢測圖像上所有面部的邊界框并將其轉(zhuǎn)換為二進制masks,其中1表示面部區(qū)域,0表示非面部區(qū)域。通過這種方式,得到N個面部區(qū)域masks。然后,routing正則化損失通過Router輸出與這些面部區(qū)域masks之間的L2損失計算如下:

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

Gumbel Softmax技巧。為了確保routing模塊的梯度在訓(xùn)練過程中能夠正確反向傳播,引入了Gumbel Softmax技巧。具體而言,在訓(xùn)練過程中,向router的輸出logits中添加Gumbel噪聲,以重新參數(shù)化router采樣過程。在推理階段,通常從router中選擇最佳的前1個身份進行前向傳播。最后,值得注意的是,在單ID的情況下,router變得無關(guān)緊要,基于routing的多ID生成退化為常見的單ID生成。

訓(xùn)練

UniPortrait的整個訓(xùn)練過程分為兩個階段:單ID訓(xùn)練階段和多ID微調(diào)階段。完成這兩個階段的訓(xùn)練后,UniPortrait可以用于單ID定制或多ID個性化。


階段 I:單ID訓(xùn)練。在這個階段,僅引入ID embedding模塊;訓(xùn)練僅限于具有單一ID的圖像,如前面圖2左側(cè)所示。首先裁剪并對齊圖像的面部區(qū)域,以此作為ID embedding模塊的輸入。如果面部具有關(guān)聯(lián)的ID標簽,例如來自CelebA數(shù)據(jù)集的圖像,則會以0.1的概率采樣同一ID的另一張裁剪并對齊的面部圖像,作為內(nèi)在ID分支的輸入。相反,所有面部結(jié)構(gòu)分支的輸入均來自目標圖像,這種方法旨在增強面部紋理和結(jié)構(gòu)細節(jié)的學(xué)習(xí)。在整個訓(xùn)練過程中,對面部結(jié)構(gòu)分支應(yīng)用了丟棄正則化,概率如下:以0.33的概率完全丟棄該分支;以0.33的概率保留分支但隨機丟棄面部結(jié)構(gòu)token;以0.34的概率完全保留面部結(jié)構(gòu)分支。為了更全面地提取面部信息,在U-Net架構(gòu)中添加了低秩適應(yīng)(LoRA )。在此階段,僅對ID embedding模塊和U-Net的LoRA中的參數(shù)進行訓(xùn)練。訓(xùn)練損失與傳統(tǒng)擴散損失對齊,如公式1所示。


階段 II:多ID微調(diào)。完成階段I訓(xùn)練后,引入了ID routing模塊。固定ID embedding模塊中的所有參數(shù),僅微調(diào)ID Router和LoRA模塊的參數(shù),LoRA模塊的學(xué)習(xí)率下降0.1。第二階段的損失函數(shù)包括原始擴散損失(公式1)和routing正則化損失(公式4)。其中,平衡參數(shù)λ設(shè)置為0.1。

實驗

設(shè)置

數(shù)據(jù)集。本工作使用的數(shù)據(jù)集包括四個主要部分:

(1) 從LAION中篩選出的24萬張單ID圖像;
(2) 從CelebA數(shù)據(jù)庫中篩選出的10萬張單ID肖像;
(3) 從互聯(lián)網(wǎng)收集的16萬張高質(zhì)量單ID圖像;
(4) 從LAION中篩選出的12萬張高質(zhì)量多ID肖像。


前三個子集用于階段I訓(xùn)練,而最后一個子集用于階段II訓(xùn)練。來自CelebA的數(shù)據(jù)和從互聯(lián)網(wǎng)獲取的數(shù)據(jù)使用Qwen-VL進行了標注,而LAION的數(shù)據(jù)則保留了其原始文本標注。值得注意的是,在所有這些數(shù)據(jù)中,只有CelebA圖像配有ID注釋。


實現(xiàn)細節(jié)。訓(xùn)練從StableDiffusion v1-5模型開始。使用的面部識別骨干網(wǎng)絡(luò)是CurricularFace。對于CLIP圖像編碼器,使用的是OpenCLIP的clip-vit-huge-patch14。ID embedding模塊中的Q-Former有6層和16個可學(xué)習(xí)查詢。U-Net中的LoRA的秩設(shè)置為128。所有實驗均在8個V100 GPU上進行,使用AdamW優(yōu)化器,批量大小為128,學(xué)習(xí)率為1e-5。第一階段訓(xùn)練300k次迭代,第二階段訓(xùn)練150k次迭代。為了方便無分類器引導(dǎo)采樣,在5%的圖像上訓(xùn)練模型時不使用面部條件。在推理階段,使用20步DDIM 采樣,分類器guidance scale為7.5,并且為了實現(xiàn)更逼真的圖像生成,使用來自huggingface的Realistic Vision V4.0模型,參考了之前的工作 [67]。


評估指標。本文從身份保持、提示一致性、FID和LAION-Aesthetics (LAION-Aes)評分方面評估圖像生成質(zhì)量。對于身份保持和提示一致性,遵循FastComposer制定的評估協(xié)議。具體而言,身份保持通過計算參考面孔和生成面孔之間的成對面部相似度來量化,使用FaceNet。對于多身份生成,檢測生成圖像中的所有面孔,并使用生成面孔與參考面孔之間的貪婪匹配程序。所有面孔之間的最低相似度評分衡量整體身份保持。提示一致性通過平均CLIP-L/14圖像-文本相似度進行評估。

結(jié)果

單ID個性化。首先評估了單ID定制的性能。遵循FastComposer的做法,使用了來自CelebA數(shù)據(jù)集 的15個身份,這些身份在訓(xùn)練數(shù)據(jù)集中被故意排除,每個主題分配了40個獨特的文本提示進行評估。這些文本提示涵蓋了廣泛的場景,如重新語境化、風(fēng)格化、配飾化以及各種動作。為了公平比較,所有方法接受一個單一的參考面孔圖像,并每次生成4張圖像。定量結(jié)果如下表1所示。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

本文的方法在身份保持和提示一致性之間表現(xiàn)出良好的平衡,同時實現(xiàn)了最低的FID評分和第二高的LAION-Aesthetics評分,顯著超越了PortraitBooth、IP-Adapter-FaceID-PlusV2和FastComposer的性能指標。值得注意的是,InstantID記錄了最高的面部身份相似度;然而,其提示一致性和FID評分相對較低,這一限制歸因于其需要面部標志點的固定位置。PhotoMaker在提示一致性方面表現(xiàn)突出,但面部相似度結(jié)果一般。盡管FlashFace在面部相似度和提示一致性之間實現(xiàn)了相對的折衷,但較差的FID和LAION-Aes值表明其在生成圖像的質(zhì)量和多樣性方面表現(xiàn)不佳。需要強調(diào)的是,在所有評估方法中,僅有FastComposer和本文的方法可以直接支持多人的個性化圖像生成。下圖3展示了利用不同方法應(yīng)對一系列單ID個性化提示的定性結(jié)果,定性分析與定量指標的結(jié)論一致。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

多ID個性化。進一步評估了多ID圖像生成的性能。還使用了FastComposer的測試基準,其中包含上述CelebA數(shù)據(jù)集的15個ID和21個額外策劃的測試提示。這15個ID被策略性地配對,形成了總共105個多ID組合。下表2顯示了UniPortrait與FastComposer的定量比較。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

本文的方法在所有指標上均優(yōu)于FastComposer,展現(xiàn)了增強的身份保持和提示一致性,同時生成圖像的質(zhì)量和美學(xué)也得到了提升。下圖4展示了定性分析。UniPortrait保留了不同主體的獨特屬性。同時,UniPortrait對文本提示的忠實度有所提高,使得可以直接應(yīng)用文本進行多人的風(fēng)格化圖像定制。此外,由于ID Routing機制,本文的方法支持更大的提示輸入靈活性。這對于包含多個短語的輸入尤為有利,而在FastComposer的情況下,這需要轉(zhuǎn)換為由“和”連接的單一短語。圖5展示了本文的方法在生成多ID圖像時的多樣性,進一步證明了本文的方法在多ID圖像定制中的定性提升。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

消融研究

ID embedding模塊中的組件。下表3展示了ID embedding模塊中各組成部分的效果評估。使用來自面部識別模型倒數(shù)第二層的局部特征而非其最后的全局特征顯著提升了ID相似度。引入面部結(jié)構(gòu)特征進一步增強了ID相似度,尤其是當結(jié)合了面部骨干的淺層特征時,這一效果尤為明顯。然而,觀察到面部結(jié)構(gòu)特征的整合會導(dǎo)致生成圖像的多樣性(即FID)和與相關(guān)文本提示的一致性下降。這種下降可以通過在面部結(jié)構(gòu)分支中應(yīng)用DropToken和DropPath正則化來緩解。同時,這些正則化有助于減輕模型對不準確面部細節(jié)的過度依賴,從而最佳地增強ID相似度。盡管進行了這些調(diào)整,但必須承認,面部結(jié)構(gòu)分支的包含在一定程度上必然會妥協(xié)提示一致性。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

Routing正則化損失。下表4驗證了Routing正則化損失的效果。結(jié)果表明,這種方法可以顯著提高ID相似度,同時在多ID定制中保持提示一致性。下圖6展示了在不同擴散步驟下從所有U-Net交叉注意力層中得出的平均routing maps。可以觀察到,采用routing正則化損失后,結(jié)果更加集中,表明不同ID信息的隔離有所改善。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

應(yīng)用

UniPortrait在對齊ID、保持提示一致性以及提升生成圖像的多樣性和質(zhì)量方面的優(yōu)越性能,為多種潛在的下游應(yīng)用鋪平了道路。其中,面部屬性修改尤為突出,包括年齡、性別和特定面部特征的改變,如下圖7(a)所示。此外,UniPortrait的靈活插件式設(shè)計確保了與一系列現(xiàn)有社區(qū)開發(fā)工具的兼容性,如ControlNet、LoRA和IP-Adapter。這種集成促使條件可控的ID保持生成成為可能。這些應(yīng)用示例如圖7(b-e)所示。進一步地,UniPortrait在不同角色之間的身份插值能力也得到了探討,展示了其在平滑融合多個身份特征方面的能力,如圖7(f)所示。此外,還展示了UniPortrait生成具有一致ID的故事的潛力,如圖7(g)所示。

統(tǒng)一單ID和多ID個性化框架!阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法-AI.x社區(qū)

結(jié)論

本文介紹了UniPortrait,一個用于單和多ID圖像統(tǒng)一定制的模型。UniPortrait結(jié)合了先進的ID embedding模塊,確保了高保真度和可編輯的身份嵌入。此外,集成了一個模塊化的即插即用ID routing組件,以解決多ID生成過程中身份混合的問題。實證結(jié)果表明,UniPortrait在生成質(zhì)量和多樣性方面超越了現(xiàn)有方法,同時提供了強大的可編輯性和身份保真度。希望UniPortrait能夠成為該領(lǐng)域的新基準,為所有研究機構(gòu)提供一個可以遵循、復(fù)制和優(yōu)化的標準。


本文轉(zhuǎn)自   AI生成未來 ,作者:Junjie He等


原文鏈接:??https://mp.weixin.qq.com/s/A3VFUyutGq-Vw9gqYcwqNA??

標簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦