實時高保真人臉編輯方法PersonaMagic,可根據(jù)肖像無縫生成新角色、風格或場景圖像。
本文經(jīng)AIGC Studio公眾號授權轉載,轉載請聯(lián)系出處。
今天給大家介紹的是一個高保真實時人臉編輯方法PersonaMagic,通過分階段的文本條件調(diào)節(jié)和動態(tài)嵌入學習來優(yōu)化人臉定制。該技術利用時序動態(tài)的交叉注意力機制,能夠在不同階段有效捕捉人臉特征,從而在生成個性化圖像時最大程度地保留身份信息。通過對比實驗,PersonaMagic在定量和定性評估中均優(yōu)于現(xiàn)有的最先進方法,展現(xiàn)出其在多種場景和風格下的靈活性與魯棒性。
PersonaMagic 可根據(jù)用戶提供的肖像無縫生成新角色、風格或場景的圖像。通過通過串聯(lián)平衡策略學習階段調(diào)節(jié)嵌入,該方法可以準確捕捉和表示看不見的概念,忠實地創(chuàng)建與提供的提示相符的角色,同時最大限度地減少身份扭曲。
相關鏈接
- 論文:http://arxiv.org/abs/2412.15674v1
- 代碼:https://github.com/xzhe-Vision/PersonaMagic
論文介紹
PersonaMagic:采用串聯(lián)平衡的階段調(diào)節(jié)高保真面部定制
摘要
個性化圖像生成在將內(nèi)容適應新概念方面取得了重大進展。然而,仍然存在一個持續(xù)的挑戰(zhàn):平衡看不見的概念的準確重建與根據(jù)提示進行編輯的需求,特別是在處理面部特征的復雜細微差別時。在本研究中,我們深入研究了文本到圖像調(diào)節(jié)過程的時間動態(tài),強調(diào)了階段劃分在引入新概念方面的關鍵作用。我們提出了 PersonaMagic,這是一種專為高保真面部定制而設計的階段調(diào)節(jié)生成技術。使用一個簡單的 MLP 網(wǎng)絡,我們的方法在特定的時間步長間隔內(nèi)學習一系列嵌入來捕捉面部概念。此外,我們開發(fā)了一種串聯(lián)平衡機制,可以調(diào)整文本編碼器中的自我注意響應,平衡文本描述和身份保存,從而改善這兩個領域。大量實驗證實了 PersonaMagic 在定性和定量評估方面都優(yōu)于最先進的方法。此外,它的穩(wěn)健性和靈活性在非面部領域得到了驗證,并且它還可以作為增強預訓練個性化模型性能的有價值的插件。
方法
流程概述。 給定一張圖像,我們在動態(tài)階段學習一系列嵌入以有效地捕獲身份信息,同時在靜態(tài)階段使用固定嵌入。提出的 TE 策略應用于文本編碼器,確保個性化結果與文本描述進一步對齊。
被忽視的語義導致注意力圖不理想。注意力權重標注在交叉注意力圖的左下角。
所提出的串聯(lián)平衡的圖示。
結果
與最先進的方法對名人的定性比較。
與非名人的最先進方法進行定性比較。
訓練期間使用和不使用 Lte 的定制結果。注意權重在交叉注意圖的左下角標注。
不同模型變體的定性消融研究。
該方法可以應用于各種下游任務。從上到下:本地化定制、 表達修改和組合生成。
PersonaMagic 可以適應非面部領域,展示了其超越面部內(nèi)容的通用性。
將PersonaMagic集成到預訓練的個性化模型中,可以改善結果中的面部細節(jié)。
結論
文中介紹的PersonaMagic是一種高保真人臉定制技術,它利用基于綜合分析的階段調(diào)節(jié)文本調(diào)節(jié)策略。引入了一個輕量級網(wǎng)絡,通過動態(tài)詞嵌入來實現(xiàn)這種調(diào)節(jié)機制,有效地捕獲身份信息,同時避免過度擬合。此外,文中提出了一個串聯(lián)平衡損失來解決文本對齊和身份保存之間的權衡。大量實驗證明了該方法與最先進的方法相比具有卓越的性能,在保真度和可編輯性方面都表現(xiàn)出色,并展示了其在各種下游定制任務中的有效性。