只需微調(diào),大幅提升人臉生成質(zhì)量!上交聯(lián)合OPPO發(fā)布新標準和新方法
文章鏈接:https://arxiv.org/pdf/2406.17100
今天和大家一起學習的是對現(xiàn)實生活中生成的人臉細節(jié)進行優(yōu)化的工作。擴散模型(DMs)在根據(jù)文本描述生成想象力豐富的圖像方面取得了顯著的成功。然而,在處理現(xiàn)實生活中復雜細節(jié)的場景時,它們很可能會表現(xiàn)不佳。文本到圖像生成中低質(zhì)量、不真實的人臉是其中最突出的問題之一,這限制了DMs在實際應用中的廣泛應用。為了解決這一問題,本文首先通過人類標注者評估了幾種流行預訓練DM生成的人臉質(zhì)量,然后評估了現(xiàn)有度量方法(如ImageReward、人類偏好分數(shù)、美學評分預測器和人臉質(zhì)量評估)與人類判斷之間的一致性。觀察到現(xiàn)有度量方法可能無法令人滿意地量化人臉質(zhì)量,開發(fā)了一種名為Face Score(FS)的新度量方法,通過在DM生成的(好、壞)人臉對數(shù)據(jù)集上便宜地應用修復流程來對ImageReward進行微調(diào)。廣泛的研究表明,F(xiàn)S與人類評估具有較高的一致性。
另一方面,F(xiàn)S為改進DM生成人臉開辟了新的可能性。為了實現(xiàn)這一目標,在Stable Diffusion V1.5和Realistic Vision V5.1等預訓練DM上引入了一個指導損失,用于在前述人臉對的去噪軌跡上進行微調(diào)。直觀地說,這種損失將壞的人臉的軌跡推向好的人臉的軌跡。全面的實驗驗證了本文方法在提高人臉質(zhì)量的同時保持了通用能力的有效性。
更多的隨機人臉圖像和相應的人臉得分遞增。我們可以觀察到這樣一個趨勢: 分數(shù)越高表示面部生成的質(zhì)量越好:
主要貢獻:
- 首次對DMs的不良人臉問題進行了調(diào)查,并系統(tǒng)評估了一系列圖像質(zhì)量度量方法來量化人臉質(zhì)量。
- 提出了Face Score來更好地量化生成的人臉質(zhì)量,并顯示其在比現(xiàn)有度量方法更高的優(yōu)勢。
- 提出了指導損失,用于微調(diào)DMs以生成更高質(zhì)量的人臉,并在SD1.5和RV5.1上驗證了其有效性。
人類對生成的人臉圖像的偏好
本節(jié)首先暴露現(xiàn)有DMs存在的不良人臉問題,并測試現(xiàn)有的圖像度量方法在量化合成圖像的人臉質(zhì)量方面的效果。然后,開發(fā)了Face Score(FS)作為一種更合格的度量方法,用于評估生成的人臉圖像的合理性和美學吸引力。
不良的人臉問題
DMs在生成復雜細節(jié),尤其是逼真的人臉和手部時遇到的困難已經(jīng)不再新鮮。如下圖1所示,由RV5.1和SDXL生成的圖像通常包含扭曲的人臉。這個問題可能源于模型訓練中人臉數(shù)據(jù)的稀缺,或者是人臉區(qū)域相對于整個圖像來說很小,但需要包含復雜的細節(jié)。通常情況下,為了生成帶有人臉的圖像,常見做法是基于無分類器引導(CFG)技術(shù)引入負面提示,以增加生成高質(zhì)量人臉的可能性。
下圖2顯示了與此相關(guān)的結(jié)果,可以看到負面提示確實有助于提高人臉質(zhì)量,但生成的人臉仍然不令人滿意。實踐者可以通過基于DMs的修補技術(shù)專門重新生成人臉區(qū)域,但由于現(xiàn)有DMs在生成人臉方面的基本問題,生成的人臉仍可能質(zhì)量較低。
現(xiàn)有DMs的評估
接下來,對三種流行的DMs進行了詳細的人臉生成質(zhì)量手動評估:SD1.5,RV5.1和SDXL。采用以下流程進行評估:
- 從MS-COCO 2017 5K驗證數(shù)據(jù)集中選擇與人類主體相關(guān)的1k提示,其中包括室內(nèi)外人物中心場景和單人/多人場景的描述;
- 對于每個提示,使用這三種DMs生成一個圖像三元組(見下圖3),如果任何圖像中沒有有效的人臉,則丟棄該三元組;
- 引入五名人類標注者,分別基于人臉質(zhì)量對每個提示的圖像三元組進行排名;最佳圖像得分為3分,最差圖像得分為1分;
- 根據(jù)多數(shù)投票整合標注結(jié)果。
為了確定五名標注者的偏好一致性并使標注結(jié)果更具說服力,研究者們計算了在五名標注者中超過三名選擇相同標簽的頻率,以量化標注者的一致性,得到了93.3%的一致性。整合標注結(jié)果進一步有助于減少個體偏見的影響,并與人群偏好達成一致。上圖3展示了一個帶標注的圖像三元組示例,下表1顯示了對三種DMs的人類偏好統(tǒng)計數(shù)據(jù)。如圖所示,盡管RV5.1的人臉質(zhì)量還不夠好(見上圖2),但仍略優(yōu)于體積更大的SDXL,這加強了對現(xiàn)有DMs不良人臉問題的關(guān)注。另一方面,SD1.5明顯落后于另外兩種DMs。
現(xiàn)有度量方法的評估
一個好的度量方法可以實現(xiàn)對生成物的人臉質(zhì)量的自動、可擴展評估,避免人工標注的昂貴和耗時過程,并為新模型的開發(fā)鋪平道路。因此,研究者們進一步調(diào)查了現(xiàn)有的圖像度量方法在生成的人臉上與人類偏好的一致性。關(guān)注了ImageReward(IR)、Human Preference Score(HPS)、Aesthetic Score Predictor(ASP)和Face Quality Assessment(FQA),這些方法在文本到圖像生成中評估人類偏好或美學質(zhì)量方面非常流行。直觀上,HPS和IR側(cè)重于全局圖像而非局部區(qū)域,因此它們不適合評估生成的人臉質(zhì)量。因此,還開發(fā)了它們的變體,即LocalHPS和LocalIR,其中使用檢測器檢測局部人臉區(qū)域,并將其送入帶有默認提示“一個人臉”的原始評分流程中,以進行特定人臉評估。
研究者們主要關(guān)注度量方法在不同圖像上的相對關(guān)系而非絕對數(shù)值。因此,構(gòu)建了一個包含大約3k個帶標注的圖像三元組的小數(shù)據(jù)集,每個三元組形成兩個成對比較。對于度量方法的評估,計算了基于數(shù)據(jù)對比中的度量方法排名與人類排名的二元排名準確率。將結(jié)果列在下表2中??梢杂^察到,IR和ASP的表現(xiàn)不佳,可能是因為它們更加關(guān)注全局圖像特征,而LocalIR表現(xiàn)稍好一些。FQA的表現(xiàn)也很差,因為它被用來評估人臉圖像的識別適用性,因此在評估生成的人臉的人類偏好時可能存在偏差。HPS和LocalHPS在度量方法中表現(xiàn)最好。然而,高達75.31%的準確率仍然有很大的提升空間。
人工合成人臉圖像的新度量指標:Face Score
根據(jù)以上發(fā)現(xiàn),旨在開發(fā)一種新的度量方法,用于量化合成人臉圖像的質(zhì)量/人類偏好。將這種度量稱為Face Score(FS),并期望它能夠與生成的人臉的合理性和美學吸引力相關(guān)聯(lián)。為了實現(xiàn)這一目標,自動化和可擴展地構(gòu)建了一組關(guān)于人臉圖像的偏好數(shù)據(jù)集,并基于此進行模型微調(diào)來獲得FS。
數(shù)據(jù)集構(gòu)建雖然開源的人類偏好數(shù)據(jù)集可以用于訓練涉及度量的評估模型,但它們并非專門用于人臉。另一方面,由于標注過程既昂貴又耗時,而收集的人類標注數(shù)量有限,因此生成的數(shù)據(jù)主要用于評估而非模型訓練。為了解決這些問題,本文提出了一個基于現(xiàn)成預訓練DMs修補能力的人臉偏好數(shù)據(jù)集收集pipeline。具體而言
- 在LAION數(shù)據(jù)集中包含人臉的自然圖像中,使用檢測器檢測人臉區(qū)域,獲得人臉masks M;
- 使用圖像修復pipeline對人臉區(qū)域進行重繪。
下圖6的中間列中繪制了該過程。
定量比較首先,報告了FS在表2中對人類標注圖像進行排名的準確率。發(fā)現(xiàn)與現(xiàn)有的度量方法相比,F(xiàn)S獲得了最佳的準確率,因此可以作為評估合成圖像中人臉的更好的度量方法在下圖5展示了一些隨機選擇的人臉圖像及其對應的FS,這表明人臉的合理性和美學吸引力與FS呈正相關(guān)。為了展示評估人臉質(zhì)量的普適性,在下表中報告了不同開源和封閉源文本到圖像擴散模型的FS。這些模型以與測試集相同的方式生成圖像。觀察到PGV2.5獲得了最佳的FS。這是有道理的,因為其作者聲稱其圖像質(zhì)量優(yōu)于MJ。還得出結(jié)論,模型的人臉生成質(zhì)量與整體生成質(zhì)量呈正相關(guān)。
改進DMs生成人臉質(zhì)量的微調(diào)方法
本節(jié)詳細闡述了提出的指導損失以微調(diào)DMs,以及一些關(guān)鍵的優(yōu)化策略。
然后,最小化以下的指導損失:
除了指導損失,還提供了關(guān)于模型優(yōu)化的兩個關(guān)鍵因素的見解如下。
- 時間步長。圖7中可視化了采樣過程中人臉圖像的演變,并注意到在采樣的早期階段,布局和顏色被渲染出來,但細節(jié)尚未顯現(xiàn)。隨著采樣過程的進行,細節(jié)逐漸恢復和完善。這啟示保持前向時間步t相對較小,以避免在過于嘈雜的狀態(tài)上浪費優(yōu)化努力。從圖7中可以觀察到,更細致的細節(jié)大約在推理過程中部分中期出現(xiàn),因此經(jīng)驗性地取t~U[1,0.5T]來微調(diào)DMs,其中U[a,b]表示區(qū)間[a,b]上的均勻分布。
自注意層。直覺上,DMs中的交叉注意力層捕捉圖像和文本之間的關(guān)聯(lián),而自注意力層處理圖像內(nèi)部的相互依賴關(guān)系。基于此,特別優(yōu)化DMs中U-Net的自注意力層參數(shù),以提升人臉質(zhì)量。
結(jié)果與分析
消融實驗
之前討論過時間步長和自注意層對于細節(jié)生成以及人臉生成的重要性。使用RV5.1和DINO特征距離度量進行了以下消融研究。
時間步長。為了證明選擇相對較小時間步長進行微調(diào)的有效性,在保持其他條件不變的情況下,額外進行了從所有時間步長中隨機選擇的微調(diào)DMs的實驗。從下表6中可以看出,在人臉質(zhì)量比較中,僅考慮相對較小的時間步長更為有效。這是因為隨著時間步長的減小并接近零,細節(jié)生成過程開始,專注于這些細節(jié)有助于更好地生成細節(jié)和人臉。關(guān)于時間步長的更多消融研究將包含在補充材料中。
自注意力層。理論上,自注意力層對人臉生成具有更大的影響。為了在實驗中證明這一點,將Ours-DINO與全面微調(diào)進行了比較。從上表6中可以看出,具有自注意力微調(diào)的Ours-DINO優(yōu)于全面微調(diào),證明了自注意力在生成細節(jié)方面起著重要作用。自注意力不僅增強了圖像質(zhì)量,還促進了更精細細節(jié)的生成。
結(jié)論
本文關(guān)注了擴散模型中出現(xiàn)的不良人臉生成問題,并討論了可能的原因及緩解方法。評估了流行的擴散模型在人臉生成質(zhì)量上的表現(xiàn),并評估了現(xiàn)有基于圖像的度量標準在評估合成圖像質(zhì)量時的有效性,但在人臉評估方面遇到了不理想的結(jié)果。為了填補這一領(lǐng)域的空白,本文提出了一個由人類評估標注的排名數(shù)據(jù)集,以及一個大規(guī)模的(好、壞)人臉對數(shù)據(jù)集,后者是在沒有標注的情況下隱式構(gòu)建的。
除了數(shù)據(jù)集,還開發(fā)了一種名為Face Score的新指標,專門用于評估合成圖像中人臉的合理性和美觀程度,該指標是在人臉對數(shù)據(jù)集上訓練的。基于這樣的指標,還提出了一種通過修正軌跡實現(xiàn)更好人臉生成的微調(diào)方法。通過完整工作流程,幫助更好地使文本到圖像生成與人類對人臉生成的偏好相一致。
盡管該方法可以推廣到細節(jié)生成,但本文只關(guān)注人臉生成質(zhì)量。未來的研究需要解決其他細節(jié)生成問題,如與手部質(zhì)量相關(guān)的問題。此外,還可以探索更多的距離度量和指導損失的形式選擇,這些將留作未來的工作。
本文轉(zhuǎn)自 AI生成未來 ,作者:Zhenyi Liao等
