ECCV`24 | 高保真目標修復新SOTA!復旦&智象開源CAT-Diffusion,語義視覺雙一致
文章鏈接:https://arxiv.org/pdf/2409.08260
Github鏈接:https://github.com/Nnn-s/CATdiffusion
總結速覽
解決的問題:
- 單一U-Net在所有去噪步驟中對齊文本提示和視覺對象不足以生成期望的對象。
- 擴散模型的復雜采樣空間中無法保證對對象生成的可控性。
提出的方案:
- 語義預修復:在多模態(tài)特征空間中推理目標對象的語義特征。
- 高保真度的對象生成:在擴散的潛在空間中基于已修復的語義特征生成目標對象。
應用的技術:
- 采用級聯(lián)的Transformer語義修復器與目標修復擴散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。
- 語義修復器通過上下文和文本提示條件,預測目標對象的語義特征。語義修復器的輸出作為視覺提示,經過參考Adapter層來指導高保真對象生成。
達到的效果:
- 在OpenImages-V6和MSCOCO數據集上的廣泛評估表明,CAT-Diffusion在文本引導的目標修復任務中優(yōu)于現有的最新方法。
方法
首先,在文本引導的物體修復中,需要在由輸入圖像的二值mask指示的指定區(qū)域內生成由文本提示(通常是對象標簽)描述的新對象。這個任務要求與圖像和文本提示分別具有視覺一致性和語義相關性。本節(jié)將深入探討級聯(lián)Transformer-Diffusion(CAT-Diffusion),在簡要回顧擴散模型后,隨后介紹訓練細節(jié)。
級聯(lián)Transformer-擴散模型
- 依賴單獨的U-Net在所有去噪時間步中實現視覺-語義對齊是不夠的;
- 在復雜的采樣空間中穩(wěn)定生成高保真度對象是具有挑戰(zhàn)性的,而沒有額外的語義信息。
為了解決這些挑戰(zhàn),研究者們提出將傳統(tǒng)的單階段流程分解為兩個級聯(lián)階段:首先進行語義預修復,然后進行對象生成,從而形成CAT-Diffusion。技術上,CAT-Diffusion通過一種新穎的語義修復器在輔助的多模態(tài)特征空間(例如CLIP)中進行對象預修復。語義修復器通過知識蒸餾進行訓練,以預測目標對象的語義特征,條件是未遮罩的視覺上下文和文本提示。這樣,得出的輸出自然對齊文本提示和視覺對象,除了U-Net之外,無論去噪時間步如何。語義修復器的輸出通過參考Adapter層進一步集成到目標修復擴散模型中,以實現可控的目標修復。CAT-Diffusion的整體框架如下圖2所示。
語義修復器
為了緩解在整個去噪過程中僅依靠單獨的U-Net對齊文本提示和視覺對象的不足,提出通過在U-Net之外,利用經過良好預訓練的輔助多模態(tài)特征空間對目標對象的語義特征進行預修復,以增強視覺-語義對應關系。其原理在于,預訓練的多模態(tài)特征空間是通過大規(guī)模的跨模態(tài)數據進行學習的,用于實現視覺-語義對齊,無論去噪時間步如何。在本工作中,設計了一種有效的知識蒸餾目標,將這種多模態(tài)知識從教師模型(CLIP)轉移到CAT-Diffusion中的語義修復器。
參考Adapter層
因此,升級版U-Net中的一個完整塊,包括SelfAttn、RefAdapter和CrossAttn,操作如下:
訓練
擴散損失
對于配備參考adapter層的目標修復擴散模型的訓練,采用 [35] 中的通用實踐,目標函數為:
知識蒸餾損失
實驗
驗證級聯(lián)Transformer-擴散方法(CAT-Diffusion)在文本指導的目標修復任務中的優(yōu)點,并與最先進的基于擴散的方法進行了比較。大量實驗驗證了CAT-Diffusion在修復高保真度對象方面的有效性。
實施細節(jié)
在OpenImages-V6的訓練集中的本地mask與對應對象標簽對上訓練CAT-Diffusion。CAT-Diffusion通過Adam優(yōu)化,學習率為0.00001,使用8個A100 GPU進行約40K次迭代。批量大小設置為128,輸入圖像分辨率設置為512 × 512。
比較方法和評估指標
比較方法
將CAT-Diffusion與幾種最先進的基于擴散的方法進行了比較,包括Blended Diffusion、Blended Latent Diffusion、GLIDE、SmartBrush、Stable Diffusion 和 Stable Diffusion Inpainting。具體來說,Blended Diffusion、Blended Latent Diffusion 和 Stable Diffusion 僅利用預訓練的基礎文本到圖像模型,通過在每個去噪步驟中混合生成的對象和背景進行文本指導的目標修復。其他方法則使用文本提示、二值mask和被遮罩圖像作為輸入來訓練修復擴散模型。由于相同的評估設置,所有方法的結果均取自 [45],但 [1] 的結果除外。請注意,已將Blended Latent Diffusion中的文本到圖像Stable Diffusion 2.1替換為1.5,以確保公平比較。
評估指標
所有上述方法都在OpenImages-V6和 MSCOCO的測試集上進行評估,分別涉及13,400和9,311張測試圖像。采用三種廣泛使用的指標:Frechet Inception Distance (FID)、Local FID 和 CLIP score。值得一提的是,FID 和 Local FID 分別測量修復對象在全局圖像和局部補丁中的真實性和視覺一致性,而 CLIP score 估計修復對象與文本提示之間的語義相關性。此外,還涉及用戶研究以評估視覺一致性和文本-對象對齊。由于GLIDE僅支持256 × 256分辨率的圖像,將所有結果調整為相似大小以確保公平比較。此外,評估中考慮了分割mask和邊界框mask。
性能比較
OpenImages-V6上的定量結果
下表1總結了所有方法在OpenImages-V6測試集上的結果。總體而言,所有指標的結果一致地展示了CAT-Diffusion在分割mask或邊界框mask下的有效性。具體來說,基于混合的方法(即Blended Latent Diffusion 和 Stable Diffusion)在CLIP分數上表現相當,但FID 和 Local FID 分數遠低于CAT-Diffusion。推測這是因為這些方法僅關注修復圖像與對象標簽之間的視覺-語義對齊,并僅在潛在空間中混合生成的對象和背景。因此,周圍未遮罩區(qū)域的語義上下文被忽視,導致視覺一致性差。SmartBrush通過將被遮罩圖像納入U-Net以進行上下文學習,并進一步使用形狀mask指導擴散模型,展現了更好的性能。然而,SmartBrush的FID和Local FID分數仍低于CAT-Diffusion。結果驗證了通過參考Adapter層用語義修復器預修復的對象特征來引導擴散模型的影響。
MSCOCO上的定量結果
下表2列出了所有方法在MSCOCO測試集上的結果。值得注意的是,SmartBrush 和CAT-Diffusion 都沒有在MSCOCO上進行訓練。與OpenImages-V6上的趨勢類似,CAT-Diffusion 在大多數指標上優(yōu)于其他方法。具體來說,CAT-Diffusion 在Local FID(使用邊界框mask)上相對于強基線 Stable Diffusion Inpainting 和 SmartBrush 分別提高了42.1% 和 20.7%。結果再次驗證了在CAT-Diffusion中將單次修復流程分解為兩個級聯(lián)過程(首先進行語義預修復,然后生成對象)的優(yōu)點。
定性比較
通過案例研究對不同方法進行定性測試。下圖3展示了幾個示例。如前四個結果所示,CAT-Diffusion生成的圖像與輸入文本提示的語義對齊程度優(yōu)于其他方法。此外,在圖像中,生成對象與周圍環(huán)境的視覺一致性更好,修復結果中的對象形狀也更準確。結果證明了通過提出的語義修復器預修復對象語義特征的優(yōu)越性。例如,與其他方法生成的圖像相比,第一排的CAT-Diffusion生成的男人在結構上更完整。這得益于通過參考Adapter層用預修復的目標對象語義特征引導擴散模型。盡管沒有提供形狀mask,CAT-Diffusion仍能根據文本提示和邊界框mask生成高保真度的對象(中間兩排)。此外,還對具有更具描述性文本提示的目標修復進行了評估,不同方法生成的結果顯示在底部兩排。類似地,CAT-Diffusion生成了視覺上更令人愉悅的圖像。
用戶研究
研究者們進行了一項用戶研究,以檢查修復圖像是否符合人類偏好。在實驗中,從OpenImages-V6測試集中隨機抽取了1K張圖像進行評估。SmartBrush 尚未發(fā)布,因此被排除在外。邀請了10名具有不同教育背景的評估員(5名男性和5名女性):藝術設計(4名)、心理學(2名)、計算機科學(2名)和商業(yè)(2名)。向所有評估員展示修復圖像和相關提示,并要求他們從兩個方面給出評分(0~5):
- 與周圍環(huán)境的視覺一致性;
- 與文本提示的對齊程度和對象形狀的準確性。
下表3總結了不同方法的平均結果。結果表明,在文本-對象對齊和視覺一致性方面,CAT-Diffusion在所有基線方法中遙遙領先。
分析與討論
CAT-Diffusion的消融研究
研究了CAT-Diffusion中各個組件對整體性能的影響??紤]了每個階段的一個或多個組件,表4總結了使用分割mask的OpenImages-V6測試集上的結果。請注意,第1行的基線是使用[21]中的對象-文本對進行微調的Stable Inpainting模型。通過結合僅使用mask圖像 的CLIP特征訓練的參考Adapter層,第2行的變體在FID和Local FID分數上分別相較于第1行的基線模型提高了0.91和1.47。這并不令人意外,因為未mask區(qū)域的CLIP特征通過參考Adapter層為基礎擴散模型提供了更豐富的上下文語義,從而改善了視覺一致性并保留了背景。語義修復器的輸出進一步提升了模型,通過引入所需對象的語義,獲得了第3行在所有指標上的最佳結果。
語義修復器預測的特征
隨后分析了提出的語義修復器在提高所需對象語義特征方面的程度。值得注意的是,由于CLIP中的自注意機制,mask區(qū)域的CLIP特征本身就包含了來自未mask區(qū)域的上下文語義,從而在通過語義修復器之前與真實標簽具有非平凡的相似性。特別地,計算了語義修復器輸入/輸出與對應真實標簽之間的余弦相似度,在10K張圖像上進行分析。下圖4(a)展示了這兩個分布。平均余弦相似度從0.47提高到0.65,顯示了提出的語義修復器的有效性。盡管語義修復器的輸出并不是100%準確,但這些語義特征為CAT-Diffusion生成高保真度對象貢獻了更豐富的上下文。
修復結果的多樣性
為了測試CAT-Diffusion在相同語義特征下生成修復結果的多樣性,對不同隨機種子下的結果進行了研究。上圖4(b)展示了兩個示例??梢杂^察到,CAT-Diffusion能夠生成具有準確形狀的多樣化對象,這由參考Adapter層控制。
推理復雜度
在推理階段,只需要對提出的語義修復器進行一次前向傳遞,并且修復的特征可以在每個去噪步驟中重復使用,從而帶來較小的計算開銷。CAT-Diffusion每張圖像的平均時間為1.84秒,相較于SD-Inpaint的1.60秒稍長。
結論
本文提出了一種新穎的級聯(lián)Transformer-擴散(CAT-Diffusion)模型,以增強擴散模型在文本引導目標修復中的視覺-語義對齊和可控性。具體而言,CAT-Diffusion將傳統(tǒng)的單階段管道分解為兩個級聯(lián)過程:首先進行語義預修復,然后進行對象生成。通過在多模態(tài)特征空間中預修復所需對象的語義特征,然后通過這些特征引導擴散模型進行對象生成,CAT-Diffusion能夠生成與提示語義一致且與背景視覺一致的高保真度對象。
從技術上講,基于Transformer的語義修復器在給定未mask的上下文和提示的情況下預測所需對象的語義特征。然后,來自語義修復器的修復特征通過參考Adapter層進一步輸入到目標修復擴散模型中,以實現受控生成。在OpenImages-V6和MSCOCO上的廣泛實驗驗證了CAT-Diffusion的有效性。
廣泛影響
最近生成模型(如擴散模型)的進展開啟了創(chuàng)造性媒體生成的新領域。然而,這些創(chuàng)新也可能被濫用于生成欺騙性內容。本文的方法可能被利用來在圖像中修復有害內容,用于傳播虛假信息,對此類行為堅決反對。
本文轉自 AI生成未來 ,作者:AI生成未來
