"一鍵消除"與"無縫融入"超絲滑!CycleFlow+擴散先驗讓OmniPaint引領圖像編輯新時代
論文鏈接:https://arxiv.org/pdf/2503.08677
項目鏈接:https://www.yongshengyu.com/OmniPaint-Page/
git鏈接:https://github.com/yeates/OmniPaint
亮點直擊
- 提出了一種基于擴散的解決方案,用于在對象移除和插入時實現(xiàn)物理和幾何一致性,包括陰影和反射等物理效果。
- 引入了一種漸進的訓練流程,其中提出的CycleFlow技術支持無配對的后期訓練,減少了對配對數據的依賴。
- 進一步開發(fā)了一種新穎的無參考指標,稱為CFD,用于通過幻覺檢測和上下文一致性評估來衡量對象移除的質量。
總結速覽
解決的問題
基于擴散的生成模型在實現(xiàn)逼真的對象移除和插入時面臨挑戰(zhàn),主要包括物理效果(如陰影和反射)的復雜相互作用以及配對訓練數據的不足。
提出的方案
引入 OmniPaint,一個統(tǒng)一的框架,將對象移除和插入重新概念化為相互依賴的過程,而不是孤立的任務。
應用的技術
- 利用預訓練的擴散先驗。
- 實施漸進的訓練流程,包括初始配對樣本優(yōu)化。
- 通過 CycleFlow 技術進行大規(guī)模無配對細化,支持無配對的后期訓練。
- 開發(fā)一種新穎的無參考指標 CFD,用于評估對象移除質量。
達到的效果
- 實現(xiàn)了精確的前景消除和無縫的對象插入。
- 保留了場景的幾何和內在屬性。
- 提供了物理和幾何一致性,包括陰影和反射。
- 建立了高保真圖像編輯的新基準。
方法
OmniPaint 框架
數據收集和掩碼增強
為了增強模型對各種掩碼變化的魯棒性,對對象移除和插入應用了不同的增強策略。對于移除,通過形態(tài)學變換引入分割噪聲,隨機應用具有可配置參數的膨脹或腐蝕。通過擾動邊界并添加或刪除幾何形狀(如圓形、矩形)來模擬不精確的掩碼。附錄中提供了增強示例和效果分析。對于對象插入,由于不需要顯式的對象檢測,我通過擴展分割掩碼到其邊界框或凸包來簡化掩碼增強,以確保適應各種參考對象格式。參考對象圖像增強遵循先前的工作[34]。
訓練流程
本文的實驗中,觀察到當前的訓練數據不足以維持對象插入的參考身份,如下圖 7(b) 和附錄表 A 所示。通過訓練模型引導配對數據,類似于 ObjectDrop,是一個簡單的解決方案,但需要一個可靠的過濾機制,這仍然是一個開放的挑戰(zhàn)。
幸運的是,對象插入和對象移除在數學上是互補的逆問題(即,每個問題可以被視為反轉另一個問題)。受循環(huán)一致性方法 [45, 57] 的啟發(fā),本文提出利用未配對數據,而不是依賴配對增強。特別是,我們利用大規(guī)模對象分割數據集,這些數據集缺乏顯式的移除對,以增強對象插入。本文介紹了我們的三階段訓練流程:(1)修復前置訓練,(2)配對預熱,(3)CycleFlow 未配對后期訓練。
修復前置訓練
配對預熱
CycleFlow 無配對后期訓練
為了加強這種循環(huán)一致性,我們定義了一個循環(huán)損失:
上下文感知特征偏差 (CFD) 評分
引入上下文感知特征偏差 (CFD) 評分,以定量評估對象移除性能。如下圖 3 所示,CFD 包含兩個組成部分:一個幻覺懲罰項,用于檢測和懲罰在移除區(qū)域中出現(xiàn)的不需要的類似對象的結構,以及一個上下文一致性項,用于評估修復區(qū)域與周圍背景的融合程度。
最終 CFD 指標。最終的 CFD 分數計算為:
較低的 CFD 表示更好的移除質量——即幻覺最小化和無縫的上下文融合。
實驗
CFD 分析
通過定性分析,以確定本文的 CFD 得分是否有效捕捉上下文連貫性和幻覺偽影,從而相比現(xiàn)有指標(如 ReMOVE),提供更可靠的對象移除質量評估。如下圖 2 所示,F(xiàn)LUX-Inpainting] 會生成明顯的幻覺——如船只、人形或漂浮的罐子等虛幻對象——但仍能獲得較高的 ReMOVE 得分。相比之下,CFD 通過使用 SAM 分割修復區(qū)域,并檢查嵌套和重疊掩碼內的特征級差異,有效地懲罰這些幻覺。同樣,雖然 LaMa 在掩碼區(qū)域內插值背景紋理,但其有限的生成先驗常常由于對象效果檢測不足而導致幽靈般的偽影。相反,OmniPaint 通過完全消除目標對象而不引入不必要的偽影,表現(xiàn)出更高的移除保真度,這在其顯著較低的 CFD 得分中得以體現(xiàn)。
通過同時量化不必要對象的出現(xiàn)和上下文對齊,CFD 與人類視覺感知高度一致。這些發(fā)現(xiàn)證實了 CFD 是一種穩(wěn)健的評估指標,有助于確保對象移除不僅實現(xiàn)無縫融合,還能最大限度地減少錯誤內容幻覺。
實驗設置
在對象移除方面,與端到端修復模型 MAT 和 LaMa、基于擴散的 SDInpaint 以及 FLUX-Inpainting 進行對比,以確保公平的骨干對比。此外,我們還包括最近的開源對象移除方法 CLIPAway、PowerPaint 和 FreeCompose。實驗在兩個基準上進行:我們捕獲的300個真實世界對象移除案例的測試集,調整為512X512進行測試,以及 RORD數據集,包含1000對原始540X960分辨率的樣本,均提供物理移除對象的真實數據。我們報告 PSNR、SSIM、感知相似性指標(FID、CMMD、LPIPS)以及對象移除特定指標,包括 ReMOVE 和我們的 CFD 得分。
在對象插入方面,與 Paint-by-Example (PbE)、ObjectStitch、FreeCompose、AnyDoor和 IMPRINT進行對比。由于 ObjectStitch 和 IMPRINT 沒有公開實現(xiàn),我們從作者處獲取官方代碼、檢查點和測試集。我們的插入基準由565個512X512分辨率的樣本組成,將 IMPRINT 測試集與我們捕獲的真實世界案例結合。每個樣本包括一張背景圖像、一張參考對象圖像和一個二值掩碼。參考圖像通過 CarveKit進行背景移除預處理。為了評估身份一致性,使用 CUTE、CLIP-I、DINOv2和 DreamSim 測量插入對象與其參考對象之間的特征相似性,后者更符合人類感知。除了局部身份保留外,還使用無參考指標 MUSIQ 和 MANIQA 評估整體圖像質量。
為確保公平,在所有基線中應用相同的圖像-掩碼對,并使用官方實現(xiàn)及其默認超參數,如推理步驟數。對于 OmniPaint,在推理過程中使用 Euler Discrete Scheduler,并將推理步驟數設置為28,以進行主要的定量和定性實驗。附加實現(xiàn)細節(jié)在附錄中提供。
對象移除性能評估
對 OmniPaint 在真實對象移除中的表現(xiàn)進行了評估,并與修復和對象移除方法進行了比較。如下表 1 和表 2 所示,OmniPaint 在所有數據集上始終優(yōu)于之前的方法,獲得了最低的 FID、CMMD、LPIPS 和 CFD,同時保持了較高的 PSNR、SSIM 和 ReMOVE 得分。這些結果突顯了其在移除對象的同時保持結構和感知保真度的能力,有效抑制了對象幻覺。
下圖 6 展示了在具有挑戰(zhàn)性的真實案例中的視覺比較。在第一行中,OmniPaint 成功移除了對象及其玻璃反射,而所有基線方法均未能做到。第二行強調了 OmniPaint 在自然光照下消除陰影的能力,而其他方法則留下了殘余偽影。第三行展示了在遮擋場景中的強大修復能力,確保無失真的無縫背景重建。通過有效處理反射、陰影和遮擋,OmniPaint 在生成連貫且真實的對象移除結果方面超越了之前的方法。
對象插入性能評估
對 OmniPaint 在對象插入方面的表現(xiàn)進行了評估,并與先進方法進行了比較。如表 3 所示,OmniPaint 在所有對象身份保留指標上均獲得最高分,包括 CLIP-I、DINOv2、CUTE和 DreamSim,顯示出其與參考對象的優(yōu)越對齊。此外,在整體圖像質量上也優(yōu)于所有基線方法,MUSIQ 和 MANIQA的測量結果表明其具有更好的感知真實感和無縫集成。
下圖 5 展示了視覺比較。給定一個掩碼輸入和一個參考對象,OmniPaint 生成的插入對象在形狀、紋理和光照一致性方面更為準確。相比之下,其他方法在身份失真、錯誤陰影或明顯的融合偽影方面存在困難。值得注意的是,OmniPaint 在確保插入對象自然地與場景幾何和光照對齊的同時,保留了細節(jié)。通過保持高保真度的身份保留和提升感知質量,OmniPaint 為真實對象插入設立了新的標準。
超參數分析
神經函數評估。分析了神經函數評估(NFE)對對象移除和插入的影響,如圖 7(a) 所示。較低的 NFE 值,如 1 或 4,會導致明顯的模糊,尤其是在掩碼區(qū)域內。有趣的是,對于移除任務,即使 NFE=1 也能有效消除對象及其相關效果。在 NFE=18 時,對象被干凈地移除,沒有殘留偽影,而插入的對象表現(xiàn)出高保真度和真實的陰影與反射。進一步增加 NFE 到 28 僅帶來微小的收益,表明收益遞減。盡管如此,將 NFE=28 設為默認值,以確保最佳的視覺質量。
結論
本文提出了用于面向對象圖像編輯的OmniPaint,將對象移除和插入重新概念化為相互依賴的任務。通過利用預訓練的擴散先驗和由初始配對樣本優(yōu)化及后續(xù)通過 CycleFlow 進行的大規(guī)模無配對精細化組成的漸進訓練流程,OmniPaint 實現(xiàn)了精確的前景消除和無縫的對象集成,同時保留了場景幾何和其他內在屬性。大量實驗表明,OmniPaint 有效地抑制了對象幻覺并減輕了偽影,新穎的 CFD 指標提供了對上下文一致性的穩(wěn)健、無參考評估。
本文轉自AI生成未來 ,作者:AI生成未來
