自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案

發(fā)布于 2025-4-10 10:32
瀏覽
0收藏

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2503.16795

亮點直擊

  • 精確語義定位策略,用于在源圖像中進(jìn)行準(zhǔn)確的語義定位;
  • 插拔式雙層控制機(jī)制,通過語義定位增強(qiáng)編輯效果;
  • RW-800,一個用于評估基于擴(kuò)散 transformer 的編輯方法的挑戰(zhàn)性基準(zhǔn)。
  • 在廣泛使用的PIE-Bench和RW-800基準(zhǔn)上評估了DCEdit。評估結(jié)果表明,與以往的方法相比,DCEdit在背景保留和編輯性能方面具有優(yōu)越性。

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

效果展示

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

在PIE-Bench上與基于UNet的擴(kuò)散方法和基于DiT的方法進(jìn)行的定性對比

總結(jié)速覽

解決的問題

文本引導(dǎo)圖像編輯任務(wù)面臨的關(guān)鍵挑戰(zhàn)是精確定位和編輯目標(biāo)語義,而以往的方法在這方面存在不足。

提出的方案

本文提出了一種新穎的方法,通過基于擴(kuò)散模型的文本引導(dǎo)圖像編輯進(jìn)行改進(jìn)。具體包括:

  • 引入精確語義定位策略,通過視覺和文本自注意力增強(qiáng)交叉注意力圖,以提高編輯性能。
  • 提出雙層控制機(jī)制,在特征層和隱空間層同時融入?yún)^(qū)域線索,以提供更精確的編輯控制。

應(yīng)用的技術(shù)

  • 精確語義定位策略
  • 雙層控制機(jī)制
  • 基于擴(kuò)散模型的文本引導(dǎo)圖像編輯
  • RW-800基準(zhǔn)的構(gòu)建,用于評估編輯方法

達(dá)到的效果

在流行的PIE-Bench和RW-800基準(zhǔn)上的實驗結(jié)果表明,所提出的方法在背景保留和編輯性能方面表現(xiàn)優(yōu)越。

方法

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

精確語義定位

最近的DiTs,如FLUX,完全由最近先進(jìn)的MM-DiT層構(gòu)建。FLUX結(jié)合了聯(lián)合文本-圖像自注意力,在每個MM-DiT層中對齊多模態(tài)信息。此外,F(xiàn)LUX將CLIP文本編碼器與T5進(jìn)行補充,賦予其顯著增強(qiáng)的文本理解能力。接下來,介紹如何從MM-DiT中提取文本到圖像的交叉注意力特征圖。


MM-DiT層采用聯(lián)合注意力機(jī)制來整合文本和視覺信息。首先,文本 embedding T和視覺 embedding V被投影到一個共享空間中:

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖2. 語義定位能力改進(jìn)。(1) 基于UNet的擴(kuò)散模型(如SD-1.5和SD-XL)由于架構(gòu)限制難以捕捉細(xì)節(jié)語義;(2) 基于MM-DiT的模型(如FLUX)能感知這些語義但存在定位缺陷;(3) 本研究的PSL方法實現(xiàn)了精準(zhǔn)的語義定位

雙層控制

通過利用 PSL,獲得了針對特定語義的優(yōu)化交叉注意力圖M ,該圖提供了指示編輯效果應(yīng)發(fā)生位置的區(qū)域線索。提出了一種控制機(jī)制,稱為雙層控制(Dual-Level Control),將這些線索融入到 FLUX 模型中的特征和擴(kuò)散過程中的隱空間變量中,從而實現(xiàn)對編輯過程的細(xì)粒度控制。

反演過程。圖像編輯需要反演過程以推導(dǎo)出與源圖像對應(yīng)的初始噪聲:

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

隱空間變量級控制以增強(qiáng)保留效果。 此外,考慮到當(dāng)前修正流反演方法在重建原始圖像方面的局限性,引入了隱空間變量級控制,以進(jìn)一步提高圖像一致性。本研究采用擴(kuò)散融合方法將反演和采樣過程中的隱空間變量進(jìn)行融合:

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

真實世界圖像編輯基準(zhǔn)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

與現(xiàn)有基準(zhǔn)的比較。 如下表 1 所示,本文基準(zhǔn)在多個方面超越了現(xiàn)有的圖像編輯數(shù)據(jù)集 [18, 23, 33, 58]。本研究的數(shù)據(jù)集具有最大的平均圖像大小,最大限度地保留視覺信息而不進(jìn)行裁剪或降采樣。本文數(shù)據(jù)集中的源提示顯著更長且更詳細(xì),捕捉了圖像的全面語義表示。

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

還包含了最多的編輯對,涵蓋 10 種不同的編輯類型。這些類型的分布如下圖 5 所示。除了 PIE-Bench 中存在的 9 種編輯類型外,引入了一個新的“文本編輯”類別。這個新增類別是由于 DiT 在圖像中準(zhǔn)確生成和修改文本的能力日益增強(qiáng),本研究希望通過本研究的 RW-800 進(jìn)行評估。

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

實驗

在下文中,首先評估了該方法在廣泛使用的編輯基準(zhǔn)以及本研究的 RW-800 上的編輯能力。然后,定量比較了 PSL 的語義定位能力與基于 UNet 模型的方法。最后,討論了編輯pipeline 中各個組件的有效性。

圖像編輯的比較

在 PIE-Benchmark 上的定量比較。 為了全面評估本研究提出的方法的性能,本研究首先在廣泛采用的 PIE-Bench上進(jìn)行實驗。為了進(jìn)行比較,本研究選擇了一系列基線方法,包括基于擴(kuò)散 UNet 的經(jīng)典無訓(xùn)練編輯方法,如 P2P、MasaCtrl、P2P-zero、PnP 和改進(jìn)的 DDIM 反演方案 PnP-Inv。此外,還將本研究的方法與最新的基于 DiT 的編輯技術(shù)進(jìn)行比較,包括 RF-Inv、Stable Flow 、RF-Edit和 Fireflow。結(jié)果如下表 2 所示。值得注意的是,本研究的方法在 RF-Edit 和 Fireflow 上以即插即用的方式運行,同時增強(qiáng)了背景一致性和編輯質(zhì)量,而沒有引入額外的計算開銷。這證明了本研究的方法在改善現(xiàn)有最先進(jìn)框架方面的多功能性和效率。

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

在 RW-800 基準(zhǔn)上的定量比較。 為了進(jìn)一步驗證本研究方法的魯棒性和泛化能力,本研究在具有挑戰(zhàn)性的 RW-800 基準(zhǔn)上進(jìn)行了廣泛評估,并將其與最先進(jìn)的基于 DiT 的編輯方法 [3, 9, 41, 51] 進(jìn)行比較。實驗結(jié)果表明,本研究的方法顯著增強(qiáng)了 RF-Edit 和 Fireflow 的性能。具體而言,在下表 3 中,本研究的方法在結(jié)構(gòu)相似性 [48] 上取得了顯著改善,分別將 RF-Edit 和 Fireflow 的背景均方誤差(MSE)降低了 20% 和 38%。此外,它同時增強(qiáng)了目標(biāo)區(qū)域的可編輯性,在多個評估指標(biāo)上保持了平衡的改進(jìn)。Stable Flow 通過在關(guān)鍵層中注入注意力實現(xiàn)了與原始圖像的內(nèi)容保留,從而相比源圖像獲得了更接近的結(jié)構(gòu)距離和更好的 SSIM 分?jǐn)?shù)。然而,即使在有限的關(guān)鍵層數(shù)下,這種強(qiáng)控制機(jī)制顯著妨礙了其編輯能力,反映在較低的 CLIP 分?jǐn)?shù)上。

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

定性比較。 在 RW-800 基準(zhǔn)上與其他基于 DiT 的編輯方法進(jìn)行了定性比較。如下圖 6 所示,RF-inv 的編輯會對原始圖像帶來較大差異,而 Stable Flow 的編輯效果不明顯。本研究的方法比 RF-Edit 和 Fireflow 具有更明顯的編輯效果,并在背景區(qū)域保持了原始圖像。

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

語義定位評估

設(shè)置。 為了評估 PSL 的語義定位能力,在兩個編輯基準(zhǔn)上進(jìn)行實驗:PIE-Bench和 RW-800 基準(zhǔn)。這兩個基準(zhǔn)提供了配對的圖像-文本數(shù)據(jù)以及手動標(biāo)注的編輯區(qū)域 mask ,使得對背景保留和前景編輯性能的全面評估成為可能。利用這些 mask,本研究通過計算注意力圖與真實 mask 之間的均方誤差(MSE),以及對這些注意力圖進(jìn)行二值化后的交并比(IoU)分?jǐn)?shù),定量分析模型的性能。


在編輯基準(zhǔn)上的定量比較。 作為比較,選擇基于擴(kuò)散 UNet 的文本到圖像的擴(kuò)散模型作為基線,包括 SD-1.5 和 SD-XL ,這兩者都允許從其交叉注意力層中提取注意力圖。此外,系統(tǒng)地比較了直接利用 Flux 的聯(lián)合自注意力機(jī)制 與本研究結(jié)合視覺自注意力和文本自注意力部分的改進(jìn)的性能。下表 4 的第 1 行至第 3 行顯示,基于 MM-DiT 架構(gòu)的 FLUX 在語義定位方面顯著優(yōu)于基于 UNet 的 SD-1.5 和 SD-XL,獲得了明顯更高的交并比(IoU)分?jǐn)?shù)。這一改進(jìn)突顯了 FLUX 在將語義信息與視覺內(nèi)容對齊方面的卓越能力。此外,將視覺自注意力和文本自注意力組件集成到 FLUX 的交叉注意力機(jī)制中,顯著提高了定位準(zhǔn)確性。這些結(jié)果強(qiáng)調(diào)了本研究提出的架構(gòu)修改在實現(xiàn)精確和穩(wěn)健的語義定位方面的有效性,這對于高質(zhì)量的圖像編輯任務(wù)至關(guān)重要。

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

消融研究與分析

消融研究以評估各種組件對模型編輯性能的影響,使用真實圖像。所有實驗均在 RW-800 基準(zhǔn)上進(jìn)行,基于 8 步 Fireflow 方法。如下表 5 的第 1 行至第 3 行所示,在僅進(jìn)行特征級控制的情況下,本研究測試了使用 PSL 的二值 mask 來引導(dǎo)模型,這可以改善編輯,但也可能增加結(jié)構(gòu)距離,可能是由于分割不準(zhǔn)確造成的。使用基準(zhǔn)的真實 mask 并未帶來顯著改善。相反,采用得分圖M進(jìn)行控制則減少了結(jié)構(gòu)距離,同時保持了較高的編輯能力。此改進(jìn)歸因于二值 mask 的局限性,在混合過程中破壞了特征表示,導(dǎo)致偏差。使用M的軟融合方法保留了特征完整性,確保了一致和高質(zhì)量的編輯。此外,與二值 mask 相比,連續(xù)圖提供了更豐富的信息和更精確的編輯過程指導(dǎo)。

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

圖像編輯進(jìn)入“精修時代”!“指哪改哪”!北交&美圖發(fā)布DCEdit:改圖不傷背景的終極方案-AI.x社區(qū)

PSL模塊的消融實驗定性對比。通過優(yōu)化視覺自注意力(VSA)與文本自注意力(TSA)機(jī)制,PSL顯著提升了FLUX模型中MM-DiT層生成的原始交叉注意力圖質(zhì)量。左列混合詞匯激活了對應(yīng)的注意力圖(VSA代表視覺自注意力,TSA代表文本自注意力)。所有展示案例均來自我們的RW-800數(shù)據(jù)集。

結(jié)論

本文介紹了一種新穎的DCEdit,旨在進(jìn)行文本引導(dǎo)的圖像編輯。通過提出的精確語義定位策略,本研究增強(qiáng)了提取的交叉注意力圖的質(zhì)量,使其成為精確的區(qū)域線索,以輔助圖像編輯。本研究的雙級控制機(jī)制有效地在特征和隱空間級別上整合了區(qū)域線索,提升了基于 DiT 的編輯方法的性能。此外,RW-800 基準(zhǔn)的構(gòu)建提供了一個全面的評估工具,挑戰(zhàn)現(xiàn)有方法,并突顯了本研究方法在實際場景中的優(yōu)越性。本研究的結(jié)果在背景保留和編輯質(zhì)量方面相比于以前的方法有了大幅提升,使得 DCEdit 成為文本到圖像編輯未來的有希望的解決方案。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/u6cx0klIzjFs0MqtKo0uhw??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦