超越SDEdit等七大SOTA,免訓(xùn)練多模態(tài)圖像編輯里程碑:HeadRouter帶來精準(zhǔn)語義調(diào)整
文章鏈接:https://arxiv.org/pdf/2411.15034
項(xiàng)目鏈接:https://yuci-gpt.github.io/headrouter/
亮點(diǎn)直擊
- 提供了對不同注意力頭對各種編輯語義的影響的深入分析,以及在無交叉注意力的MM-DiTs中,文本和圖像token之間的相互作用。
- 提出了HeadRouter,這是一種適用于MM-DiTs的新型圖像編輯方法,其中包括一個(gè)實(shí)例自適應(yīng)Router,用于增強(qiáng)關(guān)鍵注意力頭的語義表示,以及一個(gè)雙重token優(yōu)化模塊,用于精確的文本引導(dǎo)和關(guān)鍵區(qū)域表達(dá)。
- 在多個(gè)文本引導(dǎo)的圖像編輯基準(zhǔn)測試上的實(shí)驗(yàn)評估表明,本文的方法在不同任務(wù)中提供了更精確的區(qū)域、語義和屬性級別的編輯效果,超越了現(xiàn)有的最先進(jìn)基線方法。
總結(jié)速覽
解決的問題
MM-DiTs(多模態(tài)擴(kuò)散Transformer)在文本引導(dǎo)的圖像編輯任務(wù)中面臨顯著挑戰(zhàn)。與UNet結(jié)構(gòu)不同,MM-DiTs缺乏明確且一致地結(jié)合文本引導(dǎo)的能力,導(dǎo)致編輯結(jié)果和文本之間存在語義不一致。
提出的方案
本研究提出了HeadRouter框架,通過自適應(yīng)地將文本引導(dǎo)Router到MM-DiTs中的不同注意力頭,從而編輯源圖像。該框架無需訓(xùn)練即可實(shí)現(xiàn)圖像編輯。此外,研究還提出了雙重token優(yōu)化模塊,用于細(xì)化文本和圖像的token表示,以提供精確的語義引導(dǎo)和準(zhǔn)確的區(qū)域表達(dá)。
應(yīng)用的技術(shù)
- HeadRouter:一種無需訓(xùn)練的圖像編輯框架,基于自適應(yīng)文本引導(dǎo)Router。
- 雙重token優(yōu)化模塊:優(yōu)化文本和圖像token表示以提高語義精度。
達(dá)到的效果
在多個(gè)基準(zhǔn)測試上的實(shí)驗(yàn)結(jié)果表明,HeadRouter在編輯忠實(shí)度和圖像質(zhì)量方面表現(xiàn)出色。
方法
本文主要提出了兩種技術(shù):實(shí)例自適應(yīng)注意力頭Router(Instance-adaptive Attention Head Router),通過識別和強(qiáng)調(diào)最有效的注意力頭來提高目標(biāo)編輯語義的表示;以及雙重token優(yōu)化模塊(Dual-token refinement module, DTR),通過將文本的注意力權(quán)重應(yīng)用到圖像token上來精煉關(guān)鍵圖像token的編輯。
實(shí)例自適應(yīng)注意力頭Router
基于對注意力頭對不同編輯語義的敏感性分析,目標(biāo)是識別并強(qiáng)調(diào)最有效的注意力頭,用于特定的編輯任務(wù)。通過利用圖像重建分支的信息,我們引導(dǎo)圖像編輯分支專注于最相關(guān)的注意力頭,從而提高編輯效果。
首先識別有效的注意力頭。方法的關(guān)鍵在于識別哪些注意力頭對所需的編輯語義最敏感。給定一個(gè)具有 H 個(gè)注意力頭的 DiT 模型,我們首先計(jì)算在生成有和沒有特定語義的圖像時(shí),相應(yīng)注意力頭輸出的余弦相似度。設(shè) 和 分別表示重建分支和編輯分支中第 h 個(gè)注意力頭的輸出特征,頭 h 的余弦相似度 計(jì)算公式為:
其中 "·" 表示點(diǎn)積,|| · || 表示歐幾里得范數(shù)。
為了量化每個(gè)注意力頭對特定語義的敏感性,并在單步中對不相似度得分進(jìn)行歸一化,設(shè)計(jì)了歸一化不相似度得分 作為:
其中
這個(gè)歸一化得分 反映了每個(gè)注意力頭的輸出與特定語義的不同程度,依據(jù)所有注意力頭中觀察到的不相似度范圍。
為了平滑地激活最敏感的語義注意力頭,提出了一個(gè)實(shí)例自適應(yīng)注意力頭Router(IARouter),它應(yīng)用于不同注意力頭的輸出特征。IARouter 的設(shè)計(jì)目標(biāo)是:(1) 強(qiáng)調(diào)不相似的頭:為具有較低 的頭分配較高的注意力,以突出它們在表示所需編輯語義中的重要性;(2) 維持相似的頭:確保與編輯不太相關(guān)的頭的貢獻(xiàn)不會(huì)被過度改變,從而保持圖像中其他視覺方面的完整性;(3) 平滑權(quán)重:通過防止突變的權(quán)重變化避免偽影,并保持模型穩(wěn)定性。
基于這些目標(biāo),IARouter 使用軟激活注意力頭。頭 h 的權(quán)重 定義為:
其中 γ 是最大權(quán)重增量,k 控制 sigmoid 曲線的陡峭度,δ 移動(dòng) sigmoid 的中心,σ(x) 是定義為:
在圖像生成過程中,將每個(gè)注意力頭的輸出乘以其對應(yīng)的權(quán)重,以獲得增強(qiáng)后的輸出。
提出的 IARouter 作為一種平滑的語義特定增強(qiáng)器,通過識別和強(qiáng)調(diào)對特定語義敏感的注意力頭,IARouter 能夠?qū)崿F(xiàn)更精確和有效的編輯。使用 sigmoid 函數(shù)可以使權(quán)重逐漸增加,從而避免突然的變化可能引入的偽影。
雙token優(yōu)化模塊
文本token與圖像token之間的注意力權(quán)重反映了文本提示對每個(gè)圖像token的影響。我們利用這些權(quán)重將編輯聚焦在與期望語義對應(yīng)的關(guān)鍵圖像區(qū)域,從而進(jìn)行語義優(yōu)化。此外,提出修改注意力歸一化以增強(qiáng)重要文本token對圖像token的影響。
面向語義的圖像token增強(qiáng)
MM-DiTs 的自注意力機(jī)制生成的注意力權(quán)重反映了文本token對圖像token的影響。具體來說,對于每個(gè)圖像token,與文本token相關(guān)的注意力權(quán)重指示了該圖像token關(guān)注每個(gè)文本token的程度。利用這一特性來識別并聚焦于受到編輯提示影響最大的圖像token。設(shè) 表示從文本token到圖像token的注意力權(quán)重矩陣,其中 是圖像token的數(shù)量, 是文本token的數(shù)量。元素 表示從文本token 到圖像token 的注意力權(quán)重。
我們提出了面向語義的圖像token增強(qiáng)方法,以聚焦編輯關(guān)鍵圖像token,同時(shí)考慮文本對不同圖像token的影響。形式化地,權(quán)重映射定義為:
其中, 表示第 個(gè)文本token對第 個(gè)圖像token的注意力權(quán)重。我們使用基于 softmax 的函數(shù)對圖像token的注意力權(quán)重進(jìn)行歸一化,并使用 sigmoid 函數(shù)限制大權(quán)重的增長。 是權(quán)重增強(qiáng)系數(shù), 用于幅度調(diào)整。關(guān)于 和 影響的進(jìn)一步討論可以在補(bǔ)充材料中找到。
接下來,我們使用歸一化權(quán)重 對編輯分支中的圖像token進(jìn)行重新加權(quán)。最終的圖像token 計(jì)算公式為:
這種公式確保了受到文本提示高度影響的圖像token(具有更高的 )被賦予更高的權(quán)重,而受影響較小的token則保持接近原始值。
基于殘差的文本token增強(qiáng)
由于文本token與圖像token之間的注意力權(quán)重在連續(xù)的注意力塊中逐漸衰減,我們利用殘差文本token在每個(gè) Transformer 塊中保留文本引導(dǎo)。具體而言,該設(shè)計(jì)將前一注意力塊的文本引導(dǎo)傳遞到當(dāng)前塊中。隨著信息在更深的塊中傳播,前一塊的輸入被作為殘差項(xiàng),并與當(dāng)前塊的輸入相結(jié)合,從而增強(qiáng)文本引導(dǎo)的連續(xù)性。此機(jī)制在每個(gè)塊中引入一致的文本信息,加強(qiáng)了文本引導(dǎo),并提高了圖像編輯的準(zhǔn)確性。
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
實(shí)驗(yàn)中,使用 Flux-1.0[dev] 及其默認(rèn)超參數(shù),并利用 RF-Inversion 將真實(shí)圖像逆映射到其潛在空間,同時(shí)遵循其基本設(shè)置。
基線方法將本文的方法與七種最先進(jìn)的文本引導(dǎo)圖像編輯方法進(jìn)行了比較,包括兩種基于 Flux 的方法:RF-Inversion 和 SDEdit,以及五種基于 UNet 的方法:結(jié)合 Prompt-to-Prompt 的 Null-textual Inversion、Instruct-Pix2Pix、MasaCtrl、InfEdit 和 LEDITS++。所有這些方法都無需訓(xùn)練。
數(shù)據(jù)集
在兩個(gè)文本引導(dǎo)圖像編輯基準(zhǔn)數(shù)據(jù)集上評估了本文的方法與基線方法:
- TEDBench++:這是 TEDBench 的修訂擴(kuò)展版,共包含 120 個(gè)實(shí)體。
- PIE-Bench:該數(shù)據(jù)集由 700 張圖像組成,每張圖像都對應(yīng) 10 種不同的編輯類型。
評價(jià)指標(biāo)
根據(jù)以往的文本引導(dǎo)圖像編輯工作,從三個(gè)指標(biāo)評估所提出的方法:整體圖像質(zhì)量、與文本引導(dǎo)的對齊程度以及與源圖像的結(jié)構(gòu)一致性。具體來說,我們使用 LPIPS 評估整體質(zhì)量,使用 CLIP-T 測量文本對齊程度,并使用 DINO 評估與原始圖像的結(jié)構(gòu)一致性。此外,還進(jìn)行用戶研究以進(jìn)一步評估性能。
定性比較
在下圖 6 中,展示了不同編輯類型與基線方法的可視化結(jié)果。SDEdit 能夠在文本條件下生成新概念(例如,海洋、剪紙風(fēng)格),但難以保持源圖像的語義信息(如第 2 行和第 3 行)。P2P+NTI 難以實(shí)現(xiàn)令人滿意的圖像編輯結(jié)果,往往忽略了文本條件中包含的信息(如第 1 ~ 3 行)。Instruct-Pix2Pix 同樣在涉及顯著變化的圖像編輯指令上表現(xiàn)不佳,導(dǎo)致語義丟失(如第 1 行)或編輯不準(zhǔn)確(如第 2、4 和第 5 行)。MasaCtrl 和 InfEdit 同樣未能準(zhǔn)確保留源圖像的語義(如第 3 行)以及編輯不準(zhǔn)確(如第 1、2 和第 5 行)。LEDITS++ 在實(shí)驗(yàn)中實(shí)現(xiàn)了改變圖像風(fēng)格的編輯效果,但在特定語義編輯上仍存在問題(如第 1、2、4、5 行),同時(shí)源圖像細(xì)節(jié)丟失(如第 3 行)。RF-inversion 難以實(shí)現(xiàn)穩(wěn)健的圖像編輯效果,導(dǎo)致部分輸出與源圖像幾乎相同(如第 3 和第 5 行)。本文的方法在結(jié)構(gòu)保留和編輯效果上均表現(xiàn)最佳,超越了基線方法的性能。
定量比較
下表 1 展示了定量比較結(jié)果,包括編輯圖像與源圖像之間的結(jié)構(gòu)對齊、編輯圖像與文本引導(dǎo)之間的對齊以及整體生成質(zhì)量。還針對八種不同的編輯類型評估了圖像與文本的對齊。
如下圖 5 的雷達(dá)圖所示。在“更改內(nèi)容”類別中,盡管 InfEdit 和 LEDITS++ 的某些指標(biāo)與我們的結(jié)果相當(dāng),但其文本對齊顯著較低,表明這些方法未能實(shí)現(xiàn)有效的“更改對象”編輯。類似的結(jié)論可以從前面圖 6 中觀察到。此外,“更改內(nèi)容”得分明顯低于其他指標(biāo),因?yàn)閮?nèi)容更改對圖像的主要區(qū)域進(jìn)行了大幅度修改,從而降低了與原始圖像的結(jié)構(gòu)相似性。然而,與基線結(jié)果相比,本文的結(jié)果仍然顯著更優(yōu)。
用戶研究
本文進(jìn)行了一項(xiàng)用戶研究,重點(diǎn)考察兩個(gè)主要方面:與給定提示的對齊程度以及圖像中無關(guān)區(qū)域的保留情況。我們針對各種編輯任務(wù)生成了 50 組圖像,每組包含 8 張由本文的方法生成的圖像以及 7 張由基線方法基于相同提示生成的圖像。共有 56 名參與者查看了每組圖像,并被要求選擇最符合提示且保留原始圖像質(zhì)量的圖像。下圖 7 的結(jié)果表明,我們方法生成的結(jié)果在緊跟提示的同時(shí),能夠保留與編輯提示無關(guān)區(qū)域的質(zhì)量。
消融研究
本節(jié)通過提出的兩個(gè)關(guān)鍵模塊——實(shí)例自適應(yīng)注意力頭Router (IARouter) 和 雙token細(xì)化模塊 (DTR) ——進(jìn)行消融,驗(yàn)證方法的有效性。
首先,在 IARouter 的消融中,在推理過程中移除了所有的頭部約束。如下圖 8 左下所示,這導(dǎo)致語義表達(dá)較弱(例如,在“蘋果”和“折紙”示例中,盡管某種程度上實(shí)現(xiàn)了所需的編輯語義,但原始網(wǎng)球圖像的殘余紋理依然存在)。相比之下,IARouter 通過根據(jù)語義內(nèi)容對不同的頭進(jìn)行Router,增強(qiáng)了特定語義的表達(dá)能力。
接下來,對 DTR 進(jìn)行消融,結(jié)果如圖 8 右下所示。結(jié)果表明,通過加強(qiáng)圖像token和文本引導(dǎo),本文的方法能夠捕捉所需的語義,并在響應(yīng)詳細(xì)文本引導(dǎo)時(shí)實(shí)現(xiàn)更細(xì)粒度的語義表示。
局限性
由于預(yù)訓(xùn)練模型中的多模態(tài)文本-圖像先驗(yàn),當(dāng)編輯常見元素(如“埃菲爾鐵塔”)時(shí),使用“一個(gè)<描述>埃菲爾鐵塔”的提示可能會(huì)產(chǎn)生有限的結(jié)果,因?yàn)檫@些提示已經(jīng)編碼了特定的視覺細(xì)節(jié)。此外,本文的方法需要將圖像反演到潛在空間,因此編輯結(jié)果與原始圖像的對齊程度取決于反演過程的準(zhǔn)確性。
結(jié)論
本文探討了 MM-DiTs 中的多頭注意力在圖像編輯中的作用,揭示了不同圖像語義信息在各個(gè)頭部中的分布。此外,分析了文本對圖像token的引導(dǎo)作用,發(fā)現(xiàn)文本影響在更深的注意力塊中逐漸減弱?;谶@些見解,引入了實(shí)例自適應(yīng)注意力頭Router,以增強(qiáng)關(guān)鍵注意力頭對目標(biāo)編輯語義的表示能力,同時(shí)提出了雙token細(xì)化模塊,以確保精確的文本引導(dǎo)并強(qiáng)調(diào)關(guān)鍵區(qū)域。大量的定量和定性評估以及用戶研究表明,本文的方法在現(xiàn)有最先進(jìn)方法中具有顯著優(yōu)勢。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
