自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了

發(fā)布于 2024-12-18 12:30
瀏覽
0收藏

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.10316
項(xiàng)目鏈接:https://liyaowei-stu.github.io/project/BrushEdit


圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出了BrushEdit,這是先前BrushNet模型的高級(jí)迭代版本。BrushEdit通過開創(chuàng)基于修復(fù)(inpainting)的圖像編輯方法,擴(kuò)展了可控圖像生成的能力。該統(tǒng)一模型支持指令引導(dǎo)的圖像編輯和修復(fù),提供了用戶友好的、自由形式的、多輪交互編輯體驗(yàn)。
  • 通過集成現(xiàn)有的預(yù)訓(xùn)練多模態(tài)大語(yǔ)言模型和視覺理解模型,BrushEdit顯著提高了語(yǔ)言理解能力和可控圖像生成能力,而無(wú)需額外的訓(xùn)練過程。
  • 將BrushNet擴(kuò)展為一個(gè)通用的圖像修復(fù)框架,能夠適應(yīng)任意形狀的mask。這消除了為不同類型的mask配置使用單獨(dú)模型的需求,并增強(qiáng)了其對(duì)現(xiàn)實(shí)世界用戶mask的適應(yīng)性。

總結(jié)速覽

解決的問題當(dāng)前基于擴(kuò)散模型的圖像編輯方法存在兩大問題:

  • 基于反演(inversion)的方法在進(jìn)行大幅度修改(如添加或移除物體)時(shí)效果較差,原因在于反演噪聲的結(jié)構(gòu)性限制了編輯的靈活性。
  • 基于指令(instruction)的方法通常采用黑箱操作,限制了用戶直接指定編輯區(qū)域和強(qiáng)度的能力。

提出的方案提出了一種新的圖像編輯范式BrushEdit,基于圖像修復(fù)(inpainting)和指令引導(dǎo),結(jié)合多模態(tài)大語(yǔ)言模型(MLLMs)和雙分支圖像修復(fù)模型,構(gòu)建了一個(gè)代理協(xié)作框架,實(shí)現(xiàn):

  • 編輯類別分類。
  • 主體對(duì)象識(shí)別。
  • mask區(qū)域獲取。
  • 編輯區(qū)域的修復(fù)與生成。

應(yīng)用的技術(shù)

  • 多模態(tài)大語(yǔ)言模型(MLLMs)用于解析用戶自由形式的編輯指令并指導(dǎo)編輯流程。
  • 雙分支圖像修復(fù)模型,用于在mask區(qū)域內(nèi)生成符合用戶指令的編輯內(nèi)容。
  • 代理協(xié)作框架,通過分類、識(shí)別、mask生成和修復(fù)的多步流程協(xié)同完成圖像編輯。

達(dá)到的效果通過大量實(shí)驗(yàn)驗(yàn)證,BrushEdit 框架能夠高效結(jié)合 MLLMs 和圖像修復(fù)模型,在七個(gè)關(guān)鍵指標(biāo)上實(shí)現(xiàn)性能優(yōu)越,包括:

  • mask區(qū)域的精準(zhǔn)性保持。
  • 編輯效果的連貫性和自然性。
  • 更高的用戶交互自由度與操作便捷性。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

demo展示

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

方法

BrushEdit的概述如下圖2所示??蚣芡ㄟ^代理協(xié)作,將MLLM與雙分支圖像修復(fù)模型集成在一起,從而實(shí)現(xiàn)自由形式的、多輪交互的指令編輯。具體而言,一個(gè)預(yù)訓(xùn)練的MLLM作為編輯指導(dǎo)者(Editing Instructor),解析用戶的指令以識(shí)別編輯類型、定位目標(biāo)對(duì)象、獲取編輯區(qū)域的檢測(cè)結(jié)果并生成編輯后的圖像文本描述。在此信息的引導(dǎo)下,修復(fù)模型作為編輯指揮者(Editing Conductor),根據(jù)目標(biāo)文本說明填充被遮掩的區(qū)域。這個(gè)迭代過程允許用戶在任何階段修改或優(yōu)化中間控制輸入,支持靈活和交互式的基于指令的編輯。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

編輯指導(dǎo)者

在BrushEdit中,我們使用MLLM作為編輯指導(dǎo)者來(lái)解析用戶的自由形式編輯指令,將其分類為預(yù)定義類型(添加、刪除、局部編輯、背景編輯),識(shí)別目標(biāo)對(duì)象,并利用預(yù)訓(xùn)練的檢測(cè)模型找到相關(guān)的編輯mask。最后,生成編輯后的圖像說明。在下一階段,這些信息將被打包并發(fā)送到編輯系統(tǒng),以圖像修復(fù)方法完成任務(wù)。正式過程如下:給定編輯指令和源圖像,我們首先使用預(yù)訓(xùn)練的MLLM識(shí)別用戶的編輯類型和相應(yīng)的目標(biāo)對(duì)象。然后,MLLM調(diào)用預(yù)訓(xùn)練的檢測(cè)模型,基于搜索目標(biāo)對(duì)象mask。獲得mask后,MLLM將、和結(jié)合起來(lái)生成最終的編輯圖像說明。源圖像、目標(biāo)mask和說明被傳遞到下一階段,編輯指揮者,進(jìn)行基于圖像修復(fù)的編輯。

編輯指揮者

編輯指揮者基于之前的BrushNet,采用混合微調(diào)策略,使用隨機(jī)mask和分割mask相結(jié)合。這種方法使修復(fù)模型能夠處理多種mask基礎(chǔ)的修復(fù)任務(wù),而不受mask類型的限制,達(dá)到相當(dāng)或更優(yōu)的性能。具體而言,通過額外的控制分支將mask圖像特征注入到預(yù)訓(xùn)練的擴(kuò)散網(wǎng)絡(luò)(例如Stable Diffusion 1.5)中。這些特征包括噪聲隱空間,以增強(qiáng)語(yǔ)義一致性,通過VAE提取的mask圖像隱空間,以引導(dǎo)前景提示和背景之間的語(yǔ)義一致性,以及通過立方插值下采樣的mask,用于明確指示前景填充區(qū)域的位置和邊界。


為了保持mask圖像特征,BrushEdit使用了預(yù)訓(xùn)練擴(kuò)散模型的副本,去除了所有注意力層。預(yù)訓(xùn)練的卷積權(quán)重作為提取mask圖像特征的強(qiáng)大先驗(yàn),而排除跨注意力層確保該分支專注于純背景信息。BrushEdit的特征逐層集成到凍結(jié)的擴(kuò)散模型中,實(shí)現(xiàn)分層、密集的每像素控制。根據(jù)ControlNet,使用零卷積層將凍結(jié)模型與可訓(xùn)練的BrushEdit連接,減輕早期訓(xùn)練階段的噪聲。特征插入操作定義為公式5。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

先前的研究強(qiáng)調(diào),在隱空間融合過程中,下采樣可能引入不準(zhǔn)確性,且VAE編碼解碼過程具有固有的局限性,影響圖像的完整重建。為了確保未遮掩區(qū)域的一致重建,先前的方法探索了多種策略。一些方法[29],[31]依賴于復(fù)制粘貼技術(shù),直接轉(zhuǎn)移未遮掩區(qū)域,但這些方法通常導(dǎo)致輸出缺乏語(yǔ)義一致性。受BLD啟發(fā)的隱空間融合方法也難以有效保留未遮掩區(qū)域中的所需信息。


在這項(xiàng)工作中,提出了一種簡(jiǎn)單的像素空間方法,在使用模糊mask進(jìn)行復(fù)制粘貼之前先進(jìn)行mask模糊處理。雖然這可能會(huì)稍微影響mask邊界附近的精確度,但這種誤差幾乎不可察覺,并顯著改善了邊界一致性。


BrushEdit的架構(gòu)本質(zhì)上設(shè)計(jì)為能夠無(wú)縫地與各種預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行即插即用集成,從而實(shí)現(xiàn)靈活的保留控制。具體而言,BrushEdit的靈活功能包括:

  • 即插即用集成:由于BrushEdit不修改預(yù)訓(xùn)練擴(kuò)散模型的權(quán)重,因此可以輕松地與任何社區(qū)微調(diào)的模型集成,便于采用和實(shí)驗(yàn)。
  • 保留尺度調(diào)整:可以通過將BrushEdit特征與凍結(jié)的擴(kuò)散模型中的權(quán)重結(jié)合,控制未遮掩區(qū)域的保留尺度,從而調(diào)整BrushEdit對(duì)保留級(jí)別的影響。
  • 模糊和融合自定義:可以通過調(diào)整模糊尺度并根據(jù)需要應(yīng)用融合操作,進(jìn)一步細(xì)化保留尺度。這些功能為編輯過程提供了細(xì)粒度和靈活的控制。

實(shí)驗(yàn)

評(píng)估基準(zhǔn)和指標(biāo)

基準(zhǔn)

為了全面評(píng)估BrushEdit的性能,在圖像編輯和圖像修復(fù)基準(zhǔn)上進(jìn)行了實(shí)驗(yàn):

  • 圖像編輯:使用了PIE-Bench(基于提示的圖像編輯基準(zhǔn))來(lái)評(píng)估BrushEdit和所有基準(zhǔn)方法在圖像編輯任務(wù)上的表現(xiàn)。PIE-Bench包含700張圖像,涵蓋10種編輯類型,均勻分布在自然和人工場(chǎng)景(例如畫作)之間,分為四個(gè)類別:動(dòng)物、人類、室內(nèi)和室外。每張圖像包含五個(gè)標(biāo)注:源圖像提示、目標(biāo)圖像提示、編輯指令、主要編輯內(nèi)容和編輯mask。
  • 圖像修復(fù):在之前工作的基礎(chǔ)上,用BrushBench替代了傳統(tǒng)基準(zhǔn)[81]–[86],用于基于分割的mask和EditBench用于隨機(jī)刷子mask。這些基準(zhǔn)涵蓋了人體、動(dòng)物以及室內(nèi)和室外場(chǎng)景的真實(shí)和生成圖像。EditBench包含240張圖像,其中自然和生成內(nèi)容各占一半,每張圖像都帶有mask和說明。BrushBench,如圖3所示,包含600張帶有人工標(biāo)注mask和說明的圖像,均勻分布在自然和人工場(chǎng)景(例如畫作)之間,并涵蓋人類、動(dòng)物以及室內(nèi)/室外環(huán)境等多種類別。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

將任務(wù)細(xì)化為兩種基于分割mask的修復(fù)場(chǎng)景:內(nèi)部修復(fù)和外部修復(fù),從而實(shí)現(xiàn)對(duì)不同圖像區(qū)域的詳細(xì)性能評(píng)估。


值得注意的是,BrushEdit通過利用統(tǒng)一的高質(zhì)量修復(fù)mask圖像進(jìn)行訓(xùn)練,超越了BrushNet,能夠處理所有mask類型。這使得BrushEdit成為一個(gè)統(tǒng)一的模型,能夠執(zhí)行所有修復(fù)和編輯基準(zhǔn)任務(wù),而BrushNet則需要為每種mask類型進(jìn)行單獨(dú)的微調(diào)。

數(shù)據(jù)集

在之前版本中提出的BrushData的基礎(chǔ)上,整合了兩種子集:分割mask和隨機(jī)mask,并進(jìn)一步擴(kuò)展了來(lái)自Laion-Aesthetic 數(shù)據(jù)集的數(shù)據(jù),形成了BrushData-v2。一個(gè)關(guān)鍵的區(qū)別是,我們選擇背景干凈的圖像,并隨機(jī)與分割mask或隨機(jī)mask配對(duì),實(shí)際上創(chuàng)建了模擬基于刪除的編輯的配對(duì),顯著增強(qiáng)了我們框架在圖像編輯中的刪除能力。數(shù)據(jù)擴(kuò)展過程如下:使用Grounded-SAM標(biāo)注開放世界mask,然后根據(jù)置信度分?jǐn)?shù)進(jìn)行過濾,僅保留高置信度的mask。同時(shí),在過濾過程中考慮了mask的大小和連續(xù)性。

指標(biāo)

評(píng)估了五個(gè)指標(biāo),重點(diǎn)關(guān)注未編輯/未修復(fù)區(qū)域的保留和已編輯/已修復(fù)區(qū)域的文本對(duì)齊。此外,我們還進(jìn)行了廣泛的用戶研究,以驗(yàn)證BrushEdit在編輯指令對(duì)齊和背景保真度方面的優(yōu)越性能。

  • 背景保真度:我們采用標(biāo)準(zhǔn)指標(biāo),包括峰值信噪比(PSNR)、學(xué)習(xí)的感知圖像塊相似性(LPIPS)、均方誤差(MSE)和結(jié)構(gòu)相似性指數(shù)測(cè)量(SSIM),來(lái)評(píng)估生成圖像與原始圖像之間未mask區(qū)域的一致性。
  • 文本對(duì)齊:使用CLIP相似度(CLIP Sim)來(lái)評(píng)估文本與圖像的一致性,通過將兩者投影到CLIP模型的共享嵌入空間中,并測(cè)量它們表示之間的相似性。

實(shí)現(xiàn)細(xì)節(jié)

除非另有說明,否則在一致的設(shè)置下評(píng)估各種修復(fù)方法,即使用NVIDIA Tesla V100 GPU及其開源代碼,以Stable Diffusion v1.5作為基礎(chǔ)模型,50步,指導(dǎo)比例為7.5。每種方法在所有圖像上使用其推薦的超參數(shù),以確保公平性。BrushEdit和所有消融模型在8臺(tái)NVIDIA Tesla V100 GPU上訓(xùn)練430k步,約需要3天時(shí)間。值得注意的是,對(duì)于所有圖像編輯(PnPBench)和圖像修復(fù)(BrushBench和EditBench)任務(wù),BrushEdit使用在BrushData-v2上訓(xùn)練的單一模型,達(dá)成了統(tǒng)一的圖像編輯和修復(fù)。相比之下,我們之前的BrushNet需要為不同的mask類型進(jìn)行單獨(dú)的訓(xùn)練和測(cè)試。更多細(xì)節(jié)請(qǐng)參見提供的代碼。

定量比較(圖像編輯)

表II和表III比較了在PnPBench上的定量圖像編輯性能。評(píng)估了先前基于反演的方法的編輯結(jié)果,包括四種反演技術(shù)——DDIM反演、Null-Text反演、Negative-Prompt反演和StyleDiffusion——以及四種編輯方法:Prompt-to-Prompt、MasaCtrl、pix2pix-zero和Plug-and-Play。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

表II中的結(jié)果確認(rèn)了BrushEdit在保留未編輯區(qū)域和確保編輯區(qū)域文本對(duì)齊方面的優(yōu)越性。盡管基于反演的方法,如DDIM反演(DDIM)和PnP反演(PnP),能夠?qū)崿F(xiàn)高質(zhì)量的背景保留,但它們本質(zhì)上受到重建誤差的限制,影響了背景的保持。相比之下,BrushEdit通過一個(gè)專門的分支單獨(dú)建模未編輯的背景信息,而主網(wǎng)絡(luò)則基于文本提示生成編輯區(qū)域。結(jié)合預(yù)定義的用戶mask和混合操作,它確保了幾乎無(wú)損的背景保留和語(yǔ)義一致的編輯。

更重要的是,方法能夠在不受反演方法中不可恢復(fù)的結(jié)構(gòu)噪聲影響的情況下,保持高保真度的背景信息。這使得像添加或移除物體這樣的操作成為可能,這在基于反演的編輯方法中通常是無(wú)法實(shí)現(xiàn)的。此外,由于不需要反演,BrushEdit只需要單次前向傳遞即可執(zhí)行編輯操作。如表III所示,BrushEdit的編輯時(shí)間顯著較短,極大提高了圖像編輯的效率。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

定性比較(圖像編輯)

圖4展示了與先前圖像編輯方法的定性比較。呈現(xiàn)了在多種編輯任務(wù)上的結(jié)果,包括刪除物體(I)、添加物體(II)、修改物體(III)和交換物體(IV),任務(wù)涉及人工圖像和自然圖像。BrushEdit在編輯區(qū)域和未編輯區(qū)域之間始終保持卓越的一致性,在遵循編輯指令、編輯mask邊界的平滑度以及整體內(nèi)容一致性方面表現(xiàn)出色。特別地,圖4中的I和II任務(wù)包括刪除花朵或筆記本電腦,添加領(lǐng)子或耳環(huán)等。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

定量比較(圖像修復(fù))

表IV和表V展示了在BrushBench和EditBench上的定量比較。評(píng)估了幾種圖像修復(fù)方法,包括采樣策略修改方法Blended Latent Diffusion、專門的修復(fù)模型Stable Diffusion Inpainting、HD-Painter、PowerPaint,以及基于Plug-and-Play方法的ControlNet,這些方法都在修復(fù)數(shù)據(jù)上進(jìn)行過訓(xùn)練。此外,還包括之前的BrushNet。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

結(jié)果證實(shí)了BrushEdit在保持未修復(fù)區(qū)域的完整性和確保修復(fù)區(qū)域的文本對(duì)齊方面的優(yōu)越性。Blended Latent Diffusion表現(xiàn)最差,主要原因是由于它忽視了mask邊界,并且在mask區(qū)域與未mask區(qū)域之間的過渡不一致,導(dǎo)致了混合引發(fā)的隱空間損失。HD-Painter和PowerPaint,都基于Stable Diffusion Inpainting,在內(nèi)部修復(fù)任務(wù)中與其基礎(chǔ)模型取得了相似的結(jié)果。然而,在外部修復(fù)任務(wù)中,它們的性能急劇下降,因?yàn)樗鼈儍H設(shè)計(jì)用于內(nèi)部修復(fù)。ControlNet,明確為修復(fù)任務(wù)而訓(xùn)練,具有與我們相似的實(shí)驗(yàn)設(shè)置,但其與修復(fù)任務(wù)的設(shè)計(jì)不匹配,限制了其保持mask區(qū)域完整性和文本對(duì)齊的能力,因此需要與Blended Latent Diffusion結(jié)合才能取得合理的結(jié)果。即使使用了這種組合,它仍然無(wú)法超越專門的修復(fù)模型和BrushEdit。


在EditBench上的表現(xiàn)與BrushBench上的結(jié)果相一致,均顯示出BrushEdit的優(yōu)越性。這表明我們方法在各種修復(fù)任務(wù)中,包括分割、隨機(jī)、內(nèi)修復(fù)和外修復(fù)mask方面都表現(xiàn)穩(wěn)定優(yōu)異。


值得注意的是,與BrushNet相比,BrushEdit現(xiàn)在通過一個(gè)模型超越了BrushNet,在基于分割mask和隨機(jī)mask的基準(zhǔn)測(cè)試中取得了更強(qiáng)大且通用的修復(fù)能力。這一進(jìn)步主要?dú)w功于統(tǒng)一的mask類型和BrushData-v2中更豐富的數(shù)據(jù)分布。

定性比較(圖像修復(fù))

圖5展示了與以往圖像修復(fù)方法的定性比較。評(píng)估了在人工和自然圖像上的修復(fù)結(jié)果,涵蓋了多種修復(fù)任務(wù),包括隨機(jī)mask修復(fù)和分割mask修復(fù)。BrushEdit在生成區(qū)域與未mask區(qū)域之間的內(nèi)容和顏色一致性方面表現(xiàn)始終優(yōu)越(I,II)。特別是在圖5 II(左側(cè))中,任務(wù)要求生成一只貓和一條金魚。盡管所有先前的方法未能識(shí)別出mask圖像中已有的金魚,并錯(cuò)誤地生成了另一條魚,但BrushEdit通過其雙分支解耦設(shè)計(jì)準(zhǔn)確地將背景上下文融入修復(fù)中。此外,BrushEdit在整體修復(fù)性能上超越了我們之前的BrushNet,且無(wú)需針對(duì)特定mask類型進(jìn)行微調(diào),在隨機(jī)mask和分割mask的修復(fù)結(jié)果上均能取得相當(dāng)甚至更優(yōu)的表現(xiàn)。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

靈活控制能力

圖6和圖7展示了BrushEdit在兩個(gè)關(guān)鍵領(lǐng)域提供的靈活控制:基礎(chǔ)擴(kuò)散模型選擇和尺度調(diào)整。這種靈活性不僅限于圖像修復(fù),也擴(kuò)展到圖像編輯,主要通過改變主干網(wǎng)絡(luò)的生成先驗(yàn)和分支信息注入強(qiáng)度來(lái)實(shí)現(xiàn)。在圖6中,我們展示了BrushEdit如何與各種社區(qū)微調(diào)的擴(kuò)散模型結(jié)合使用,使用戶能夠選擇最適合其特定編輯或修復(fù)需求的模型。這大大增強(qiáng)了BrushEdit的實(shí)用價(jià)值。圖7則展示了對(duì)BrushEdit的尺度參數(shù)的控制,允許用戶在編輯或修復(fù)過程中調(diào)整未mask區(qū)域的保護(hù)程度,從而提供精細(xì)的控制,確保結(jié)果精準(zhǔn)且可定制。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

消融研究

進(jìn)行了消融研究,以考察不同模型設(shè)計(jì)對(duì)圖像修復(fù)任務(wù)的影響。由于BrushEdit基于圖像修復(fù)模型,編輯任務(wù)是通過推理過程完成的,鏈?zhǔn)竭B接MLLMs、BrushEdit和圖像檢測(cè)模型作為代理。修復(fù)能力直接反映了我們模型的訓(xùn)練結(jié)果。表VI比較了雙分支和單分支設(shè)計(jì),表VII則重點(diǎn)展示了附加分支架構(gòu)的消融研究。

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

圖像修復(fù)和編輯大一統(tǒng) | 騰訊&北大等聯(lián)合提出BrushEdit:BrushNet進(jìn)階版來(lái)了-AI.x社區(qū)

在BrushBench上進(jìn)行的消融研究對(duì)內(nèi)修復(fù)和外修復(fù)的性能進(jìn)行了平均。表VI中的結(jié)果表明,雙分支設(shè)計(jì)顯著優(yōu)于單分支設(shè)計(jì)。此外,在雙分支設(shè)置中微調(diào)基礎(chǔ)擴(kuò)散模型的結(jié)果優(yōu)于凍結(jié)模型。然而,微調(diào)可能會(huì)限制模型的靈活性和控制能力。考慮到性能與靈活性之間的權(quán)衡,我們選擇采用凍結(jié)的雙分支設(shè)計(jì)。表VII解釋了關(guān)鍵設(shè)計(jì)選擇的理由:(1)使用VAE編碼器而非隨機(jī)初始化的卷積層處理mask圖像,(2)將完整的UNet特征逐層集成到預(yù)訓(xùn)練UNet中,以及(3)移除BrushEdit中的文本交叉注意力,以防止mask圖像特征受到文本的影響。

討論

結(jié)論:本文介紹了一種新穎的基于修復(fù)的指令引導(dǎo)圖像編輯范式(IIIE),該范式結(jié)合了大型語(yǔ)言模型(LLMs)和即插即用的全能圖像修復(fù)模型,實(shí)現(xiàn)了自主、用戶友好和交互式的自由形式指令編輯。我們?cè)赑nPBench、我們提出的基準(zhǔn)、BrushBench和EditBench上的定量和定性結(jié)果展示了BrushEdit在圖像編輯和修復(fù)任務(wù)中,在mask背景保留和圖像-文本對(duì)齊方面的優(yōu)越性能。


局限性與未來(lái)工作:然而,BrushEdit仍存在一些局限性:(1)我們模型生成的質(zhì)量和內(nèi)容在很大程度上依賴于所選擇的基礎(chǔ)模型;(2)即使使用BrushEdit,當(dāng)mask形狀不規(guī)則或提供的文本與mask圖像不對(duì)齊時(shí),仍然可能出現(xiàn)生成質(zhì)量差的情況。在未來(lái)的工作中,我們計(jì)劃解決這些挑戰(zhàn)。


消極社會(huì)影響:圖像修復(fù)模型為內(nèi)容創(chuàng)作提供了令人興奮的機(jī)會(huì),但也帶來(lái)了隱的風(fēng)險(xiǎn),尤其是對(duì)個(gè)人和社會(huì)的影響。它們對(duì)互聯(lián)網(wǎng)收集的訓(xùn)練數(shù)據(jù)的依賴可能會(huì)加劇社會(huì)偏見,并且存在通過操縱人類圖像生成誤導(dǎo)性內(nèi)容的風(fēng)險(xiǎn)。為了減輕這些擔(dān)憂,負(fù)責(zé)任的使用和建立倫理指南至關(guān)重要,這也將是我們未來(lái)發(fā)布模型時(shí)的重點(diǎn)。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/_rpPmUqGw7_y8q9Eeg8OYQ??

標(biāo)簽
已于2024-12-18 14:05:56修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦