圖像編輯大一統(tǒng)？多功能圖像編輯框架Dedit：可基于圖像、文本和掩碼進(jìn)行圖像編輯

作者：AIGC Studio 2025-01-17 10:30:00

這項(xiàng)工作提出了基于擴(kuò)散模型的多功能圖像編輯框架 D-Edit。

本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

今天給大家介紹一個(gè)基于圖像和文本的編輯的框架D-Edit，它是第一個(gè)可以通過(guò)掩碼編輯實(shí)現(xiàn)圖像編輯的項(xiàng)目，近期已經(jīng)在HuggingFace開(kāi)放使用，并一度沖到了熱門(mén)項(xiàng)目Top5。

使用 D-Edit 的編輯流程。用戶首先上傳一張分割成多個(gè)項(xiàng)目的圖像。微調(diào) DPM 后，用戶可以進(jìn)行各種類型的控制，包括

(a) 使用文本提示替換模型；

(b) 細(xì)化分割造成的不完美細(xì)節(jié)；

(d) 將手提包替換為參考圖另一個(gè)手提包；

(e) 重塑手提包；

(f) 調(diào)整模型和手提包的大?。?/span>

(g) 去除背景。

論文介紹

基于文本到圖像擴(kuò)散模型 (DPM) 的成功，圖像編輯是實(shí)現(xiàn)人類與 AI 生成內(nèi)容交互的重要應(yīng)用。在各種編輯方法中，提示空間內(nèi)的編輯因其容量大和控制語(yǔ)義的簡(jiǎn)單性而受到更多關(guān)注。然而，由于擴(kuò)散模型通常是在描述性文本標(biāo)題上進(jìn)行預(yù)訓(xùn)練的，直接編輯文本提示中的單詞通常會(huì)導(dǎo)致完全不同的生成圖像，違反了圖像編輯的要求。另一方面，現(xiàn)有的編輯方法通?？紤]引入空間掩碼來(lái)保留未編輯區(qū)域的身份，而這些區(qū)域通常會(huì)被 DPM 忽略，因此導(dǎo)致不和諧的編輯結(jié)果。

針對(duì)這兩個(gè)挑戰(zhàn)，在這項(xiàng)工作中，我們建議將綜合圖像提示交互分解為幾個(gè)項(xiàng)目提示交互，每個(gè)項(xiàng)目都鏈接到一個(gè)特殊的學(xué)習(xí)提示。由此產(chǎn)生的框架名為 D-Edit，基于預(yù)訓(xùn)練的擴(kuò)散模型，交叉注意層已解開(kāi)，并采用兩步優(yōu)化來(lái)構(gòu)建項(xiàng)目提示關(guān)聯(lián)。然后，可以通過(guò)操作相應(yīng)的提示將多功能圖像編輯應(yīng)用于特定項(xiàng)目。我們展示了四種編輯操作的最新結(jié)果，包括基于圖像、基于文本、基于掩碼的編輯和項(xiàng)目刪除，涵蓋了大多數(shù)類型的編輯應(yīng)用程序，所有這些都在一個(gè)統(tǒng)一的框架內(nèi)。值得注意的是，D-Edit 是第一個(gè)可以 (1) 通過(guò)掩碼編輯實(shí)現(xiàn)項(xiàng)目編輯和 (2) 結(jié)合基于圖像和文本的編輯的框架。我們通過(guò)定性和定量評(píng)估展示了各種圖像集合的編輯結(jié)果的質(zhì)量和多功能性。

方法

傳統(tǒng)全交叉注意和分組交叉注意的比較。查詢、鍵和值顯示為一維向量。對(duì)于分組交叉注意，每個(gè)項(xiàng)目（對(duì)應(yīng)于某些像素/塊）僅關(guān)注分配給它的文本提示（兩個(gè)標(biāo)記）。

嵌入層在文本編碼器。新令牌插入隨機(jī)初始化。

不同類型的圖像所需的操作編輯。每個(gè)彩色道具都有一個(gè)獨(dú)特的提示符p。

實(shí)驗(yàn)

文本引導(dǎo)編輯。D-Edit允許選擇任何項(xiàng)目分割和編輯使用文本提示。

圖像引導(dǎo)編輯的定性比較。在項(xiàng)目替換和面部交換方面，D-Edit 與 Anydoor、Paint-by-Example 和 TF-ICON 進(jìn)行了比較。

圖像引導(dǎo)編輯：圖像中的任何項(xiàng)目都可以被來(lái)自相同或不同圖像的另一個(gè)項(xiàng)目所替換

結(jié)論

這項(xiàng)工作提出了基于擴(kuò)散模型的多功能圖像編輯框架 D-Edit。D-Edit 將給定圖像分割成多個(gè)項(xiàng)目，每個(gè)項(xiàng)目都分配有一個(gè)提示來(lái)控制其在提示空間中的表示。圖像提示交叉注意力被解開(kāi)為一組項(xiàng)目提示交互。通過(guò)調(diào)整擴(kuò)散模型來(lái)建立項(xiàng)目提示關(guān)聯(lián)，該模型學(xué)習(xí)使用給定的一組項(xiàng)目提示來(lái)重建原始圖像。定性和定量評(píng)估展示了在收集的各種圖像中編輯結(jié)果的質(zhì)量和多功能性。

責(zé)任編輯：張燕妮來(lái)源： AIGC Studio

圖像模型框架

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像編輯大一統(tǒng)？多功能圖像編輯框架Dedit：可基于圖像、文本和掩碼進(jìn)行圖像編輯

相關(guān)鏈接

論文介紹

方法

實(shí)驗(yàn)

結(jié)論

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像編輯大一統(tǒng)？多功能圖像編輯框架Dedit：可基于圖像、文本和掩碼進(jìn)行圖像編輯

相關(guān)鏈接

論文介紹

方法

實(shí)驗(yàn)

結(jié)論

圖像編輯大一統(tǒng)？多功能圖像編輯框架Dedit：可基于圖像、文本和掩碼進(jìn)行圖像編輯