圖像編輯大一統(tǒng)?多功能圖像編輯框架Dedit:可基于圖像、文本和掩碼進(jìn)行圖像編輯
本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
今天給大家介紹一個(gè)基于圖像和文本的編輯的框架D-Edit,它是第一個(gè)可以通過(guò)掩碼編輯實(shí)現(xiàn)圖像編輯的項(xiàng)目,近期已經(jīng)在HuggingFace開(kāi)放使用,并一度沖到了熱門(mén)項(xiàng)目Top5。
使用 D-Edit 的編輯流程。用戶首先上傳一張分割成多個(gè)項(xiàng)目的圖像。微調(diào) DPM 后,用戶可以進(jìn)行各種類型的控制,包括
(a) 使用文本提示替換模型;
(b) 細(xì)化分割造成的不完美細(xì)節(jié);
(c) 將包移到地面;
(d) 將手提包替換為參考圖另一個(gè)手提包;
(e) 重塑手提包;
(f) 調(diào)整模型和手提包的大?。?/span>
(g) 去除背景。
相關(guān)鏈接
論文地址:https://arxiv.org/pdf/2403.04880
代碼鏈接:https://github.com/collovlabs/d-edit
試用地址:https://huggingface.co/spaces/Collov-Labs/d-edit
論文介紹
基于文本到圖像擴(kuò)散模型 (DPM) 的成功,圖像編輯是實(shí)現(xiàn)人類與 AI 生成內(nèi)容交互的重要應(yīng)用。在各種編輯方法中,提示空間內(nèi)的編輯因其容量大和控制語(yǔ)義的簡(jiǎn)單性而受到更多關(guān)注。然而,由于擴(kuò)散模型通常是在描述性文本標(biāo)題上進(jìn)行預(yù)訓(xùn)練的,直接編輯文本提示中的單詞通常會(huì)導(dǎo)致完全不同的生成圖像,違反了圖像編輯的要求。另一方面,現(xiàn)有的編輯方法通??紤]引入空間掩碼來(lái)保留未編輯區(qū)域的身份,而這些區(qū)域通常會(huì)被 DPM 忽略,因此導(dǎo)致不和諧的編輯結(jié)果。
針對(duì)這兩個(gè)挑戰(zhàn),在這項(xiàng)工作中,我們建議將綜合圖像提示交互分解為幾個(gè)項(xiàng)目提示交互,每個(gè)項(xiàng)目都鏈接到一個(gè)特殊的學(xué)習(xí)提示。由此產(chǎn)生的框架名為 D-Edit,基于預(yù)訓(xùn)練的擴(kuò)散模型,交叉注意層已解開(kāi),并采用兩步優(yōu)化來(lái)構(gòu)建項(xiàng)目提示關(guān)聯(lián)。然后,可以通過(guò)操作相應(yīng)的提示將多功能圖像編輯應(yīng)用于特定項(xiàng)目。我們展示了四種編輯操作的最新結(jié)果,包括基于圖像、基于文本、基于掩碼的編輯和項(xiàng)目刪除,涵蓋了大多數(shù)類型的編輯應(yīng)用程序,所有這些都在一個(gè)統(tǒng)一的框架內(nèi)。值得注意的是,D-Edit 是第一個(gè)可以 (1) 通過(guò)掩碼編輯實(shí)現(xiàn)項(xiàng)目編輯和 (2) 結(jié)合基于圖像和文本的編輯的框架。我們通過(guò)定性和定量評(píng)估展示了各種圖像集合的編輯結(jié)果的質(zhì)量和多功能性。
方法
傳統(tǒng)全交叉注意和分組交叉注意的比較。查詢、鍵和值顯示為一維向量。對(duì)于分組交叉注意,每個(gè)項(xiàng)目(對(duì)應(yīng)于某些像素/塊)僅關(guān)注分配給它的 文本提示(兩個(gè)標(biāo)記)。
嵌入層在文本編碼器。新令牌 插入隨機(jī)初始化。
不同類型的圖像所需的操作 編輯。每個(gè)彩色道具都有一個(gè)獨(dú)特的提示符p。
實(shí)驗(yàn)
文本引導(dǎo)編輯。D-Edit允許選擇 任何項(xiàng)目分割和編輯使用文本提示。
圖像引導(dǎo)編輯的定性比較。在項(xiàng)目替換和面部交換方面,D-Edit 與 Anydoor、Paint-by-Example 和 TF-ICON 進(jìn)行了比較。
圖像引導(dǎo)編輯:圖像中的任何項(xiàng)目都可以被來(lái)自相同或不同圖像的另一個(gè)項(xiàng)目所替換
結(jié)論
這項(xiàng)工作提出了基于擴(kuò)散模型的多功能圖像編輯框架 D-Edit。D-Edit 將給定圖像分割成多個(gè)項(xiàng)目,每個(gè)項(xiàng)目都分配有一個(gè)提示來(lái)控制其在提示空間中的表示。圖像提示交叉注意力被解開(kāi)為一組項(xiàng)目提示交互。通過(guò)調(diào)整擴(kuò)散模型來(lái)建立項(xiàng)目提示關(guān)聯(lián),該模型學(xué)習(xí)使用給定的一組項(xiàng)目提示來(lái)重建原始圖像。定性和定量評(píng)估展示了在收集的各種圖像中編輯結(jié)果的質(zhì)量和多功能性。