自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像編輯大一統(tǒng)?多功能圖像編輯框架Dedit:可基于圖像、文本和掩碼進(jìn)行圖像編輯

人工智能 新聞
這項(xiàng)工作提出了基于擴(kuò)散模型的多功能圖像編輯框架 D-Edit。

本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

今天給大家介紹一個(gè)基于圖像和文本的編輯的框架D-Edit,它是第一個(gè)可以通過(guò)掩碼編輯實(shí)現(xiàn)圖像編輯的項(xiàng)目,近期已經(jīng)在HuggingFace開(kāi)放使用,并一度沖到了熱門(mén)項(xiàng)目Top5。

圖片使用 D-Edit 的編輯流程。用戶首先上傳一張分割成多個(gè)項(xiàng)目的圖像。微調(diào) DPM 后,用戶可以進(jìn)行各種類型的控制,包括

(a) 使用文本提示替換模型;

(b) 細(xì)化分割造成的不完美細(xì)節(jié);

(c) 將包移到地面;

(d) 將手提包替換為參考圖另一個(gè)手提包;

(e) 重塑手提包;

(f) 調(diào)整模型和手提包的大?。?/span>

(g) 去除背景。

相關(guān)鏈接

論文地址:https://arxiv.org/pdf/2403.04880

代碼鏈接:https://github.com/collovlabs/d-edit

試用地址:https://huggingface.co/spaces/Collov-Labs/d-edit圖片

圖片

論文介紹

圖片

基于文本到圖像擴(kuò)散模型 (DPM) 的成功,圖像編輯是實(shí)現(xiàn)人類與 AI 生成內(nèi)容交互的重要應(yīng)用。在各種編輯方法中,提示空間內(nèi)的編輯因其容量大和控制語(yǔ)義的簡(jiǎn)單性而受到更多關(guān)注。然而,由于擴(kuò)散模型通常是在描述性文本標(biāo)題上進(jìn)行預(yù)訓(xùn)練的,直接編輯文本提示中的單詞通常會(huì)導(dǎo)致完全不同的生成圖像,違反了圖像編輯的要求。另一方面,現(xiàn)有的編輯方法通??紤]引入空間掩碼來(lái)保留未編輯區(qū)域的身份,而這些區(qū)域通常會(huì)被 DPM 忽略,因此導(dǎo)致不和諧的編輯結(jié)果。

針對(duì)這兩個(gè)挑戰(zhàn),在這項(xiàng)工作中,我們建議將綜合圖像提示交互分解為幾個(gè)項(xiàng)目提示交互,每個(gè)項(xiàng)目都鏈接到一個(gè)特殊的學(xué)習(xí)提示。由此產(chǎn)生的框架名為 D-Edit,基于預(yù)訓(xùn)練的擴(kuò)散模型,交叉注意層已解開(kāi),并采用兩步優(yōu)化來(lái)構(gòu)建項(xiàng)目提示關(guān)聯(lián)。然后,可以通過(guò)操作相應(yīng)的提示將多功能圖像編輯應(yīng)用于特定項(xiàng)目。我們展示了四種編輯操作的最新結(jié)果,包括基于圖像、基于文本、基于掩碼的編輯和項(xiàng)目刪除,涵蓋了大多數(shù)類型的編輯應(yīng)用程序,所有這些都在一個(gè)統(tǒng)一的框架內(nèi)。值得注意的是,D-Edit 是第一個(gè)可以 (1) 通過(guò)掩碼編輯實(shí)現(xiàn)項(xiàng)目編輯和 (2) 結(jié)合基于圖像和文本的編輯的框架。我們通過(guò)定性和定量評(píng)估展示了各種圖像集合的編輯結(jié)果的質(zhì)量和多功能性。

方法

圖片傳統(tǒng)全交叉注意和分組交叉注意的比較。查詢、鍵和值顯示為一維向量。對(duì)于分組交叉注意,每個(gè)項(xiàng)目(對(duì)應(yīng)于某些像素/塊)僅關(guān)注分配給它的 文本提示(兩個(gè)標(biāo)記)。

圖片

嵌入層在文本編碼器。新令牌 插入隨機(jī)初始化。

圖片

不同類型的圖像所需的操作 編輯。每個(gè)彩色道具都有一個(gè)獨(dú)特的提示符p。

實(shí)驗(yàn)

圖片

文本引導(dǎo)編輯。D-Edit允許選擇 任何項(xiàng)目分割和編輯使用文本提示。

圖片

圖片圖像引導(dǎo)編輯的定性比較。在項(xiàng)目替換和面部交換方面,D-Edit 與 Anydoor、Paint-by-Example 和 TF-ICON 進(jìn)行了比較。

圖片圖像引導(dǎo)編輯:圖像中的任何項(xiàng)目都可以被來(lái)自相同或不同圖像的另一個(gè)項(xiàng)目所替換

結(jié)論

這項(xiàng)工作提出了基于擴(kuò)散模型的多功能圖像編輯框架 D-Edit。D-Edit 將給定圖像分割成多個(gè)項(xiàng)目,每個(gè)項(xiàng)目都分配有一個(gè)提示來(lái)控制其在提示空間中的表示。圖像提示交叉注意力被解開(kāi)為一組項(xiàng)目提示交互。通過(guò)調(diào)整擴(kuò)散模型來(lái)建立項(xiàng)目提示關(guān)聯(lián),該模型學(xué)習(xí)使用給定的一組項(xiàng)目提示來(lái)重建原始圖像。定性和定量評(píng)估展示了在收集的各種圖像中編輯結(jié)果的質(zhì)量和多功能性。

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2019-04-03 15:00:47

Python圖像編輯工具

2015-03-27 15:41:42

AdobeAcrobat DC

2020-08-22 07:46:58

Photoflare開(kāi)源圖像編輯器

2023-01-02 13:12:07

模型圖像

2024-03-11 09:37:01

模型圖片編輯

2021-12-27 08:08:41

微軟WindowsWindows 11

2021-02-16 09:37:01

Filmulator開(kāi)源圖像編輯器

2023-05-22 07:29:59

AIDragGAN

2019-01-04 10:00:48

開(kāi)源技術(shù) 趨勢(shì)

2025-01-21 10:45:00

訓(xùn)練模型架構(gòu)

2024-03-04 00:45:00

視頻訓(xùn)練

2025-03-31 08:46:00

圖像AI生成

2024-07-01 10:19:22

2025-01-17 10:00:00

2020-11-22 21:47:26

Photoshop工具開(kāi)源

2024-11-11 11:34:26

2025-02-05 10:15:00

2024-06-28 18:18:22

2025-01-07 11:00:00

AI生成

2025-02-05 09:30:00

圖像模型生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)