拖動(dòng)圖像編輯再升級(jí)！北大、騰訊提出DragonDiffusion，在擴(kuò)散模型上啟用拖動(dòng)式操作

作者：AIGC Studio 2025-02-05 09:30:00

在本文中，我們提出了一種新穎的圖像編輯方法DragonDiffusion，可在擴(kuò)散模型上實(shí)現(xiàn)Drag式的操作。

北大、騰訊提出的DragonDiffusion可以對(duì)生成或真實(shí)的圖像進(jìn)行多種編輯，包括移動(dòng)物體、調(diào)整物體大小、替換物體外觀、拖動(dòng)內(nèi)容等。值得注意的是，所有編輯和內(nèi)容保存信號(hào)都來(lái)自圖像本身，模型不需要微調(diào)或額外的模塊。

論文介紹

盡管現(xiàn)有的大規(guī)模文本轉(zhuǎn)圖像 (T2I) 模型能夠從詳細(xì)的文本描述生成高質(zhì)量的圖像，但它們往往缺乏對(duì)生成或真實(shí)圖像進(jìn)行精確編輯的能力。在本文中，我們提出了一種新穎的圖像編輯方法DragonDiffusion，可在擴(kuò)散模型上實(shí)現(xiàn)Drag式的操作。

具體而言，我們根據(jù)擴(kuò)散模型中中間特征的強(qiáng)對(duì)應(yīng)性構(gòu)建分類(lèi)器指導(dǎo)。它可以通過(guò)特征對(duì)應(yīng)損失將編輯信號(hào)轉(zhuǎn)換為梯度，以修改擴(kuò)散模型的中間表示?；谶@種指導(dǎo)策略，我們還構(gòu)建了一個(gè)多尺度指導(dǎo)，以考慮語(yǔ)義和幾何對(duì)齊。此外，還添加了跨分支自注意力以保持原始圖像和編輯結(jié)果之間的一致性。

我們的方法通過(guò)高效的設(shè)計(jì)，實(shí)現(xiàn)了對(duì)生成或真實(shí)圖像的各種編輯模式，例如對(duì)象移動(dòng)、對(duì)象調(diào)整大小、對(duì)象外觀替換和內(nèi)容拖動(dòng)。值得注意的是，所有編輯和內(nèi)容保存信號(hào)都來(lái)自圖像本身，模型不需要微調(diào)或額外的模塊。