拖動(dòng)圖像編輯再升級(jí)!北大、騰訊提出DragonDiffusion,在擴(kuò)散模型上啟用拖動(dòng)式操作
北大、騰訊提出的DragonDiffusion可以對(duì)生成或真實(shí)的圖像進(jìn)行多種編輯,包括移動(dòng)物體、調(diào)整物體大小、替換物體外觀、拖動(dòng)內(nèi)容等。值得注意的是,所有編輯和內(nèi)容保存信號(hào)都來(lái)自圖像本身,模型不需要微調(diào)或額外的模塊。
論文介紹
盡管現(xiàn)有的大規(guī)模文本轉(zhuǎn)圖像 (T2I) 模型能夠從詳細(xì)的文本描述生成高質(zhì)量的圖像,但它們往往缺乏對(duì)生成或真實(shí)圖像進(jìn)行精確編輯的能力。在本文中,我們提出了一種新穎的圖像編輯方法DragonDiffusion,可在擴(kuò)散模型上實(shí)現(xiàn)Drag式的操作。
具體而言,我們根據(jù)擴(kuò)散模型中中間特征的強(qiáng)對(duì)應(yīng)性構(gòu)建分類(lèi)器指導(dǎo)。它可以通過(guò)特征對(duì)應(yīng)損失將編輯信號(hào)轉(zhuǎn)換為梯度,以修改擴(kuò)散模型的中間表示?;谶@種指導(dǎo)策略,我們還構(gòu)建了一個(gè)多尺度指導(dǎo),以考慮語(yǔ)義和幾何對(duì)齊。此外,還添加了跨分支自注意力以保持原始圖像和編輯結(jié)果之間的一致性。
我們的方法通過(guò)高效的設(shè)計(jì),實(shí)現(xiàn)了對(duì)生成或真實(shí)圖像的各種編輯模式,例如對(duì)象移動(dòng)、對(duì)象調(diào)整大小、對(duì)象外觀替換和內(nèi)容拖動(dòng)。值得注意的是,所有編輯和內(nèi)容保存信號(hào)都來(lái)自圖像本身,模型不需要微調(diào)或額外的模塊。
方法
所提出的DragonDiffusion 的流程。我們提出的方法由指導(dǎo)分支和生成分支組成。指導(dǎo)分支通過(guò)中間特征的對(duì)應(yīng)關(guān)系為生成分支提供編輯和一致性指導(dǎo)。