超越DragDiffusion!哈工程聯(lián)合南大提出FastDrag：可以幾秒內(nèi)完成基于拖動(dòng)的圖像編輯

作者：Xuanjia Zhao等 2025-02-05 10:15:00

本文提出了一種基于拖拽的新型圖像編輯方法 FastDrag，該方法比其他現(xiàn)有方法具有更快的圖像編輯速度。

今天給大家介紹哈工程聯(lián)合南大等提出的圖像編輯方法FastDrag，該方法不需要LoRA訓(xùn)練，從而顯著減少了圖像編輯的時(shí)間消耗（FastDrag僅需3.12秒完成圖像編輯），比DiffEditor快近700%（DiffEditor需要21.68秒完成圖像編輯），比經(jīng)典的基于n步迭代的圖像編輯方法（如：DragDiffusion）快2800%（DragDiffusion需要1分21.54秒完成圖像編輯）。此外，即使沒(méi)有使用LCM加速的情況下，所提出的FastDrag方法仍然比目前SOTA的方法快很多。

論文閱讀

摘要

使用生成模型的基于拖動(dòng)的圖像編輯可以精確控制圖像內(nèi)容，用戶只需單擊幾下即可操作圖像中的任何內(nèi)容。然而，現(xiàn)行方法通常采用 n 步迭代進(jìn)行潛在語(yǔ)義優(yōu)化以實(shí)現(xiàn)基于拖動(dòng)的圖像編輯，這非常耗時(shí)并且限制了實(shí)際應(yīng)用。

在本文中，我們介紹了一種新穎的基于拖動(dòng)的一步式圖像編輯方法，即 FastDrag，以加速編輯過(guò)程。我們方法的核心是潛在扭曲函數(shù) (LWF)，它模擬拉伸材料的行為來(lái)調(diào)整潛在空間內(nèi)各個(gè)像素的位置。這一創(chuàng)新實(shí)現(xiàn)了一步式潛在語(yǔ)義優(yōu)化，因此顯著提高了編輯速度。同時(shí)，應(yīng)用 LWF 后出現(xiàn)的空區(qū)域可以通過(guò)我們提出的雙邊最近鄰插值 (BNNI) 策略解決。該策略使用來(lái)自鄰近區(qū)域的相似特征對(duì)這些區(qū)域進(jìn)行插值，從而增強(qiáng)了語(yǔ)義完整性。

此外，我們還引入了一致性保持策略，通過(guò)采用原始圖像中的語(yǔ)義信息（在擴(kuò)散反演期間保存為自注意力模塊中的鍵值對(duì)）來(lái)指導(dǎo)擴(kuò)散采樣，以保持編輯后圖像與原始圖像之間的一致性。我們的 FastDrag 在 DragBench 數(shù)據(jù)集上得到了驗(yàn)證，與現(xiàn)有方法相比，它在處理時(shí)間上有了顯著的改進(jìn)，同時(shí)實(shí)現(xiàn)了增強(qiáng)的編輯性能。

方法

FastDrag 的總體框架包括四個(gè)階段：擴(kuò)散反演、擴(kuò)散采樣、一步翹曲優(yōu)化和 BNNI。擴(kuò)散反演產(chǎn)生噪聲潛伏 zt，擴(kuò)散采樣從優(yōu)化的噪聲潛伏 z′t 重建圖像。一步翹曲優(yōu)化用于噪聲潛伏優(yōu)化，其中提出使用 LWF 生成翹曲向量，通過(guò)簡(jiǎn)單的潛伏重定位操作調(diào)整噪聲潛伏上各個(gè)像素的位置。BNNI 用于增強(qiáng)噪聲潛伏的語(yǔ)義完整性。引入了一致性保持策略來(lái)保持原始圖像和編輯圖像之間的一致性。

實(shí)驗(yàn)

與其他方法比較

與最先進(jìn)的方法進(jìn)行定性比較的說(shuō)明。

與 DragBench 上最先進(jìn)的方法進(jìn)行定量比較。這里，較低的 MD 表示更精確的拖拽結(jié)果，而較高的 1-LPIPS 則反映生成圖像與原始圖像之間的相似性更高。時(shí)間指標(biāo)表示基于 RTX 3090 的每個(gè)點(diǎn)所需的平均時(shí)間。準(zhǔn)備表示 LoRA 訓(xùn)練。? 表示沒(méi)有配備 LCM 的 U-Net 的 FastDrag。

消融實(shí)驗(yàn)

結(jié)論

本文提出了一種基于拖拽的新型圖像編輯方法 FastDrag，該方法比其他現(xiàn)有方法具有更快的圖像編輯速度。通過(guò)提出一步式變形優(yōu)化和 BNNI 策略，該方法可以在很短的時(shí)間內(nèi)根據(jù)拖拽指令實(shí)現(xiàn)高質(zhì)量的圖像編輯。此外，通過(guò)一致性保持策略，它確保了生成的圖像與原始圖像的一致性。

責(zé)任編輯：張燕妮來(lái)源： AIGC Studio

圖像編輯模型 AI

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡