超越DragDiffusion!哈工程聯(lián)合南大提出FastDrag:可以幾秒內(nèi)完成基于拖動(dòng)的圖像編輯
今天給大家介紹哈工程聯(lián)合南大等提出的圖像編輯方法FastDrag,該方法不需要LoRA訓(xùn)練,從而顯著減少了圖像編輯的時(shí)間消耗(FastDrag僅需3.12秒完成圖像編輯),比DiffEditor快近700%(DiffEditor需要21.68秒完成圖像編輯),比經(jīng)典的基于n步迭代的圖像編輯方法(如:DragDiffusion)快2800%(DragDiffusion需要1分21.54秒完成圖像編輯)。此外,即使沒(méi)有使用LCM加速的情況下,所提出的FastDrag方法仍然比目前SOTA的方法快很多。
相關(guān)鏈接
論文鏈接:https://arxiv.org/abs/2405.15769
項(xiàng)目主頁(yè): https://fastdrag-site.github.io/
論文閱讀
摘要
使用生成模型的基于拖動(dòng)的圖像編輯可以精確控制圖像內(nèi)容,用戶只需單擊幾下即可操作圖像中的任何內(nèi)容。然而,現(xiàn)行方法通常采用 n 步迭代進(jìn)行潛在語(yǔ)義優(yōu)化以實(shí)現(xiàn)基于拖動(dòng)的圖像編輯,這非常耗時(shí)并且限制了實(shí)際應(yīng)用。
在本文中,我們介紹了一種新穎的基于拖動(dòng)的一步式圖像編輯方法,即 FastDrag,以加速編輯過(guò)程。我們方法的核心是潛在扭曲函數(shù) (LWF),它模擬拉伸材料的行為來(lái)調(diào)整潛在空間內(nèi)各個(gè)像素的位置。這一創(chuàng)新實(shí)現(xiàn)了一步式潛在語(yǔ)義優(yōu)化,因此顯著提高了編輯速度。同時(shí),應(yīng)用 LWF 后出現(xiàn)的空區(qū)域可以通過(guò)我們提出的雙邊最近鄰插值 (BNNI) 策略解決。該策略使用來(lái)自鄰近區(qū)域的相似特征對(duì)這些區(qū)域進(jìn)行插值,從而增強(qiáng)了語(yǔ)義完整性。
此外,我們還引入了一致性保持策略,通過(guò)采用原始圖像中的語(yǔ)義信息(在擴(kuò)散反演期間保存為自注意力模塊中的鍵值對(duì))來(lái)指導(dǎo)擴(kuò)散采樣,以保持編輯后圖像與原始圖像之間的一致性。我們的 FastDrag 在 DragBench 數(shù)據(jù)集上得到了驗(yàn)證,與現(xiàn)有方法相比,它在處理時(shí)間上有了顯著的改進(jìn),同時(shí)實(shí)現(xiàn)了增強(qiáng)的編輯性能。
方法
FastDrag 的總體框架包括四個(gè)階段:擴(kuò)散反演、擴(kuò)散采樣、一步翹曲優(yōu)化和 BNNI。擴(kuò)散反演產(chǎn)生噪聲潛伏 zt,擴(kuò)散采樣從優(yōu)化的噪聲潛伏 z′t 重建圖像。一步翹曲優(yōu)化用于噪聲潛伏優(yōu)化,其中提出使用 LWF 生成翹曲向量,通過(guò)簡(jiǎn)單的潛伏重定位操作調(diào)整噪聲潛伏上各個(gè)像素的位置。BNNI 用于增強(qiáng)噪聲潛伏的語(yǔ)義完整性。引入了一致性保持策略來(lái)保持原始圖像和編輯圖像之間的一致性。
實(shí)驗(yàn)
與其他方法比較
與最先進(jìn)的方法進(jìn)行定性比較的說(shuō)明。
與 DragBench 上最先進(jìn)的方法進(jìn)行定量比較。這里,較低的 MD 表示更精確的拖拽結(jié)果,而較高的 1-LPIPS 則反映生成圖像與原始圖像之間的相似性更高。時(shí)間指標(biāo)表示基于 RTX 3090 的每個(gè)點(diǎn)所需的平均時(shí)間。準(zhǔn)備表示 LoRA 訓(xùn)練。? 表示沒(méi)有配備 LCM 的 U-Net 的 FastDrag。
消融實(shí)驗(yàn)
結(jié)論
本文提出了一種基于拖拽的新型圖像編輯方法 FastDrag,該方法比其他現(xiàn)有方法具有更快的圖像編輯速度。通過(guò)提出一步式變形優(yōu)化和 BNNI 策略,該方法可以在很短的時(shí)間內(nèi)根據(jù)拖拽指令實(shí)現(xiàn)高質(zhì)量的圖像編輯。此外,通過(guò)一致性保持策略,它確保了生成的圖像與原始圖像的一致性。