自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越DragDiffusion!哈工程聯(lián)合南大提出FastDrag:可以幾秒內(nèi)完成基于拖動(dòng)的圖像編輯

人工智能 新聞
本文提出了一種基于拖拽的新型圖像編輯方法 FastDrag,該方法比其他現(xiàn)有方法具有更快的圖像編輯速度。

今天給大家介紹哈工程聯(lián)合南大等提出的圖像編輯方法FastDrag,該方法不需要LoRA訓(xùn)練,從而顯著減少了圖像編輯的時(shí)間消耗(FastDrag僅需3.12秒完成圖像編輯),比DiffEditor快近700%(DiffEditor需要21.68秒完成圖像編輯),比經(jīng)典的基于n步迭代的圖像編輯方法(如:DragDiffusion)快2800%(DragDiffusion需要1分21.54秒完成圖像編輯)。此外,即使沒(méi)有使用LCM加速的情況下,所提出的FastDrag方法仍然比目前SOTA的方法快很多。

圖片圖片

相關(guān)鏈接

論文鏈接:https://arxiv.org/abs/2405.15769

項(xiàng)目主頁(yè): https://fastdrag-site.github.io/

論文閱讀

圖片

摘要

使用生成模型的基于拖動(dòng)的圖像編輯可以精確控制圖像內(nèi)容,用戶只需單擊幾下即可操作圖像中的任何內(nèi)容。然而,現(xiàn)行方法通常采用 n 步迭代進(jìn)行潛在語(yǔ)義優(yōu)化以實(shí)現(xiàn)基于拖動(dòng)的圖像編輯,這非常耗時(shí)并且限制了實(shí)際應(yīng)用。

在本文中,我們介紹了一種新穎的基于拖動(dòng)的一步式圖像編輯方法,即 FastDrag,以加速編輯過(guò)程。我們方法的核心是潛在扭曲函數(shù) (LWF),它模擬拉伸材料的行為來(lái)調(diào)整潛在空間內(nèi)各個(gè)像素的位置。這一創(chuàng)新實(shí)現(xiàn)了一步式潛在語(yǔ)義優(yōu)化,因此顯著提高了編輯速度。同時(shí),應(yīng)用 LWF 后出現(xiàn)的空區(qū)域可以通過(guò)我們提出的雙邊最近鄰插值 (BNNI) 策略解決。該策略使用來(lái)自鄰近區(qū)域的相似特征對(duì)這些區(qū)域進(jìn)行插值,從而增強(qiáng)了語(yǔ)義完整性。

此外,我們還引入了一致性保持策略,通過(guò)采用原始圖像中的語(yǔ)義信息(在擴(kuò)散反演期間保存為自注意力模塊中的鍵值對(duì))來(lái)指導(dǎo)擴(kuò)散采樣,以保持編輯后圖像與原始圖像之間的一致性。我們的 FastDrag 在 DragBench 數(shù)據(jù)集上得到了驗(yàn)證,與現(xiàn)有方法相比,它在處理時(shí)間上有了顯著的改進(jìn),同時(shí)實(shí)現(xiàn)了增強(qiáng)的編輯性能。

方法

圖片FastDrag 的總體框架包括四個(gè)階段:擴(kuò)散反演、擴(kuò)散采樣、一步翹曲優(yōu)化和 BNNI。擴(kuò)散反演產(chǎn)生噪聲潛伏 zt,擴(kuò)散采樣從優(yōu)化的噪聲潛伏 z′t 重建圖像。一步翹曲優(yōu)化用于噪聲潛伏優(yōu)化,其中提出使用 LWF 生成翹曲向量,通過(guò)簡(jiǎn)單的潛伏重定位操作調(diào)整噪聲潛伏上各個(gè)像素的位置。BNNI 用于增強(qiáng)噪聲潛伏的語(yǔ)義完整性。引入了一致性保持策略來(lái)保持原始圖像和編輯圖像之間的一致性。

實(shí)驗(yàn)

圖片圖片

與其他方法比較

圖片與最先進(jìn)的方法進(jìn)行定性比較的說(shuō)明。

圖片與 DragBench 上最先進(jìn)的方法進(jìn)行定量比較。這里,較低的 MD 表示更精確的拖拽結(jié)果,而較高的 1-LPIPS 則反映生成圖像與原始圖像之間的相似性更高。時(shí)間指標(biāo)表示基于 RTX 3090 的每個(gè)點(diǎn)所需的平均時(shí)間。準(zhǔn)備表示 LoRA 訓(xùn)練。? 表示沒(méi)有配備 LCM 的 U-Net 的 FastDrag。

消融實(shí)驗(yàn)

圖片圖片

結(jié)論

本文提出了一種基于拖拽的新型圖像編輯方法 FastDrag,該方法比其他現(xiàn)有方法具有更快的圖像編輯速度。通過(guò)提出一步式變形優(yōu)化和 BNNI 策略,該方法可以在很短的時(shí)間內(nèi)根據(jù)拖拽指令實(shí)現(xiàn)高質(zhì)量的圖像編輯。此外,通過(guò)一致性保持策略,它確保了生成的圖像與原始圖像的一致性。

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2025-02-05 09:30:00

圖像模型生成

2025-01-17 10:30:00

2025-01-07 11:00:00

AI生成

2021-12-01 10:05:12

模型人工智能計(jì)算

2023-05-22 07:29:59

AIDragGAN

2019-04-03 15:00:47

Python圖像編輯工具

2025-01-21 10:45:00

訓(xùn)練模型架構(gòu)

2025-01-20 10:36:00

訓(xùn)練模型AI

2020-08-22 07:46:58

Photoflare開源圖像編輯器

2025-03-31 08:46:00

圖像AI生成

2024-03-11 09:37:01

模型圖片編輯

2024-07-01 10:19:22

2024-12-20 13:50:00

訓(xùn)練模型AI

2024-09-14 14:15:00

數(shù)據(jù)訓(xùn)練

2015-03-27 15:41:42

AdobeAcrobat DC

2021-02-16 09:37:01

Filmulator開源圖像編輯器

2023-01-02 13:12:07

模型圖像

2021-12-27 08:08:41

微軟WindowsWindows 11

2019-01-04 10:00:48

開源技術(shù) 趨勢(shì)

2020-11-22 21:47:26

Photoshop工具開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)