自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Adobe發(fā)布TurboEdit:可以通過文本來編輯圖像,編輯時間<0.5秒!

人工智能 新聞
據(jù)我們所知,我們的方法是第一個在幾步擴(kuò)散模型的背景下探索圖像編輯的工作,也是第一個探索擴(kuò)散模型中基于編碼器的反演的工作。

今天給大家介紹Adobe研究院新的研究TurboEdit,可以通過文本來編輯圖像,通過一句話就能改變圖像中的頭發(fā)顏色、衣服、帽子、圍巾等等。而且編輯飛快,<0.5秒。簡直是圖像編輯的利器。

圖片


圖片

相關(guān)鏈接

項目:betterze.github.io/TurboEdit

論文:arxiv.org/abs/2408.08332

論文閱讀

圖片

TurboEdit: 即時基于文本的圖像編輯

摘要

我們在幾步擴(kuò)散模型的背景下解決了精確圖像反轉(zhuǎn)和分離圖像編輯的挑戰(zhàn)。

我們引入了一種基于編碼器的迭代反演技術(shù)。反演網(wǎng)絡(luò)以輸入圖像和上一步的重建圖像為條件,允許對輸入圖像進(jìn)行下一次重建校正。我們證明,通過以(自動生成的)詳細(xì)文本提示為條件,可以在幾步擴(kuò)散模型中輕松實現(xiàn)分離控制。

為了操縱反轉(zhuǎn)圖像,我們凍結(jié)噪聲圖并修改文本提示中的一個屬性(手動或通過 LLM 驅(qū)動的基于指令的編輯),從而生成與輸入圖像相似的新圖像,但只有一個屬性發(fā)生變化。它可以進(jìn)一步控制編輯強度并接受指導(dǎo)性文本提示。

我們的方法促進(jìn)了實時的真實文本引導(dǎo)圖像編輯,反轉(zhuǎn)中只需要 8 個功能評估 (NFE)(一次性成本),每次編輯只需要 4 個 NFE。我們的方法不僅速度快,而且明顯優(yōu)于最先進(jìn)的多步擴(kuò)散編輯技術(shù)。

方法

圖片

給定一個輸入的真實圖像 x0,我們利用 LLaVA 生成詳細(xì)的標(biāo)題 c。用戶可以修改 c 以創(chuàng)建新的文本提示 c ′。反演過程首先將 x0、c、當(dāng)前時間步長 t 和之前重建的圖像 x0,t+1(初始化為零矩陣)輸入反演網(wǎng)絡(luò)。然后,該網(wǎng)絡(luò)預(yù)測噪聲 ?t,隨后將其輸入到凍結(jié)的 SDXL-Turbo 模型中以生成新的重建圖像 x0,t。給定最終的反演噪聲 ?t 以及 c,我們可以使用 SDXL-Turbo 創(chuàng)建反演軌跡并重建 x0,0,這與 x0 非常相似。使用相同的噪聲 ?t 和略有不同的文本提示 c ′,從 t = T 開始到更小的 t,編輯軌跡將與反演軌跡非常相似,生成的圖像將與輸入圖像非常相似,僅在 c' 中指定的屬性上有所不同。

實驗

圖片當(dāng)呈現(xiàn)簡潔的源文本提示時,文本空間中的微小編輯可能導(dǎo)致圖像空間中的布局和結(jié)構(gòu)發(fā)生重大變化。相反,在詳細(xì)的文本提示中進(jìn)行小文本編輯往往會導(dǎo)致圖像空間中發(fā)生更簡單的變化。結(jié)果來自使用相同隨機(jī)種子的單步圖像生成。下面提供了標(biāo)題和顏色編碼的修改區(qū)域。

圖片

圖片給定詳細(xì)的源文本和相應(yīng)的目標(biāo)文本,我們可以對文本嵌入進(jìn)行插值,并在圖像空間中生成平滑的插值,即使對于較大的結(jié)構(gòu)變化也是如此。

圖片使用 PIE-Bench 數(shù)據(jù)集中的描述性文本進(jìn)行圖像編輯比較。效率是在單個 H100 GPU 中測量的。我們的方法實現(xiàn)了最佳的背景保留和剪輯相似性,同時比其他方法快得多(4 步 DDIM 除外)。

圖片我們比較了使用描述性文本提示作為指導(dǎo)的方法。盡管我們的方法只需要四個步驟,但它的表現(xiàn)優(yōu)于多步驟方法,特別是在需要對屬性進(jìn)行重大結(jié)構(gòu)變化的場景中,例如添加帽子或?qū)⒛腥俗兂膳?。相比之下,InfEdit 和 Pix2PixZero 在背景和身份保存方面遇到了困難。同樣,Ledits 和 Ledits++ 無法有效處理大的結(jié)構(gòu)變化,這一點從它們無法添加高頂禮帽或?qū)⒛腥俗兂膳司涂梢钥闯觥?/span>

圖片我們評估了利用指導(dǎo)性提示作為指導(dǎo)的方法。雖然我們的方法不需要任何意外訓(xùn)練,只需要四個采樣步驟,但在身份保存(貓到狗)和文本提示對齊(毛衣到 T 恤)方面,它優(yōu)于 InstructPix2Pix 及其變體。值得一提的是,InstructPix2pIx 及其變體需要收集大規(guī)模意外訓(xùn)練集、計算密集型訓(xùn)練和多步驟采樣。

結(jié)論

據(jù)我們所知,我們的方法是第一個在幾步擴(kuò)散模型的背景下探索圖像編輯的工作,也是第一個探索擴(kuò)散模型中基于編碼器的反演的工作。我們證明,通過對(自動生成的)詳細(xì)文本提示進(jìn)行條件處理,可以在幾步擴(kuò)散模型中輕松實現(xiàn)解纏結(jié)控制。我們的方法使用戶能夠以交互速率進(jìn)行逼真的文本引導(dǎo)圖像編輯,反演和編輯過程都在幾毫秒內(nèi)完成。

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2015-03-27 15:41:42

AdobeAcrobat DC

2025-03-31 08:46:00

圖像AI生成

2023-01-02 13:12:07

模型圖像

2025-01-17 10:30:00

2025-01-17 10:30:00

Adobe生成式AI工具

2023-04-14 13:52:09

AI視頻

2015-06-26 11:11:50

GitHub Ato文本編輯器

2014-06-05 10:34:54

Notepad++

2025-01-07 11:00:00

AI生成

2025-01-03 10:30:00

2012-04-11 10:35:22

jEditorJava

2009-12-09 10:27:03

VS 2005文本編輯

2020-08-22 07:46:58

Photoflare開源圖像編輯器

2010-03-24 09:20:07

CentOS vi編輯

2022-01-04 08:16:49

編輯器在線編輯開發(fā)

2012-02-10 10:01:36

Java

2025-01-20 10:36:00

訓(xùn)練模型AI

2019-04-03 15:00:47

Python圖像編輯工具

2020-12-23 22:25:11

Vi文本編輯器Unix

2018-01-29 14:37:52

Linux文本編輯器Geany
點贊
收藏

51CTO技術(shù)棧公眾號