Adobe發(fā)布TurboEdit:可以通過文本來編輯圖像,編輯時間<0.5秒!
今天給大家介紹Adobe研究院新的研究TurboEdit,可以通過文本來編輯圖像,通過一句話就能改變圖像中的頭發(fā)顏色、衣服、帽子、圍巾等等。而且編輯飛快,<0.5秒。簡直是圖像編輯的利器。
相關(guān)鏈接
項目:betterze.github.io/TurboEdit
論文:arxiv.org/abs/2408.08332
論文閱讀
TurboEdit: 即時基于文本的圖像編輯
摘要
我們在幾步擴(kuò)散模型的背景下解決了精確圖像反轉(zhuǎn)和分離圖像編輯的挑戰(zhàn)。
我們引入了一種基于編碼器的迭代反演技術(shù)。反演網(wǎng)絡(luò)以輸入圖像和上一步的重建圖像為條件,允許對輸入圖像進(jìn)行下一次重建校正。我們證明,通過以(自動生成的)詳細(xì)文本提示為條件,可以在幾步擴(kuò)散模型中輕松實現(xiàn)分離控制。
為了操縱反轉(zhuǎn)圖像,我們凍結(jié)噪聲圖并修改文本提示中的一個屬性(手動或通過 LLM 驅(qū)動的基于指令的編輯),從而生成與輸入圖像相似的新圖像,但只有一個屬性發(fā)生變化。它可以進(jìn)一步控制編輯強度并接受指導(dǎo)性文本提示。
我們的方法促進(jìn)了實時的真實文本引導(dǎo)圖像編輯,反轉(zhuǎn)中只需要 8 個功能評估 (NFE)(一次性成本),每次編輯只需要 4 個 NFE。我們的方法不僅速度快,而且明顯優(yōu)于最先進(jìn)的多步擴(kuò)散編輯技術(shù)。
方法
給定一個輸入的真實圖像 x0,我們利用 LLaVA 生成詳細(xì)的標(biāo)題 c。用戶可以修改 c 以創(chuàng)建新的文本提示 c ′。反演過程首先將 x0、c、當(dāng)前時間步長 t 和之前重建的圖像 x0,t+1(初始化為零矩陣)輸入反演網(wǎng)絡(luò)。然后,該網(wǎng)絡(luò)預(yù)測噪聲 ?t,隨后將其輸入到凍結(jié)的 SDXL-Turbo 模型中以生成新的重建圖像 x0,t。給定最終的反演噪聲 ?t 以及 c,我們可以使用 SDXL-Turbo 創(chuàng)建反演軌跡并重建 x0,0,這與 x0 非常相似。使用相同的噪聲 ?t 和略有不同的文本提示 c ′,從 t = T 開始到更小的 t,編輯軌跡將與反演軌跡非常相似,生成的圖像將與輸入圖像非常相似,僅在 c' 中指定的屬性上有所不同。
實驗
當(dāng)呈現(xiàn)簡潔的源文本提示時,文本空間中的微小編輯可能導(dǎo)致圖像空間中的布局和結(jié)構(gòu)發(fā)生重大變化。相反,在詳細(xì)的文本提示中進(jìn)行小文本編輯往往會導(dǎo)致圖像空間中發(fā)生更簡單的變化。結(jié)果來自使用相同隨機(jī)種子的單步圖像生成。下面提供了標(biāo)題和顏色編碼的修改區(qū)域。
給定詳細(xì)的源文本和相應(yīng)的目標(biāo)文本,我們可以對文本嵌入進(jìn)行插值,并在圖像空間中生成平滑的插值,即使對于較大的結(jié)構(gòu)變化也是如此。
使用 PIE-Bench 數(shù)據(jù)集中的描述性文本進(jìn)行圖像編輯比較。效率是在單個 H100 GPU 中測量的。我們的方法實現(xiàn)了最佳的背景保留和剪輯相似性,同時比其他方法快得多(4 步 DDIM 除外)。
我們比較了使用描述性文本提示作為指導(dǎo)的方法。盡管我們的方法只需要四個步驟,但它的表現(xiàn)優(yōu)于多步驟方法,特別是在需要對屬性進(jìn)行重大結(jié)構(gòu)變化的場景中,例如添加帽子或?qū)⒛腥俗兂膳?。相比之下,InfEdit 和 Pix2PixZero 在背景和身份保存方面遇到了困難。同樣,Ledits 和 Ledits++ 無法有效處理大的結(jié)構(gòu)變化,這一點從它們無法添加高頂禮帽或?qū)⒛腥俗兂膳司涂梢钥闯觥?/span>
我們評估了利用指導(dǎo)性提示作為指導(dǎo)的方法。雖然我們的方法不需要任何意外訓(xùn)練,只需要四個采樣步驟,但在身份保存(貓到狗)和文本提示對齊(毛衣到 T 恤)方面,它優(yōu)于 InstructPix2Pix 及其變體。值得一提的是,InstructPix2pIx 及其變體需要收集大規(guī)模意外訓(xùn)練集、計算密集型訓(xùn)練和多步驟采樣。
結(jié)論
據(jù)我們所知,我們的方法是第一個在幾步擴(kuò)散模型的背景下探索圖像編輯的工作,也是第一個探索擴(kuò)散模型中基于編碼器的反演的工作。我們證明,通過對(自動生成的)詳細(xì)文本提示進(jìn)行條件處理,可以在幾步擴(kuò)散模型中輕松實現(xiàn)解纏結(jié)控制。我們的方法使用戶能夠以交互速率進(jìn)行逼真的文本引導(dǎo)圖像編輯,反演和編輯過程都在幾毫秒內(nèi)完成。