自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Adobe發(fā)布TurboEdit：可以通過文本來編輯圖像，編輯時間<0.5秒！

作者：Zongze Wu等 2025-01-06 10:30:00

人工智能新聞

據(jù)我們所知，我們的方法是第一個在幾步擴(kuò)散模型的背景下探索圖像編輯的工作，也是第一個探索擴(kuò)散模型中基于編碼器的反演的工作。

今天給大家介紹Adobe研究院新的研究TurboEdit，可以通過文本來編輯圖像，通過一句話就能改變圖像中的頭發(fā)顏色、衣服、帽子、圍巾等等。而且編輯飛快，<0.5秒。簡直是圖像編輯的利器。

相關(guān)鏈接

項目：betterze.github.io/TurboEdit

論文：arxiv.org/abs/2408.08332

論文閱讀

TurboEdit: 即時基于文本的圖像編輯

摘要

我們在幾步擴(kuò)散模型的背景下解決了精確圖像反轉(zhuǎn)和分離圖像編輯的挑戰(zhàn)。

我們引入了一種基于編碼器的迭代反演技術(shù)。反演網(wǎng)絡(luò)以輸入圖像和上一步的重建圖像為條件，允許對輸入圖像進(jìn)行下一次重建校正。我們證明，通過以（自動生成的）詳細(xì)文本提示為條件，可以在幾步擴(kuò)散模型中輕松實現(xiàn)分離控制。

為了操縱反轉(zhuǎn)圖像，我們凍結(jié)噪聲圖并修改文本提示中的一個屬性（手動或通過 LLM 驅(qū)動的基于指令的編輯），從而生成與輸入圖像相似的新圖像，但只有一個屬性發(fā)生變化。它可以進(jìn)一步控制編輯強度并接受指導(dǎo)性文本提示。

我們的方法促進(jìn)了實時的真實文本引導(dǎo)圖像編輯，反轉(zhuǎn)中只需要 8 個功能評估 (NFE)（一次性成本），每次編輯只需要 4 個 NFE。我們的方法不僅速度快，而且明顯優(yōu)于最先進(jìn)的多步擴(kuò)散編輯技術(shù)。

方法

給定一個輸入的真實圖像 x0，我們利用 LLaVA 生成詳細(xì)的標(biāo)題 c。用戶可以修改 c 以創(chuàng)建新的文本提示 c ′。反演過程首先將 x0、c、當(dāng)前時間步長 t 和之前重建的圖像 x0,t+1（初始化為零矩陣）輸入反演網(wǎng)絡(luò)。然后，該網(wǎng)絡(luò)預(yù)測噪聲 ?t，隨后將其輸入到凍結(jié)的 SDXL-Turbo 模型中以生成新的重建圖像 x0,t。給定最終的反演噪聲 ?t 以及 c，我們可以使用 SDXL-Turbo 創(chuàng)建反演軌跡并重建 x0,0，這與 x0 非常相似。使用相同的噪聲 ?t 和略有不同的文本提示 c ′，從 t = T 開始到更小的 t，編輯軌跡將與反演軌跡非常相似，生成的圖像將與輸入圖像非常相似，僅在 c' 中指定的屬性上有所不同。

實驗

當(dāng)呈現(xiàn)簡潔的源文本提示時，文本空間中的微小編輯可能導(dǎo)致圖像空間中的布局和結(jié)構(gòu)發(fā)生重大變化。相反，在詳細(xì)的文本提示中進(jìn)行小文本編輯往往會導(dǎo)致圖像空間中發(fā)生更簡單的變化。結(jié)果來自使用相同隨機(jī)種子的單步圖像生成。下面提供了標(biāo)題和顏色編碼的修改區(qū)域。

給定詳細(xì)的源文本和相應(yīng)的目標(biāo)文本，我們可以對文本嵌入進(jìn)行插值，并在圖像空間中生成平滑的插值，即使對于較大的結(jié)構(gòu)變化也是如此。

使用 PIE-Bench 數(shù)據(jù)集中的描述性文本進(jìn)行圖像編輯比較。效率是在單個 H100 GPU 中測量的。我們的方法實現(xiàn)了最佳的背景保留和剪輯相似性，同時比其他方法快得多（4 步 DDIM 除外）。

我們比較了使用描述性文本提示作為指導(dǎo)的方法。盡管我們的方法只需要四個步驟，但它的表現(xiàn)優(yōu)于多步驟方法，特別是在需要對屬性進(jìn)行重大結(jié)構(gòu)變化的場景中，例如添加帽子或?qū)⒛腥俗兂膳?。相比之下，InfEdit 和 Pix2PixZero 在背景和身份保存方面遇到了困難。同樣，Ledits 和 Ledits++ 無法有效處理大的結(jié)構(gòu)變化，這一點從它們無法添加高頂禮帽或?qū)⒛腥俗兂膳司涂梢钥闯觥?/span>

我們評估了利用指導(dǎo)性提示作為指導(dǎo)的方法。雖然我們的方法不需要任何意外訓(xùn)練，只需要四個采樣步驟，但在身份保存（貓到狗）和文本提示對齊（毛衣到 T 恤）方面，它優(yōu)于 InstructPix2Pix 及其變體。值得一提的是，InstructPix2pIx 及其變體需要收集大規(guī)模意外訓(xùn)練集、計算密集型訓(xùn)練和多步驟采樣。

結(jié)論

據(jù)我們所知，我們的方法是第一個在幾步擴(kuò)散模型的背景下探索圖像編輯的工作，也是第一個探索擴(kuò)散模型中基于編碼器的反演的工作。我們證明，通過對（自動生成的）詳細(xì)文本提示進(jìn)行條件處理，可以在幾步擴(kuò)散模型中輕松實現(xiàn)解纏結(jié)控制。我們的方法使用戶能夠以交互速率進(jìn)行逼真的文本引導(dǎo)圖像編輯，反演和編輯過程都在幾毫秒內(nèi)完成。

責(zé)任編輯：張燕妮來源： AIGC Studio

圖像 AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="dd1e6"></center>