自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

擋不住了！擴(kuò)散模型只用文字就能PS照片了

作者：機(jī)器之心 2022-10-19 14:12:40

人工智能新聞

甲方：「我想讓這只小狗坐下?！笰I：安排！

動(dòng)動(dòng)嘴皮子就能把圖改好是甲方和乙方的共同愿望，但通常只有乙方才知道其中的酸楚。如今，AI 卻向這個(gè)高難度問(wèn)題發(fā)起了挑戰(zhàn)。

在一篇 10 月 17 日上傳到 arXiv 的論文中，來(lái)自谷歌研究院、以色列理工學(xué)院、以色列魏茨曼科學(xué)研究所的研究者介紹了一種基于擴(kuò)散模型的真實(shí)圖像編輯方法——Imagic，只用文字就能實(shí)現(xiàn)真實(shí)照片的 PS，比如讓一個(gè)人豎起大拇指、讓兩只鸚鵡親吻：

「求大神幫忙 P 一個(gè)點(diǎn)贊手勢(shì)?！箶U(kuò)散模型：沒(méi)問(wèn)題，包在我身上。

從論文中的圖像可以看出，修改后的圖像依然非常自然，對(duì)需要修改的內(nèi)容之外的信息也沒(méi)有明顯的破壞。類(lèi)似的研究還有谷歌研究院和以色列特拉維夫大學(xué)之前合作完成的 Prompt-to-Prompt（Imagic 論文中的參考文獻(xiàn) [16]）：

項(xiàng)目鏈接（含論文、代碼）：https://prompt-to-prompt.github.io/

因此，有人感慨說(shuō)，「這個(gè)領(lǐng)域變化快到有點(diǎn)夸張了，」以后甲方真的動(dòng)動(dòng)嘴就可以想怎么改就怎么改了。

Imagic 論文概覽

論文鏈接：?https://arxiv.org/pdf/2210.09276.pdf?

將大幅度的語(yǔ)義編輯應(yīng)用于真實(shí)照片一直是圖像處理中一個(gè)有趣的任務(wù)。近年來(lái)，由于基于深度學(xué)習(xí)的系統(tǒng)取得了長(zhǎng)足的進(jìn)步，該任務(wù)已經(jīng)引起了研究社區(qū)相當(dāng)大的興趣。

用簡(jiǎn)單的自然語(yǔ)言文本 prompt 來(lái)描述我們想要的編輯（比如讓一只狗坐下）與人類(lèi)之間的交流方式高度一致。因此，研究者們開(kāi)發(fā)了很多基于文本的圖像編輯方法，而且這些方法效果也都不錯(cuò)。

然而，目前的主流方法都或多或少地存在一些問(wèn)題，比如：

1、僅限于一組特定的編輯，如在圖像上作畫(huà)、添加對(duì)象或遷移風(fēng)格 [6, 28]；

2、只能對(duì)特定領(lǐng)域的圖像或合成的圖像進(jìn)行操作 [16, 36]；

3、除了輸入圖像外，它們還需要輔助輸入，例如指示所需編輯位置的圖像 mask、同一主題的多個(gè)圖像或描述原始圖像的文本 [6, 13, 40, 44]。

本文提出了一種語(yǔ)義圖像編輯方法「Imagic」以緩解上述問(wèn)題。只需給定一個(gè)待編輯的輸入圖像和一個(gè)描述目標(biāo)編輯的單一文本 prompt，該方法就可以對(duì)真實(shí)的高分辨率圖像進(jìn)行復(fù)雜的非剛性編輯。所產(chǎn)生的圖像輸出能夠與目標(biāo)文本很好地對(duì)齊，同時(shí)保留了原始圖像的整體背景、結(jié)構(gòu)和組成。

如圖 1 所示，Imagic 可以讓兩只鸚鵡接吻或讓一個(gè)人豎起大拇指。它提供的基于文本的語(yǔ)義編輯首次將如此復(fù)雜的操作應(yīng)用于單個(gè)真實(shí)的高分辨率圖像，包括編輯多個(gè)對(duì)象。除了這些復(fù)雜的變化之外，Imagic 還可以進(jìn)行各種各樣的編輯，包括風(fēng)格變化、顏色變化和對(duì)象添加。

為了實(shí)現(xiàn)這一壯舉，研究者利用了最近成功的文本到圖像的擴(kuò)散模型。擴(kuò)散模型是強(qiáng)大的生成模型，能夠進(jìn)行高質(zhì)量的圖像合成。當(dāng)以自然語(yǔ)言文本 prompt 為條件時(shí)，它能夠生成與要求的文本相一致的圖像。在這項(xiàng)工作中，研究者將它們用于編輯真實(shí)的圖像而不是合成新的圖像。

如圖 3 所示，Imagic 完成上述任務(wù)只需要三步走：首先優(yōu)化一個(gè)文本嵌入，使其產(chǎn)生與輸入圖像相似的圖像。然后，對(duì)預(yù)訓(xùn)練的生成擴(kuò)散模型進(jìn)行微調(diào)，以?xún)?yōu)化嵌入為條件，更好地重建輸入圖像。最后，在目標(biāo)文本嵌入和優(yōu)化后的嵌入之間進(jìn)行線(xiàn)性插值，從而得到一個(gè)結(jié)合了輸入圖像和目標(biāo)文本的表征。然后，這個(gè)表征被傳遞給帶有微調(diào)模型的生成擴(kuò)散過(guò)程，輸出最終編輯的圖像。

為了證明 Imagic 的實(shí)力，研究者進(jìn)行了幾個(gè)實(shí)驗(yàn)，將該方法應(yīng)用于不同領(lǐng)域的眾多圖像，并在所有的實(shí)驗(yàn)中都產(chǎn)生了令人印象深刻的結(jié)果。Imagic 輸出的高質(zhì)量圖像與輸入的圖像高度相似，并與所要求的目標(biāo)文本保持一致。這些結(jié)果展示了 Imagic 的通用性、多功能性和質(zhì)量。研究者還進(jìn)行了一項(xiàng)消融研究，強(qiáng)調(diào)了本文所提出的方法中每個(gè)組件的效果。與最近的一系列方法相比，Imagic 表現(xiàn)出明顯更好的編輯質(zhì)量和對(duì)原始圖像的忠實(shí)度，特別是在承擔(dān)高度復(fù)雜的非剛性編輯任務(wù)時(shí)。

方法細(xì)節(jié)

給定一個(gè)輸入圖像 x 和一個(gè)目標(biāo)文本，本文旨在以滿(mǎn)足給定文本的方式編輯圖像，同時(shí)還能保留圖像 x 的大量細(xì)節(jié)。為了實(shí)現(xiàn)這一目標(biāo)，本文利用擴(kuò)散模型的文本嵌入層來(lái)執(zhí)行語(yǔ)義操作，這種方式有點(diǎn)類(lèi)似于基于 GAN 的方法。研究人員從尋找有意義的表示開(kāi)始，然后經(jīng)過(guò)生成過(guò)程，生成與輸入圖像相似的圖像。之后再對(duì)生成模型進(jìn)行優(yōu)化，以更好地重建輸入圖像，最后一步是對(duì)潛在表示進(jìn)行處理，得到編輯結(jié)果。

如上圖 3 所示，本文的方法由三個(gè)階段構(gòu)成：（1）優(yōu)化文本嵌入以在目標(biāo)文本嵌入附近找到與給定圖像最匹配的文本嵌入；（2）微調(diào)擴(kuò)散模型以更好地匹配給定圖像；（3）在優(yōu)化后的嵌入和目標(biāo)文本嵌入之間進(jìn)行線(xiàn)性插值，以找到一個(gè)既能達(dá)到圖像保真度又能達(dá)到目標(biāo)文本對(duì)齊的點(diǎn)。

更具體的細(xì)節(jié)如下：

文本嵌入優(yōu)化?

首先目標(biāo)文本被輸入到文本編碼器，該編碼器輸出相應(yīng)的文本嵌入，其中 T 是給定目標(biāo)文本的 token 數(shù)，d 是 token 嵌入維數(shù)。然后，研究者對(duì)生成擴(kuò)散模型 f_θ的參數(shù)進(jìn)行凍結(jié)，并利用去噪擴(kuò)散目標(biāo)（denoising diffusion objective）優(yōu)化目標(biāo)文本嵌入 e_tgt

其中，x 是輸入圖像，是 x 的一個(gè)噪聲版本，θ為預(yù)訓(xùn)練擴(kuò)散模型權(quán)值。這樣使得文本嵌入盡可能地匹配輸入圖像。此過(guò)程運(yùn)行步驟相對(duì)較少，從而保持接近最初的目標(biāo)文本嵌入，獲得優(yōu)化嵌入 e_opt。

模型微調(diào)?

這里要注意的是，此處所獲得的優(yōu)化嵌入 e_opt 在通過(guò)生成擴(kuò)散過(guò)程時(shí)，不一定會(huì)完全和輸入圖像 x 相似，因?yàn)樗鼈冎贿\(yùn)行了少量的優(yōu)化步驟（參見(jiàn)圖 5 中的左上圖）。因此，在第二個(gè)階段，作者通過(guò)使用公式（2）中提供的相同損失函數(shù)優(yōu)化模型參數(shù) θ 來(lái)縮小這一差距，同時(shí)凍結(jié)優(yōu)化嵌入。

文本嵌入插值?

Imagic 的第三個(gè)階段是在 e_tgt 和 e_opt 之間進(jìn)行簡(jiǎn)單的線(xiàn)性插值。對(duì)于給定的超參數(shù)，得到然后，作者使用微調(diào)模型，以為條件，應(yīng)用基礎(chǔ)生成擴(kuò)散過(guò)程。這會(huì)產(chǎn)生一個(gè)低分辨率的編輯圖像，然后使用微調(diào)輔助模型對(duì)目標(biāo)文本進(jìn)行超分辨率處理。這個(gè)生成過(guò)程輸出最終的高分辨率編輯圖像。

實(shí)驗(yàn)結(jié)果

為了測(cè)試效果，研究者將該方法應(yīng)用于來(lái)自不同領(lǐng)域的大量真實(shí)圖片，用簡(jiǎn)單的文字 prompt 來(lái)描述不同的編輯類(lèi)別，如：風(fēng)格、外觀(guān)、顏色、姿勢(shì)和構(gòu)圖。他們從 Unsplash 和 Pixabay 收集了高分辨率的免費(fèi)使用的圖片，經(jīng)過(guò)優(yōu)化，用 5 個(gè)隨機(jī)種子生成每個(gè)編輯，并選擇最佳結(jié)果。Imagic 展示了令人印象深刻的結(jié)果，它能夠在任何一般的輸入圖像和文本上應(yīng)用各種編輯類(lèi)別，如圖 1 和圖 7 中所示。

圖 2 中是對(duì)同一張圖片進(jìn)行了不同的文字 prompt 實(shí)驗(yàn)，顯示了 Imagic 的多功能性。

由于研究者利用的底層生成擴(kuò)散模型是基于概率的，該方法可以對(duì)單一的圖像 - 文本對(duì)生成不同的結(jié)果。圖 4 展示了使用不同的隨機(jī)種子進(jìn)行編輯的多個(gè)選項(xiàng)（對(duì)每個(gè)種子的η稍作調(diào)整）。這種隨機(jī)性允許用戶(hù)在這些不同的選項(xiàng)中進(jìn)行選擇，因?yàn)樽匀徽Z(yǔ)言的文本 prompt 一般都是模糊和不精確的。

?

研究將 Imagic 與目前領(lǐng)先的通用方法進(jìn)行了比較，這些方法對(duì)單一輸入的真實(shí)世界圖像進(jìn)行操作，并根據(jù)文本 prompt 對(duì)其進(jìn)行編輯。圖 6 展示了 Text2LIVE[7] 和 SDEdit[32] 等不同方法的編輯結(jié)果。

可以看出，本文的方法對(duì)輸入圖像保持了高保真度，同時(shí)恰當(dāng)?shù)剡M(jìn)行了所需的編輯。當(dāng)被賦予復(fù)雜的非剛性編輯任務(wù)時(shí)，比如「讓狗坐下」，本文方法明顯優(yōu)于以前的技術(shù)。Imagic 是第一個(gè)在單一真實(shí)世界圖像上應(yīng)用這種復(fù)雜的基于文本的編輯的 demo。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<em id="4blw0"></em>