擋不住了!擴(kuò)散模型只用文字就能PS照片了
動(dòng)動(dòng)嘴皮子就能把圖改好是甲方和乙方的共同愿望,但通常只有乙方才知道其中的酸楚。如今,AI 卻向這個(gè)高難度問(wèn)題發(fā)起了挑戰(zhàn)。
在一篇 10 月 17 日上傳到 arXiv 的論文中,來(lái)自谷歌研究院、以色列理工學(xué)院、以色列魏茨曼科學(xué)研究所的研究者介紹了一種基于擴(kuò)散模型的真實(shí)圖像編輯方法——Imagic,只用文字就能實(shí)現(xiàn)真實(shí)照片的 PS,比如讓一個(gè)人豎起大拇指、讓兩只鸚鵡親吻:
「求大神幫忙 P 一個(gè)點(diǎn)贊手勢(shì)?!箶U(kuò)散模型:沒(méi)問(wèn)題,包在我身上。
從論文中的圖像可以看出,修改后的圖像依然非常自然,對(duì)需要修改的內(nèi)容之外的信息也沒(méi)有明顯的破壞。類(lèi)似的研究還有谷歌研究院和以色列特拉維夫大學(xué)之前合作完成的 Prompt-to-Prompt(Imagic 論文中的參考文獻(xiàn) [16]):
項(xiàng)目鏈接(含論文、代碼):https://prompt-to-prompt.github.io/
因此,有人感慨說(shuō),「這個(gè)領(lǐng)域變化快到有點(diǎn)夸張了,」以后甲方真的動(dòng)動(dòng)嘴就可以想怎么改就怎么改了。
Imagic 論文概覽
論文鏈接:?https://arxiv.org/pdf/2210.09276.pdf?
將大幅度的語(yǔ)義編輯應(yīng)用于真實(shí)照片一直是圖像處理中一個(gè)有趣的任務(wù)。近年來(lái),由于基于深度學(xué)習(xí)的系統(tǒng)取得了長(zhǎng)足的進(jìn)步,該任務(wù)已經(jīng)引起了研究社區(qū)相當(dāng)大的興趣。
用簡(jiǎn)單的自然語(yǔ)言文本 prompt 來(lái)描述我們想要的編輯(比如讓一只狗坐下)與人類(lèi)之間的交流方式高度一致。因此,研究者們開(kāi)發(fā)了很多基于文本的圖像編輯方法,而且這些方法效果也都不錯(cuò)。
然而,目前的主流方法都或多或少地存在一些問(wèn)題,比如:
1、僅限于一組特定的編輯,如在圖像上作畫(huà)、添加對(duì)象或遷移風(fēng)格 [6, 28];
2、只能對(duì)特定領(lǐng)域的圖像或合成的圖像進(jìn)行操作 [16, 36];
3、除了輸入圖像外,它們還需要輔助輸入,例如指示所需編輯位置的圖像 mask、同一主題的多個(gè)圖像或描述原始圖像的文本 [6, 13, 40, 44]。
本文提出了一種語(yǔ)義圖像編輯方法「Imagic」以緩解上述問(wèn)題。只需給定一個(gè)待編輯的輸入圖像和一個(gè)描述目標(biāo)編輯的單一文本 prompt,該方法就可以對(duì)真實(shí)的高分辨率圖像進(jìn)行復(fù)雜的非剛性編輯。所產(chǎn)生的圖像輸出能夠與目標(biāo)文本很好地對(duì)齊,同時(shí)保留了原始圖像的整體背景、結(jié)構(gòu)和組成。
如圖 1 所示,Imagic 可以讓兩只鸚鵡接吻或讓一個(gè)人豎起大拇指。它提供的基于文本的語(yǔ)義編輯首次將如此復(fù)雜的操作應(yīng)用于單個(gè)真實(shí)的高分辨率圖像,包括編輯多個(gè)對(duì)象。除了這些復(fù)雜的變化之外,Imagic 還可以進(jìn)行各種各樣的編輯,包括風(fēng)格變化、顏色變化和對(duì)象添加。
為了實(shí)現(xiàn)這一壯舉,研究者利用了最近成功的文本到圖像的擴(kuò)散模型。擴(kuò)散模型是強(qiáng)大的生成模型,能夠進(jìn)行高質(zhì)量的圖像合成。當(dāng)以自然語(yǔ)言文本 prompt 為條件時(shí),它能夠生成與要求的文本相一致的圖像。在這項(xiàng)工作中,研究者將它們用于編輯真實(shí)的圖像而不是合成新的圖像。
如圖 3 所示,Imagic 完成上述任務(wù)只需要三步走:首先優(yōu)化一個(gè)文本嵌入,使其產(chǎn)生與輸入圖像相似的圖像。然后,對(duì)預(yù)訓(xùn)練的生成擴(kuò)散模型進(jìn)行微調(diào),以?xún)?yōu)化嵌入為條件,更好地重建輸入圖像。最后,在目標(biāo)文本嵌入和優(yōu)化后的嵌入之間進(jìn)行線(xiàn)性插值,從而得到一個(gè)結(jié)合了輸入圖像和目標(biāo)文本的表征。然后,這個(gè)表征被傳遞給帶有微調(diào)模型的生成擴(kuò)散過(guò)程,輸出最終編輯的圖像。
為了證明 Imagic 的實(shí)力,研究者進(jìn)行了幾個(gè)實(shí)驗(yàn),將該方法應(yīng)用于不同領(lǐng)域的眾多圖像,并在所有的實(shí)驗(yàn)中都產(chǎn)生了令人印象深刻的結(jié)果。Imagic 輸出的高質(zhì)量圖像與輸入的圖像高度相似,并與所要求的目標(biāo)文本保持一致。這些結(jié)果展示了 Imagic 的通用性、多功能性和質(zhì)量。研究者還進(jìn)行了一項(xiàng)消融研究,強(qiáng)調(diào)了本文所提出的方法中每個(gè)組件的效果。與最近的一系列方法相比,Imagic 表現(xiàn)出明顯更好的編輯質(zhì)量和對(duì)原始圖像的忠實(shí)度,特別是在承擔(dān)高度復(fù)雜的非剛性編輯任務(wù)時(shí)。
方法細(xì)節(jié)
給定一個(gè)輸入圖像 x 和一個(gè)目標(biāo)文本,本文旨在以滿(mǎn)足給定文本的方式編輯圖像,同時(shí)還能保留圖像 x 的大量細(xì)節(jié)。為了實(shí)現(xiàn)這一目標(biāo),本文利用擴(kuò)散模型的文本嵌入層來(lái)執(zhí)行語(yǔ)義操作,這種方式有點(diǎn)類(lèi)似于基于 GAN 的方法。研究人員從尋找有意義的表示開(kāi)始,然后經(jīng)過(guò)生成過(guò)程,生成與輸入圖像相似的圖像。之后再對(duì)生成模型進(jìn)行優(yōu)化,以更好地重建輸入圖像,最后一步是對(duì)潛在表示進(jìn)行處理,得到編輯結(jié)果。
如上圖 3 所示,本文的方法由三個(gè)階段構(gòu)成:(1)優(yōu)化文本嵌入以在目標(biāo)文本嵌入附近找到與給定圖像最匹配的文本嵌入;(2)微調(diào)擴(kuò)散模型以更好地匹配給定圖像;(3)在優(yōu)化后的嵌入和目標(biāo)文本嵌入之間進(jìn)行線(xiàn)性插值,以找到一個(gè)既能達(dá)到圖像保真度又能達(dá)到目標(biāo)文本對(duì)齊的點(diǎn)。
更具體的細(xì)節(jié)如下:
文本嵌入優(yōu)化?
首先目標(biāo)文本被輸入到文本編碼器,該編碼器輸出相應(yīng)的文本嵌入,其中 T 是給定目標(biāo)文本的 token 數(shù),d 是 token 嵌入維數(shù)。然后,研究者對(duì)生成擴(kuò)散模型 f_θ的參數(shù)進(jìn)行凍結(jié),并利用去噪擴(kuò)散目標(biāo)(denoising diffusion objective)優(yōu)化目標(biāo)文本嵌入 e_tgt
其中,x 是輸入圖像,是 x 的一個(gè)噪聲版本,θ為預(yù)訓(xùn)練擴(kuò)散模型權(quán)值。這樣使得文本嵌入盡可能地匹配輸入圖像。此過(guò)程運(yùn)行步驟相對(duì)較少,從而保持接近最初的目標(biāo)文本嵌入,獲得優(yōu)化嵌入 e_opt。
模型微調(diào)?
這里要注意的是,此處所獲得的優(yōu)化嵌入 e_opt 在通過(guò)生成擴(kuò)散過(guò)程時(shí),不一定會(huì)完全和輸入圖像 x 相似,因?yàn)樗鼈冎贿\(yùn)行了少量的優(yōu)化步驟(參見(jiàn)圖 5 中的左上圖)。因此,在第二個(gè)階段,作者通過(guò)使用公式 (2) 中提供的相同損失函數(shù)優(yōu)化模型參數(shù) θ 來(lái)縮小這一差距,同時(shí)凍結(jié)優(yōu)化嵌入。
文本嵌入插值?
Imagic 的第三個(gè)階段是在 e_tgt 和 e_opt 之間進(jìn)行簡(jiǎn)單的線(xiàn)性插值。對(duì)于給定的超參數(shù),得到
然后,作者使用微調(diào)模型,以
為條件,應(yīng)用基礎(chǔ)生成擴(kuò)散過(guò)程。這會(huì)產(chǎn)生一個(gè)低分辨率的編輯圖像,然后使用微調(diào)輔助模型對(duì)目標(biāo)文本進(jìn)行超分辨率處理。這個(gè)生成過(guò)程輸出最終的高分辨率編輯圖像
。
實(shí)驗(yàn)結(jié)果
為了測(cè)試效果,研究者將該方法應(yīng)用于來(lái)自不同領(lǐng)域的大量真實(shí)圖片,用簡(jiǎn)單的文字 prompt 來(lái)描述不同的編輯類(lèi)別,如:風(fēng)格、外觀(guān)、顏色、姿勢(shì)和構(gòu)圖。他們從 Unsplash 和 Pixabay 收集了高分辨率的免費(fèi)使用的圖片,經(jīng)過(guò)優(yōu)化,用 5 個(gè)隨機(jī)種子生成每個(gè)編輯,并選擇最佳結(jié)果。Imagic 展示了令人印象深刻的結(jié)果,它能夠在任何一般的輸入圖像和文本上應(yīng)用各種編輯類(lèi)別,如圖 1 和圖 7 中所示。
圖 2 中是對(duì)同一張圖片進(jìn)行了不同的文字 prompt 實(shí)驗(yàn),顯示了 Imagic 的多功能性。
由于研究者利用的底層生成擴(kuò)散模型是基于概率的,該方法可以對(duì)單一的圖像 - 文本對(duì)生成不同的結(jié)果。圖 4 展示了使用不同的隨機(jī)種子進(jìn)行編輯的多個(gè)選項(xiàng)(對(duì)每個(gè)種子的η稍作調(diào)整)。這種隨機(jī)性允許用戶(hù)在這些不同的選項(xiàng)中進(jìn)行選擇,因?yàn)樽匀徽Z(yǔ)言的文本 prompt 一般都是模糊和不精確的。
?
研究將 Imagic 與目前領(lǐng)先的通用方法進(jìn)行了比較,這些方法對(duì)單一輸入的真實(shí)世界圖像進(jìn)行操作,并根據(jù)文本 prompt 對(duì)其進(jìn)行編輯。圖 6 展示了 Text2LIVE[7] 和 SDEdit[32] 等不同方法的編輯結(jié)果。
可以看出,本文的方法對(duì)輸入圖像保持了高保真度,同時(shí)恰當(dāng)?shù)剡M(jìn)行了所需的編輯。當(dāng)被賦予復(fù)雜的非剛性編輯任務(wù)時(shí),比如「讓狗坐下」,本文方法明顯優(yōu)于以前的技術(shù)。Imagic 是第一個(gè)在單一真實(shí)世界圖像上應(yīng)用這種復(fù)雜的基于文本的編輯的 demo。