自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擋不住了!擴(kuò)散模型只用文字就能PS照片了

人工智能 新聞
甲方:「我想讓這只小狗坐下?!笰I:安排!

圖片

動(dòng)動(dòng)嘴皮子就能把圖改好是甲方和乙方的共同愿望,但通常只有乙方才知道其中的酸楚。如今,AI 卻向這個(gè)高難度問(wèn)題發(fā)起了挑戰(zhàn)。

在一篇 10 月 17 日上傳到 arXiv 的論文中,來(lái)自谷歌研究院、以色列理工學(xué)院、以色列魏茨曼科學(xué)研究所的研究者介紹了一種基于擴(kuò)散模型的真實(shí)圖像編輯方法——Imagic,只用文字就能實(shí)現(xiàn)真實(shí)照片的 PS,比如讓一個(gè)人豎起大拇指、讓兩只鸚鵡親吻:

圖片

「求大神幫忙 P 一個(gè)點(diǎn)贊手勢(shì)?!箶U(kuò)散模型:沒(méi)問(wèn)題,包在我身上。

從論文中的圖像可以看出,修改后的圖像依然非常自然,對(duì)需要修改的內(nèi)容之外的信息也沒(méi)有明顯的破壞。類(lèi)似的研究還有谷歌研究院和以色列特拉維夫大學(xué)之前合作完成的 Prompt-to-Prompt(Imagic 論文中的參考文獻(xiàn) [16]):

圖片

項(xiàng)目鏈接(含論文、代碼):https://prompt-to-prompt.github.io/

因此,有人感慨說(shuō),「這個(gè)領(lǐng)域變化快到有點(diǎn)夸張了,」以后甲方真的動(dòng)動(dòng)嘴就可以想怎么改就怎么改了。

Imagic 論文概覽

圖片

論文鏈接:?https://arxiv.org/pdf/2210.09276.pdf?

將大幅度的語(yǔ)義編輯應(yīng)用于真實(shí)照片一直是圖像處理中一個(gè)有趣的任務(wù)。近年來(lái),由于基于深度學(xué)習(xí)的系統(tǒng)取得了長(zhǎng)足的進(jìn)步,該任務(wù)已經(jīng)引起了研究社區(qū)相當(dāng)大的興趣。

用簡(jiǎn)單的自然語(yǔ)言文本 prompt 來(lái)描述我們想要的編輯(比如讓一只狗坐下)與人類(lèi)之間的交流方式高度一致。因此,研究者們開(kāi)發(fā)了很多基于文本的圖像編輯方法,而且這些方法效果也都不錯(cuò)。

然而,目前的主流方法都或多或少地存在一些問(wèn)題,比如:

1、僅限于一組特定的編輯,如在圖像上作畫(huà)、添加對(duì)象或遷移風(fēng)格 [6, 28];

2、只能對(duì)特定領(lǐng)域的圖像或合成的圖像進(jìn)行操作 [16, 36];

3、除了輸入圖像外,它們還需要輔助輸入,例如指示所需編輯位置的圖像 mask、同一主題的多個(gè)圖像或描述原始圖像的文本 [6, 13, 40, 44]。

本文提出了一種語(yǔ)義圖像編輯方法「Imagic」以緩解上述問(wèn)題。只需給定一個(gè)待編輯的輸入圖像和一個(gè)描述目標(biāo)編輯的單一文本 prompt,該方法就可以對(duì)真實(shí)的高分辨率圖像進(jìn)行復(fù)雜的非剛性編輯。所產(chǎn)生的圖像輸出能夠與目標(biāo)文本很好地對(duì)齊,同時(shí)保留了原始圖像的整體背景、結(jié)構(gòu)和組成。

如圖 1 所示,Imagic 可以讓兩只鸚鵡接吻或讓一個(gè)人豎起大拇指。它提供的基于文本的語(yǔ)義編輯首次將如此復(fù)雜的操作應(yīng)用于單個(gè)真實(shí)的高分辨率圖像,包括編輯多個(gè)對(duì)象。除了這些復(fù)雜的變化之外,Imagic 還可以進(jìn)行各種各樣的編輯,包括風(fēng)格變化、顏色變化和對(duì)象添加。

圖片

為了實(shí)現(xiàn)這一壯舉,研究者利用了最近成功的文本到圖像的擴(kuò)散模型。擴(kuò)散模型是強(qiáng)大的生成模型,能夠進(jìn)行高質(zhì)量的圖像合成。當(dāng)以自然語(yǔ)言文本 prompt 為條件時(shí),它能夠生成與要求的文本相一致的圖像。在這項(xiàng)工作中,研究者將它們用于編輯真實(shí)的圖像而不是合成新的圖像。

如圖 3 所示,Imagic 完成上述任務(wù)只需要三步走:首先優(yōu)化一個(gè)文本嵌入,使其產(chǎn)生與輸入圖像相似的圖像。然后,對(duì)預(yù)訓(xùn)練的生成擴(kuò)散模型進(jìn)行微調(diào),以?xún)?yōu)化嵌入為條件,更好地重建輸入圖像。最后,在目標(biāo)文本嵌入和優(yōu)化后的嵌入之間進(jìn)行線(xiàn)性插值,從而得到一個(gè)結(jié)合了輸入圖像和目標(biāo)文本的表征。然后,這個(gè)表征被傳遞給帶有微調(diào)模型的生成擴(kuò)散過(guò)程,輸出最終編輯的圖像。

為了證明 Imagic 的實(shí)力,研究者進(jìn)行了幾個(gè)實(shí)驗(yàn),將該方法應(yīng)用于不同領(lǐng)域的眾多圖像,并在所有的實(shí)驗(yàn)中都產(chǎn)生了令人印象深刻的結(jié)果。Imagic 輸出的高質(zhì)量圖像與輸入的圖像高度相似,并與所要求的目標(biāo)文本保持一致。這些結(jié)果展示了 Imagic 的通用性、多功能性和質(zhì)量。研究者還進(jìn)行了一項(xiàng)消融研究,強(qiáng)調(diào)了本文所提出的方法中每個(gè)組件的效果。與最近的一系列方法相比,Imagic 表現(xiàn)出明顯更好的編輯質(zhì)量和對(duì)原始圖像的忠實(shí)度,特別是在承擔(dān)高度復(fù)雜的非剛性編輯任務(wù)時(shí)。

方法細(xì)節(jié)

給定一個(gè)輸入圖像 x 和一個(gè)目標(biāo)文本,本文旨在以滿(mǎn)足給定文本的方式編輯圖像,同時(shí)還能保留圖像 x 的大量細(xì)節(jié)。為了實(shí)現(xiàn)這一目標(biāo),本文利用擴(kuò)散模型的文本嵌入層來(lái)執(zhí)行語(yǔ)義操作,這種方式有點(diǎn)類(lèi)似于基于 GAN 的方法。研究人員從尋找有意義的表示開(kāi)始,然后經(jīng)過(guò)生成過(guò)程,生成與輸入圖像相似的圖像。之后再對(duì)生成模型進(jìn)行優(yōu)化,以更好地重建輸入圖像,最后一步是對(duì)潛在表示進(jìn)行處理,得到編輯結(jié)果。

如上圖 3 所示,本文的方法由三個(gè)階段構(gòu)成:(1)優(yōu)化文本嵌入以在目標(biāo)文本嵌入附近找到與給定圖像最匹配的文本嵌入;(2)微調(diào)擴(kuò)散模型以更好地匹配給定圖像;(3)在優(yōu)化后的嵌入和目標(biāo)文本嵌入之間進(jìn)行線(xiàn)性插值,以找到一個(gè)既能達(dá)到圖像保真度又能達(dá)到目標(biāo)文本對(duì)齊的點(diǎn)。

更具體的細(xì)節(jié)如下:

文本嵌入優(yōu)化?

首先目標(biāo)文本被輸入到文本編碼器,該編碼器輸出相應(yīng)的文本嵌入圖片,其中 T 是給定目標(biāo)文本的 token 數(shù),d 是 token 嵌入維數(shù)。然后,研究者對(duì)生成擴(kuò)散模型 f_θ的參數(shù)進(jìn)行凍結(jié),并利用去噪擴(kuò)散目標(biāo)(denoising diffusion objective)優(yōu)化目標(biāo)文本嵌入 e_tgt

圖片

其中,x 是輸入圖像,圖片是 x 的一個(gè)噪聲版本,θ為預(yù)訓(xùn)練擴(kuò)散模型權(quán)值。這樣使得文本嵌入盡可能地匹配輸入圖像。此過(guò)程運(yùn)行步驟相對(duì)較少,從而保持接近最初的目標(biāo)文本嵌入,獲得優(yōu)化嵌入 e_opt。

模型微調(diào)?

這里要注意的是,此處所獲得的優(yōu)化嵌入 e_opt 在通過(guò)生成擴(kuò)散過(guò)程時(shí),不一定會(huì)完全和輸入圖像 x 相似,因?yàn)樗鼈冎贿\(yùn)行了少量的優(yōu)化步驟(參見(jiàn)圖 5 中的左上圖)。因此,在第二個(gè)階段,作者通過(guò)使用公式 (2) 中提供的相同損失函數(shù)優(yōu)化模型參數(shù) θ 來(lái)縮小這一差距,同時(shí)凍結(jié)優(yōu)化嵌入。

圖片

文本嵌入插值?

Imagic 的第三個(gè)階段是在 e_tgt 和 e_opt 之間進(jìn)行簡(jiǎn)單的線(xiàn)性插值。對(duì)于給定的超參數(shù)圖片,得到圖片然后,作者使用微調(diào)模型,以 圖片為條件,應(yīng)用基礎(chǔ)生成擴(kuò)散過(guò)程。這會(huì)產(chǎn)生一個(gè)低分辨率的編輯圖像,然后使用微調(diào)輔助模型對(duì)目標(biāo)文本進(jìn)行超分辨率處理。這個(gè)生成過(guò)程輸出最終的高分辨率編輯圖像圖片。

實(shí)驗(yàn)結(jié)果

為了測(cè)試效果,研究者將該方法應(yīng)用于來(lái)自不同領(lǐng)域的大量真實(shí)圖片,用簡(jiǎn)單的文字 prompt 來(lái)描述不同的編輯類(lèi)別,如:風(fēng)格、外觀(guān)、顏色、姿勢(shì)和構(gòu)圖。他們從 Unsplash 和 Pixabay 收集了高分辨率的免費(fèi)使用的圖片,經(jīng)過(guò)優(yōu)化,用 5 個(gè)隨機(jī)種子生成每個(gè)編輯,并選擇最佳結(jié)果。Imagic 展示了令人印象深刻的結(jié)果,它能夠在任何一般的輸入圖像和文本上應(yīng)用各種編輯類(lèi)別,如圖 1 和圖 7 中所示。

圖片

圖 2 中是對(duì)同一張圖片進(jìn)行了不同的文字 prompt 實(shí)驗(yàn),顯示了 Imagic 的多功能性。

圖片

由于研究者利用的底層生成擴(kuò)散模型是基于概率的,該方法可以對(duì)單一的圖像 - 文本對(duì)生成不同的結(jié)果。圖 4 展示了使用不同的隨機(jī)種子進(jìn)行編輯的多個(gè)選項(xiàng)(對(duì)每個(gè)種子的η稍作調(diào)整)。這種隨機(jī)性允許用戶(hù)在這些不同的選項(xiàng)中進(jìn)行選擇,因?yàn)樽匀徽Z(yǔ)言的文本 prompt 一般都是模糊和不精確的。

圖片?

研究將 Imagic 與目前領(lǐng)先的通用方法進(jìn)行了比較,這些方法對(duì)單一輸入的真實(shí)世界圖像進(jìn)行操作,并根據(jù)文本 prompt 對(duì)其進(jìn)行編輯。圖 6 展示了 Text2LIVE[7] 和 SDEdit[32] 等不同方法的編輯結(jié)果。

可以看出,本文的方法對(duì)輸入圖像保持了高保真度,同時(shí)恰當(dāng)?shù)剡M(jìn)行了所需的編輯。當(dāng)被賦予復(fù)雜的非剛性編輯任務(wù)時(shí),比如「讓狗坐下」,本文方法明顯優(yōu)于以前的技術(shù)。Imagic 是第一個(gè)在單一真實(shí)世界圖像上應(yīng)用這種復(fù)雜的基于文本的編輯的 demo。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2009-02-20 15:05:36

2012-03-31 10:46:34

聯(lián)想筆記本

2014-12-30 13:29:00

指紋識(shí)別生物識(shí)別身份驗(yàn)證

2009-05-21 09:39:30

2025-01-15 13:01:07

2013-02-19 09:56:26

2025-02-24 14:15:00

模型訓(xùn)練AI

2021-10-11 17:20:53

科技人工智能技術(shù)

2020-11-30 05:54:56

彈窗

2024-07-29 12:47:32

2021-01-29 07:45:27

if-else代碼數(shù)據(jù)

2023-08-29 23:28:19

2023-09-08 15:48:13

2015-06-24 12:58:04

數(shù)據(jù)中心霧霾

2015-11-20 13:26:50

Postgres用戶(hù)大會(huì)

2020-07-20 16:04:01

華為云TechWave技術(shù)峰會(huì)

2022-01-05 09:27:24

讀擴(kuò)散寫(xiě)擴(kuò)散feed

2015-01-05 10:04:25

2021-05-10 10:22:53

美帝國(guó)產(chǎn)OS

2021-02-24 11:25:44

人工智能AI算法馬賽克
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)