自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「四合一物體傳送門」,向場景中可控傳送物體

人工智能 新聞
圖像合成在藝術(shù)創(chuàng)作、海報(bào)設(shè)計(jì)、電子商務(wù)、虛擬現(xiàn)實(shí)、數(shù)據(jù)增廣等領(lǐng)域有著廣泛應(yīng)用。新物體無縫融入背景圖像的可控方法。

在圖像編輯的常用操作中,圖像合成 (image composition) 指在把一張圖片的前景物體和另外一張背景圖片結(jié)合起來得到一張合成圖 (composite image),視覺效果類似于把一張圖片的前景物體傳送到另外一張背景圖片上,如下圖所示。

圖片

圖像合成在藝術(shù)創(chuàng)作、海報(bào)設(shè)計(jì)、電子商務(wù)、虛擬現(xiàn)實(shí)、數(shù)據(jù)增廣等領(lǐng)域有著廣泛應(yīng)用。

但是通過簡單的剪切粘貼得到的合成圖可能會(huì)存在很多問題。在之前的研究工作中,圖像合成衍生出不同的子任務(wù),分別解決不同的子問題。舉例來說,圖像混合 (image blending) 旨在解決前景和背景之間不自然的邊界。圖像和諧化 (image harmonization) 旨在調(diào)整前景的光照使其與背景和諧。視角調(diào)整 (view synthesis) 旨在調(diào)整前景的姿態(tài),使其與背景匹配。物體放置 (object placement) 旨在為前景物體預(yù)測合適的位置、大小、透視角度。陰影生成 (shadow generation) 旨在為前景物體在背景上生成合理的陰影。

如下圖所示,之前的研究工作串行或者并行地執(zhí)行上述子任務(wù),獲得逼真自然的合成圖。在串行框架下,我們可以根據(jù)實(shí)際需求有選擇性地執(zhí)行部分子任務(wù)。

在并行框架下,現(xiàn)在流行的做法是利用擴(kuò)散模型,輸入一張帶有前景邊界框的背景圖片和一張前景物體圖片,直接生成最終的合成圖,使得前景物體無縫融入背景圖片,光照和陰影合理,姿態(tài)與背景適配。

該并行框架相當(dāng)于同時(shí)執(zhí)行多個(gè)子任務(wù),無法有選擇性地執(zhí)行部分子任務(wù),不具有可控性,可能會(huì)對前景物體的姿態(tài)或者顏色帶來不必要或者不合理的改變。

圖片

為了提升并行框架的可控性,能夠有選擇性地執(zhí)行部分子任務(wù),我們提出可控圖像合成模型 Controllable Image Composition (ControlCom)。如下圖所示,我們用一個(gè)指示向量作為擴(kuò)散模型的條件信息,控制合成圖中前景物體的屬性。指示向量是一個(gè)兩維的二值向量,兩個(gè)維度分別控制是否調(diào)整前景物體的光照屬性和姿態(tài)屬性,1 代表調(diào)整,0 代表保留。

具體來說,(0,0) 代表既不改變前景光照,也不改變前景姿態(tài),只是把物體無縫融入背景圖片,相當(dāng)于圖像混合 (image blending)。(1,0) 是只改變前景光照使其與背景和諧,保留前景姿態(tài),相當(dāng)于圖像和諧化 (image harmonization)。(0,1) 是只改變前景姿態(tài)使其與背景匹配,保留前景光照,相當(dāng)于視角調(diào)整 (view synthesis)。(1,1) 是同時(shí)改變前景的光照和姿態(tài),相當(dāng)于現(xiàn)在的不可控并行圖像合成。

我們通過指示向量把四種任務(wù)納入同一個(gè)框架,實(shí)現(xiàn)四合一物體傳送門的功能,向場景中可控傳送物體。該工作由上海交通大學(xué)和螞蟻集團(tuán)合作完成,代碼和模型即將開源。

圖片

論文鏈接:https://arxiv.org/abs/2308.10040

代碼模型鏈接:https://github.com/bcmi/ControlCom-Image-Composition

在下圖中,我們展示了可控圖像合成的功能。

圖片

左邊一列,前景物體的姿態(tài)原本就和背景圖片適配,用戶可能希望保留前景物體的姿態(tài)。之前的方法 PbE [1], ObjectStitch [2] 會(huì)對前景物體的姿態(tài)做出不必要且不可控的改變。我們方法的 (1,0) 版本能夠保留前景物體的姿態(tài),將前景物體無縫融入背景圖片且光照和諧。

右邊一列,前景物體的光照原本就和背景光照一致,之前的方法可能會(huì)對前景物體的顏色產(chǎn)生不符合預(yù)期的改變,比如車的顏色和衣服的顏色,我們方法的 (0,1) 版本能夠保留前景物體的顏色,同時(shí)調(diào)整前景物體的姿態(tài)使其合理地融入背景圖片。

圖片

接下來,我們展示更多我們方法四個(gè)版本 (0,0),(1,0),(0,1),(1,1) 的結(jié)果??梢钥闯鲈谑褂貌煌甘鞠蛄康那闆r下,我們的方法能夠有選擇性地調(diào)整前景物體的部分屬性,有效控制合成圖的效果,滿足用戶不同的需求。

圖片

能夠?qū)崿F(xiàn)四種功能的模型結(jié)構(gòu)是什么樣的呢?我們方法的模型結(jié)構(gòu)如下圖所示,模型輸入帶有前景邊界框的背景圖片和前景物體圖片,將前景物體的特征和指示向量結(jié)合到擴(kuò)散模型中。

我們提取前景物體的全局特征和局部特征,先融合全局特征,再融合局部特征,在局部融合的過程中使用對齊的前景特征圖進(jìn)行特征調(diào)制,實(shí)現(xiàn)更好的細(xì)節(jié)保留。指示向量在全局融合和局部融合中都有使用,更加充分地控制前景物體的屬性。

我們基于預(yù)訓(xùn)練的 Stable diffusion, 使用 OpenImage 的 190 萬張圖片訓(xùn)練模型。為了同時(shí)訓(xùn)練四個(gè)子任務(wù),我們設(shè)計(jì)了一套數(shù)據(jù)處理和增廣的流程。數(shù)據(jù)細(xì)節(jié)和訓(xùn)練細(xì)節(jié)參見論文。

圖片

我們在 COCOEE 數(shù)據(jù)集和自己構(gòu)建的數(shù)據(jù)集上進(jìn)行測試。因?yàn)橹胺椒ǘ贾荒茏龅讲豢煽氐膱D像合成,所以我們用 (1,1) 版本和之前方法比較。對比結(jié)果如下圖所示,PCTNet 是圖像和諧化方法,能夠保留物體細(xì)節(jié),但是不能調(diào)整前景的姿態(tài),不能補(bǔ)全前景物體。其他方法能夠生成相同種類的物體,但是在細(xì)節(jié)保留上效果較差,比如衣服的款式、杯子的紋理、鳥的羽毛顏色等等。

相較之下,我們的方法能夠更好地保留前景物體的細(xì)節(jié),補(bǔ)全不完整的前景物體,調(diào)整前景物體的光照、姿勢與背景適配。

圖片

該工作是可控圖像合成的首次嘗試,任務(wù)難度較大,仍然存在很多不足,模型表現(xiàn)不夠穩(wěn)定魯棒。并且,前景物體的屬性除了光照、姿態(tài),還可以進(jìn)一步細(xì)化,如何實(shí)現(xiàn)更細(xì)粒度的可控圖像合成是一個(gè)更具挑戰(zhàn)性的任務(wù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-23 19:24:30

模型AI

2012-03-11 15:20:36

Android

2021-10-29 07:47:35

Vue 3teleport傳送門組件

2017-07-28 15:57:57

小米

2024-01-08 00:25:43

AI微軟PC

2022-08-10 10:00:58

AR傳送門

2023-05-22 09:11:00

AI

2011-09-16 09:52:58

兄弟復(fù)合一體機(jī)

2011-12-30 15:01:36

淘寶

2011-09-18 22:34:27

兄弟復(fù)合一體機(jī)

2012-05-15 15:54:47

復(fù)合一體機(jī)推薦

2012-06-12 15:15:23

兄弟復(fù)合一體機(jī)

2023-10-10 06:47:37

PCIe峰值帶寬

2012-06-28 11:23:05

復(fù)合一體機(jī)推薦

2012-10-16 15:10:10

聯(lián)想一體機(jī)M7650DF

2023-04-18 15:08:46

模型圖像

2009-12-01 13:48:11

sftp批量傳送文件

2024-11-26 07:40:44

3D游戲場景

2009-08-01 09:32:04

下一代傳送網(wǎng)絡(luò)波分復(fù)用技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)