自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用

發(fā)布于 2024-3-28 14:15
瀏覽
0收藏

本文深入探討了基于參考物體的人工智能圖像生成(AIGC)技術(shù)的最新進(jìn)展。首先概述了該類(lèi)技術(shù)如何發(fā)展至今,然后著重分析了兩篇重要的相關(guān)學(xué)術(shù)論文。隨后,文章針對(duì)家居導(dǎo)購(gòu)領(lǐng)域的特殊應(yīng)用場(chǎng)景,討論了運(yùn)用此項(xiàng)技術(shù)時(shí)遭遇的挑戰(zhàn)和取得的最新效果。?

一、引言

隨著AIGC技術(shù)的快速發(fā)展,其中以Stable Diffusion模型為代表的的文生圖技術(shù)已經(jīng)在內(nèi)容生成領(lǐng)域產(chǎn)生了應(yīng)用價(jià)值,用戶只需要提供一段文本輸入,就能通過(guò)AI模型快速生成大量美觀的圖片,實(shí)現(xiàn)了低成本高效率的內(nèi)容生成。由于文本提供的信息有限,生成的圖像內(nèi)容難以完全對(duì)齊用戶的意圖,生成的圖片有時(shí)完全不是用戶心中想要的內(nèi)容。為了讓用戶用起來(lái)更加得心應(yīng)手,最近一年涌現(xiàn)出來(lái)了大量關(guān)于控制技術(shù)的研究。比如Controlnet技術(shù),通過(guò)將額外的多樣化控制條件(如線稿圖、深度圖以及分割圖等額外信息)應(yīng)用于文生圖擴(kuò)散模型,可以生成對(duì)應(yīng)結(jié)構(gòu)和布局的圖片,用戶可以由此更加便捷的對(duì)生成圖像進(jìn)行編輯。

參考物體作為圖像生成過(guò)程時(shí)的另一個(gè)控制維度,同樣受到了廣泛關(guān)注?;趨⒖嘉矬w的圖像生成技術(shù)允許用戶將參考圖像中的物體融入到生成的圖像中,同時(shí)保留參考物體的身份特征,實(shí)現(xiàn)對(duì)生成圖像中物體的定制化控制。這種技術(shù)毫無(wú)疑問(wèn)有廣闊的商業(yè)價(jià)值和應(yīng)用潛力,比如一個(gè)最直接的應(yīng)用場(chǎng)景就是虛擬試穿。用戶只需要提供若干張包含目標(biāo)服飾的圖片,以及自己身材的圖片,就可以通過(guò)AI模型快速得到目標(biāo)服飾穿在自己身上的效果,引起用戶的購(gòu)物興趣。


基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)

我們團(tuán)隊(duì)一直深耕家裝家居導(dǎo)購(gòu)場(chǎng)景,這種技術(shù)同樣能夠應(yīng)用于該領(lǐng)域。例如,用戶可以通過(guò)選擇家具或家居裝飾品的參考圖像,并將其特征融入到生成的家居場(chǎng)景圖像中。這樣,用戶可以在生成的圖像中預(yù)覽所選家具放置在自己家的家居環(huán)境中的效果,從而更好地進(jìn)行家具導(dǎo)購(gòu)和決策。這種技術(shù)的應(yīng)用實(shí)踐為用戶提供了一種直觀、沉浸式的體驗(yàn),幫助他們更好地理解和評(píng)估家居產(chǎn)品的外觀和布局,從而進(jìn)行購(gòu)物決策。

二、相關(guān)研究

過(guò)去,文生圖模型引發(fā)了一股人工智能熱潮,通過(guò)給定文本,使合成圖像更加高質(zhì)量和多樣化。這些模型將大量圖像與文本配對(duì),利用先驗(yàn)學(xué)習(xí)將詞組與圖像關(guān)聯(lián)起來(lái),以實(shí)現(xiàn)生成具有不同姿勢(shì)效果的圖像。然而,這些模型仍然難以模仿指定參考對(duì)象的外觀,并且缺乏在不同背景下合成該參考對(duì)象的新穎圖片。這主要是因?yàn)檫@種方法的表達(dá)能力有限,只能對(duì)圖像內(nèi)容進(jìn)行粗略的變化。即使對(duì)圖像進(jìn)行詳細(xì)的文字描述,仍然難以通過(guò)描述準(zhǔn)確地重建圖像內(nèi)容或指定對(duì)象的外觀。換句話說(shuō),雖然給定圖像可以與文本對(duì)應(yīng),但文本很難與給定圖像一一對(duì)應(yīng)。應(yīng)對(duì)這個(gè)問(wèn)題,本段主要選取兩篇相關(guān)研究進(jìn)行詳細(xì)介紹:基于迭代優(yōu)化的Dreambooth[1]方法,以及基于物體編碼的Blip-diffusion[2]方法。

Dreambooth方法:在Dreambooth論文中,提出了一種名為“個(gè)性化”的新方法,以適應(yīng)用戶特定的生成需求。其具體原理是擴(kuò)展文生圖模型的詞典,將新的文本標(biāo)識(shí)符與用戶想要生成的特定對(duì)象聯(lián)系起來(lái)。通過(guò)這項(xiàng)技術(shù),能夠在不同場(chǎng)景中合成指定參考對(duì)象的圖像,甚至是在參考圖像中沒(méi)有出現(xiàn)的姿勢(shì)、視圖、照明條件下合成圖像。這包括但不限于改變對(duì)象所在的位置,以及調(diào)整對(duì)象的姿勢(shì)和表情。

基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)

該方法的大致思路是,給定一個(gè)參考對(duì)象(比如某只小狗)的 3-5 張隨意拍攝的圖像,再為這幾張輸入圖片給定一個(gè)文本 prompt 為“a [identifier] [class noun]”,其中[class noun]是參考對(duì)象的大類(lèi),例如dog,可在個(gè)性化生成時(shí)利用此大類(lèi)別的先驗(yàn)知識(shí)。而 [identifier] 是連接該參考對(duì)象的唯一標(biāo)識(shí)符,為避免受通用詞組的先驗(yàn)知識(shí)影響,擬定一個(gè)相對(duì)稀有的標(biāo)識(shí)符來(lái)表示,例如[V]。那么本例的 prompt 就是 a [V] dog,其中 dog 指各種各樣的小狗,而[V] dog 就特指參考圖片中的小狗。使用圖片和prompt對(duì)預(yù)訓(xùn)練文生圖模型進(jìn)行訓(xùn)練微調(diào)后,該參考對(duì)象與其對(duì)應(yīng)的唯一標(biāo)識(shí)符就被擴(kuò)展到了文生圖模型的詞典中。在應(yīng)用時(shí),輸入 a [V] dog in a bucket 就能生成該指定小狗坐在桶中的圖像。

基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)

Dreambooth方法同時(shí)也存在某些缺點(diǎn),比如耗時(shí)的優(yōu)化過(guò)程和在只提供單個(gè)圖像時(shí)容易出現(xiàn)過(guò)擬合的傾向。

Blip-diffusion方法:由于Dreambooth方法對(duì)于每個(gè)參考對(duì)象,需要進(jìn)行耗時(shí)長(zhǎng)的迭代優(yōu)化過(guò)程,這導(dǎo)致其難以應(yīng)用于實(shí)踐。因此,研究人員開(kāi)始探索基于物體編碼的方法。該種方法只需要訓(xùn)練編碼器來(lái)明確表示對(duì)象的視覺(jué)概念。一旦訓(xùn)練完成,通過(guò)對(duì)參考物體的圖像進(jìn)行編碼得到的概念嵌入可以直接在推理過(guò)程中輸入到去噪過(guò)程中,實(shí)現(xiàn)與標(biāo)準(zhǔn)擴(kuò)散模型采樣過(guò)程相當(dāng)?shù)乃俣取?/p>

基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)

Blip-diffusion方法主要包含兩個(gè)階段。第一個(gè)階段是訓(xùn)練一個(gè)視覺(jué)-文本編碼器(Blip2 [3]),具體地說(shuō),輸入一張包含目標(biāo)對(duì)象的圖片及其對(duì)應(yīng)的文本prompt(A cat wearing sunglasses),通過(guò)大量這種圖像文本對(duì)訓(xùn)練 Blip2 編碼器,學(xué)習(xí)與文本空間對(duì)齊的圖片特征,并同時(shí)以高保真度捕捉目標(biāo)對(duì)象的視覺(jué)特征。在第二個(gè)階段,通過(guò)上一階段訓(xùn)練好的Blip2 編碼器得到文本對(duì)齊的對(duì)象視覺(jué)特征后,對(duì)預(yù)訓(xùn)練擴(kuò)散模型進(jìn)行微調(diào),學(xué)習(xí)如何在新場(chǎng)景合成目標(biāo)對(duì)象的圖片。

在完成兩個(gè)階段的訓(xùn)練之后,Blip-diffusion可以對(duì)沒(méi)有見(jiàn)過(guò)的參考對(duì)象進(jìn)行 zero-shot 圖像合成。此外,當(dāng)與Controlnet 結(jié)合使用時(shí),可以實(shí)現(xiàn)帶有各種附加結(jié)構(gòu)控制的目標(biāo)對(duì)象驅(qū)動(dòng)生成。

三、困難挑戰(zhàn)與應(yīng)用實(shí)踐

在家居導(dǎo)購(gòu)場(chǎng)景中,用戶可以上傳自己家的場(chǎng)景圖片,然后選擇目標(biāo)家具商品的白底圖,得到該家具放置在自己家的效果圖。這個(gè)過(guò)程包含許多的挑戰(zhàn)與困難,比如:

  1. 角度問(wèn)題,白底圖中的家具視角和用戶家場(chǎng)景圖的視角存在偏差,如何合成角度和諧的商品效果圖?
  2. 尺寸問(wèn)題,2D圖片不包含家具的尺寸信息,如何在3D的家中生成尺寸合適的目標(biāo)家具?
  3. 數(shù)據(jù)質(zhì)量問(wèn)題,線上的大量家具商品往往只包含一張白底圖,且質(zhì)量有高有低。以及其它許多問(wèn)題給技術(shù)的實(shí)踐應(yīng)用帶來(lái)了極大的挑戰(zhàn)。

得益于我們團(tuán)隊(duì)在家裝家居領(lǐng)域多年來(lái)的數(shù)據(jù)和技術(shù)積累,我們結(jié)合3D和AIGC技術(shù)解決了上述部分問(wèn)題,在家居導(dǎo)購(gòu)領(lǐng)域初步應(yīng)用了該類(lèi)技術(shù)。以下展示部分場(chǎng)景的效果。

商品圖

用戶的家

生成效果


基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)



基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)



基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)



基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)



基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)



基于參考物體的AIGC圖像生成技術(shù)在家居導(dǎo)購(gòu)領(lǐng)域的應(yīng)用-AI.x社區(qū)



四、總結(jié)與討論

本文深入探討了基于參考物體的人工智能圖像生成(AIGC)技術(shù)的最新進(jìn)展。首先概述了該類(lèi)技術(shù)如何發(fā)展至今,然后著重分析了兩篇重要的相關(guān)學(xué)術(shù)論文。隨后,文章針對(duì)家居導(dǎo)購(gòu)領(lǐng)域的特殊應(yīng)用場(chǎng)景,討論了運(yùn)用此項(xiàng)技術(shù)時(shí)遭遇的挑戰(zhàn)和取得的最新效果。

通過(guò)AIGC技術(shù)將淘寶商品與用戶意圖結(jié)合起來(lái),基于參考物體的圖像生成技術(shù)在電商平臺(tái)中展現(xiàn)出創(chuàng)造性的潛力。此項(xiàng)技術(shù)不僅能夠提升用戶體驗(yàn),還能優(yōu)化商品展示效果,因此在未來(lái)的電商發(fā)展中顯示出持續(xù)研究與探索的重要價(jià)值。

五、參考文獻(xiàn)

[1] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023.

[2] Dongxu Li, Junnan Li, and Steven CH Hoi. Blip-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing. arXiv:2305.14720, 2023.

[3] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597, 2023.

六、團(tuán)隊(duì)介紹

我們是淘天集團(tuán)-場(chǎng)景智能技術(shù)團(tuán)隊(duì),一支專(zhuān)注于通過(guò)AI和3D技術(shù)驅(qū)動(dòng)商業(yè)創(chuàng)新的技術(shù)團(tuán)隊(duì), 依托大淘寶豐富的業(yè)務(wù)形態(tài)和海量的用戶、數(shù)據(jù), 致力于為消費(fèi)者提供創(chuàng)新的場(chǎng)景化導(dǎo)購(gòu)體驗(yàn), 為商家提供高效的場(chǎng)景化內(nèi)容創(chuàng)作工具, 為淘寶打造圍繞家的場(chǎng)景的第一消費(fèi)入口。我們不斷探索并實(shí)踐新的技術(shù), 通過(guò)持續(xù)的技術(shù)創(chuàng)新和突破,創(chuàng)新用戶導(dǎo)購(gòu)體驗(yàn), 提升商家內(nèi)容生產(chǎn)力, 讓用戶享受更好的消費(fèi)體驗(yàn), 讓商家更高效、低成本地經(jīng)營(yíng)。


本文轉(zhuǎn)載自大淘寶技術(shù),作者:七誡

原文鏈接:??https://mp.weixin.qq.com/s/4__x2Wv8J4SdNJrjmdg-Jw??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦