自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!

發(fā)布于 2024-10-17 10:45
瀏覽
0收藏

今天給大家介紹的這項(xiàng)工作是伊利諾伊大學(xué)厄巴納-香檳分校的研究者們提出的一個(gè)新任務(wù) Graph2Image,其特點(diǎn)是通過(guò)調(diào)節(jié)圖信息來(lái)合成圖像,并引入了一種名為InstructG2I的新型圖調(diào)節(jié)擴(kuò)散模型來(lái)解決這個(gè)問(wèn)題。


在INSTRUCTG2I的工作中,研究者們開發(fā)了一種新方法來(lái)生成圖像,這種方法不僅依賴于文本描述,還考慮到圖中其他相關(guān)信息。想象一下,如果你要畫一幅畫,除了有一個(gè)簡(jiǎn)單的描述,比如“雪中的房子”,你還可以參考與這個(gè)房子相關(guān)的其他房子或景物的信息。INSTRUCTG2I首先會(huì)找出與目標(biāo)圖像最相關(guān)的鄰居圖像,這些圖像是通過(guò)一種叫做個(gè)性化頁(yè)面排名的技術(shù)來(lái)選擇的。接著,它會(huì)使用一種特殊的模型(Graph-QFormer)來(lái)理解這些鄰居圖像與目標(biāo)圖像之間的關(guān)系,然后把這些信息與文本描述結(jié)合起來(lái),最終生成一幅新圖像。這樣,生成的圖像不僅能符合描述,還能融入其他相關(guān)圖像的風(fēng)格和特征,確保生成的內(nèi)容更豐富、更有趣。


UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!-AI.x社區(qū)

相關(guān)鏈接

論文閱讀:http://arxiv.org/abs/2410.07157v1

項(xiàng)目主頁(yè):https://instructg2i.github.io/

論文閱讀

UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!-AI.x社區(qū)

InstructG2I:從多模態(tài)屬性圖合成圖像

摘要

在本文中,我們研究了一個(gè)被忽視但關(guān)鍵的任務(wù)Graph2Image:從多模態(tài)屬性圖(MMAG)生成圖像。由于圖大小的爆炸性增長(zhǎng)、圖實(shí)體之間的依賴關(guān)系以及圖條件的可控性需求,該任務(wù)提出了重大挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出了一種稱為InstructG2I 的圖上下文條件擴(kuò)散模型 。 InstructG2I首先利用圖結(jié)構(gòu)和多模態(tài)信息,通過(guò)結(jié)合個(gè)性化頁(yè)面排名和基于視覺語(yǔ)言特征的重新排名來(lái)進(jìn)行信息鄰居采樣。然后,Graph-QFormer 編碼器自適應(yīng)地將圖節(jié)點(diǎn)編碼為輔助圖提示集 ,以指導(dǎo)擴(kuò)散的去噪過(guò)程。最后,我們提出了無(wú)圖分類器的指導(dǎo),通過(guò)改變圖指導(dǎo)的強(qiáng)度和節(jié)點(diǎn)的多個(gè)連接邊來(lái)實(shí)現(xiàn)可控生成。對(duì)來(lái)自不同領(lǐng)域的三個(gè)數(shù)據(jù)集進(jìn)行的廣泛實(shí)驗(yàn)證明了我們方法的有效性和可控性。

方法

UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!-AI.x社區(qū)

InstructG2I 的整體框架。 (a)給定多模態(tài)屬性圖 (MMAG) 中帶有文本提示的目標(biāo)節(jié)點(diǎn)(例如,雪中的房子),我們希望為其生成圖像,(b)我們首先執(zhí)行基于語(yǔ)義 PPR 的鄰居采樣,這涉及結(jié)構(gòu)感知的個(gè)性化 PageRank 和基于語(yǔ)義感知的相似性的重新排序,以在圖中采樣信息豐富的鄰居節(jié)點(diǎn)。(c)然后將這些鄰居節(jié)點(diǎn)輸入到 Graph-QFormer 中,由多個(gè)自注意和交叉注意層編碼,表示為圖形標(biāo)記并與文本提示標(biāo)記一起用于指導(dǎo)擴(kuò)散模型的去噪過(guò)程。

可控生成

UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!-AI.x社區(qū)

實(shí)驗(yàn)

定性評(píng)價(jià)

UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!-AI.x社區(qū)

定性評(píng)價(jià)。我們的方法通過(guò)更好地利用來(lái)自相鄰節(jié)點(diǎn)(圖中的“采樣鄰居”)的圖形信息,表現(xiàn)出與真實(shí)情況更好的一致性。

文字與圖表指導(dǎo)平衡

UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!-AI.x社區(qū)


InstructG2I平衡文本引導(dǎo)和圖形引導(dǎo) 的能力。

多圖指導(dǎo)研究

UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!-AI.x社區(qū)

多圖指導(dǎo)研究。根據(jù)單個(gè)或多個(gè)圖形指導(dǎo)(“畢加索”和“庫(kù)爾貝”風(fēng)格)生成帶有輸入文本提示“彈鋼琴的人”的藝術(shù)作品。


虛擬藝術(shù)家

UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!-AI.x社區(qū)

虛擬藝術(shù)家(我們可以結(jié)合任意數(shù)量的任何藝術(shù)家的風(fēng)格)。在這個(gè)例子中,我們生成了結(jié)合巴勃羅·畢加索和我弟弟的風(fēng)格的圖片。

結(jié)論

本文確定了多模態(tài)屬性圖 (MMAG) 上的圖像合成問(wèn)題。并提出了一個(gè)圖形上下文條件擴(kuò)散模型,該模型:

(1)使用基于語(yǔ)義個(gè)性化 PageRank 的方法對(duì)圖上的相關(guān)鄰居進(jìn)行采樣;

(2)通過(guò)使用 Graph-QFormer 考慮它們的依賴性,有效地將圖形信息編碼為圖形提示;

(3)在無(wú)圖分類器的指導(dǎo)下生成受控圖像。

在藝術(shù)、電子商務(wù)和文學(xué)領(lǐng)域的 MMAG 上進(jìn)行了系統(tǒng)實(shí)驗(yàn),證明了該方法與競(jìng)爭(zhēng)性基線方法相比的有效性。


本文轉(zhuǎn)自 AI生成未來(lái)  ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/2ZTyOXFSQUmXRYmvFvGvUA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦