UIUC提出InstructG2I:從多模態(tài)屬性圖合成圖像?,結(jié)合文本和圖信息生成內(nèi)容更豐富有趣!
今天給大家介紹的這項工作是伊利諾伊大學厄巴納-香檳分校的研究者們提出的一個新任務 Graph2Image,其特點是通過調(diào)節(jié)圖信息來合成圖像,并引入了一種名為InstructG2I的新型圖調(diào)節(jié)擴散模型來解決這個問題。
在INSTRUCTG2I的工作中,研究者們開發(fā)了一種新方法來生成圖像,這種方法不僅依賴于文本描述,還考慮到圖中其他相關信息。想象一下,如果你要畫一幅畫,除了有一個簡單的描述,比如“雪中的房子”,你還可以參考與這個房子相關的其他房子或景物的信息。INSTRUCTG2I首先會找出與目標圖像最相關的鄰居圖像,這些圖像是通過一種叫做個性化頁面排名的技術來選擇的。接著,它會使用一種特殊的模型(Graph-QFormer)來理解這些鄰居圖像與目標圖像之間的關系,然后把這些信息與文本描述結(jié)合起來,最終生成一幅新圖像。這樣,生成的圖像不僅能符合描述,還能融入其他相關圖像的風格和特征,確保生成的內(nèi)容更豐富、更有趣。
相關鏈接
論文閱讀:http://arxiv.org/abs/2410.07157v1
項目主頁:https://instructg2i.github.io/
論文閱讀
InstructG2I:從多模態(tài)屬性圖合成圖像
摘要
在本文中,我們研究了一個被忽視但關鍵的任務Graph2Image:從多模態(tài)屬性圖(MMAG)生成圖像。由于圖大小的爆炸性增長、圖實體之間的依賴關系以及圖條件的可控性需求,該任務提出了重大挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出了一種稱為InstructG2I 的圖上下文條件擴散模型 。 InstructG2I首先利用圖結(jié)構(gòu)和多模態(tài)信息,通過結(jié)合個性化頁面排名和基于視覺語言特征的重新排名來進行信息鄰居采樣。然后,Graph-QFormer 編碼器自適應地將圖節(jié)點編碼為輔助圖提示集 ,以指導擴散的去噪過程。最后,我們提出了無圖分類器的指導,通過改變圖指導的強度和節(jié)點的多個連接邊來實現(xiàn)可控生成。對來自不同領域的三個數(shù)據(jù)集進行的廣泛實驗證明了我們方法的有效性和可控性。
方法
InstructG2I 的整體框架。 (a)給定多模態(tài)屬性圖 (MMAG) 中帶有文本提示的目標節(jié)點(例如,雪中的房子),我們希望為其生成圖像,(b)我們首先執(zhí)行基于語義 PPR 的鄰居采樣,這涉及結(jié)構(gòu)感知的個性化 PageRank 和基于語義感知的相似性的重新排序,以在圖中采樣信息豐富的鄰居節(jié)點。(c)然后將這些鄰居節(jié)點輸入到 Graph-QFormer 中,由多個自注意和交叉注意層編碼,表示為圖形標記并與文本提示標記一起用于指導擴散模型的去噪過程。
可控生成
實驗
定性評價
定性評價。我們的方法通過更好地利用來自相鄰節(jié)點(圖中的“采樣鄰居”)的圖形信息,表現(xiàn)出與真實情況更好的一致性。
文字與圖表指導平衡
InstructG2I平衡文本引導和圖形引導 的能力。
多圖指導研究
多圖指導研究。根據(jù)單個或多個圖形指導(“畢加索”和“庫爾貝”風格)生成帶有輸入文本提示“彈鋼琴的人”的藝術作品。
虛擬藝術家
虛擬藝術家(我們可以結(jié)合任意數(shù)量的任何藝術家的風格)。在這個例子中,我們生成了結(jié)合巴勃羅·畢加索和我弟弟的風格的圖片。
結(jié)論
本文確定了多模態(tài)屬性圖 (MMAG) 上的圖像合成問題。并提出了一個圖形上下文條件擴散模型,該模型:
(1)使用基于語義個性化 PageRank 的方法對圖上的相關鄰居進行采樣;
(2)通過使用 Graph-QFormer 考慮它們的依賴性,有效地將圖形信息編碼為圖形提示;
(3)在無圖分類器的指導下生成受控圖像。
在藝術、電子商務和文學領域的 MMAG 上進行了系統(tǒng)實驗,證明了該方法與競爭性基線方法相比的有效性。