文生圖新SOTA!Pika北大斯坦福聯(lián)合推出RPG,多模態(tài)助力解決文生圖兩大難題
近日,北大、斯坦福、以及爆火的Pika Labs聯(lián)合發(fā)表了一項(xiàng)研究,將大模型文生圖的能力提升到了新的高度。
論文地址:https://arxiv.org/pdf/2401.11708.pdf
代碼地址:https://github.com/YangLing0818/RPG-DiffusionMaster
論文作者提出了一個(gè)全新的免訓(xùn)練文本到圖像生成/編輯框架,利用多模態(tài)大語(yǔ)言模型(MLLM)強(qiáng)大的思維鏈推理能力,來(lái)增強(qiáng)文本到圖像擴(kuò)散模型的組合性。
簡(jiǎn)單來(lái)說(shuō),就是能讓文生圖模型在面對(duì)「多個(gè)屬性和關(guān)系的多個(gè)對(duì)象的復(fù)雜文本提示」時(shí)表現(xiàn)更出色。
話(huà)不多說(shuō),直接上圖:
A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style.
一個(gè)穿著橙子連衣裙的綠色雙馬尾女孩坐在沙發(fā)上,左邊的大窗戶(hù)下是一張凌亂的辦公桌,沙發(fā)右上方是一個(gè)活潑的水族館,現(xiàn)實(shí)主義風(fēng)格。
面對(duì)關(guān)系復(fù)雜的多個(gè)對(duì)象,模型給出的整個(gè)畫(huà)面的結(jié)構(gòu)、人與物品的關(guān)系都非常合理,使觀者眼前一亮。
而對(duì)于同樣的提示,我們來(lái)看一下當(dāng)前最先進(jìn)的SDXL和DALL·E 3的表現(xiàn):
再看一下新框架面對(duì)多個(gè)對(duì)象綁定多個(gè)屬性時(shí)的表現(xiàn):
From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily.
從左到右,一個(gè)穿著白色襯衫、扎著金發(fā)馬尾辮的歐洲女孩,一個(gè)穿著印著小鳥(niǎo)的藍(lán)色襯衫、棕色卷發(fā)的非洲女孩,一個(gè)穿著西裝、黑色短發(fā)的亞洲年輕人正開(kāi)心地在校園里散步。
研究人員將這個(gè)框架命名為RPG(Recaption,Plan and Generate),采用MLLM作為全局規(guī)劃器,將復(fù)雜圖像的生成過(guò)程分解為子區(qū)域內(nèi)多個(gè)更簡(jiǎn)單的生成任務(wù)。
文中提出了互補(bǔ)的區(qū)域擴(kuò)散,實(shí)現(xiàn)區(qū)域組合生成,還將文本引導(dǎo)的圖像生成和編輯以閉環(huán)方式集成到了RPG框架中,從而增強(qiáng)了泛化能力。
實(shí)驗(yàn)表明,本文提出的RPG框架優(yōu)于目前最先進(jìn)的文本圖像擴(kuò)散模型,包括DALL·E 3和SDXL,尤其是在多類(lèi)別對(duì)象合成以及文本圖像語(yǔ)義對(duì)齊方面。
值得注意的是,RPG框架可以廣泛兼容各種MLLM架構(gòu)(如MiniGPT-4)和擴(kuò)散骨干網(wǎng)絡(luò)(如ControlNet)。
RPG
當(dāng)前的文生圖模型主要存在兩個(gè)問(wèn)題:1. 基于布局或基于注意力的方法只能提供粗略的空間引導(dǎo),并且難以處理重疊的對(duì)象;2. 基于反饋的方法需要收集高質(zhì)量的反饋數(shù)據(jù),并產(chǎn)生額外的訓(xùn)練成本。
為了解決這些問(wèn)題,研究人員提出了RPG的三個(gè)核心策略,如下圖所示:
給定一個(gè)包含多個(gè)實(shí)體和關(guān)系的復(fù)雜文本提示,首先利用MLLM將其分解為基本提示和高度描述性的子提示;隨后,利用多模態(tài)模型的CoT規(guī)劃將圖像空間劃分為互補(bǔ)的子區(qū)域;最后,引入互補(bǔ)區(qū)域擴(kuò)散來(lái)獨(dú)立生成每個(gè)子區(qū)域的圖像,并在每個(gè)采樣步驟中進(jìn)行聚合。
多模態(tài)重新調(diào)整
將文本提示轉(zhuǎn)換為高度描述性的提示,提供信息增強(qiáng)的提示理解和擴(kuò)散模型中的語(yǔ)義對(duì)齊。
使用MLLM來(lái)識(shí)別用戶(hù)提示y中的關(guān)鍵短語(yǔ),獲得其中的子項(xiàng):
使用LLM將文本提示符分解為不同的子提示符,并進(jìn)行更詳細(xì)的重新描述:
通過(guò)這種方式,可以為每個(gè)子提示生成更密集的細(xì)粒度細(xì)節(jié),以有效地提高生成圖像的保真度,并減少提示和圖像之間的語(yǔ)義差異。
思想鏈規(guī)劃
將圖像空間劃分為互補(bǔ)的子區(qū)域,并為每個(gè)子區(qū)域分配不同的子提示,同時(shí)將生成任務(wù)分解為多個(gè)更簡(jiǎn)單的子任務(wù)。
具體來(lái)說(shuō),將圖像空間H×W劃分為若干互補(bǔ)區(qū)域,并將每個(gè)增強(qiáng)子提示符分配給特定區(qū)域R:
利用MLLM強(qiáng)大的思維鏈推理能力,進(jìn)行有效的區(qū)域劃分。通過(guò)分析重新獲得的中間結(jié)果,就能為后續(xù)的圖像合成生成詳細(xì)的原理和精確的說(shuō)明。
補(bǔ)充區(qū)域擴(kuò)散
在每個(gè)矩形子區(qū)域內(nèi),獨(dú)立生成由子提示引導(dǎo)的內(nèi)容,隨后調(diào)整大小和連接的方式,在空間上合并這些子區(qū)域。
這種方法有效地解決了大模型難以處理重疊對(duì)象的問(wèn)題。此外,論文擴(kuò)展了這個(gè)框架,以適應(yīng)編輯任務(wù),采用基于輪廓的區(qū)域擴(kuò)散,從而對(duì)需要修改的不一致區(qū)域精確操作。
文本引導(dǎo)的圖像編輯
如上圖所示。在復(fù)述階段,RPG采用MLLM作為字幕來(lái)復(fù)述源圖像,并利用其強(qiáng)大的推理能力來(lái)識(shí)別圖像和目標(biāo)提示之間的細(xì)粒度語(yǔ)義差異,直接分析輸入圖像如何與目標(biāo)提示對(duì)齊。
使用MLLM(GPT-4、Gemini Pro等)來(lái)檢查輸入與目標(biāo)之間關(guān)于數(shù)值準(zhǔn)確性、屬性綁定和對(duì)象關(guān)系的差異。由此產(chǎn)生的多模態(tài)理解反饋將被交付給MLLM,用于推理編輯計(jì)劃。
我們來(lái)看一下生成效果在以上三個(gè)方面的表現(xiàn),首先是屬性綁定,對(duì)比SDXL、DALL·E 3和LMD+:
我們可以看到在全部三項(xiàng)測(cè)試中,只有RPG最準(zhǔn)確地反映了提示所描述的內(nèi)容。
然后是數(shù)值準(zhǔn)確性,展示順序同上(SDXL、DALL·E 3、LMD+、RPG):
——沒(méi)想到數(shù)數(shù)這件事情對(duì)于文生圖大模型還挺難的,RPG輕松戰(zhàn)勝對(duì)手。
最后一項(xiàng)是還原提示中的復(fù)雜關(guān)系:
此外,還可以將區(qū)域擴(kuò)散擴(kuò)展為分層格式,將特定子區(qū)域劃分為更小的子區(qū)域。
如下圖所示,當(dāng)增加區(qū)域分割的層次結(jié)構(gòu)時(shí),RPG可以在文本到圖像的生成方面實(shí)現(xiàn)顯著的改進(jìn)。這為處理復(fù)雜的生成任務(wù)提供了一個(gè)新的視角,使我們有可能生成任意組成的圖像。