自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文生圖新SOTA!Pika北大斯坦福聯(lián)合推出RPG,多模態(tài)助力解決文生圖兩大難題

人工智能 新聞
近日,北大、斯坦福、以及Pika Labs發(fā)布了新的開(kāi)源文生圖框架,利用多模態(tài)LLM的能力成功解決文生圖兩大難題,表現(xiàn)超越SDXL和DALL·E 3

近日,北大、斯坦福、以及爆火的Pika Labs聯(lián)合發(fā)表了一項(xiàng)研究,將大模型文生圖的能力提升到了新的高度。

圖片

論文地址:https://arxiv.org/pdf/2401.11708.pdf

代碼地址:https://github.com/YangLing0818/RPG-DiffusionMaster

論文作者提出了一個(gè)全新的免訓(xùn)練文本到圖像生成/編輯框架,利用多模態(tài)大語(yǔ)言模型(MLLM)強(qiáng)大的思維鏈推理能力,來(lái)增強(qiáng)文本到圖像擴(kuò)散模型的組合性。

簡(jiǎn)單來(lái)說(shuō),就是能讓文生圖模型在面對(duì)「多個(gè)屬性和關(guān)系的多個(gè)對(duì)象的復(fù)雜文本提示」時(shí)表現(xiàn)更出色。

話(huà)不多說(shuō),直接上圖:

圖片

A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style.

一個(gè)穿著橙子連衣裙的綠色雙馬尾女孩坐在沙發(fā)上,左邊的大窗戶(hù)下是一張凌亂的辦公桌,沙發(fā)右上方是一個(gè)活潑的水族館,現(xiàn)實(shí)主義風(fēng)格。

面對(duì)關(guān)系復(fù)雜的多個(gè)對(duì)象,模型給出的整個(gè)畫(huà)面的結(jié)構(gòu)、人與物品的關(guān)系都非常合理,使觀者眼前一亮。

而對(duì)于同樣的提示,我們來(lái)看一下當(dāng)前最先進(jìn)的SDXL和DALL·E 3的表現(xiàn):

圖片

再看一下新框架面對(duì)多個(gè)對(duì)象綁定多個(gè)屬性時(shí)的表現(xiàn):

圖片

From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily.

從左到右,一個(gè)穿著白色襯衫、扎著金發(fā)馬尾辮的歐洲女孩,一個(gè)穿著印著小鳥(niǎo)的藍(lán)色襯衫、棕色卷發(fā)的非洲女孩,一個(gè)穿著西裝、黑色短發(fā)的亞洲年輕人正開(kāi)心地在校園里散步。

研究人員將這個(gè)框架命名為RPG(Recaption,Plan and Generate),采用MLLM作為全局規(guī)劃器,將復(fù)雜圖像的生成過(guò)程分解為子區(qū)域內(nèi)多個(gè)更簡(jiǎn)單的生成任務(wù)。

圖片

文中提出了互補(bǔ)的區(qū)域擴(kuò)散,實(shí)現(xiàn)區(qū)域組合生成,還將文本引導(dǎo)的圖像生成和編輯以閉環(huán)方式集成到了RPG框架中,從而增強(qiáng)了泛化能力。

實(shí)驗(yàn)表明,本文提出的RPG框架優(yōu)于目前最先進(jìn)的文本圖像擴(kuò)散模型,包括DALL·E 3和SDXL,尤其是在多類(lèi)別對(duì)象合成以及文本圖像語(yǔ)義對(duì)齊方面。

值得注意的是,RPG框架可以廣泛兼容各種MLLM架構(gòu)(如MiniGPT-4)和擴(kuò)散骨干網(wǎng)絡(luò)(如ControlNet)。

RPG

當(dāng)前的文生圖模型主要存在兩個(gè)問(wèn)題:1. 基于布局或基于注意力的方法只能提供粗略的空間引導(dǎo),并且難以處理重疊的對(duì)象;2. 基于反饋的方法需要收集高質(zhì)量的反饋數(shù)據(jù),并產(chǎn)生額外的訓(xùn)練成本。

為了解決這些問(wèn)題,研究人員提出了RPG的三個(gè)核心策略,如下圖所示:

圖片

給定一個(gè)包含多個(gè)實(shí)體和關(guān)系的復(fù)雜文本提示,首先利用MLLM將其分解為基本提示和高度描述性的子提示;隨后,利用多模態(tài)模型的CoT規(guī)劃將圖像空間劃分為互補(bǔ)的子區(qū)域;最后,引入互補(bǔ)區(qū)域擴(kuò)散來(lái)獨(dú)立生成每個(gè)子區(qū)域的圖像,并在每個(gè)采樣步驟中進(jìn)行聚合。

多模態(tài)重新調(diào)整

將文本提示轉(zhuǎn)換為高度描述性的提示,提供信息增強(qiáng)的提示理解和擴(kuò)散模型中的語(yǔ)義對(duì)齊。

使用MLLM來(lái)識(shí)別用戶(hù)提示y中的關(guān)鍵短語(yǔ),獲得其中的子項(xiàng):

圖片

使用LLM將文本提示符分解為不同的子提示符,并進(jìn)行更詳細(xì)的重新描述:

圖片

通過(guò)這種方式,可以為每個(gè)子提示生成更密集的細(xì)粒度細(xì)節(jié),以有效地提高生成圖像的保真度,并減少提示和圖像之間的語(yǔ)義差異。

思想鏈規(guī)劃

將圖像空間劃分為互補(bǔ)的子區(qū)域,并為每個(gè)子區(qū)域分配不同的子提示,同時(shí)將生成任務(wù)分解為多個(gè)更簡(jiǎn)單的子任務(wù)。

具體來(lái)說(shuō),將圖像空間H×W劃分為若干互補(bǔ)區(qū)域,并將每個(gè)增強(qiáng)子提示符分配給特定區(qū)域R:

圖片

利用MLLM強(qiáng)大的思維鏈推理能力,進(jìn)行有效的區(qū)域劃分。通過(guò)分析重新獲得的中間結(jié)果,就能為后續(xù)的圖像合成生成詳細(xì)的原理和精確的說(shuō)明。

補(bǔ)充區(qū)域擴(kuò)散

在每個(gè)矩形子區(qū)域內(nèi),獨(dú)立生成由子提示引導(dǎo)的內(nèi)容,隨后調(diào)整大小和連接的方式,在空間上合并這些子區(qū)域。

圖片

這種方法有效地解決了大模型難以處理重疊對(duì)象的問(wèn)題。此外,論文擴(kuò)展了這個(gè)框架,以適應(yīng)編輯任務(wù),采用基于輪廓的區(qū)域擴(kuò)散,從而對(duì)需要修改的不一致區(qū)域精確操作。

文本引導(dǎo)的圖像編輯

圖片

如上圖所示。在復(fù)述階段,RPG采用MLLM作為字幕來(lái)復(fù)述源圖像,并利用其強(qiáng)大的推理能力來(lái)識(shí)別圖像和目標(biāo)提示之間的細(xì)粒度語(yǔ)義差異,直接分析輸入圖像如何與目標(biāo)提示對(duì)齊。

使用MLLM(GPT-4、Gemini Pro等)來(lái)檢查輸入與目標(biāo)之間關(guān)于數(shù)值準(zhǔn)確性、屬性綁定和對(duì)象關(guān)系的差異。由此產(chǎn)生的多模態(tài)理解反饋將被交付給MLLM,用于推理編輯計(jì)劃。

我們來(lái)看一下生成效果在以上三個(gè)方面的表現(xiàn),首先是屬性綁定,對(duì)比SDXL、DALL·E 3和LMD+:

我們可以看到在全部三項(xiàng)測(cè)試中,只有RPG最準(zhǔn)確地反映了提示所描述的內(nèi)容。

然后是數(shù)值準(zhǔn)確性,展示順序同上(SDXL、DALL·E 3、LMD+、RPG):

——沒(méi)想到數(shù)數(shù)這件事情對(duì)于文生圖大模型還挺難的,RPG輕松戰(zhàn)勝對(duì)手。

最后一項(xiàng)是還原提示中的復(fù)雜關(guān)系:

此外,還可以將區(qū)域擴(kuò)散擴(kuò)展為分層格式,將特定子區(qū)域劃分為更小的子區(qū)域。

如下圖所示,當(dāng)增加區(qū)域分割的層次結(jié)構(gòu)時(shí),RPG可以在文本到圖像的生成方面實(shí)現(xiàn)顯著的改進(jìn)。這為處理復(fù)雜的生成任務(wù)提供了一個(gè)新的視角,使我們有可能生成任意組成的圖像。


責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-11-29 16:35:50

模型訓(xùn)練

2023-09-06 09:50:29

人工智能模型

2024-01-24 13:17:00

AI技術(shù)

2023-07-17 09:21:12

Meta模型

2023-12-13 21:50:59

騰訊AI模型

2023-03-13 15:56:00

模型框架

2023-11-28 15:21:00

AI模型

2024-06-14 16:24:42

2025-02-07 14:01:20

2024-07-01 10:19:22

2014-09-26 11:12:28

應(yīng)用交付云計(jì)算安全

2024-03-22 15:08:47

CLIP機(jī)器學(xué)習(xí)人工智能

2025-04-24 06:02:45

2022-05-25 10:28:35

模型AI

2012-04-25 13:39:23

智能電視

2024-10-23 14:04:24

2024-03-15 12:49:11

AI模型

2022-08-11 13:11:48

斯坦福大學(xué)英偉達(dá)VR 頭顯

2018-01-23 16:48:47

AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)