自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="hiohl"><option id="hiohl"></option></thead>

<p id="hiohl"><li id="hiohl"><pre id="hiohl"></pre></li></p>

^{<blockquote id="hiohl"></blockquote>}

<cite id="hiohl"></cite>

<sub id="hiohl"><p id="hiohl"><li id="hiohl"></li></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

文生圖新SOTA！Pika北大斯坦福聯(lián)合推出RPG，多模態(tài)助力解決文生圖兩大難題

作者：新智元 2024-02-19 00:09:49

人工智能新聞

近日，北大、斯坦福、以及Pika Labs發(fā)布了新的開(kāi)源文生圖框架，利用多模態(tài)LLM的能力成功解決文生圖兩大難題，表現(xiàn)超越SDXL和DALL·E 3

近日，北大、斯坦福、以及爆火的Pika Labs聯(lián)合發(fā)表了一項(xiàng)研究，將大模型文生圖的能力提升到了新的高度。

論文地址：https://arxiv.org/pdf/2401.11708.pdf

代碼地址：https://github.com/YangLing0818/RPG-DiffusionMaster

論文作者提出了一個(gè)全新的免訓(xùn)練文本到圖像生成/編輯框架，利用多模態(tài)大語(yǔ)言模型（MLLM）強(qiáng)大的思維鏈推理能力，來(lái)增強(qiáng)文本到圖像擴(kuò)散模型的組合性。

簡(jiǎn)單來(lái)說(shuō)，就是能讓文生圖模型在面對(duì)「多個(gè)屬性和關(guān)系的多個(gè)對(duì)象的復(fù)雜文本提示」時(shí)表現(xiàn)更出色。

話(huà)不多說(shuō)，直接上圖：

A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style.
一個(gè)穿著橙子連衣裙的綠色雙馬尾女孩坐在沙發(fā)上，左邊的大窗戶(hù)下是一張凌亂的辦公桌，沙發(fā)右上方是一個(gè)活潑的水族館，現(xiàn)實(shí)主義風(fēng)格。

面對(duì)關(guān)系復(fù)雜的多個(gè)對(duì)象，模型給出的整個(gè)畫(huà)面的結(jié)構(gòu)、人與物品的關(guān)系都非常合理，使觀者眼前一亮。

而對(duì)于同樣的提示，我們來(lái)看一下當(dāng)前最先進(jìn)的SDXL和DALL·E 3的表現(xiàn)：

再看一下新框架面對(duì)多個(gè)對(duì)象綁定多個(gè)屬性時(shí)的表現(xiàn)：

From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily.
從左到右，一個(gè)穿著白色襯衫、扎著金發(fā)馬尾辮的歐洲女孩，一個(gè)穿著印著小鳥(niǎo)的藍(lán)色襯衫、棕色卷發(fā)的非洲女孩，一個(gè)穿著西裝、黑色短發(fā)的亞洲年輕人正開(kāi)心地在校園里散步。

研究人員將這個(gè)框架命名為RPG（Recaption，Plan and Generate），采用MLLM作為全局規(guī)劃器，將復(fù)雜圖像的生成過(guò)程分解為子區(qū)域內(nèi)多個(gè)更簡(jiǎn)單的生成任務(wù)。

文中提出了互補(bǔ)的區(qū)域擴(kuò)散，實(shí)現(xiàn)區(qū)域組合生成，還將文本引導(dǎo)的圖像生成和編輯以閉環(huán)方式集成到了RPG框架中，從而增強(qiáng)了泛化能力。

實(shí)驗(yàn)表明，本文提出的RPG框架優(yōu)于目前最先進(jìn)的文本圖像擴(kuò)散模型，包括DALL·E 3和SDXL，尤其是在多類(lèi)別對(duì)象合成以及文本圖像語(yǔ)義對(duì)齊方面。

值得注意的是，RPG框架可以廣泛兼容各種MLLM架構(gòu)（如MiniGPT-4）和擴(kuò)散骨干網(wǎng)絡(luò)（如ControlNet）。

RPG

當(dāng)前的文生圖模型主要存在兩個(gè)問(wèn)題：1. 基于布局或基于注意力的方法只能提供粗略的空間引導(dǎo)，并且難以處理重疊的對(duì)象；2. 基于反饋的方法需要收集高質(zhì)量的反饋數(shù)據(jù)，并產(chǎn)生額外的訓(xùn)練成本。

為了解決這些問(wèn)題，研究人員提出了RPG的三個(gè)核心策略，如下圖所示：

給定一個(gè)包含多個(gè)實(shí)體和關(guān)系的復(fù)雜文本提示，首先利用MLLM將其分解為基本提示和高度描述性的子提示；隨后，利用多模態(tài)模型的CoT規(guī)劃將圖像空間劃分為互補(bǔ)的子區(qū)域；最后，引入互補(bǔ)區(qū)域擴(kuò)散來(lái)獨(dú)立生成每個(gè)子區(qū)域的圖像，并在每個(gè)采樣步驟中進(jìn)行聚合。

多模態(tài)重新調(diào)整

將文本提示轉(zhuǎn)換為高度描述性的提示，提供信息增強(qiáng)的提示理解和擴(kuò)散模型中的語(yǔ)義對(duì)齊。

使用MLLM來(lái)識(shí)別用戶(hù)提示y中的關(guān)鍵短語(yǔ)，獲得其中的子項(xiàng)：

使用LLM將文本提示符分解為不同的子提示符，并進(jìn)行更詳細(xì)的重新描述：

通過(guò)這種方式，可以為每個(gè)子提示生成更密集的細(xì)粒度細(xì)節(jié)，以有效地提高生成圖像的保真度，并減少提示和圖像之間的語(yǔ)義差異。

思想鏈規(guī)劃

將圖像空間劃分為互補(bǔ)的子區(qū)域，并為每個(gè)子區(qū)域分配不同的子提示，同時(shí)將生成任務(wù)分解為多個(gè)更簡(jiǎn)單的子任務(wù)。

具體來(lái)說(shuō)，將圖像空間H×W劃分為若干互補(bǔ)區(qū)域，并將每個(gè)增強(qiáng)子提示符分配給特定區(qū)域R：

利用MLLM強(qiáng)大的思維鏈推理能力，進(jìn)行有效的區(qū)域劃分。通過(guò)分析重新獲得的中間結(jié)果，就能為后續(xù)的圖像合成生成詳細(xì)的原理和精確的說(shuō)明。

補(bǔ)充區(qū)域擴(kuò)散

在每個(gè)矩形子區(qū)域內(nèi)，獨(dú)立生成由子提示引導(dǎo)的內(nèi)容，隨后調(diào)整大小和連接的方式，在空間上合并這些子區(qū)域。

這種方法有效地解決了大模型難以處理重疊對(duì)象的問(wèn)題。此外，論文擴(kuò)展了這個(gè)框架，以適應(yīng)編輯任務(wù)，采用基于輪廓的區(qū)域擴(kuò)散，從而對(duì)需要修改的不一致區(qū)域精確操作。

文本引導(dǎo)的圖像編輯

如上圖所示。在復(fù)述階段，RPG采用MLLM作為字幕來(lái)復(fù)述源圖像，并利用其強(qiáng)大的推理能力來(lái)識(shí)別圖像和目標(biāo)提示之間的細(xì)粒度語(yǔ)義差異，直接分析輸入圖像如何與目標(biāo)提示對(duì)齊。

使用MLLM（GPT-4、Gemini Pro等）來(lái)檢查輸入與目標(biāo)之間關(guān)于數(shù)值準(zhǔn)確性、屬性綁定和對(duì)象關(guān)系的差異。由此產(chǎn)生的多模態(tài)理解反饋將被交付給MLLM，用于推理編輯計(jì)劃。

我們來(lái)看一下生成效果在以上三個(gè)方面的表現(xiàn)，首先是屬性綁定，對(duì)比SDXL、DALL·E 3和LMD+：

我們可以看到在全部三項(xiàng)測(cè)試中，只有RPG最準(zhǔn)確地反映了提示所描述的內(nèi)容。

然后是數(shù)值準(zhǔn)確性，展示順序同上（SDXL、DALL·E 3、LMD+、RPG）：

——沒(méi)想到數(shù)數(shù)這件事情對(duì)于文生圖大模型還挺難的，RPG輕松戰(zhàn)勝對(duì)手。

最后一項(xiàng)是還原提示中的復(fù)雜關(guān)系：

此外，還可以將區(qū)域擴(kuò)散擴(kuò)展為分層格式，將特定子區(qū)域劃分為更小的子區(qū)域。

如下圖所示，當(dāng)增加區(qū)域分割的層次結(jié)構(gòu)時(shí)，RPG可以在文本到圖像的生成方面實(shí)現(xiàn)顯著的改進(jìn)。這為處理復(fù)雜的生成任務(wù)提供了一個(gè)新的視角，使我們有可能生成任意組成的圖像。

責(zé)任編輯：張燕妮來(lái)源：新智元

開(kāi)源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)