自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比Flux更強(qiáng)大的文生圖模型來了!秘訣是“集百家之長”

人工智能 新聞
清北、牛津、普林斯頓等機(jī)構(gòu)的研究者提出了?個全新文生圖框架IterComp。

打造更強(qiáng)大文生圖模型新思路有——

面對Flux、stable diffusion、Omost等爆火模型,有人開始主打“集各家所長”。

具體來說,清北、牛津、普林斯頓等機(jī)構(gòu)的研究者提出了?個全新文生圖框架IterComp。

它能提取不同模型在各自領(lǐng)域的優(yōu)勢,同時不引入額外的復(fù)雜指令或增加計算開銷。

圖片

論文一經(jīng)發(fā)布,即在??(前推特)獲得AI論文領(lǐng)域大V轉(zhuǎn)發(fā),吸引大量關(guān)注。

圖片

那么,研究人員具體是如何實現(xiàn)的呢?

全新文生圖框架:IterComp

?2022年以來,基于diffusion的文生圖模型取得了快速發(fā)展,尤其在復(fù)雜組合生成(complex/compositional generation)任務(wù)上取得了顯著進(jìn)展。

例如,今年8月發(fā)布的Flux展現(xiàn)出了十分震撼的復(fù)雜場景生成能力與美學(xué)質(zhì)量;

RPG通過MLLM的輔助,將復(fù)雜的組合生成任務(wù)分解為簡單子任務(wù);

InstanceDiffusion通過布局控制(layoutbased),實現(xiàn)了與布局分布高度一致的精確圖像生成。

圖片

然而,這些模型的優(yōu)勢僅限于某些特定的組合生成任務(wù),且存在諸多局限。

基于文本的生成方法(如SDXL、SD3、Flux等),由于其訓(xùn)練數(shù)據(jù)和框架的優(yōu)勢,在物體與場景的模擬上表現(xiàn)出色,特別在美學(xué)質(zhì)量、屬性綁定和非空間關(guān)系(non-spatial relationships)方面具有顯著優(yōu)勢。

然而,當(dāng)涉及多個物體,且存在復(fù)雜的空間關(guān)系時,這類模型往往表現(xiàn)出明顯不足。

基于大語言模型(LLM-based)的生成方法,如RPG和Omost,通常需要對LLM進(jìn)?額外訓(xùn)練或設(shè)計復(fù)雜的提示。

然而,對于LLM處理后的復(fù)雜指令,diffusion backbone并不具備精確生成的能力。

基于布局(layourbased)的生成方法,如Instancediffusion和LMD+,雖然提供了精確的控制,但在圖像的美學(xué)質(zhì)量和真實性上存在明顯下降,并且需要人為設(shè)計布局。

因此,一個值得深?探討的問題是:

能否設(shè)計出一個強(qiáng)大的模型,在上述多個方面都表現(xiàn)出?,同時不引入額外的復(fù)雜指令或增加計算開銷?

基于此,研究人員提出一個全新的文生圖框架:IterComp。

圖片

要充分解決這?問題,研究面臨兩大難點

1、如何提取不同模型在各自領(lǐng)域的優(yōu)勢,并引導(dǎo)模型進(jìn)行有效學(xué)習(xí)?

針對該問題,研究人員首先構(gòu)建了模型庫(model gallery),其包含多種在不同方面表現(xiàn)出色的模型,每個模型都具備特定的組合生成偏好(composition-aware model preference)。

研究人員嘗試通過擴(kuò)散模型對齊方法,將base diffusion model與模型庫中的組合生成偏好進(jìn)行對齊。

團(tuán)隊聚焦于compositional generation的三個關(guān)鍵方面:

  • 屬性綁定(attribute binding)
  • 空間關(guān)系(spatial relationship)
  • ?空間關(guān)系(non-spatial relationship)

為此,研究人員收集了不同模型在這些方面的偏好數(shù)據(jù),并通過人工排序,構(gòu)建了?個面向組合生成的模型偏好數(shù)據(jù)集(composition-aware model preference dataset)。

圖片

針對這三個方面,團(tuán)隊分別訓(xùn)練三個composition-aware reward models,并對base模型進(jìn)行多獎勵反饋優(yōu)化。

2、組合生成任務(wù)很難優(yōu)化,如何更充分地學(xué)習(xí)到不同模型的組合偏好?

研究人員在diffusion領(lǐng)域創(chuàng)新地引入迭代式學(xué)習(xí)框架(iterative feedback learning),實現(xiàn)reward models與base diffusion model之間“左腳踩右腳登天”。

具體來說,在上述第一輪優(yōu)化后,團(tuán)隊將optimized base diffusion model以及額外選擇的其他模型(例如Omost等)添加進(jìn)model gallery。

對新增模型進(jìn)行偏好采樣,與初始model gallery中的圖像按照預(yù)訓(xùn)練的reward model構(gòu)建圖像對。

這些圖像對被用于進(jìn)?步優(yōu)化獎勵模型,隨后繼續(xù)用更新的獎勵模型優(yōu)化基礎(chǔ)擴(kuò)散模型。

具體的流程如下偽代碼所示:

圖片

實驗

定性實驗中,與其他三類compositional generation方法相比,IterComp取得了顯著的組合質(zhì)量的提升,并且不會引入額外的計算量。

圖片

從定量結(jié)果中可以看出,IterComp在T2I-CompBench上取得了各方面的領(lǐng)先。

另外,針對圖像真實性以及美學(xué)質(zhì)量,IterComp也表現(xiàn)出色。

圖片
圖片

然而IterComp的應(yīng)用潛力不限于此,其可以作為強(qiáng)大的backbone顯著提升Omost, RPG等模型的生成能力。

圖片

更多細(xì)節(jié)歡迎查閱原論文。

論文地址:https://arxiv.org/abs/2410.07171
代碼地址:https://github.com/YangLing0818/IterComp
模型地址:https://huggingface.co/comin/IterComp
Civitai:https://civitai.com/models/840857

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2017-03-23 13:07:00

小程序DCloud

2021-07-21 08:59:10

requestsPython協(xié)程

2011-08-18 17:13:58

掃描儀推薦

2012-11-09 10:16:22

ARM低功耗Intel

2023-03-30 11:08:49

AI模型訓(xùn)練

2010-09-07 09:11:11

服務(wù)器監(jiān)控趨勢分析自動化

2010-01-11 09:00:12

JVMJava 7JDK 7

2010-06-01 10:13:10

2014-08-26 14:24:09

華為HCC華為云計算大會云計算

2009-10-21 15:35:22

綜合布線市場

2024-10-08 09:10:03

JDK通信并發(fā)

2021-05-27 10:55:18

IEEdge瀏覽器

2011-09-15 09:40:02

網(wǎng)易財富

2010-08-30 10:38:00

2020-07-06 14:54:17

Python 開發(fā)編程語言

2024-03-22 15:08:47

CLIP機(jī)器學(xué)習(xí)人工智能

2023-03-06 09:15:38

ChatGPT人工智能

2013-01-08 09:32:46

SaaSOracleSAP

2009-06-15 09:43:11

Java閉包
點贊
收藏

51CTO技術(shù)棧公眾號