自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="hil6z"></blockquote>

<cite id="hil6z"></cite>

<sub id="hil6z"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

比Flux更強(qiáng)大的文生圖模型來了！秘訣是“集百家之長”

作者：量子位 2024-10-18 16:10:00

人工智能新聞

清北、牛津、普林斯頓等機(jī)構(gòu)的研究者提出了?個全新文生圖框架IterComp。

打造更強(qiáng)大文生圖模型新思路有——

面對Flux、stable diffusion、Omost等爆火模型，有人開始主打“集各家所長”。

具體來說，清北、牛津、普林斯頓等機(jī)構(gòu)的研究者提出了?個全新文生圖框架IterComp。

它能提取不同模型在各自領(lǐng)域的優(yōu)勢，同時不引入額外的復(fù)雜指令或增加計算開銷。

論文一經(jīng)發(fā)布，即在??（前推特）獲得AI論文領(lǐng)域大V轉(zhuǎn)發(fā)，吸引大量關(guān)注。

那么，研究人員具體是如何實現(xiàn)的呢？

全新文生圖框架：IterComp

?2022年以來，基于diffusion的文生圖模型取得了快速發(fā)展，尤其在復(fù)雜組合生成（complex/compositional generation）任務(wù)上取得了顯著進(jìn)展。

例如，今年8月發(fā)布的Flux展現(xiàn)出了十分震撼的復(fù)雜場景生成能力與美學(xué)質(zhì)量；

RPG通過MLLM的輔助，將復(fù)雜的組合生成任務(wù)分解為簡單子任務(wù)；

InstanceDiffusion通過布局控制（layoutbased），實現(xiàn)了與布局分布高度一致的精確圖像生成。

然而，這些模型的優(yōu)勢僅限于某些特定的組合生成任務(wù)，且存在諸多局限。

基于文本的生成方法（如SDXL、SD3、Flux等），由于其訓(xùn)練數(shù)據(jù)和框架的優(yōu)勢，在物體與場景的模擬上表現(xiàn)出色，特別在美學(xué)質(zhì)量、屬性綁定和非空間關(guān)系（non-spatial relationships）方面具有顯著優(yōu)勢。

然而，當(dāng)涉及多個物體，且存在復(fù)雜的空間關(guān)系時，這類模型往往表現(xiàn)出明顯不足。

基于大語言模型（LLM-based）的生成方法，如RPG和Omost，通常需要對LLM進(jìn)?額外訓(xùn)練或設(shè)計復(fù)雜的提示。

然而，對于LLM處理后的復(fù)雜指令，diffusion backbone并不具備精確生成的能力。

基于布局（layourbased）的生成方法，如Instancediffusion和LMD+，雖然提供了精確的控制，但在圖像的美學(xué)質(zhì)量和真實性上存在明顯下降，并且需要人為設(shè)計布局。

因此，一個值得深?探討的問題是：

能否設(shè)計出一個強(qiáng)大的模型，在上述多個方面都表現(xiàn)出?，同時不引入額外的復(fù)雜指令或增加計算開銷？

基于此，研究人員提出一個全新的文生圖框架：IterComp。

要充分解決這?問題，研究面臨兩大難點：

1、如何提取不同模型在各自領(lǐng)域的優(yōu)勢，并引導(dǎo)模型進(jìn)行有效學(xué)習(xí)？

針對該問題，研究人員首先構(gòu)建了模型庫（model gallery)，其包含多種在不同方面表現(xiàn)出色的模型，每個模型都具備特定的組合生成偏好（composition-aware model preference）。

研究人員嘗試通過擴(kuò)散模型對齊方法，將base diffusion model與模型庫中的組合生成偏好進(jìn)行對齊。

團(tuán)隊聚焦于compositional generation的三個關(guān)鍵方面：

屬性綁定（attribute binding）
空間關(guān)系（spatial relationship）
?空間關(guān)系（non-spatial relationship）

為此，研究人員收集了不同模型在這些方面的偏好數(shù)據(jù)，并通過人工排序，構(gòu)建了?個面向組合生成的模型偏好數(shù)據(jù)集（composition-aware model preference dataset）。

針對這三個方面，團(tuán)隊分別訓(xùn)練三個composition-aware reward models，并對base模型進(jìn)行多獎勵反饋優(yōu)化。

2、組合生成任務(wù)很難優(yōu)化，如何更充分地學(xué)習(xí)到不同模型的組合偏好？

研究人員在diffusion領(lǐng)域創(chuàng)新地引入迭代式學(xué)習(xí)框架（iterative feedback learning），實現(xiàn)reward models與base diffusion model之間“左腳踩右腳登天”。

具體來說，在上述第一輪優(yōu)化后，團(tuán)隊將optimized base diffusion model以及額外選擇的其他模型（例如Omost等）添加進(jìn)model gallery。

對新增模型進(jìn)行偏好采樣，與初始model gallery中的圖像按照預(yù)訓(xùn)練的reward model構(gòu)建圖像對。

這些圖像對被用于進(jìn)?步優(yōu)化獎勵模型，隨后繼續(xù)用更新的獎勵模型優(yōu)化基礎(chǔ)擴(kuò)散模型。

具體的流程如下偽代碼所示：

實驗

在定性實驗中，與其他三類compositional generation方法相比，IterComp取得了顯著的組合質(zhì)量的提升，并且不會引入額外的計算量。

從定量結(jié)果中可以看出，IterComp在T2I-CompBench上取得了各方面的領(lǐng)先。

另外，針對圖像真實性以及美學(xué)質(zhì)量，IterComp也表現(xiàn)出色。

然而IterComp的應(yīng)用潛力不限于此，其可以作為強(qiáng)大的backbone顯著提升Omost, RPG等模型的生成能力。

更多細(xì)節(jié)歡迎查閱原論文。

論文地址：https://arxiv.org/abs/2410.07171
代碼地址：https://github.com/YangLing0818/IterComp
模型地址：https://huggingface.co/comin/IterComp
Civitai:https://civitai.com/models/840857

責(zé)任編輯：張燕妮來源：量子位

AI 文生圖框架

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營