自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擴(kuò)散模型失寵?端側(cè)非自回歸圖像生成基礎(chǔ)模型Meissonic登場(chǎng),超越SDXL!

人工智能
剛剛,一款專為消費(fèi)級(jí)顯卡設(shè)計(jì)的全新非自回歸掩碼圖像建模的文本到圖像生成模型——Meissonic發(fā)布,標(biāo)志著圖像生成即將進(jìn)入「端側(cè)時(shí)代」。

最近,YouTube和Reddit上出現(xiàn)了一個(gè)引起廣泛討論的圖像生成模型,來(lái)自日本、韓國(guó)、美國(guó)、印度、中東和英國(guó)的網(wǎng)友們紛紛參與討論。

圖片圖片

Youtube熱烈討論Youtube熱烈討論

那么,這到底是怎么回事呢?讓我們一起來(lái)看看吧。    

近年來(lái),大語(yǔ)言模型在自然語(yǔ)言處理領(lǐng)域取得了巨大的突破,以LLaMA和Qwen等為代表的模型展現(xiàn)了強(qiáng)大的語(yǔ)言理解和生成能力。

但是,圖像生成技術(shù)的突破主要得益于擴(kuò)散模型,如Stable Diffusion XL在圖像質(zhì)量、細(xì)節(jié)和概念一致性方面設(shè)立了事實(shí)標(biāo)準(zhǔn)。然而,這些擴(kuò)散模型與自回歸語(yǔ)言模型的工作原理和架構(gòu)顯著不同,導(dǎo)致在視覺(jué)和語(yǔ)言任務(wù)上實(shí)現(xiàn)統(tǒng)一生成方法面臨挑戰(zhàn)。

這種差異不僅使這些模態(tài)的整合變得復(fù)雜,還凸顯了需要?jiǎng)?chuàng)新的方法來(lái)彌合它們之間的差距。自回歸文本到圖像模型(如LlamaGen)通過(guò)預(yù)測(cè)下一個(gè)token生成圖像,但由于生成的圖像token數(shù)量龐大,自回歸模型在效率和分辨率上也面臨瓶頸,難以應(yīng)用到實(shí)際場(chǎng)景。

于是,一些Masked Image Modeling(MIM)技術(shù),例如MaskGIT和MUSE被提出。這些方法展現(xiàn)了高效圖像生成的潛力。

盡管MIM方法具有一定的前景,它們?nèi)悦媾R兩個(gè)關(guān)鍵限制:

1. 分辨率限制

當(dāng)前的MIM方法只能生成最大分辨率為512×512像素的圖像。這一限制阻礙了它們的廣泛應(yīng)用和進(jìn)一步發(fā)展,尤其是在文本生成圖像的社區(qū)中,1024×1024分辨率逐漸成為標(biāo)準(zhǔn)。

2. 性能差距

現(xiàn)有的MIM技術(shù)尚未達(dá)到領(lǐng)先擴(kuò)散模型如SDXL所表現(xiàn)的性能水平,特別是在圖像質(zhì)量、復(fù)雜細(xì)節(jié)和概念表達(dá)等關(guān)鍵領(lǐng)域表現(xiàn)不佳,而這些對(duì)實(shí)際應(yīng)用至關(guān)重要。這些挑戰(zhàn)需要探索新的創(chuàng)新方法,Meissonic的目標(biāo)是使MIM能夠高效生成高分辨率圖像(如1024×1024),同時(shí)縮小與頂級(jí)擴(kuò)散模型的差距,并確保其計(jì)算效率適合消費(fèi)級(jí)硬件。

Meissonic模型提出了全新的解決方案,基于非自回歸的掩碼圖像建模(MIM),為高效、高分辨率的T2I生成設(shè)定了新標(biāo)準(zhǔn)。

圖片圖片

論文鏈接: https://arxiv.org/abs/2410.08261

GitHub Code: https://github.com/viiika/Meissonic

Huggingface Model: https://huggingface.co/MeissonFlow/Meissonic

通過(guò)架構(gòu)創(chuàng)新、先進(jìn)的位置編碼策略和優(yōu)化的采樣方法,Meissonic不僅在生成質(zhì)量和效率上與領(lǐng)先的擴(kuò)散模型(如SDXL)相媲美,甚至在某些場(chǎng)景中超越了它們。

此外,Meissonic利用高質(zhì)量的數(shù)據(jù)集,并通過(guò)基于人類偏好評(píng)分的微觀條件進(jìn)行訓(xùn)練,同時(shí)引入特征壓縮層,顯著提升了圖像的保真度與分辨率。

圖片圖片

以下是Meissonic在方法上的幾項(xiàng)重要技術(shù)改進(jìn):

1. 增強(qiáng)型Transformer架構(gòu)

Meissonic結(jié)合了多模態(tài)與單模態(tài)的Transformer層,旨在捕捉語(yǔ)言與視覺(jué)之間的互動(dòng)信息。從未池化的文本表示中提取有用信號(hào),構(gòu)建兩者之間的橋梁;單模態(tài)Transformer層則進(jìn)一步細(xì)化視覺(jué)表示,提升生成圖像的質(zhì)量與穩(wěn)定性。研究表明,這種結(jié)構(gòu)按1:2比例能夠?qū)崿F(xiàn)最佳性能。

2. 先進(jìn)的位置編碼與動(dòng)態(tài)采樣條件

為保持高分辨率圖像中的細(xì)節(jié),Meissonic引入了旋轉(zhuǎn)位置編碼(RoPE),為queries和keys編碼位置信息。RoPE有效解決了隨著token數(shù)量增加,傳統(tǒng)位置編碼方法導(dǎo)致的上下文關(guān)聯(lián)丟失問(wèn)題,尤其在生成512×512及更高分辨率圖像時(shí)。

此外,Meissonic通過(guò)引入掩碼率作為動(dòng)態(tài)采樣條件,使模型自適應(yīng)不同階段的采樣過(guò)程,進(jìn)一步提升圖像細(xì)節(jié)和整體質(zhì)量。

3. 高質(zhì)量訓(xùn)練數(shù)據(jù)與微觀條件

Meissonic的訓(xùn)練依賴于經(jīng)過(guò)精心篩選的高質(zhì)量數(shù)據(jù)集。為提升圖像生成效果,Meissonic在訓(xùn)練中加入了圖像分辨率、裁剪坐標(biāo)及人類偏好評(píng)分等微觀條件,顯著增強(qiáng)了模型在高分辨率生成時(shí)的穩(wěn)定性。

4. 特征壓縮層

為了在保持高分辨率的同時(shí)提升生成效率,Meissonic引入了特征壓縮層,使其在生成1024×1024分辨率圖像時(shí)可以有效降低計(jì)算成本。

那么,Meissonic到底有多強(qiáng)大呢?讓我們來(lái)看看它的表現(xiàn):

圖片圖片

在HPS V2.0基準(zhǔn)測(cè)試中,Meissonic以平均0.56分的優(yōu)勢(shì)超越了SDXL。

在圖像編輯能力評(píng)測(cè)數(shù)據(jù)集Emu-Edit上,Meissonic的Zero-shot圖像編輯性能甚至超越了經(jīng)過(guò)圖像編輯指令微調(diào)后的模型。

圖片

圖片圖片

在風(fēng)格多樣性生成方面,Meissonic展現(xiàn)出超越SDXL的表現(xiàn)。

而這一切,都只需SDXL 1/3的推理時(shí)間和1/2的顯存占用。值得注意的是,Meissonic可以在8GB顯存下運(yùn)行,讓中低端顯卡的用戶也能受益。

圖片圖片

此外,Meissonic還展現(xiàn)了超強(qiáng)的zero-shot圖像編輯能力,無(wú)需微調(diào)即可靈活編輯有mask和無(wú)mask的場(chǎng)景,提供了更多創(chuàng)作可能性。

圖片圖片

圖片圖片

高效推理與訓(xùn)練的結(jié)合

在文本到圖像合成領(lǐng)域,Meissonic模型憑借卓越的效率脫穎而出。該模型不僅在推理過(guò)程中實(shí)現(xiàn)了高效性,同時(shí)在訓(xùn)練階段也顯著提升了效率。Meissonic采用了一套精心設(shè)計(jì)的四階段訓(xùn)練流程,逐步提升生成效果。

階段一:理解圖像基礎(chǔ)概念

研究表明,原始LAION數(shù)據(jù)集的文本描述無(wú)法充分滿足文本到圖像模型的訓(xùn)練需求,通常需要多模態(tài)大型語(yǔ)言模型(MLLM)進(jìn)行優(yōu)化,但這消耗大量計(jì)算資源。

為此,Meissonic在初始階段采用了更加平衡的策略,利用經(jīng)過(guò)篩選的高質(zhì)量LAION數(shù)據(jù)學(xué)習(xí)基礎(chǔ)概念,通過(guò)降分辨率的方法提高效率,最終保留約2億張高質(zhì)量圖像,并將初始訓(xùn)練分辨率設(shè)定為256×256。

階段二:實(shí)現(xiàn)文本與圖像對(duì)齊

第二階段的重點(diǎn)在于提升模型對(duì)長(zhǎng)文本描述的理解能力。團(tuán)隊(duì)篩選了審美分?jǐn)?shù)高于8的圖像,構(gòu)建了120萬(wàn)對(duì)優(yōu)化后的合成圖文對(duì)及600萬(wàn)對(duì)內(nèi)部高質(zhì)量圖文對(duì)。此階段,訓(xùn)練分辨率提升至512×512,配對(duì)數(shù)據(jù)總量達(dá)到約1000萬(wàn)對(duì),從而顯著提升了Meissonic在處理復(fù)雜提示(如多樣風(fēng)格和虛擬角色)以及抽象概念方面的能力。

階段三:實(shí)現(xiàn)高分辨率圖像生成

在Masked Image Modeling(MIM)領(lǐng)域,生成高分辨率圖像仍然是一個(gè)挑戰(zhàn)。Meissonic通過(guò)特征壓縮技術(shù)高效實(shí)現(xiàn)了1024×1024分辨率的圖像生成。引入特征壓縮層后,模型能夠在較低計(jì)算成本下實(shí)現(xiàn)從512×512到1024×1024的平滑過(guò)渡,此階段的數(shù)據(jù)集經(jīng)過(guò)進(jìn)一步篩選,僅保留約600萬(wàn)對(duì)高分辨率、高質(zhì)量的圖文配對(duì),以1024分辨率進(jìn)行訓(xùn)練。

階段四:精細(xì)化美學(xué)細(xì)節(jié)生成

在最后階段,Meissonic通過(guò)低學(xué)習(xí)率微調(diào)模型和文本編碼器,并引入人類偏好評(píng)分作為訓(xùn)練條件,進(jìn)一步提升了生成圖像的質(zhì)量和多樣性。這一階段的訓(xùn)練數(shù)據(jù)與第三階段保持一致,但更加注重對(duì)高分辨率圖像生成的美學(xué)細(xì)節(jié)的打磨。

通過(guò)上述四個(gè)階段的訓(xùn)練,Meissonic在訓(xùn)練數(shù)據(jù)和計(jì)算成本上實(shí)現(xiàn)了顯著降低。具體而言,在訓(xùn)練過(guò)程中,Meissonic僅使用210萬(wàn)張圖像,相較于其他主流模型(如SD-1.5和Dall-E 2),訓(xùn)練數(shù)據(jù)的使用量顯著減少。

圖片圖片

在使用8個(gè)A100 GPU進(jìn)行訓(xùn)練的情況下,Meissonic的訓(xùn)練時(shí)間僅需19天,顯著低于Würstchen、SD-2.1等模型的訓(xùn)練時(shí)間。

廣泛影響

最近,移動(dòng)設(shè)備上的端側(cè)文本到圖像應(yīng)用如谷歌Pixel 9的Pixel Studio和蘋果iPhone 16的Image Playground相繼推出,反映出提升用戶體驗(yàn)和保護(hù)隱私的日益趨勢(shì)。作為一種資源高效的文本到圖像基座模型,Meissonic在這一領(lǐng)域代表了重要的進(jìn)展。

圖片圖片

此外,來(lái)自斯坦福大學(xué)的創(chuàng)業(yè)團(tuán)隊(duì)Collov Labs在一周內(nèi)就成功復(fù)現(xiàn)出同樣架構(gòu)的Monetico,生成效果可以與Meissonic相媲美,推理效率更加高效,并榮登huggingface趨勢(shì)榜第一名。這也顯示出Meissonic架構(gòu)在資源高效上的巨大潛力和應(yīng)用價(jià)值。

參考資料:

https://arxiv.org/abs/2410.08261

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-04-26 12:51:48

2023-11-17 08:46:26

2025-04-21 08:20:00

視覺(jué)模型訓(xùn)練

2024-10-23 14:04:24

2024-04-17 13:22:55

人工智能

2024-03-11 00:20:00

模型論文

2024-06-26 14:50:52

2025-03-17 08:25:00

模型AI訓(xùn)練

2024-01-29 00:24:07

圖像模型預(yù)訓(xùn)練

2023-10-11 12:32:26

模型訓(xùn)練

2025-02-27 13:45:00

2025-03-25 09:04:12

2024-12-23 13:30:00

2024-01-18 10:57:35

AIM模型NLP

2022-03-14 10:53:12

谷歌模型研究

2024-10-30 14:10:00

圖像生成模型

2021-12-30 10:11:38

模型人工智能深度學(xué)習(xí)

2024-10-29 14:40:00

圖像生成模型

2025-03-24 09:08:00

2023-05-16 08:00:00

開(kāi)源項(xiàng)目MONAI醫(yī)學(xué)圖像
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)