?顏水成團(tuán)隊(duì)新作:AI手機(jī)迎來(lái)重大技術(shù)進(jìn)展!Meissonic:讓移動(dòng)成像技術(shù)飛躍
文章鏈接:https://arxiv.org/pdf/2410.08261
模型鏈接:https://huggingface.co/MeissonFlow/Meissonic
在線Demo鏈接:https://huggingface.co/spaces/MeissonFlow/meissonic
亮點(diǎn)直擊:
- 增強(qiáng)型Transformer架構(gòu):通過結(jié)合多模態(tài)和單模態(tài)Transformer層,提升了MIM模型的訓(xùn)練效率和性能,特別是在跨模態(tài)信息處理和視覺表示的細(xì)化方面,取得了顯著提升。
- 高級(jí)位置編碼與動(dòng)態(tài)掩碼率:采用Rotary Position Embeddings(RoPE)解決高分辨率下的上下文解耦問題,并通過動(dòng)態(tài)掩碼率條件提升采樣過程中的圖像細(xì)節(jié)和質(zhì)量。
- 高質(zhì)量訓(xùn)練數(shù)據(jù):整理高質(zhì)量數(shù)據(jù)集,并結(jié)合優(yōu)化的訓(xùn)練策略,顯著提升了模型的生成能力。
- 微觀條件和特征壓縮層:利用微觀條件(如分辨率、裁剪坐標(biāo)等)增強(qiáng)高分辨率訓(xùn)練的穩(wěn)定性,結(jié)合特征壓縮層確保在1024×1024分辨率下的計(jì)算效率。
- 高效生成與硬件友好:Meissonic在僅有10億參數(shù)的情況下,能在消費(fèi)級(jí)GPU上生成媲美SDXL等大型模型的高質(zhì)量圖像,且無(wú)需額外優(yōu)化。
驚艷的效果先睹為快
總結(jié)速覽
解決的問題:
當(dāng)前的擴(kuò)散模型(如Stable Diffusion)在視覺生成上取得了重大進(jìn)展,但其生成范式與自回歸語(yǔ)言模型有本質(zhì)區(qū)別,導(dǎo)致統(tǒng)一語(yǔ)言-視覺模型的開發(fā)變得復(fù)雜。此外,像LlamaGen這樣基于離散VQVAE tokens進(jìn)行自回歸圖像生成的方法效率低下,處理大量tokens需要較長(zhǎng)時(shí)間。
提出的方案:
本文提出了Meissonic,一種提升非自回歸掩碼圖像建模(MIM)的文本到圖像生成模型。通過采用全面的架構(gòu)創(chuàng)新、先進(jìn)的位置編碼策略以及優(yōu)化的采樣條件,Meissonic顯著提高了MIM的性能和效率。
應(yīng)用的技術(shù):
- 綜合性架構(gòu)創(chuàng)新
- 高級(jí)位置編碼策略
- 優(yōu)化采樣條件
- 高質(zhì)量訓(xùn)練數(shù)據(jù)
- 基于人類偏好分?jǐn)?shù)的微觀條件
- 特征壓縮層
達(dá)到的效果:
Meissonic模型在生成高質(zhì)量、高分辨率圖像時(shí),不僅達(dá)到了SDXL等現(xiàn)有擴(kuò)散模型的水平,甚至在某些方面有所超越。模型能夠生成1024×1024分辨率的圖像,實(shí)驗(yàn)結(jié)果證明其在文本到圖像合成領(lǐng)域的潛力。
方法
動(dòng)機(jī)
近期文本生成圖像的突破主要得益于擴(kuò)散模型,如Stable Diffusion XL,在圖像質(zhì)量、細(xì)節(jié)和概念一致性方面設(shè)立了事實(shí)標(biāo)準(zhǔn)。然而,這些模型與自回歸語(yǔ)言模型的工作方式顯著不同,導(dǎo)致在視覺和語(yǔ)言任務(wù)上實(shí)現(xiàn)統(tǒng)一方法面臨挑戰(zhàn)。這種差異不僅使這些模態(tài)的整合變得復(fù)雜,還凸顯了需要?jiǎng)?chuàng)新的方法來(lái)彌合它們之間的差距。特別是,非自回歸的 Masked Image Modeling(MIM)技術(shù),例如MaskGIT和MUSE,展現(xiàn)了高效圖像生成的潛力。盡管MIM方法具有一定的前景,它們?nèi)悦媾R兩個(gè)關(guān)鍵限制:
(a) 分辨率限制。當(dāng)前的MIM方法只能生成最大分辨率為512×512像素的圖像。這一限制阻礙了它們的廣泛應(yīng)用和進(jìn)一步發(fā)展,尤其是在文本生成圖像的社區(qū)中,1024×1024分辨率逐漸成為標(biāo)準(zhǔn)。
(b) 性能差距?,F(xiàn)有的MIM技術(shù)尚未達(dá)到領(lǐng)先擴(kuò)散模型如SDXL所表現(xiàn)的性能水平,特別是在圖像質(zhì)量、復(fù)雜細(xì)節(jié)和概念表達(dá)等關(guān)鍵領(lǐng)域表現(xiàn)不佳,而這些對(duì)實(shí)際應(yīng)用至關(guān)重要。
這些挑戰(zhàn)需要探索新的方法。本文的目標(biāo)是使MIM能夠高效生成高分辨率圖像(如1024×1024),同時(shí)縮小與頂級(jí)擴(kuò)散模型的差距,并確保其計(jì)算效率適合消費(fèi)級(jí)硬件。通過Meissonic,希望推動(dòng)MIM方法的邊界,并將其帶到文本生成圖像領(lǐng)域的前沿。
模型架構(gòu)
下圖2展示了Meissonic模型的整體結(jié)構(gòu)。通過一個(gè)集成框架促進(jìn)高效的高性能文本生成圖像,該框架包括一個(gè)CLIP文本編碼器、一個(gè)向量量化(VQ)圖像編碼器和解碼器以及一個(gè)多模態(tài)Transformer骨干網(wǎng)。下圖2展示了模型的整體結(jié)構(gòu)。
靈活且高效的文本編碼器。與使用T5-XXL或LLaMa等大型語(yǔ)言模型編碼器不同,本模型使用來(lái)自最先進(jìn)的CLIP模型的單一文本編碼器,具有1024的潛在維度,并進(jìn)行微調(diào)以優(yōu)化T2I(文本生成圖像)性能。盡管這一決定可能限制模型完全理解較長(zhǎng)文本提示的能力,但觀察表明,排除像T5這樣的大規(guī)模文本編碼器并不會(huì)降低圖像的視覺質(zhì)量。此外,這種方法顯著減少了GPU內(nèi)存需求和計(jì)算成本。值得注意的是,離線提取T5特征大約需要11倍的處理時(shí)間和6倍的存儲(chǔ)空間,而采用CLIP文本編碼器進(jìn)一步體現(xiàn)了本文設(shè)計(jì)的高效性。
多模態(tài)Transformer骨干網(wǎng)絡(luò)用于 Masked Image Modeling。本文的Transformer架構(gòu)基于多模態(tài)Transformer框架,結(jié)合了采樣參數(shù)r來(lái)編碼采樣參數(shù),并使用Rotary Position Embeddings(RoPE)進(jìn)行空間信息編碼。引入了特征壓縮層,以高效處理包含大量離散標(biāo)記的高分辨率生成任務(wù)。這些層將嵌入特征從64×64壓縮到32×32后再通過Transformer處理,隨后通過特征解壓縮層恢復(fù)到64×64,從而減輕計(jì)算負(fù)擔(dān)。為增強(qiáng)訓(xùn)練的穩(wěn)定性并減輕NaN損失問題,遵循LLaMa的訓(xùn)練策略,在分布式訓(xùn)練過程中實(shí)現(xiàn)梯度裁剪和檢查點(diǎn)重載,并將QK-Norm層集成到架構(gòu)中。
多樣化微條件。為了增強(qiáng)生成性能,引入了其他條件,例如原始圖像分辨率、裁剪坐標(biāo)和人類偏好評(píng)分。這些條件被轉(zhuǎn)換為正弦嵌入,并作為額外的通道與文本編碼器的最終池化隱藏狀態(tài)連接。
Masking策略。采用Chang et al.(2023)提出的方法,使用帶余弦調(diào)度的可變masking比率。從一個(gè)截?cái)嗟姆从嘞曳植贾须S機(jī)采樣遮掩比率,其密度函數(shù)如下:
多模態(tài)Transformer用于 Masked Image Modeling
Meissonic采用多模態(tài)Transformer作為其基礎(chǔ)架構(gòu),并通過創(chuàng)新定制模塊來(lái)應(yīng)對(duì)高分辨率 Masked Image Modeling中的獨(dú)特挑戰(zhàn)。為 Masked Image Modeling引入了以下幾項(xiàng)專門設(shè)計(jì):
- Rotary Position Embeddings (RoPE): RoPE在大語(yǔ)言模型 (LLM) 中展示了出色的性能。一些研究嘗試將 1D RoPE擴(kuò)展至2D或3D以用于圖像擴(kuò)散模型。本文的研究發(fā)現(xiàn),由于用于將圖像轉(zhuǎn)換為離散標(biāo)記的高質(zhì)量圖像標(biāo)記器,原始的1D RoPE顯示出了令人滿意的效果。1D RoPE能夠順利過渡從256×256到512×512階段,并同時(shí)提升了模型的生成性能。
- 更深的單模態(tài)Transformer模型: 盡管多模態(tài)Transformer模塊展示了良好的表現(xiàn),實(shí)驗(yàn)表明,將多模態(tài)塊減少為單模態(tài)塊配置可以提供更穩(wěn)定且計(jì)算效率更高的T2I模型訓(xùn)練方法。因此,在網(wǎng)絡(luò)的初始階段采用多模態(tài)Transformer塊,隨后轉(zhuǎn)換為完全的單模態(tài)Transformer塊。研究表明,約1:2的塊比率是最佳的。
- 帶有人類偏好評(píng)分的微條件: 實(shí)驗(yàn)表明,結(jié)合三個(gè)微條件對(duì)于實(shí)現(xiàn)穩(wěn)定且可靠的高分辨率 Masked Image Modeling至關(guān)重要:原始圖像分辨率、裁剪坐標(biāo)和人類偏好評(píng)分。原始圖像分辨率有效地幫助模型隱式過濾低質(zhì)量數(shù)據(jù),并學(xué)習(xí)高質(zhì)量、高分辨率數(shù)據(jù)的特性,而裁剪坐標(biāo)通過改善裁剪塊的圖像條件與語(yǔ)義條件之間的一致性,增強(qiáng)了訓(xùn)練的穩(wěn)定性。在最終階段,利用人類偏好評(píng)分來(lái)有效提升圖像質(zhì)量,使用由人類偏好模型提供的信號(hào)引導(dǎo)模型輸出,模仿和接近人類的審美偏好。
- 特征壓縮層: 現(xiàn)有的多階段方法,如 MUSE和 DeepFloyd-XL,采用多個(gè)子網(wǎng)絡(luò)的級(jí)聯(lián)來(lái)實(shí)現(xiàn)更高分辨率的圖像生成。這種多階段訓(xùn)練引入了不必要的復(fù)雜性,阻礙了高保真、高分辨率圖像的生成。相反,主張?jiān)谖⒄{(diào)階段整合簡(jiǎn)化的特征壓縮層,以促進(jìn)高效的高分辨率生成過程學(xué)習(xí)。此方法類似于輕量級(jí)的高分辨率適配器,該模塊在穩(wěn)定擴(kuò)散模型中被廣泛探索和集成。通過將基于2D卷積的特征壓縮層融入Transformer骨干中,我們?cè)赥ransformer層之前壓縮特征圖,并在Transformer層之后將其解壓,從而有效地解決了效率和分辨率過渡的挑戰(zhàn)。
訓(xùn)練細(xì)節(jié)
Meissonic 的構(gòu)建使用了 CLIP-ViT-H-142 文本編碼器、預(yù)訓(xùn)練的 VQ 圖像編碼器和解碼器,以及定制的 基于 Transformer 的骨干網(wǎng)絡(luò)。模型采用 無(wú)分類器指導(dǎo)(CFG) 和交叉熵?fù)p失進(jìn)行訓(xùn)練。訓(xùn)練過程分為三個(gè)分辨率階段,利用公共數(shù)據(jù)集和整理的數(shù)據(jù)。
訓(xùn)練階段:
- Meissonic-256:第一個(gè)訓(xùn)練階段使用256×256分辨率,批量大小為 2,048,訓(xùn)練 100,000 步。
- Meissonic-512:第二個(gè)階段在512×512分辨率下進(jìn)行,批量大小為 512,繼續(xù)訓(xùn)練 100,000 步。
- Meissonic-1024:最后,模型在1024×1024分辨率下訓(xùn)練,批量大小為 256,訓(xùn)練 42,000 步。
訓(xùn)練過程具有資源效率。與 Stable Diffusion 相比,Meissonic 的訓(xùn)練資源效率顯著更高,約需 48 個(gè) H100 GPU 天,表明可以以顯著降低的計(jì)算成本開發(fā)出具備生產(chǎn)能力的圖像合成基礎(chǔ)模型。關(guān)于這一比較的更多細(xì)節(jié)見下表 1。
逐步高效的訓(xùn)練階段分解
本文的方法系統(tǒng)地將訓(xùn)練過程分解為四個(gè)精心設(shè)計(jì)的階段,能夠逐步構(gòu)建和完善模型的生成能力。這些階段結(jié)合對(duì)特定組件的精確增強(qiáng),有助于合成質(zhì)量的持續(xù)改善。鑒于SDXL未披露其訓(xùn)練數(shù)據(jù)的詳細(xì)信息,我們的經(jīng)驗(yàn)對(duì)指導(dǎo)社區(qū)構(gòu)建SDXL級(jí)別的文本到圖像模型尤為重要。
第一階段:從大量數(shù)據(jù)中理解基本概念
先前的研究表明,LAION 的原始標(biāo)題對(duì)于訓(xùn)練文本到圖像模型是不夠的,通常需要 MLLMs(如 LLaVA)提供的標(biāo)題精煉。然而,這一解決方案計(jì)算資源需求高且耗時(shí)。雖然一些研究利用了大量注釋的 SA-10M數(shù)據(jù)集,但發(fā)現(xiàn),SA-10M 并沒有全面覆蓋基本概念,尤其是關(guān)于人臉的概念。因此,采用了一種平衡策略,利用原始高質(zhì)量 LAION 數(shù)據(jù)進(jìn)行基礎(chǔ)概念學(xué)習(xí),使用較低的分辨率以提高效率。具體而言,我們通過過濾掉美學(xué)評(píng)分低于 4.5、帶水印概率超過 50% 的圖像,以及 Kolors 中列出的其他標(biāo)準(zhǔn),精心策劃了去重后的 LAION-2B 數(shù)據(jù)集。這一細(xì)致選擇產(chǎn)生了大約 2 億張圖像,在這一初始階段以 256×256 的分辨率用于訓(xùn)練。
第二階段:使用長(zhǎng)提示對(duì)齊文本與圖像
在第一階段,本文的方法并未依賴高質(zhì)量的圖像-文本配對(duì)數(shù)據(jù)。因此,在第二階段,我們專注于提高模型解讀長(zhǎng)而詳細(xì)的提示的能力。我們對(duì)初始 LAION 數(shù)據(jù)集進(jìn)行了更嚴(yán)格的過濾,僅保留美學(xué)評(píng)分高于 8 的圖像,以及 Kolors(2024)中列出的其他標(biāo)準(zhǔn)。此外,本文還納入了 120 萬(wàn)個(gè)合成圖像-文本對(duì),配有超過 50 字的精煉標(biāo)題,這些數(shù)據(jù)主要來(lái)自公開可用的高質(zhì)量合成數(shù)據(jù)集,并補(bǔ)充了我們內(nèi)部 600 萬(wàn)數(shù)據(jù)集中其他高質(zhì)量圖像。此匯總結(jié)果大約形成了 1000 萬(wàn)個(gè)圖像-文本對(duì)。值得注意的是,保持模型架構(gòu)不變,同時(shí)將訓(xùn)練分辨率提高至 512×512,使模型能夠捕捉到更復(fù)雜的圖像細(xì)節(jié)。觀察到,模型捕捉抽象概念和準(zhǔn)確響應(yīng)復(fù)雜提示的能力顯著提升,包括多樣的風(fēng)格和幻想角色。
第三階段:掌握特征壓縮以實(shí)現(xiàn)高分辨率生成
高分辨率生成仍然是 MIM 中的一個(gè)未被充分探索的領(lǐng)域。與依賴外部超分辨率(SR)模塊的方法(如 MUSE 或 DeepFloyd-XL )不同,展示了通過特征壓縮實(shí)現(xiàn)高效的 1024×1024 生成是可行的。通過引入特征壓縮層,我們實(shí)現(xiàn)了從 512×512 到 1024×1024 生成的無(wú)縫過渡,且計(jì)算成本極低。在這一階段,我們進(jìn)一步通過基于分辨率和美學(xué)評(píng)分進(jìn)行過濾,選擇了約 10 萬(wàn)個(gè)高質(zhì)量、高分辨率的圖像-文本對(duì),這些數(shù)據(jù)來(lái)自第二階段使用的 LAION 子集。結(jié)合剩余的高質(zhì)量數(shù)據(jù),訓(xùn)練樣本總數(shù)約為 600 萬(wàn)個(gè),以 1024 分辨率進(jìn)行訓(xùn)練。
第四階段:細(xì)化高分辨率美學(xué)圖像生成
在最后階段,我們使用小學(xué)習(xí)率對(duì)模型進(jìn)行微調(diào),而不凍結(jié)文本編碼器,并將人類偏好分?jǐn)?shù)作為微觀條件。這可以顯著提升模型在高分辨率圖像生成中的表現(xiàn)。這一針對(duì)性的調(diào)整顯著增強(qiáng)了模型生成高分辨率圖像的能力,同時(shí)提高了多樣性。訓(xùn)練數(shù)據(jù)與第三階段相同。
結(jié)果
定量比較
傳統(tǒng)的圖像生成模型評(píng)估指標(biāo),如 FID 和 CLIP Score,對(duì)視覺美學(xué)的相關(guān)性有限,正如 Podell et al.(2024)、Chen et al.(2024)、Kolors(2024)和 Sehwag et al.(2024)所強(qiáng)調(diào)的。因此,使用人類偏好分?jǐn)?shù)版本 2(HPSv2)、GenEval和多維人類偏好分?jǐn)?shù)(MPS)來(lái)報(bào)告本文模型的性能,具體數(shù)據(jù)見下表 2、3 和 6。
在讓 Meissonic 更加易于公眾訪問的過程中,本文優(yōu)化了模型至 10 億個(gè)參數(shù),確保其能夠高效運(yùn)行于 8GB VRAM 上,使得推理和微調(diào)都變得方便。下圖 4 提供了不同推理批次大小與 SDXL 之間的 GPU 內(nèi)存消耗比較分析。下圖 5 詳細(xì)說明了每一步的推理時(shí)間。
上圖 5 展示了 Meissonic 在生成文本驅(qū)動(dòng)風(fēng)格藝術(shù)圖像方面的能力。下圖3展示了圖像質(zhì)量和文本-圖像對(duì)齊的定性比較。
為了補(bǔ)充這些分析,通過 K-Sort Arena 進(jìn)行人類評(píng)估,并使用 GPT-4o 評(píng)估 Meissonic 與其他模型之間的性能,見上圖 4。
所有圖表顯示,Meissonic 在人類性能和文本對(duì)齊方面與 DALL-E 2 和 SDXL 達(dá)成了具有競(jìng)爭(zhēng)力的表現(xiàn),同時(shí)展示了其效率。
zero-shot 圖像編輯
對(duì)于圖像編輯任務(wù),使用 EMU-Edit 數(shù)據(jù)集對(duì) Meissonic 進(jìn)行基準(zhǔn)測(cè)試,該數(shù)據(jù)集包括七種不同的操作:背景更改、綜合圖像更改、風(fēng)格更改、對(duì)象移除、對(duì)象添加、局部修改,以及顏色/紋理更改。結(jié)果見下表 7。
此外,內(nèi)部圖像編輯數(shù)據(jù)集中的示例,包括下圖 6 中的掩碼引導(dǎo)編輯和下圖 7 中的無(wú)mask編輯,進(jìn)一步展示了 Meissonic 的多功能性。
值得注意的是,Meissonic 在沒有針對(duì)圖像編輯特定數(shù)據(jù)或指令數(shù)據(jù)集進(jìn)行任何訓(xùn)練或微調(diào)的情況下,依然達(dá)到了這樣的表現(xiàn)。
結(jié)論與影響
本文通過引入多個(gè)關(guān)鍵創(chuàng)新顯著推進(jìn)了用于文本到圖像(T2I)合成的masked圖像建模(MIM)。這些創(chuàng)新包括:結(jié)合多模態(tài)和單模態(tài)層的Transformer架構(gòu)、先進(jìn)的位置信息編碼策略,以及作為采樣條件的自適應(yīng)masked率。這些創(chuàng)新,加上高質(zhì)量的精選訓(xùn)練數(shù)據(jù)、漸進(jìn)且高效的訓(xùn)練階段分解、微條件和特征壓縮層,共同造就了 Meissonic,這是一款擁有 10 億參數(shù)的模型,能夠在高分辨率和美觀的圖像生成上超越更大的擴(kuò)散模型,同時(shí)保持在消費(fèi)級(jí) GPU 上的可訪問性。評(píng)估表明,Meissonic 在性能和效率上均表現(xiàn)優(yōu)越,標(biāo)志著朝著可獲取且高效的高分辨率非自回歸 MIM T2I 模型邁出了重要一步。
更廣泛的影響:近期,離線文本到圖像應(yīng)用程序已在移動(dòng)設(shè)備上出現(xiàn),例如 Google Pixel 9 的 Pixel Studio 和 Apple iPhone 16 的 Image Playground。這些創(chuàng)新反映了增強(qiáng)用戶體驗(yàn)和隱私的日益趨勢(shì)。作為一款開創(chuàng)性的資源高效基礎(chǔ)模型,Meissonic 代表了該領(lǐng)域的重要進(jìn)展,提供了先進(jìn)的圖像合成能力,并強(qiáng)調(diào)用戶隱私和離線功能。這一發(fā)展不僅賦予用戶創(chuàng)意工具,同時(shí)確保了敏感數(shù)據(jù)的安全,標(biāo)志著移動(dòng)成像技術(shù)的顯著躍進(jìn)。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
