港科大提出端側(cè)文生圖模型SnapGen,參數(shù)僅SD十分之一,1.4秒內(nèi)生成1024分辨率圖像
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
這項工作提出了一種新穎且高效的 T2I 模型SnapGen,SnapGen 是第一個可以在1.4秒內(nèi)在移動設(shè)備上合成高分辨率圖像(1024x1024 ) 的圖像生成模型(379M ) ,并在 GenEval 指標上 達到0.66。該模型全面超越了許多現(xiàn)有的數(shù)十億參數(shù)模型,例如 SDXL、Lumina-Next 和 Playgroundv2。
相關(guān)鏈接
- 論文鏈接:https://arxiv.org/abs/2412.09619
- 項目主頁:https://snap-research.github.io/snapgen/
論文介紹
介紹
現(xiàn)有的文本到圖像 (T2I) 傳播模型面臨一些限制,包括模型尺寸大、運行時間慢以及移動設(shè)備上的低質(zhì)量生成。本文旨在通過開發(fā)一種極小且快速的 T2I 模型來解決所有這些挑戰(zhàn),該模型可在移動平臺上生成高分辨率和高質(zhì)量的圖像。我們提出了幾種實現(xiàn)這一目標的技術(shù)。首先,我們系統(tǒng)地檢查網(wǎng)絡(luò)架構(gòu)的設(shè)計選擇,以減少模型參數(shù)和延遲,同時確保高質(zhì)量的生成。其次,為了進一步提高生成質(zhì)量,我們從更大的模型中采用跨架構(gòu)知識提煉,使用多層次方法從頭開始指導(dǎo)我們的模型訓(xùn)練。第三,我們通過將對抗性指導(dǎo)與知識提煉相結(jié)合來實現(xiàn)幾步生成。我們的模型 SnapGen 首次展示了在移動設(shè)備上大約 1.4 秒內(nèi)生成 10242 像素圖像。在 ImageNet-1K 上,我們的模型只有 372M 個參數(shù),在 2562 像素生成中實現(xiàn)了 2.06 的 FID。在 T2I 基準測試(即 GenEval 和 DPG-Bench)上,我們的模型僅有 379M 個參數(shù),但尺寸卻明顯較?。ɡ?,比 SDXL 小 7 倍,比 IF-XL 小 14 倍),超越了具有數(shù)十億個參數(shù)的大型模型。
高效的架構(gòu)
我們對網(wǎng)絡(luò)架構(gòu)進行了深入研究,包括去噪 UNet 和自動編碼器 (AE),以在延遲和性能之間取得最佳平衡。與之前優(yōu)化和壓縮預(yù)訓(xùn)練擴散模型的工作不同,我們直接關(guān)注宏觀和微觀層面的設(shè)計選擇,以實現(xiàn)一種新穎的架構(gòu),大大減少模型大小和計算復(fù)雜度,同時保持高質(zhì)量的生成。
高效訓(xùn)練
我們引入了多項改進,從頭開始訓(xùn)練緊湊型 T2I 模型。我們提出了一種多級知識蒸餾方法,該方法結(jié)合了時間步長感知縮放,結(jié)合了多個訓(xùn)練目標。我們結(jié)合對抗性訓(xùn)練和使用少步教師模型的知識蒸餾方法,對我們的模型進行分步蒸餾。
定量比較
人工評估與 SDXL、SD3-Medium 和 SD3.5-Large 的對比:
與各種基準中的現(xiàn)有 T2I 模型的比較:
定性結(jié)果
幾步可視化
總結(jié)
這項工作提出了一種新穎且高效的 T2I 模型,用于在手機上生成高分辨率圖像。論文系統(tǒng)地詳細介紹了獲得微小的 379M 參數(shù) UNet 架構(gòu)以及高效潛在解碼器的過程。設(shè)計了一種新穎的訓(xùn)練方法,包括多階段預(yù)訓(xùn)練,然后從大型教師那里進行知識提煉和對抗性步驟提煉。借助這些論文實現(xiàn)了一個極其高效的 T2I 模型,該模型全面超越了許多現(xiàn)有的數(shù)十億參數(shù)模型,例如 SDXL、Lumina-Next 和 Playgroundv2。