港科大提出端側(cè)文生圖模型SnapGen，參數(shù)僅SD十分之一，1.4秒內(nèi)生成1024分辨率圖像

作者：AIGC Studio 2025-01-21 09:50:00

這項工作提出了一種新穎且高效的 T2I 模型，用于在手機上生成高分辨率圖像。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

這項工作提出了一種新穎且高效的 T2I 模型SnapGen，SnapGen 是第一個可以在1.4秒內(nèi)在移動設(shè)備上合成高分辨率圖像（1024x1024 ）的圖像生成模型（379M ），并在 GenEval 指標上達到0.66。該模型全面超越了許多現(xiàn)有的數(shù)十億參數(shù)模型，例如 SDXL、Lumina-Next 和 Playgroundv2。

論文介紹

介紹

現(xiàn)有的文本到圖像 (T2I) 傳播模型面臨一些限制，包括模型尺寸大、運行時間慢以及移動設(shè)備上的低質(zhì)量生成。本文旨在通過開發(fā)一種極小且快速的 T2I 模型來解決所有這些挑戰(zhàn)，該模型可在移動平臺上生成高分辨率和高質(zhì)量的圖像。我們提出了幾種實現(xiàn)這一目標的技術(shù)。首先，我們系統(tǒng)地檢查網(wǎng)絡(luò)架構(gòu)的設(shè)計選擇，以減少模型參數(shù)和延遲，同時確保高質(zhì)量的生成。其次，為了進一步提高生成質(zhì)量，我們從更大的模型中采用跨架構(gòu)知識提煉，使用多層次方法從頭開始指導(dǎo)我們的模型訓(xùn)練。第三，我們通過將對抗性指導(dǎo)與知識提煉相結(jié)合來實現(xiàn)幾步生成。我們的模型 SnapGen 首次展示了在移動設(shè)備上大約 1.4 秒內(nèi)生成 10242 像素圖像。在 ImageNet-1K 上，我們的模型只有 372M 個參數(shù)，在 2562 像素生成中實現(xiàn)了 2.06 的 FID。在 T2I 基準測試（即 GenEval 和 DPG-Bench）上，我們的模型僅有 379M 個參數(shù)，但尺寸卻明顯較?。ɡ?，比 SDXL 小 7 倍，比 IF-XL 小 14 倍），超越了具有數(shù)十億個參數(shù)的大型模型。

高效的架構(gòu)

我們對網(wǎng)絡(luò)架構(gòu)進行了深入研究，包括去噪 UNet 和自動編碼器 (AE)，以在延遲和性能之間取得最佳平衡。與之前優(yōu)化和壓縮預(yù)訓(xùn)練擴散模型的工作不同，我們直接關(guān)注宏觀和微觀層面的設(shè)計選擇，以實現(xiàn)一種新穎的架構(gòu)，大大減少模型大小和計算復(fù)雜度，同時保持高質(zhì)量的生成。

高效訓(xùn)練

我們引入了多項改進，從頭開始訓(xùn)練緊湊型 T2I 模型。我們提出了一種多級知識蒸餾方法，該方法結(jié)合了時間步長感知縮放，結(jié)合了多個訓(xùn)練目標。我們結(jié)合對抗性訓(xùn)練和使用少步教師模型的知識蒸餾方法，對我們的模型進行分步蒸餾。

定量比較

人工評估與 SDXL、SD3-Medium 和 SD3.5-Large 的對比：

與各種基準中的現(xiàn)有 T2I 模型的比較：

定性結(jié)果

幾步可視化

總結(jié)

這項工作提出了一種新穎且高效的 T2I 模型，用于在手機上生成高分辨率圖像。論文系統(tǒng)地詳細介紹了獲得微小的 379M 參數(shù) UNet 架構(gòu)以及高效潛在解碼器的過程。設(shè)計了一種新穎的訓(xùn)練方法，包括多階段預(yù)訓(xùn)練，然后從大型教師那里進行知識提煉和對抗性步驟提煉。借助這些論文實現(xiàn)了一個極其高效的 T2I 模型，該模型全面超越了許多現(xiàn)有的數(shù)十億參數(shù)模型，例如 SDXL、Lumina-Next 和 Playgroundv2。

責(zé)任編輯：張燕妮來源： AIGC Studio

模型生成 AI

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港科大提出端側(cè)文生圖模型SnapGen，參數(shù)僅SD十分之一，1.4秒內(nèi)生成1024分辨率圖像

相關(guān)鏈接

論文介紹

介紹

高效的架構(gòu)

高效訓(xùn)練

定量比較

定性結(jié)果

幾步可視化

總結(jié)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港科大提出端側(cè)文生圖模型SnapGen，參數(shù)僅SD十分之一，1.4秒內(nèi)生成1024分辨率圖像

相關(guān)鏈接

論文介紹

介紹

高效的架構(gòu)

高效訓(xùn)練

定量比較

定性結(jié)果

幾步可視化

總結(jié)

港科大提出端側(cè)文生圖模型SnapGen，參數(shù)僅SD十分之一，1.4秒內(nèi)生成1024分辨率圖像