自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港科大提出端側(cè)文生圖模型SnapGen,參數(shù)僅SD十分之一,1.4秒內(nèi)生成1024分辨率圖像

人工智能 新聞
這項工作提出了一種新穎且高效的 T2I 模型,用于在手機上生成高分辨率圖像。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

這項工作提出了一種新穎且高效的 T2I 模型SnapGen,SnapGen 是第一個可以在1.4秒內(nèi)在移動設(shè)備上合成高分辨率圖像(1024x1024 ) 的圖像生成模型(379M ) ,并在 GenEval 指標上 達到0.66。該模型全面超越了許多現(xiàn)有的數(shù)十億參數(shù)模型,例如 SDXL、Lumina-Next 和 Playgroundv2。

圖片


相關(guān)鏈接

  • 論文鏈接:https://arxiv.org/abs/2412.09619
  • 項目主頁:https://snap-research.github.io/snapgen/

論文介紹

圖片

介紹

現(xiàn)有的文本到圖像 (T2I) 傳播模型面臨一些限制,包括模型尺寸大、運行時間慢以及移動設(shè)備上的低質(zhì)量生成。本文旨在通過開發(fā)一種極小且快速的 T2I 模型來解決所有這些挑戰(zhàn),該模型可在移動平臺上生成高分辨率和高質(zhì)量的圖像。我們提出了幾種實現(xiàn)這一目標的技術(shù)。首先,我們系統(tǒng)地檢查網(wǎng)絡(luò)架構(gòu)的設(shè)計選擇,以減少模型參數(shù)和延遲,同時確保高質(zhì)量的生成。其次,為了進一步提高生成質(zhì)量,我們從更大的模型中采用跨架構(gòu)知識提煉,使用多層次方法從頭開始指導(dǎo)我們的模型訓(xùn)練。第三,我們通過將對抗性指導(dǎo)與知識提煉相結(jié)合來實現(xiàn)幾步生成。我們的模型 SnapGen 首次展示了在移動設(shè)備上大約 1.4 秒內(nèi)生成 10242 像素圖像。在 ImageNet-1K 上,我們的模型只有 372M 個參數(shù),在 2562 像素生成中實現(xiàn)了 2.06 的 FID。在 T2I 基準測試(即 GenEval 和 DPG-Bench)上,我們的模型僅有 379M 個參數(shù),但尺寸卻明顯較?。ɡ?,比 SDXL 小 7 倍,比 IF-XL 小 14 倍),超越了具有數(shù)十億個參數(shù)的大型模型。

高效的架構(gòu)

我們對網(wǎng)絡(luò)架構(gòu)進行了深入研究,包括去噪 UNet 和自動編碼器 (AE),以在延遲和性能之間取得最佳平衡。與之前優(yōu)化和壓縮預(yù)訓(xùn)練擴散模型的工作不同,我們直接關(guān)注宏觀和微觀層面的設(shè)計選擇,以實現(xiàn)一種新穎的架構(gòu),大大減少模型大小和計算復(fù)雜度,同時保持高質(zhì)量的生成。

圖片

高效訓(xùn)練

我們引入了多項改進,從頭開始訓(xùn)練緊湊型 T2I 模型。我們提出了一種多級知識蒸餾方法,該方法結(jié)合了時間步長感知縮放,結(jié)合了多個訓(xùn)練目標。我們結(jié)合對抗性訓(xùn)練和使用少步教師模型的知識蒸餾方法,對我們的模型進行分步蒸餾。

圖片

定量比較

人工評估與 SDXL、SD3-Medium 和 SD3.5-Large 的對比:

圖片與各種基準中的現(xiàn)有 T2I 模型的比較:

圖片

定性結(jié)果

幾步可視化

圖片圖片圖片

總結(jié)

這項工作提出了一種新穎且高效的 T2I 模型,用于在手機上生成高分辨率圖像。論文系統(tǒng)地詳細介紹了獲得微小的 379M 參數(shù) UNet 架構(gòu)以及高效潛在解碼器的過程。設(shè)計了一種新穎的訓(xùn)練方法,包括多階段預(yù)訓(xùn)練,然后從大型教師那里進行知識提煉和對抗性步驟提煉。借助這些論文實現(xiàn)了一個極其高效的 T2I 模型,該模型全面超越了許多現(xiàn)有的數(shù)十億參數(shù)模型,例如 SDXL、Lumina-Next 和 Playgroundv2。

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2024-12-25 13:50:00

訓(xùn)練數(shù)據(jù)AI

2015-08-07 16:02:10

數(shù)據(jù)中心

2010-06-13 10:28:15

2013-07-29 09:58:28

2020-05-12 11:05:10

Python 開發(fā)者編程語言

2021-01-17 10:42:34

谷歌廣告釣魚網(wǎng)站

2023-10-30 17:19:28

模型訓(xùn)練

2022-05-06 14:40:58

框架人工智能數(shù)據(jù)

2017-06-13 12:57:42

Windows 10Windows分辨率

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2024-02-23 21:26:36

生成式 AI

2020-07-21 15:13:58

騰訊云SQL Server數(shù)據(jù)庫

2020-06-12 14:25:36

框架PyTorch開發(fā)

2022-03-23 10:07:00

Adobe人像訓(xùn)練

2022-03-12 14:21:53

Windows 11設(shè)備要求用戶升級

2024-11-07 13:07:47

2019-11-12 12:34:15

人工智能機器學(xué)習(xí)技術(shù)

2010-01-11 09:25:01

千兆路由交換機技術(shù)

2012-11-30 09:50:37

亞馬遜云服務(wù)

2024-02-20 12:30:53

AI訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號