自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無需百卡集群!港科等開源LightGen: 極低成本文生圖方案媲美SOTA模型

人工智能 新聞
LightGen 研究有效地降低了 T2I 模型訓(xùn)練的資源門檻,證明了通過關(guān)注數(shù)據(jù)多樣性、小型化模型架構(gòu)和優(yōu)化訓(xùn)練策略,可以在極少量數(shù)據(jù)和計算資源的情況下達(dá)到最先進(jìn)模型的性能表現(xiàn)。

LightGen 主要作者來自香港科技大學(xué)和 Everlyn AI, 第一作者為香港科技大學(xué)準(zhǔn)博士生吳顯峰,主要研究方向為生成式人工智能和 AI4Science。通訊作者為香港科技大學(xué)助理教授 Harry Yang 和中佛羅里達(dá)副教授 Sernam Lim。

共同一作有香港科技大學(xué)訪問學(xué)生白亞靖,香港科技大學(xué)博士生鄭皓澤,Everlyn AI 實習(xí)生陳浩東,香港科技大學(xué)博士生劉業(yè)鑫。還有來自香港科技大學(xué)博士生王子豪,馬煦然,香港科技大學(xué)訪問學(xué)生束文杰以及 Everlyn AI 實習(xí)生吳顯祖。

文本到圖像(Text-to-Image, T2I)生成任務(wù)近年來取得了飛速進(jìn)展,其中以擴(kuò)散模型(如 Stable Diffusion、DiT 等)和自回歸(AR)模型為代表的方法取得了顯著成果。然而,這些主流的生成模型通常依賴于超大規(guī)模的數(shù)據(jù)集和巨大的參數(shù)量,導(dǎo)致計算成本高昂、落地困難,難以高效地應(yīng)用于實際生產(chǎn)環(huán)境。

為了解決這一難題,香港科技大學(xué) Harry Yang 教授團(tuán)隊聯(lián)合 Everlyn AI 和 UCF,提出了一種名為 LightGen 的新型高效圖像生成模型,致力于在有限的數(shù)據(jù)和計算資源下,快速實現(xiàn)高質(zhì)量圖像的生成,推動自回歸模型在視覺生成領(lǐng)域更高效、更務(wù)實地發(fā)展與應(yīng)用。

圖片

  • 論文標(biāo)題:LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization
  • 論文鏈接:https://arxiv.org/abs/2503.08619
  • 模型鏈接:https://huggingface.co/Beckham808/LightGen
  • 項目鏈接:https://github.com/XianfengWu01/LightGen

LightGen 借助知識蒸餾(KD)和直接偏好優(yōu)化(DPO)策略,有效壓縮了大規(guī)模圖像生成模型的訓(xùn)練流程,不僅顯著降低了數(shù)據(jù)規(guī)模與計算資源需求,而且在高質(zhì)量圖像生成任務(wù)上展現(xiàn)了與 SOTA 模型相媲美的卓越性能。

圖片

LightGen 相較于現(xiàn)有的生成模型,盡管參數(shù)量更小、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模更精簡,卻在 geneval 圖像生成任務(wù)的基準(zhǔn)評測中達(dá)到甚至超出了部分最先進(jìn)(SOTA)模型的性能。

此外,LightGen 在效率與性能之間實現(xiàn)了良好的平衡,成功地將傳統(tǒng)上需要數(shù)千 GPU days 的預(yù)訓(xùn)練過程縮短至僅 88 個 GPU days,即可完成高質(zhì)量圖像生成模型的訓(xùn)練。

方法描述

LightGen 采用的訓(xùn)練流程主要包括以下關(guān)鍵步驟:

1. 數(shù)據(jù) KD:利用當(dāng)前 SOTA 的 T2I 模型,生成包含豐富語義的高質(zhì)量合成圖像數(shù)據(jù)集。這一數(shù)據(jù)集的圖像具有較高的視覺多樣性,同時包含由最先進(jìn)的大型多模態(tài)語言模型(如 GPT-4o)生成的豐富多樣的文本標(biāo)注,從而確保訓(xùn)練數(shù)據(jù)在文本和圖像兩個維度上的多樣性。

2.DPO 后處理:由于合成數(shù)據(jù)在高頻細(xì)節(jié)和空間位置捕獲上的不足,作者引入了直接偏好優(yōu)化技術(shù)作為后處理手段,通過微調(diào)模型參數(shù)優(yōu)化生成圖像與參考圖像之間的差異,有效提升圖像細(xì)節(jié)和空間關(guān)系的準(zhǔn)確性,增強了生成圖像的質(zhì)量與魯棒性。

通過以上方法,LightGen 顯著降低了圖像生成模型的訓(xùn)練成本與計算需求,展現(xiàn)了在資源受限環(huán)境下獲取高效、高質(zhì)量圖像生成模型的潛力。

實驗分析

作者通過實驗對比了 LightGen 與現(xiàn)有的多種 SOTA 的 T2I 生成模型,使用 GenEval 作為 benchmark 來驗證我們的模型和其他開源模型的性能。

圖片

圖片

結(jié)果表明,我們的模型在模型參數(shù)和訓(xùn)練數(shù)量都小于其他模型的的前提下,在 256×256 和 512×512 分辨率下的圖像生成任務(wù)中的表現(xiàn)均接近或超過現(xiàn)有的 SOTA 模型。

LightGen 在單物體、雙物體以及顏色合成任務(wù)上明顯優(yōu)于擴(kuò)散模型和自回歸模型,在不使用 DPO 方法的情況下,分別達(dá)到 0.49(80k 步訓(xùn)練)和 0.53 的整體性能分?jǐn)?shù)。在更高的 512×512 分辨率上,LightGen 達(dá)到了可比肩當(dāng)前 SOTA 模型的成績,整體性能分?jǐn)?shù)達(dá)到 0.62,幾乎超過所有現(xiàn)有方法。特別地,加入 DPO 方法后,模型在位置準(zhǔn)確性和高頻細(xì)節(jié)方面的表現(xiàn)始終穩(wěn)定提升,這體現(xiàn)了 DPO 在解決合成數(shù)據(jù)缺陷上的有效性。

消融實驗

圖片

消融實驗結(jié)果顯示,當(dāng)數(shù)據(jù)規(guī)模達(dá)到約 100 萬張圖像時,性能提升會遇到瓶頸,進(jìn)一步增加數(shù)據(jù)規(guī)模帶來的收益很有限。因此,我們最終選擇了 200 萬張圖像作為最優(yōu)的預(yù)訓(xùn)練數(shù)據(jù)規(guī)模。

上圖 (b) 探討了不同訓(xùn)練迭代次數(shù)對 GenEval 在 256 與 512 分辨率下性能的影響。值得注意的是,在 256 像素階段,僅經(jīng)過 80k 訓(xùn)練步數(shù)便能達(dá)到相當(dāng)不錯的性能,這突顯了數(shù)據(jù)蒸餾方法在訓(xùn)練效率上的優(yōu)勢。

總結(jié)與展望

LightGen 研究有效地降低了 T2I 模型訓(xùn)練的資源門檻,證明了通過關(guān)注數(shù)據(jù)多樣性、小型化模型架構(gòu)和優(yōu)化訓(xùn)練策略,可以在極少量數(shù)據(jù)和計算資源的情況下達(dá)到最先進(jìn)模型的性能表現(xiàn)。未來研究可進(jìn)一步探索該方法在其他生成任務(wù)(如視頻生成)上的應(yīng)用,推動高效、低資源需求的生成模型進(jìn)一步發(fā)展,以實現(xiàn)更加廣泛的技術(shù)普及與落地應(yīng)用。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-10-18 12:50:12

數(shù)據(jù)模型

2025-03-18 08:19:01

2024-07-03 12:05:06

Llama模型架構(gòu)

2011-07-05 15:39:50

FTTH

2025-04-14 00:30:00

2024-05-06 08:44:25

FrugalGPT大型語言模型LLM

2024-01-03 12:56:39

2025-01-03 15:39:02

2022-12-09 14:07:11

框架開源

2024-08-29 12:48:32

2024-06-03 08:30:00

2023-07-12 14:28:45

谷歌模型

2024-02-19 00:09:49

開源模型

2024-06-21 11:44:17

2023-12-07 12:38:09

架構(gòu)低成本開發(fā)

2024-03-22 15:08:47

CLIP機器學(xué)習(xí)人工智能

2025-04-24 06:02:45

2024-10-18 16:10:00

AI文生圖框架
點贊
收藏

51CTO技術(shù)棧公眾號