自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超低訓(xùn)練成本文生圖模型PixArt來(lái)了,效果媲美MJ,只需SD 10%訓(xùn)練時(shí)間

人工智能 新聞
訓(xùn)練一個(gè)媲美 MJ 的文生圖模型,26K 美元就能實(shí)現(xiàn)了。

當(dāng)前,最先進(jìn)的文本到圖像(T2I)模型需要大量的訓(xùn)練成本(例如,數(shù)百萬(wàn)個(gè) GPU 小時(shí)),這嚴(yán)重阻礙了 AIGC 社區(qū)的基礎(chǔ)創(chuàng)新,同時(shí)增加了二氧化碳排放。

現(xiàn)在,來(lái)自華為諾亞方舟實(shí)驗(yàn)室等研究機(jī)構(gòu)的研究者聯(lián)合提出了開創(chuàng)性的文本到圖像(T2I)模型 PixArt-α, 只需要 Stable Diffusion v1.5 訓(xùn)練時(shí)間的 10.8%(約 675 vs 約 6250 A100 GPU 天),省下近 30 萬(wàn)美元(26000 美元 vs 320000 美元)。與更大的 SOTA 模型 RAPHAEL 相比,PixArt-α 的訓(xùn)練成本僅為 1%,且支持直接生成高達(dá) 1024×1024 分辨率的高分辨率圖像。

PixArt-α 模型不僅大幅降低了訓(xùn)練成本,還顯著減少了二氧化碳排放,同時(shí)提供了接近商業(yè)應(yīng)用標(biāo)準(zhǔn)的高質(zhì)量圖像生成。PixArt-α 的出現(xiàn),為 AIGC 社區(qū)和初創(chuàng)公司提供了新的視角,以加速他們構(gòu)建自己的高質(zhì)量且低成本的生成模型。

  • 論文地址:https://arxiv.org/abs/2310.00426
  • 主頁(yè):https://pixart-alpha.github.io/
  • 項(xiàng)目地址: https://github.com/PixArt-alpha/PixArt-alpha

總的來(lái)說(shuō),PixArt-α 是一種基于 Transformer 的 T2I 擴(kuò)散模型,其圖像生成質(zhì)量可以與最先進(jìn)的圖像生成器(例如,Imagen [1],SDXL [2],甚至 Midjourney [3])相媲美,達(dá)到接近商業(yè)應(yīng)用的標(biāo)準(zhǔn)。此外,它支持高達(dá) 1024×1024 分辨率的高分辨率圖像的直接生成,訓(xùn)練成本低,如下圖 1 所示。

圖片

圖表 1.PixArt-α 產(chǎn)生的樣本展示出了其卓越的質(zhì)量,其特點(diǎn)是高精確度和準(zhǔn)確性的圖像生成。

為了實(shí)現(xiàn)這個(gè)目標(biāo),該研究提出了三個(gè)核心設(shè)計(jì):

  • 訓(xùn)練策略分解:該研究設(shè)計(jì)了三個(gè)獨(dú)特的訓(xùn)練步驟,分別優(yōu)化像素間依賴關(guān)系,文本圖像對(duì)齊和圖像美學(xué)質(zhì)量;
  • 高效的 T2I Transformer 結(jié)構(gòu):該研究將跨注意力模塊整合到 Diffusion Transformer(DiT)[6] 中,以注入文本信息并簡(jiǎn)化計(jì)算復(fù)雜的類條件分支;
  • 高信息密度數(shù)據(jù):該研究強(qiáng)調(diào)文本圖像對(duì)中概念密度的重要性,并利用大視覺(jué)語(yǔ)言模型自動(dòng)標(biāo)記密集的偽文本標(biāo)簽以協(xié)助文本圖像對(duì)齊學(xué)習(xí)。

大量的實(shí)驗(yàn)表明,PixArt-α 在圖像質(zhì)量、藝術(shù)性和語(yǔ)義控制方面表現(xiàn)出色。研究團(tuán)隊(duì)希望 PixArt-α 能為 AIGC 社區(qū)和初創(chuàng)公司提供新的思路,以加速他們從頭開始構(gòu)建自己的高質(zhì)量且低成本的生成模型。

圖片

圖表 2.T2I 方法之間的二氧化碳排放和訓(xùn)練成本比較。PixArt-α 實(shí)現(xiàn)了極低的訓(xùn)練成本,僅為 26,000 美元。相比于 RAPHAEL,PixArt-α 的二氧化碳排放和訓(xùn)練成本分別僅為 1.1% 和 0.85%。

從現(xiàn)象看本質(zhì):從訓(xùn)練流程和數(shù)據(jù)的角度重新審視文生圖任務(wù)

從現(xiàn)有訓(xùn)練流程出發(fā):文本到圖像(T2I)生成任務(wù)可以分解為三個(gè)方面:建模像素間關(guān)系、文本與圖像的精確對(duì)齊以及高審美質(zhì)量生成。然而,現(xiàn)有方法將這三個(gè)問(wèn)題混合在一起,并直接使用大量數(shù)據(jù)從零開始訓(xùn)練,導(dǎo)致訓(xùn)練效率低下。

從訓(xùn)練數(shù)據(jù)出發(fā):如圖 3 所示,現(xiàn)有的文本 - 圖像對(duì)常常存在文本 - 圖像不對(duì)齊、描述不足、包含大量不常見(jiàn)詞匯以及包含低質(zhì)量數(shù)據(jù)等問(wèn)題。這些問(wèn)題給訓(xùn)練帶來(lái)了困難,導(dǎo)致需要進(jìn)行數(shù)百萬(wàn)次迭代才能實(shí)現(xiàn)文本和圖像之間的穩(wěn)定對(duì)齊。為了解決這個(gè)挑戰(zhàn),該研究引入了一個(gè)創(chuàng)新的自動(dòng)標(biāo)注流程來(lái)生成精確的圖像標(biāo)題。

圖片

圖表 3.LAION [6] 原生標(biāo)題 v.s. LLaVA 精細(xì)標(biāo)題的對(duì)比。LLaVA 提供了信息密度更高的文本,幫助模型在每次迭代中掌握更多概念,提高了文本 - 圖像對(duì)齊的效率。

解耦訓(xùn)練策略:不同數(shù)據(jù)獲取、強(qiáng)化不同能力

1. 像素間依賴學(xué)習(xí)

當(dāng)前 class-condition 的方法 [7] 在生成語(yǔ)義連貫且像素邏輯合理的圖像上展現(xiàn)出了卓越的性能。訓(xùn)練一個(gè)符合自然圖像分布的 class-condition 圖像生成模型,不僅訓(xùn)練相對(duì)簡(jiǎn)單,成本也較低。該研究還發(fā)現(xiàn),適當(dāng)?shù)某跏蓟梢詷O大地提升圖像生成模型的訓(xùn)練效率。因此,PixArt 模型采用了一個(gè) ImageNet 預(yù)訓(xùn)練模型作為基礎(chǔ),來(lái)增強(qiáng)模型的性能。此外,該研究也提出了重參數(shù)化來(lái)兼容預(yù)訓(xùn)練權(quán)重,以確保最佳的算法效果。

2. 文本圖像對(duì)齊

從預(yù)訓(xùn)練的 class-condition 圖像生成模型過(guò)渡到基于文本的圖像生成模型的主要挑戰(zhàn)在于如何實(shí)現(xiàn)文本概念與圖像之間的精確對(duì)齊。這個(gè)對(duì)齊過(guò)程既耗時(shí),也具有挑戰(zhàn)性。為了有效地促進(jìn)這個(gè)過(guò)程,該研究構(gòu)建了一個(gè)高概念密度的由精確的文本 - 圖像對(duì)組成的數(shù)據(jù)集。通過(guò)使用精確且信息豐富的數(shù)據(jù),幫助模型在單次訓(xùn)練迭代中有效學(xué)習(xí)更多的概念,同時(shí)相較于之前的數(shù)據(jù)集,遇到的模糊性大大減少。這種策略性的方法賦予了 PixArt-α 高效地將文本描述與圖像對(duì)齊的能力。

3. 圖像美學(xué)質(zhì)量

在第三階段,該研究對(duì)模型進(jìn)行了微調(diào),利用了高質(zhì)量的美學(xué)數(shù)據(jù)并提高了模型的分辨率,使得模型具有生成高質(zhì)量圖像的能力。值得注意的是,研究團(tuán)隊(duì)觀察到模型在該階段的收斂速度顯著加快,這主要?dú)w功于前兩階段學(xué)習(xí)到的的強(qiáng)大的先驗(yàn)知識(shí)。

刪繁就簡(jiǎn):高效 T2I Transformer 架構(gòu)

PixArt-α 采用了 Diffusion Transformer (DiT) 作為基礎(chǔ)架構(gòu),如圖 4 所示,并創(chuàng)新地提出了以下幾個(gè)專門的設(shè)計(jì)方案來(lái)處理 T2I 任務(wù):

圖片

圖表 4.PixArt-α 模型架構(gòu)。

Cross-Attention layer 該研究在 DiT 模塊中加入了一個(gè)多頭交叉注意力層。它位于自注意力層和前饋層之間,使得模型能夠靈活地與從語(yǔ)言模型中提取的文本特征進(jìn)行交互。為了利用預(yù)訓(xùn)練權(quán)重,該研究將交叉注意力層的輸出投影層權(quán)重初始化為零,有效地作為恒等映射來(lái)保留輸入供后續(xù)層使用。

AdaLN-single 該研究發(fā)現(xiàn)在 DiT 的自適應(yīng)標(biāo)準(zhǔn)化層(adaLN)中,線性投影(MLP)占據(jù)了大量(27%)的參數(shù)。研究團(tuán)隊(duì)提出了 adaLN-single 模塊來(lái)降低模型的參數(shù)量,它只在噪聲進(jìn)入模型第一層之前,僅使用時(shí)間特征嵌入作為輸入進(jìn)行獨(dú)立控制(如圖 4 右側(cè)所示), 并在所有層中共享。研究團(tuán)隊(duì)為每一層設(shè)置了層特定的可學(xué)習(xí)特征嵌入,它可適應(yīng)性地調(diào)整不同層中的尺度和位移參數(shù)。

重參數(shù)化 該研究提出了重參數(shù)化技巧來(lái)保持與預(yù)訓(xùn)練權(quán)重的兼容性。

實(shí)驗(yàn)表明,通過(guò)整合全局 MLP 和層次嵌入來(lái)處理時(shí)間步信息,以及采用跨注意力層處理文本信息,可以在有效減小模型大小的同時(shí),保持模型的生成能力。

數(shù)據(jù)構(gòu)建:全新自動(dòng)化圖文對(duì)標(biāo)注工具

該研究發(fā)現(xiàn) LAION 數(shù)據(jù)集中存在大量簡(jiǎn)單的商品樣圖,并選擇使用專為多樣性目標(biāo)分割設(shè)計(jì)的 SAM 數(shù)據(jù)集 [8],其圖像中包含了豐富多樣的對(duì)象,即較高的信息 / 概念密度,更加貼合前文高信息密度數(shù)據(jù)可以幫助圖文對(duì)齊的論述。標(biāo)注流程如圖 5 所示。

圖片

圖表 5.為 LAION(左圖)和 SAM(右圖)進(jìn)行自定義提示的自動(dòng)標(biāo)注功能。圖中綠色高亮的詞匯代表 LAION 中的原始標(biāo)題,而紅色標(biāo)注的則是 LLaVA 標(biāo)注的詳細(xì)信息。

研究團(tuán)隊(duì)對(duì) LAION 和 SAM 兩個(gè)數(shù)據(jù)集進(jìn)行了名詞統(tǒng)計(jì),如圖 6 所示。LAION 的名詞統(tǒng)計(jì)顯示,雖然其總的名詞種類多達(dá) 2451K 種,但有效名詞的比例僅為 8%,這意味著其中 91% 以上的名詞是不常見(jiàn)的,這可能會(huì)導(dǎo)致模型訓(xùn)練的不穩(wěn)定。相比之下,LAION-LLaVA 的統(tǒng)計(jì)結(jié)果顯示,有效名詞的比例有所提升,總名詞數(shù)量和每張圖像的平均名詞數(shù)量顯著增加。這表明,LLaVA 生成的標(biāo)簽?zāi)軌虮M量涵蓋每張圖片中更多的物體和概念。同樣的,在實(shí)際使用的 SAM 數(shù)據(jù)以及內(nèi)部數(shù)據(jù)中,各項(xiàng)指標(biāo)都有較 LAION-LLaVA 有更大的提升,這體現(xiàn)了更高的概念密度數(shù)據(jù)在訓(xùn)練中的重要性。

圖片

圖表 6.不同數(shù)據(jù)集的名詞概念統(tǒng)計(jì)。VN:有效的不同名詞種類(出現(xiàn)次數(shù)超過(guò)10次);DN:總的不同名詞種類;Average:每張圖片的平均名詞數(shù)量。

量化指標(biāo)驗(yàn)證:指標(biāo)下的能力

該研究最終在 User study、T2ICompBench [9] 以及 MSCOCO Zero-shot FID 三項(xiàng)指標(biāo)上驗(yàn)證了 PixArt-α 的能力。更多評(píng)價(jià)結(jié)果與討論請(qǐng)參考原論文。

圖片

圖表 7.根據(jù)對(duì) Ernie-vilg 2.0 [10] 的 300 個(gè)固定提示的用戶體驗(yàn)研究,比例值表示了偏好對(duì)應(yīng)模型的用戶百分比。PixArt-α 在質(zhì)量和對(duì)齊度方面都表現(xiàn)出超越其他模型的優(yōu)秀性能。

如下圖表 8 所示,在 T2I-CompBench 上進(jìn)行的對(duì)齊評(píng)估中,PixArt-α 在屬性綁定、對(duì)象關(guān)系和復(fù)雜組合方面展示出卓越的性能,這表明 PixArt-α 具有優(yōu)越的組合生成能力。其中,用藍(lán)色高亮表示最好的值,用綠色表示次優(yōu)的值?;€數(shù)據(jù)來(lái)源于 T2ICompBench。

圖片

圖表 8

該研究全面比較了 PixArt-α 和最近的 T2I 模型,考慮了幾個(gè)關(guān)鍵因素:模型大小、訓(xùn)練圖像總量、COCO FID-30K 分?jǐn)?shù)(Zero-shot)以及計(jì)算成本(GPU 天數(shù)),結(jié)果如下圖表 9 所示。該研究提出的高效方法 PixArt-α 顯著減少了資源消耗,包括訓(xùn)練數(shù)據(jù)使用和訓(xùn)練時(shí)間?;€數(shù)據(jù)來(lái)源于 GigaGAN [11]。

圖片

圖表 9

可視化驗(yàn)證:No cheery-pick battle

用于可視化的圖像文本均取自其他方法中,本文中的圖片全部隨機(jī)生成,無(wú)需 cheery-pick。

1. 與 Midjourney 對(duì)比

圖表 10 與 Midjourney 的比較:此次比較使用的提示是從網(wǎng)上隨機(jī)抽樣的。為了確保公平的比較,研究團(tuán)隊(duì)選擇了兩種模型生成的第一個(gè)結(jié)果進(jìn)行對(duì)比。

圖片

圖表 10

2. 與更多文生圖方法的對(duì)比

圖表 11 PixArt-α 與近期代表性的方法對(duì)比,如 Stable Diffusion XL [2]、DeepFloyd [12]、DALL-E 2 [13]、ERNIE-ViLG 2.0 [10] 以及 RAPHAEL [5]。所有方法都使用了與 RAPHAEL 中相同的提示詞,其中人類藝術(shù)家希望在生成圖像中保留的詞語(yǔ)被用紅色高亮。各行的具體提示在圖示下方提供。

圖片

圖表 11

3. 文本直接控制風(fēng)格

圖表 12 提示詞混合:PixArt-α 能夠直接通過(guò)文本提示操控圖像風(fēng)格。利用風(fēng)格控制物體,PixArt-α 生成了五個(gè)輸出樣本。例如,位于圖示左角的第一個(gè)例子的第二個(gè)圖片,使用的提示是 “Pixel Art of the black hole in the space”。

圖片

圖表 12

方法可拓展性:ControlNet & Dreambooth

如下圖表 13 所示,PixArt-α 能夠與 Dreambooth [14] 結(jié)合使用。只需給定幾張圖片和文本提示,PixArt-α 就能生成高保真度的圖像,這些圖像能展示與環(huán)境的自然互動(dòng)(a)和精確的物體顏色修改(b)。這證明了 PixArt-α 能生成具有卓越質(zhì)量的圖像,并且在定制擴(kuò)展方面具有強(qiáng)大的能力。

圖片

圖表 13

圖表 14:PixArt-α+ControlNet [15] 定制樣本。該研究使用輸入圖片生成相應(yīng)的 HED 邊緣圖像,并將它們作為 PixArt-α ControlNet 的控制信號(hào)。

圖片

圖表 14

總結(jié)

總的來(lái)說(shuō),該研究提出了 PixArt-α,這是一種基于 Transformer 的文本到圖像(T2I)擴(kuò)散模型,它在顯著降低訓(xùn)練成本和二氧化碳排放的同時(shí),實(shí)現(xiàn)了超強(qiáng)的圖像生成質(zhì)量。PixArt-α 的三大核心設(shè)計(jì),包括訓(xùn)練策略的分解、高效的 T2I Transformer 架構(gòu)和高信息量的數(shù)據(jù),都為 PixArt-α 的成功做出了貢獻(xiàn)。通過(guò)大量的實(shí)驗(yàn),該研究證明了 PixArt-α 在圖像生成質(zhì)量上達(dá)到了接近商業(yè)應(yīng)用的標(biāo)準(zhǔn)。有了以上的設(shè)計(jì),PixArt-α 為 AIGC 社區(qū)和初創(chuàng)公司提供了新的視角,使他們能夠構(gòu)建自己的高質(zhì)量且低成本的 T2I 模型。研究團(tuán)隊(duì)希望這項(xiàng)工作能激發(fā)這個(gè)領(lǐng)域的進(jìn)一步創(chuàng)新和進(jìn)步。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-02-20 13:50:39

AI 領(lǐng)域建模大數(shù)據(jù)

2025-03-19 10:41:11

2023-07-11 15:30:08

GPT-4架構(gòu)

2024-09-26 00:11:01

2025-03-13 12:39:22

2022-11-09 17:12:38

AI模型

2024-04-03 12:32:00

數(shù)據(jù)訓(xùn)練

2024-07-08 13:11:40

2024-06-21 11:44:17

2021-10-28 09:30:04

模型人工智能深度學(xué)習(xí)

2023-01-05 21:25:06

毫末

2025-04-25 11:55:46

WebSSL視覺(jué)問(wèn)答圖像模型

2023-09-12 13:43:00

智能技術(shù)

2022-08-08 09:47:09

AI算法模型

2022-04-08 14:40:59

框架訓(xùn)練模型

2025-03-18 08:19:01

2023-09-25 12:14:00

AI開源

2025-04-02 09:00:00

模型開源AI

2023-06-15 09:58:48

2023-07-12 10:04:20

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)