視覺自回歸建模(VAR):通過下一尺度預(yù)測實現(xiàn)可擴(kuò)展的圖像生成(NIPS2024best) 原創(chuàng) 精華
圖 1:從在 ImageNet 上訓(xùn)練的視覺自回歸 (VAR) Transformer 生成的樣本。展示了 512×512 的生成樣本(頂部)、256×256 的生成樣本(中部)以及零樣本圖像編輯結(jié)果(底部)。
摘要: 我們提出了一種新的生成范式——視覺自回歸建模(VAR),將圖像上的自回歸學(xué)習(xí)重新定義為從粗到精的“下一尺度預(yù)測”或“下一分辨率預(yù)測”,區(qū)別于傳統(tǒng)的光柵掃描式“下一個標(biāo)記預(yù)測”。這種簡單直觀的方法使自回歸(AR)Transformer能夠更快地學(xué)習(xí)視覺分布并表現(xiàn)出良好的泛化能力:VAR首次使得類似GPT的AR模型在圖像生成方面超越了擴(kuò)散Transformer。在ImageNet 256×256基準(zhǔn)測試中,VAR顯著提升了AR基線,F(xiàn)réchet嵌入距離(FID)從18.65降至1.73,嵌入分?jǐn)?shù)(IS)從80.4提升到350.2,同時推理速度提升了20倍。實驗表明,VAR在圖像質(zhì)量、推理速度、數(shù)據(jù)效率和可擴(kuò)展性等多個維度上優(yōu)于擴(kuò)散Transformer(DiT)。擴(kuò)展后的VAR模型表現(xiàn)出類似大型語言模型(LLMs)的清晰冪律擴(kuò)展規(guī)律,相關(guān)性系數(shù)接近-0.998,提供了有力的實驗證據(jù)。此外,VAR在圖像修補(bǔ)、外延和編輯等下游任務(wù)中展示了零樣本泛化能力。這些結(jié)果表明,VAR初步實現(xiàn)了LLMs的兩個關(guān)鍵屬性:擴(kuò)展規(guī)律和零樣本泛化能力。我們已公開所有模型和代碼,以促進(jìn)AR/VAR模型在視覺生成與統(tǒng)一學(xué)習(xí)中的探索。
圖 2:標(biāo)準(zhǔn)自回歸建模(AR)與我們提出的視覺自回歸建模(VAR)的對比。
(a) AR 應(yīng)用于語言:按從左到右逐字生成文本標(biāo)記;
(b) AR 應(yīng)用于圖像:按光柵掃描順序(從左到右、從上到下)逐步生成視覺標(biāo)記;
(c) VAR 應(yīng)用于圖像:通過多尺度標(biāo)記映射,從粗到精(低分辨率到高分辨率)自回歸生成標(biāo)記,各尺度內(nèi)并行生成標(biāo)記。VAR 需要多尺度 VQVAE 支持。
1、引言
GPT 系列模型的出現(xiàn)以及更多自回歸 (AR) 大型語言模型 (LLMs) 的發(fā)展(如 [65, 66, 15, 62, 1])標(biāo)志著人工智能領(lǐng)域進(jìn)入了一個新紀(jì)元。這些模型展示了廣泛的智能性和多功能性,盡管存在幻覺等問題 [39],仍被認(rèn)為是邁向通用人工智能 (AGI) 的堅實一步。這些模型的核心是一種自監(jiān)督學(xué)習(xí)策略——預(yù)測序列中的下一個標(biāo)記,這是一種簡單卻深刻的方法。關(guān)于這些大型 AR 模型成功的研究強(qiáng)調(diào)了它們的兩個關(guān)鍵屬性:可擴(kuò)展性和泛化性。前者(如通過擴(kuò)展規(guī)律 [43, 35])使我們能夠通過小型模型預(yù)測大型模型的性能,從而指導(dǎo)更好的資源分配;而后者(如通過零樣本和小樣本學(xué)習(xí) [66, 15])展示了通過無監(jiān)督訓(xùn)練模型適應(yīng)多樣化、未見任務(wù)的能力。這些屬性表明,AR 模型具有從海量未標(biāo)注數(shù)據(jù)中學(xué)習(xí)的潛力,體現(xiàn)了 AGI 的本質(zhì)。
與此同時,計算機(jī)視覺領(lǐng)域也在努力開發(fā)大型自回歸模型或世界模型 [58, 57, 6],試圖模仿其令人印象深刻的可擴(kuò)展性和泛化性。先鋒性的工作如 VQGAN 和 DALL-E [30, 67] 及其后續(xù)研究 [68, 92, 50, 99] 展示了 AR 模型在圖像生成中的潛力。這些模型使用視覺標(biāo)記器將連續(xù)圖像離散化為二維標(biāo)記網(wǎng)格,然后將其展平為一維序列以進(jìn)行 AR 學(xué)習(xí)(如圖 2b 所示),模仿順序語言建模的過程(如圖 2a 所示)。然而,這些模型的擴(kuò)展規(guī)律仍未被充分探索,更令人沮喪的是,它們的性能明顯落后于擴(kuò)散模型 [63, 3, 51],如圖 3 所示。與 LLM 的顯著成就相比,自回歸模型在計算機(jī)視覺中的潛力似乎仍未被完全釋放。
定義數(shù)據(jù)的生成順序是自回歸建模的必要環(huán)節(jié)。我們的研究重新思考了如何為圖像定義“順序”:人類通常以一種分層的方式感知或創(chuàng)建圖像,先捕捉整體結(jié)構(gòu),然后是局部細(xì)節(jié)。這種多尺度、從粗到精的特性為圖像提供了一種自然的“順序”。此外,受廣泛多尺度設(shè)計的啟發(fā) [54, 52, 81, 44],我們將圖像的自回歸學(xué)習(xí)定義為圖 2c 所示的“下一尺度預(yù)測”,從而擺脫傳統(tǒng)的“下一個標(biāo)記預(yù)測”(如圖 2b 所示)。我們的方法首先將圖像編碼為多尺度標(biāo)記映射。然后,從 1×1 標(biāo)記圖開始自回歸過程,并逐步擴(kuò)展分辨率:在每一步中,Transformer 在所有之前生成的基礎(chǔ)上預(yù)測下一個更高分辨率的標(biāo)記圖。我們將這種方法稱為視覺自回歸 (VAR) 建模。
VAR 直接利用類似 GPT-2 的 Transformer 架構(gòu) [66] 來進(jìn)行視覺自回歸學(xué)習(xí)。在 ImageNet 256×256 基準(zhǔn)測試中,VAR 顯著提升了自回歸 (AR) 基線的性能,F(xiàn)réchet 嵌入距離 (FID) 達(dá)到 1.73,嵌入分?jǐn)?shù) (IS) 達(dá)到 350.2,同時推理速度提升了 20 倍(詳細(xì)信息見第 7 節(jié))。值得注意的是,VAR 在 FID/IS、數(shù)據(jù)效率、推理速度和可擴(kuò)展性方面超越了擴(kuò)散 Transformer (DiT)——這是如 Stable Diffusion 3.0 和 SORA [29, 14] 等領(lǐng)先擴(kuò)散系統(tǒng)的基礎(chǔ)。VAR 模型還展示了類似于大型語言模型 (LLMs) 的擴(kuò)展規(guī)律。此外,我們展示了 VAR 在圖像修補(bǔ)、擴(kuò)展和編輯等任務(wù)中的零樣本泛化能力。
總結(jié)而言,我們對社區(qū)的貢獻(xiàn)包括:
1. 提出了一種基于多尺度自回歸范式和下一尺度預(yù)測的新型視覺生成框架,為計算機(jī)視覺中的自回歸算法設(shè)計提供了新的見解。
2. 對 VAR 模型的擴(kuò)展規(guī)律和零樣本泛化潛力進(jìn)行了實證驗證,這初步再現(xiàn)了大型語言模型 (LLMs) 的吸引力特性。
3. 在視覺自回歸模型性能上實現(xiàn)了突破,使基于 GPT 風(fēng)格的自回歸方法首次在圖像合成方面超越強(qiáng)大的擴(kuò)散模型。
4. 提供了一個全面的開源代碼套件,包括 VQ 標(biāo)記器和自回歸模型訓(xùn)練管道,以推動視覺自回歸學(xué)習(xí)的發(fā)展。
2、相關(guān)工作
2.1 大型自回歸語言模型的屬性
擴(kuò)展規(guī)律
在自回歸語言模型中發(fā)現(xiàn)并研究了擴(kuò)展規(guī)律 [43, 35],這些規(guī)律描述了模型規(guī)模(或數(shù)據(jù)集、計算量等)與測試集上的交叉熵?fù)p失值之間的冪律關(guān)系。擴(kuò)展規(guī)律使我們能夠直接從較小模型預(yù)測較大模型的性能 [1],從而優(yōu)化資源分配。更令人欣慰的是,擴(kuò)展規(guī)律表明,隨著模型規(guī)模、數(shù)據(jù)量和計算量的增長,LLMs 的性能可以很好地擴(kuò)展并且不會飽和,這被認(rèn)為是其成功的關(guān)鍵因素 [15, 82, 83, 98, 90, 38]。擴(kuò)展規(guī)律的成功也激勵了視覺領(lǐng)域去探索更多類似的方法,用于多模態(tài)理解和生成 [53, 2, 88, 27, 96, 77, 21, 23, 41, 31, 32, 80, 87]。
零樣本泛化
零樣本泛化 [72] 指的是一種模型(特別是大型語言模型)的能力,即無需專門訓(xùn)練即可完成未見任務(wù)。在計算機(jī)視覺領(lǐng)域,基礎(chǔ)模型的零樣本和上下文學(xué)習(xí)能力引起了廣泛關(guān)注,例如 CLIP [64]、SAM [48] 和 Dinov2 [61]。類似 Painter [89] 和 LVM [6] 的創(chuàng)新工作將視覺提示器 [40, 11] 擴(kuò)展到了上下文學(xué)習(xí)領(lǐng)域,以實現(xiàn)視覺領(lǐng)域的上下文學(xué)習(xí)。
2.2 視覺生成
光柵掃描自回歸模型
用于視覺生成的光柵掃描自回歸模型需要將二維圖像編碼為一維標(biāo)記序列。早期研究 [20, 84] 顯示了能夠以標(biāo)準(zhǔn)逐行、光柵掃描方式生成 RGB(或分組)像素的能力。[69] 在 [84] 的基礎(chǔ)上,通過多次使用獨立的可訓(xùn)練網(wǎng)絡(luò)實現(xiàn)超分辨率生成。VQGAN [30] 在 [20, 84] 的基礎(chǔ)上進(jìn)一步發(fā)展,通過在 VQVAE 的潛在空間中進(jìn)行自回歸學(xué)習(xí)實現(xiàn)了更高效的生成。它采用了類似 GPT-2 的解碼器 Transformer,在光柵掃描順序中生成標(biāo)記,類似于 ViT [28] 將二維圖像序列化為一維塊。VQVAE-2 [68] 和 RQ-Transformer [50] 也遵循這種光柵掃描方式,但使用了額外的尺度或堆疊的代碼?;?ViT-VQGAN 架構(gòu)的 Parti [93] 將 Transformer 擴(kuò)展到 200 億參數(shù),并在文本到圖像生成中表現(xiàn)出色。
掩碼預(yù)測模型
MaskGIT [17] 采用了一個 VQ 自動編碼器和一個類似于 BERT [25, 10, 34] 的掩碼預(yù)測 Transformer,通過貪心算法生成 VQ 標(biāo)記。MagViT [94] 將此方法應(yīng)用于視頻,MagViT-2 [95] 則通過改進(jìn)的 VQVAE 對圖像和視頻進(jìn)行了進(jìn)一步優(yōu)化。MUSE [16] 將 MaskGIT 的規(guī)模擴(kuò)展到 30 億參數(shù)。
擴(kuò)散模型
擴(kuò)散模型的研究集中于改進(jìn)學(xué)習(xí)或采樣方法 [76, 75, 55, 56, 7]、指導(dǎo) [37, 60]、潛在空間學(xué)習(xí) [70] 和架構(gòu)設(shè)計 [36, 63, 71, 91]。DiT 和 U-ViT [63, 8] 用 Transformer 替代或集成了 U-Net,并啟發(fā)了近期的圖像 [19, 18] 或視頻生成系統(tǒng) [12, 33],包括 Stable Diffusion 3.0 [29]、SORA [14] 和 Vidu [9]。
備注
另一個相關(guān)工作 [95] 名為“語言模型勝過擴(kuò)散模型”,屬于基于 BERT 風(fēng)格掩碼預(yù)測的模型。
3、方法
3.1 自回歸建模的基礎(chǔ):通過“下一個標(biāo)記預(yù)測”進(jìn)行建模
3.2 通過“下一尺度預(yù)測”實現(xiàn)視覺自回歸建模
圖 4:VAR 包括兩個獨立的訓(xùn)練階段。
階段 1:一個多尺度 VQ 自動編碼器將圖像編碼為 K 個標(biāo)記圖 R=(r1,r2,…,rK),并通過復(fù)合損失函數(shù) (5) 進(jìn)行訓(xùn)練。關(guān)于“多尺度量化”和“嵌入”的詳細(xì)信息,請參考算法 1 和算法 2。
階段 2:通過“下一尺度預(yù)測” (6) 訓(xùn)練 VAR Transformer:它將 ([s],r1,r2,…,rK?1)作為輸入,以預(yù)測 (r1,r2,r3,…,rK)。在訓(xùn)練中使用注意力掩碼,以確保每個 rk 只能訪問其前綴 r≤k。訓(xùn)練中使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)。
討論
VAR 解決了之前提到的三大問題:
(1)如果我們約束每個 rk 僅依賴其前綴 r≤k,即生成 rk 的過程完全基于 r≤k,那么數(shù)學(xué)前提便得以滿足。這種約束是合理的,因為它符合自然的從粗到精的漸進(jìn)特性,例如人類的視覺感知和藝術(shù)創(chuàng)作(如第 1 節(jié)所討論)。有關(guān)更多細(xì)節(jié),請參閱下面的“標(biāo)記化”部分。
(2)空間局部性得以保留,因為 (i) VAR 中沒有展平操作;(ii) 每個 rk 中的標(biāo)記是完全相關(guān)的。此外,多尺度設(shè)計進(jìn)一步強(qiáng)化了空間結(jié)構(gòu)。
(3)對于一個分辨率為 n×n的潛在圖像,生成過程的復(fù)雜性顯著降低至 O(n4)(證明見附錄)。這種效率提升源于每個 rk 內(nèi)標(biāo)記的并行生成。
標(biāo)記化
我們開發(fā)了一種新的多尺度量化自動編碼器,將圖像編碼為 K 個多尺度離散標(biāo)記圖 R=(r1,r2,…,rK),以支持 VAR 的學(xué)習(xí)(如公式 (6) 所示)。我們采用與 VQGAN [30] 相同的架構(gòu),但對多尺度量化層進(jìn)行了修改。編碼和解碼過程使用了殘差設(shè)計,針對特征圖 f 或f^ 的操作詳見算法 1 和算法 2。實驗表明,這種類似于 [50] 的殘差式設(shè)計在性能上優(yōu)于獨立插值方法。算法 1 證明了每個 rk僅依賴其前綴 (r1,r2,…,rk?1)。
需要注意的是,在所有尺度上使用了共享代碼本 Z,確保每個 rk 的標(biāo)記來自相同的詞匯表 [V]。為了解決將 zk 放大到分辨率 hK×wK 時的信息丟失問題,我們使用了 K個額外的卷積層 。在將 f 下采樣到分辨率 hk×wk 后,未使用額外的卷積操作。
4、實現(xiàn)細(xì)節(jié)
VAR 標(biāo)記器
如前所述,我們使用了標(biāo)準(zhǔn)的 VQVAE 架構(gòu)【30】,并結(jié)合了一種多尺度量化方案,增加了 K 個額外的卷積層(增加了約 0.03M 參數(shù))。我們在所有尺度上共享一個代碼本,代碼表大小為 V=4096。按照基線方法【30】,我們的標(biāo)記器也在 OpenImages 數(shù)據(jù)集【49】上,通過復(fù)合損失函數(shù) (5) 進(jìn)行訓(xùn)練,并采用了 16 倍的空間下采樣率。
VAR Transformer
我們的主要研究集中在 VAR 算法,因此模型架構(gòu)設(shè)計保持簡單。我們采用了類似于 GPT-2 和 VQGAN【66, 30】的標(biāo)準(zhǔn)僅解碼 Transformer 架構(gòu),結(jié)合自適應(yīng)歸一化 (AdaLN)。這種架構(gòu)已被廣泛用于許多視覺生成模型中,且證明了其有效性【46, 47, 45, 74, 73, 42, 63, 19】。
對于基于類別條件的圖像生成,我們使用類別嵌入作為起始標(biāo)記 [s],并作為 AdaLN 的條件輸入。我們發(fā)現(xiàn),在注意力計算前將查詢和鍵歸一化為單位向量,可以穩(wěn)定訓(xùn)練過程。
我們沒有使用大規(guī)模語言模型中的一些高級技術(shù),例如旋轉(zhuǎn)位置嵌入 (RoPE)、SwiGLU 多層感知機(jī) (MLP)、或 RMS Norm【82, 83】。
我們的模型形狀遵循一個簡單規(guī)則【43】:寬度 w、頭數(shù) h、和丟棄率 dr 隨深度 d 線性擴(kuò)展:
w=64d,h=d,dr=0.1?d/24
參數(shù)計算
一個深度為 d 的 VAR Transformer 的主要參數(shù)總數(shù) N 由以下公式給出:
訓(xùn)練設(shè)置
所有模型在相似的設(shè)置下進(jìn)行訓(xùn)練:
·基礎(chǔ)學(xué)習(xí)率:10?4(每 256 的批量大?。?。
·優(yōu)化器:AdamW,超參數(shù) β1=0.9,β2=0.95,權(quán)重衰減 0.05。
·批量大小:從 768 到 1024。
·訓(xùn)練輪數(shù):200 至 350(取決于模型規(guī)模)。
在第 5 節(jié)的評估表明,這種簡單的模型設(shè)計具有良好的可擴(kuò)展性和泛化能力。
廣告
請在微信客戶端打開
抓大鵝
小游戲 益智
玩游戲
5、實驗結(jié)果
本節(jié)首先在 5.1 中將 VAR 與其他圖像生成模型類別進(jìn)行比較。關(guān)于 VAR 模型的擴(kuò)展性和泛化能力的評估展示在 5.2 和附錄 6 中。有關(guān)實現(xiàn)細(xì)節(jié)和消融研究,請參閱附錄 4 和 7。
5.1 最先進(jìn)的圖像生成
設(shè)置我們在 ImageNet 數(shù)據(jù)集的 256×256 和 512×512 條件生成基準(zhǔn)上測試了深度分別為 16、20、24 和 30 的 VAR 模型,并將其與現(xiàn)有最先進(jìn)的圖像生成模型進(jìn)行比較。在所有基于 VQVAE 的 AR 或 VAR 模型中,VQGAN【30】和我們的模型使用相同的 VQVAE 架構(gòu)(CNN)和訓(xùn)練數(shù)據(jù)(OpenImages【49】),而 ViT-VQGAN【92】使用的是 ViT 自動編碼器,并且與 RQTransformer【50】一樣直接在 ImageNet 上訓(xùn)練了 VQVAE。結(jié)果總結(jié)見表 1 和表 2。
整體比較與現(xiàn)有的生成方法(包括生成對抗網(wǎng)絡(luò) GAN、擴(kuò)散模型 Diffusion、基于 BERT 的掩碼預(yù)測模型 Masking,以及基于 GPT 的自回歸模型 AR)相比,我們的視覺自回歸(VAR)模型確立了一種新的模型類別。如表 1 所示,VAR 不僅在 FID 和 IS 指標(biāo)上表現(xiàn)最佳,而且在圖像生成速度上也具有顯著優(yōu)勢。此外,VAR 在精度和召回率上也保持了較高的一致性,證實了其語義一致性。這些優(yōu)勢在 512×512 合成基準(zhǔn)上同樣成立(詳見表 2)。值得注意的是,VAR 顯著提高了傳統(tǒng) AR 的能力。據(jù)我們所知,這是自回歸模型首次在圖像質(zhì)量和多樣性上超越擴(kuò)散 Transformer,這一里程碑得益于 VAR 在第 3 節(jié)中討論的對 AR 局限性的解決方案。
表 1:生成模型家族在類別條件的 ImageNet 256×256 上的比較?!啊?或 “↑” 表示數(shù)值越低或越高越好。評估指標(biāo)包括 Fréchet 嵌入距離 (FID)、嵌入分?jǐn)?shù) (IS)、精度 (Pre) 和召回率 (rec)?!?Step” 表示生成一張圖像所需的模型運(yùn)行次數(shù)。推理時間以相對于 VAR 的實測時間表示。帶有后綴 “-re” 的模型使用了拒絕采樣。?:數(shù)據(jù)來源于 MaskGIT【17】。
效率比較
傳統(tǒng)自回歸 (AR) 模型【30, 68, 92, 50】由于圖像標(biāo)記的數(shù)量與圖像分辨率呈平方關(guān)系,計算成本非常高。完整的自回歸生成 n2 個標(biāo)記需要 O(n2) 次解碼迭代和 O(n6) 的總計算量。相比之下,VAR 僅需要 O(log(n)) 次迭代和 O(n4) 的總計算量。表 1 中報告的實測時間也提供了經(jīng)驗性證據(jù),表明即使 VAR 的模型參數(shù)更多,其速度仍比 VQGAN 和 ViT-VQGAN 快約 20 倍,達(dá)到高效 GAN 模型的速度(僅需 1 步即可生成一張圖像)。
與流行的擴(kuò)散 Transformer 的比較
VAR 模型在多個維度上超越了最近流行的擴(kuò)散模型 Diffusion Transformer (DiT),后者是最新的 Stable Diffusion 3【29】和 SORA【14】的前身:
(1)圖像生成的多樣性和質(zhì)量:在 FID 和 IS 指標(biāo)上,具有 20 億參數(shù)的 VAR 始終優(yōu)于 DiT-XL/2【63】、L-DiT-3B 和 L-DiT-7B【3】。同時,VAR 在精度和召回率上保持了可比水平。
(2)推理速度:DiT-XL/2 的推理時間是 VAR 的 45 倍,而 3B 和 7B 模型的推理成本則遠(yuǎn)高于此。
(3)數(shù)據(jù)效率:VAR 僅需 350 個訓(xùn)練 epoch,而 DiT-XL/2 需要 1400 個訓(xùn)練 epoch。
(4)可擴(kuò)展性:如圖 3 和表 1 所示,DiT 在參數(shù)超過 6.75 億時僅獲得了微小甚至負(fù)向的增益。而 VAR 的 FID 和 IS 指標(biāo)持續(xù)提升,與第 5.2 節(jié)中的擴(kuò)展規(guī)律研究一致。
這些結(jié)果表明,VAR 可能是一種比 DiT 等模型更高效且更具可擴(kuò)展性的圖像生成模型。
5.2 冪律擴(kuò)展規(guī)律
背景先前的研究【43, 35, 38, 1】表明,擴(kuò)大自回歸大語言模型(LLMs)的規(guī)模會導(dǎo)致測試損失 L的可預(yù)測下降。這種趨勢與參數(shù)數(shù)量 N、訓(xùn)練標(biāo)記數(shù)量 T 和最佳訓(xùn)練計算量 Cmin 呈冪律關(guān)系:
L=(β?X)α
其中 X 可以是 N、T 或 Cmin。指數(shù) α反映了冪律的平滑程度,LL表示歸一化后的可減少損失,標(biāo)準(zhǔn)化為不可減少損失 L∞。通過對數(shù)變換,L和 X 的對數(shù)之間表現(xiàn)出線性關(guān)系:
log(L)=αlog(X)+αlogβ
這些擴(kuò)展規(guī)律不僅驗證了 LLM 的擴(kuò)展性,還可用于預(yù)測更大模型的性能,從而通過小模型性能預(yù)測優(yōu)化資源使用。將這些規(guī)律擴(kuò)展到計算機(jī)視覺領(lǐng)域具有重要意義。
VAR 模型的擴(kuò)展設(shè)置
我們按照【43, 35, 38, 1】的協(xié)議,驗證 VAR 模型是否符合類似的擴(kuò)展規(guī)律。在 ImageNet 訓(xùn)練集(包含 1.28M 圖像)上訓(xùn)練了 12 種不同規(guī)模的模型,參數(shù)范圍從 18M 到 2B。訓(xùn)練跨度為 200 至 350 輪,每輪最多處理 3050 億個標(biāo)記。以下我們重點討論模型參數(shù) N 和在足夠標(biāo)記數(shù)量 T 條件下的最佳訓(xùn)練計算量 Cmin 所遵循的擴(kuò)展規(guī)律。
模型參數(shù) N 的擴(kuò)展規(guī)律
我們首先研究了隨著 VAR 模型規(guī)模增長,測試損失的變化趨勢。對于深度為 d 的 VAR Transformer,其參數(shù)數(shù)量為 N(d)=73728d3,公式見 (8)。我們將深度 d 從 6 調(diào)整到 30,生成了 12 個模型,參數(shù)規(guī)模從 18.5M 到 2.0B 不等。
圖 5:VAR Transformer 參數(shù)規(guī)模 N 的擴(kuò)展規(guī)律,包含冪律擬合曲線(虛線)和對應(yīng)公式(圖例中)。
接近零的冪指數(shù) α 表明,當(dāng)擴(kuò)大 VAR Transformer 的規(guī)模時,測試損失 L 和標(biāo)記錯誤率 Err都呈現(xiàn)平滑下降趨勢。坐標(biāo)軸均為對數(shù)刻度。接近 ?0.998 的皮爾遜相關(guān)系數(shù)表明 log(N) 與log(L) 或 log(Err) 之間具有強(qiáng)線性關(guān)系。
我們在 ImageNet 驗證集(50,000 張圖像)【24】上評估了最終的測試交叉熵?fù)p失 L 和標(biāo)記預(yù)測錯誤率 Err。我們計算了最后一尺度(最后一次“下一尺度自回歸”步驟)下的 L 和 Err,以及全局平均值。結(jié)果如圖 5 所示,我們觀察到 L 作為 N 的函數(shù)呈現(xiàn)出明顯的冪律擴(kuò)展趨勢,與文獻(xiàn)【43, 35, 38, 1】的結(jié)論一致。
冪律擴(kuò)展規(guī)律可表示為:
Llast=(2.0?N)?0.23,Lavg=(2.5?N)?0.20.(11)
盡管擴(kuò)展規(guī)律主要在測試損失 LL上研究,我們通過實驗發(fā)現(xiàn)標(biāo)記錯誤率 Err 也表現(xiàn)出類似的冪律趨勢:
Errlast=(4.9?102N)?0.016,Erravg=(6.5?102N)?0.010.
這些結(jié)果驗證了 VAR 的強(qiáng)擴(kuò)展性,即通過增加 VAR Transformer 的規(guī)模,模型的測試性能可以持續(xù)改進(jìn)。
最優(yōu)訓(xùn)練計算量 Cmin的擴(kuò)展規(guī)律
我們進(jìn)一步研究了增加訓(xùn)練計算量 C 時 VAR Transformer 的擴(kuò)展行為。對于每個模型(共 12 個),我們跟蹤了訓(xùn)練過程中測試損失 L 和標(biāo)記錯誤率 Err 隨 C 的變化,計算量以 PFlops(1015 浮點運(yùn)算每秒)為單位。結(jié)果繪制在圖 6 中,我們描繪了 L 和 Err 的帕累托前沿,以突出達(dá)到某一損失或錯誤值所需的最優(yōu)訓(xùn)練計算量 Cmin。擬合的冪律擴(kuò)展規(guī)律如下:
擬合的 L 和 Err關(guān)于 Cmin 的冪律擴(kuò)展規(guī)律如下:
這些關(guān)系(公式 14 和 16)在 Cmin范圍內(nèi)跨越了 6 個數(shù)量級,并且我們的發(fā)現(xiàn)與文獻(xiàn)【43, 35】一致:在數(shù)據(jù)充足的情況下,更大的 VAR Transformer 具有更高的計算效率,因為它們可以用更少的計算量達(dá)到相同的性能水平。
圖 6:最優(yōu)訓(xùn)練計算量 Cmin的擴(kuò)展規(guī)律。線條顏色表示不同的模型規(guī)模。紅色虛線為冪律擬合曲線,圖例中標(biāo)出了對應(yīng)的公式。坐標(biāo)軸均為對數(shù)刻度。接近 -0.99 的皮爾遜相關(guān)系數(shù)表明 log(Cmin) 與 log(L) 或 log(Err) 之間存在強(qiáng)線性關(guān)系。
5.3 擴(kuò)展效果的可視化
為了更好地理解 VAR 模型在擴(kuò)展時的學(xué)習(xí)過程,我們在圖 7 中比較了 4 種不同規(guī)模(深度為 6、16、26、30)的 VAR 模型在 256×256 分辨率上的生成樣本。這些樣本在訓(xùn)練進(jìn)度的 20%、60% 和 100% 階段采樣。為確保內(nèi)容一致性,使用相同的隨機(jī)種子和初始標(biāo)記進(jìn)行訓(xùn)練。實驗結(jié)果表明,隨著模型規(guī)模的擴(kuò)大,生成圖像的視覺保真度和質(zhì)量顯著提高,這與冪律規(guī)律一致。
圖 7:增加模型規(guī)模 NN 和訓(xùn)練計算量 CC 提高了視覺保真度和一致性。放大可獲得更清晰的視圖。樣本來自 4 種不同規(guī)模的 VAR 模型和 3 個不同訓(xùn)練階段。9 個類別標(biāo)簽(從左到右,從上到下)分別是:火烈鳥 130、北極狼 270、金剛鸚鵡 88、暹羅貓 284、示波器 688、哈士奇 250、信天翁 146、火山 980 和雙體船 484。
6、零樣本任務(wù)泛化
圖像修補(bǔ)和外延我們在 VAR-d30 上進(jìn)行了測試。在圖像修補(bǔ)和外延任務(wù)中,我們使用教師強(qiáng)制(teacher-forcing)的方法,在掩碼外的區(qū)域提供真實標(biāo)記,僅讓模型生成掩碼內(nèi)的標(biāo)記。模型中未注入類別標(biāo)簽信息。結(jié)果如圖 8 所示。無需修改網(wǎng)絡(luò)架構(gòu)或調(diào)整參數(shù),VAR 在這些下游任務(wù)中取得了較好的效果,驗證了 VAR 的泛化能力。
基于類別條件的圖像編輯
參考 MaskGIT【17】,我們同樣測試了 VAR 在基于類別條件的圖像編輯任務(wù)中的表現(xiàn)。與修補(bǔ)任務(wù)類似,模型在邊界框內(nèi)僅生成條件于某類別標(biāo)簽的標(biāo)記。圖 8 顯示,模型能夠生成與周圍上下文自然融合的合理內(nèi)容,再次驗證了 VAR 的通用性。
圖 8:在修補(bǔ)、外延和基于類別條件的編輯等下游任務(wù)中進(jìn)行零樣本評估。結(jié)果表明,VAR 能夠在無需特殊設(shè)計和微調(diào)的情況下泛化到新的下游任務(wù)。放大可獲得更清晰的視圖。
7、消融研究
在本研究中,我們旨在驗證所提出的 VAR 框架的有效性和效率。結(jié)果見表 3。
VAR 的有效性和效率
從由【17】實現(xiàn)的標(biāo)準(zhǔn)自回歸(AR)Transformer 基線開始,我們將其方法替換為我們的 VAR,并保持其他設(shè)置不變,得到第 2 行結(jié)果。VAR 在推理時鐘時間僅為 AR 模型的 0.013 倍的情況下,將 FID 從 18.65 大幅改善到 5.22,這證明了視覺自回歸模型在性能和效率上的顯著飛躍。
表 3:VAR 的消融研究。前兩行比較了在 AR 和 VAR 算法下訓(xùn)練的 GPT-2 風(fēng)格 Transformer(未使用任何附加優(yōu)化)。后續(xù)幾行展示了 VAR 增強(qiáng)組件的影響。
“AdaLN”:自適應(yīng)層歸一化。
“CFG”:無分類器引導(dǎo)。
“Attn. Norm.”:在注意力機(jī)制中將 qq 和 kk 歸一化為單位向量。
“Cost”:相對于基線的推理成本。
“?”:與基線相比的 FID 降低量。
組件消融
我們進(jìn)一步測試了 VAR 中一些關(guān)鍵組件的影響:
·將標(biāo)準(zhǔn)層歸一化(Layer Normalization, LN)替換為自適應(yīng)層歸一化(Adaptive Layer Normalization, AdaLN),VAR 的 FID 開始超過基線。
·通過使用與基線相似的 top-k 采樣,VAR 的 FID 進(jìn)一步改善。
·使用無分類器引導(dǎo)(Classifier-Free Guidance, CFG)并將比率設(shè)為 2.0,同時在注意力機(jī)制前將 qq 和 kk 歸一化為單位向量,我們達(dá)到了 3.30 的 FID,比基線低了 15.35,同時推理速度仍然快 45 倍。
·最后,將 VAR 的規(guī)模擴(kuò)展到 20 億參數(shù)后,我們實現(xiàn)了 1.73 的 FID,比基線的 FID 提高了 16.85。
8、局限性與未來工作
在本研究中,我們主要專注于學(xué)習(xí)范式的設(shè)計,保持了 VQVAE 的架構(gòu)和訓(xùn)練方式與基線【30】一致,以更好地驗證 VAR 框架的有效性。我們認(rèn)為改進(jìn) VQVAE 標(biāo)記器【99, 59, 95】是增強(qiáng)自回歸生成模型的另一種有前景的方法,這與我們的工作是正交的。我們相信,通過結(jié)合最新研究中的先進(jìn)標(biāo)記器或采樣技術(shù),VAR 的性能或速度可以進(jìn)一步提升。
文本提示生成是我們正在進(jìn)行的研究方向。由于我們的模型在本質(zhì)上與現(xiàn)代大型語言模型 (LLMs) 相似,因此可以輕松與它們結(jié)合,通過編碼器-解碼器架構(gòu)或上下文方式執(zhí)行文本到圖像的生成。這是我們當(dāng)前優(yōu)先探索的重點方向之一。
視頻生成 在本研究中尚未實現(xiàn),但它可以自然地進(jìn)行擴(kuò)展。通過將多尺度視頻特征視為 3D 金字塔,我們可以提出類似的“3D 下一尺度預(yù)測”策略,通過 VAR 生成視頻。與基于擴(kuò)散的方法(如 SORA【14】)相比,我們的方法在時間一致性或與 LLM 集成方面具有內(nèi)在優(yōu)勢,因此有潛力處理更長的時間依賴。這使得 VAR 在視頻生成領(lǐng)域具有競爭力,因為傳統(tǒng)的自回歸模型由于極高的計算復(fù)雜性和推理速度慢,在視頻生成中效率極低,生成高分辨率視頻的代價過于昂貴。而 VAR 有能力解決這一問題。因此,我們預(yù)見 VAR 模型在視頻生成領(lǐng)域?qū)⒕哂袕V闊的發(fā)展前景。
9、結(jié)論
我們提出了一種新的視覺生成框架,稱為視覺自回歸建模 (VAR),該框架:
1)從理論上解決了標(biāo)準(zhǔn)圖像自回歸 (AR) 模型中固有的一些問題;
2)使基于語言模型的自回歸模型首次在圖像質(zhì)量、多樣性、數(shù)據(jù)效率和推理速度方面超越了強(qiáng)大的擴(kuò)散模型。
當(dāng)我們將 VAR 擴(kuò)展到 20 億參數(shù)時,觀察到測試性能與模型參數(shù)或訓(xùn)練計算量之間存在明顯的冪律關(guān)系,皮爾遜相關(guān)系數(shù)接近 -0.998,表明這是一個穩(wěn)健的性能預(yù)測框架。這些擴(kuò)展規(guī)律以及零樣本任務(wù)泛化的可能性,作為大型語言模型 (LLMs) 的標(biāo)志性特征,已在我們的 VAR Transformer 模型中得到了初步驗證。
我們希望我們的發(fā)現(xiàn)以及開源成果能夠促進(jìn)自然語言處理領(lǐng)域的重大成功更順暢地整合到計算機(jī)視覺中,最終推動強(qiáng)大的多模態(tài)智能的發(fā)展。
圖 9:標(biāo)記依賴性可視化。展示了 VQGAN 編碼器最后一個自注意力層中的歸一化注意力分?jǐn)?shù)熱力圖。使用了來自 ImageNet 驗證集的 4 張隨機(jī) 256×256 圖像。
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt
