圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer?。ū贝?amp;字節(jié))
論文:https://arxiv.org/pdf/2404.02905.pdf
代碼:https://github.com/FoundationVision/VAR
demo:https://var.vision/
視覺(jué)自回歸建模(VAR),這是一種重新定義圖像上的自回歸學(xué)習(xí)的新一代范式。VAR將自回歸學(xué)習(xí)視為粗到細(xì)的“下一尺度預(yù)測(cè)”或“下一分辨率預(yù)測(cè)”,與標(biāo)準(zhǔn)的光柵掃描“下一個(gè)token預(yù)測(cè)”有所不同。這種簡(jiǎn)單直觀的方法使得自回歸(AR)transformers能夠快速學(xué)習(xí)視覺(jué)分布,并且具有良好的泛化能力:VAR首次使得類(lèi)似GPT風(fēng)格的自回歸模型在圖像生成方面超越了diffusion transformers。在ImageNet 256×256基準(zhǔn)測(cè)試中,VAR顯著改善了AR基線,將Fréchet inception distance(FID)從18.65降低到1.80,將inception score(IS)從80.4提高到356.4,同時(shí)推理速度提高了20倍。
經(jīng)驗(yàn)驗(yàn)證還表明,VAR在多個(gè)維度上優(yōu)于Diffusion Transformer(DiT),包括圖像質(zhì)量、推理速度、數(shù)據(jù)效率和可擴(kuò)展性。擴(kuò)大VAR模型規(guī)模表現(xiàn)出明顯的冪律尺度定律,類(lèi)似于LLMs中觀察到的情況,相關(guān)系數(shù)接近-0.998,是堅(jiān)實(shí)的證據(jù)。VAR還展示了在圖像修復(fù)、修補(bǔ)和編輯等下游任務(wù)中的zero-shot泛化能力。這些結(jié)果表明,VAR已經(jīng)初步模擬了LLMs的兩個(gè)重要屬性:scaling laws和zero-shot泛化。已經(jīng)發(fā)布了所有模型和代碼,以鼓勵(lì)探索自回歸/VAR模型用于視覺(jué)生成和統(tǒng)一學(xué)習(xí)。
介紹
GPT系列和其他自回歸(AR)大語(yǔ)言模型(LLMs)的出現(xiàn)標(biāo)志著人工智能領(lǐng)域的新紀(jì)元。這些模型在泛化性和多功能性方面表現(xiàn)出有前途的智能,盡管存在幻覺(jué)等問(wèn)題,但仍被認(rèn)為是邁向通用人工智能(AGI)的堅(jiān)實(shí)一步。這些大型模型的核心是一種自監(jiān)督學(xué)習(xí)策略——預(yù)測(cè)序列中的下一個(gè)token,這是一種簡(jiǎn)單而深刻的方法。對(duì)這些大型AR模型成功的研究強(qiáng)調(diào)了它們的可擴(kuò)展性和泛化能力:前者通過(guò)scaling laws的例證允許從較小的模型預(yù)測(cè)大型模型的性能,從而指導(dǎo)更好地資源分配;而后者,正如zero-shot和few-shot學(xué)習(xí)所證實(shí)的那樣,強(qiáng)調(diào)了無(wú)監(jiān)督訓(xùn)練模型適應(yīng)不同、未見(jiàn)任務(wù)的能力。這些特性顯示了AR模型在從大量未標(biāo)注數(shù)據(jù)中學(xué)習(xí)的潛力,概括了“AGI”的本質(zhì)。
與此同時(shí),計(jì)算機(jī)視覺(jué)領(lǐng)域一直在努力發(fā)展大型的自回歸模型或世界模型,旨在模擬它們令人印象深刻的可擴(kuò)展性和泛化能力。像VQGAN和DALL-E這樣的開(kāi)創(chuàng)性工作以及它們的后繼模型展示了自回歸模型在圖像生成中的潛力。這些模型利用視覺(jué)tokenizer將連續(xù)圖像離散化為2D token網(wǎng)格,然后將其展平為1D序列進(jìn)行自回歸學(xué)習(xí)(如圖2 b所示),類(lèi)似于順序語(yǔ)言建模的過(guò)程(如圖2 a所示)。然而,這些模型的scaling laws仍然未被充分探索,更令人沮喪的是,它們的性能明顯落后于擴(kuò)散模型,如圖3所示。與大語(yǔ)言模型的顯著成就形成鮮明對(duì)比,自回歸模型在計(jì)算機(jī)視覺(jué)領(lǐng)域的潛力似乎有些受限。
自回歸建模需要定義數(shù)據(jù)的順序。本文的工作重新考慮了如何“order”圖像。人類(lèi)通常以分層方式感知或創(chuàng)建圖像,先捕捉全局結(jié)構(gòu),然后是局部細(xì)節(jié)。這種多尺度、由粗到細(xì)的方法自然地為圖像提供了一種“order”。受到廣泛使用的多尺度設(shè)計(jì)的啟發(fā),本文將圖像的自回歸學(xué)習(xí)定義為圖2(c)中的“下一尺度預(yù)測(cè)”,與圖2(b)中的傳統(tǒng)“下一個(gè)token預(yù)測(cè)”有所不同。本文的方法從將圖像編碼成多尺度token 圖開(kāi)始。然后,自回歸過(guò)程從1×1 token 圖開(kāi)始,并逐漸擴(kuò)展分辨率:在每一步,transformer根據(jù)所有先前的token 圖預(yù)測(cè)下一個(gè)更高分辨率的token 圖。這種方法稱(chēng)為Visual AutoRegressive(VAR)建模。
VAR直接利用了類(lèi)似于GPT-2的transformer架構(gòu)進(jìn)行視覺(jué)自回歸學(xué)習(xí)。在ImageNet 256×256基準(zhǔn)測(cè)試中,VAR顯著改善了其自回歸基線,實(shí)現(xiàn)了1.80的Fréchet inception距離(FID)和356.4的inception分?jǐn)?shù)(IS),推理速度提高了20倍。值得注意的是,VAR在FID/IS、數(shù)據(jù)效率、推理速度和可擴(kuò)展性等方面超過(guò)了diffusion transformer(DiT)—— 諸如Stable Diffusion 3.0和SORA等領(lǐng)先的擴(kuò)散系統(tǒng)的基礎(chǔ)。VAR模型還展示了與LLM中觀察到的相似的scaling laws。最后,展示了VAR在諸如圖像修復(fù)、生成和編輯等任務(wù)中的zero-shot泛化能力。總而言之,本文對(duì)社區(qū)的貢獻(xiàn)包括:
- 使用多尺度自回歸范式和下一尺度預(yù)測(cè)的新視覺(jué)生成框架,為計(jì)算機(jī)視覺(jué)中的自回歸算法設(shè)計(jì)提供新的見(jiàn)解。
- 對(duì)VAR模型的scaling laws和zero-shot泛化潛力進(jìn)行了實(shí)證驗(yàn)證,這些潛力最初模擬了大語(yǔ)言模型(LLMs)的吸引人特性。
- 在視覺(jué)自回歸模型性能方面取得突破,使得類(lèi)似于GPT的自回歸方法首次超越了強(qiáng)大的擴(kuò)散模型在圖像合成方面的性能。
- 提供了全面的開(kāi)源代碼套件,包括VQ tokenizer和自回歸模型訓(xùn)練pipelines,以推動(dòng)視覺(jué)自回歸學(xué)習(xí)的進(jìn)展。
相關(guān)工作
大型自回歸語(yǔ)言模型的屬性
Scaling laws。 冪律scaling laws在數(shù)學(xué)上描述了模型參數(shù)、數(shù)據(jù)集大小、計(jì)算資源的增長(zhǎng)與機(jī)器學(xué)習(xí)模型性能改進(jìn)之間的關(guān)系,具有幾個(gè)明顯的優(yōu)點(diǎn)。首先,它們通過(guò)擴(kuò)大模型規(guī)模、數(shù)據(jù)規(guī)模和計(jì)算成本的縮放來(lái)便于推斷出更大模型的性能。這有助于節(jié)省不必要的成本,并提供了分配訓(xùn)練預(yù)算的原則。其次,scaling laws證明了性能的持續(xù)且非飽和增長(zhǎng),證實(shí)了它們?cè)谠鰪?qiáng)模型能力方面的持續(xù)優(yōu)勢(shì)。
受神經(jīng)語(yǔ)言模型中scaling laws原理的啟發(fā),提出了幾種大語(yǔ)言模型[9, 76, 70, 27, 63, 64],體現(xiàn)了增加模型規(guī)模通常會(huì)產(chǎn)生更好性能結(jié)果的原則?;趖ransformer解碼器架構(gòu)的GPT經(jīng)歷了生成式預(yù)訓(xùn)練,并將模型規(guī)模擴(kuò)展到前所未有的1750億參數(shù)。LLama發(fā)布了一系列規(guī)模從70億到700億參數(shù)的預(yù)訓(xùn)練和微調(diào)的大語(yǔ)言模型(LLMs)。將scaling laws應(yīng)用于語(yǔ)言模型的明顯有效性展示了對(duì)視覺(jué)模型進(jìn)行升級(jí)的有前途潛力。
Zero-shot 泛化。 zero-shot泛化指的是模型,特別是大語(yǔ)言模型,能夠執(zhí)行未經(jīng)明確訓(xùn)練的任務(wù)的能力。在視覺(jué)領(lǐng)域,人們對(duì)基礎(chǔ)模型(如CLIP、SAM、Dinov2)的 zero-shot和上下文學(xué)習(xí)能力越來(lái)越感興趣。像Painter和LVM這樣的創(chuàng)新利用視覺(jué)提示設(shè)計(jì)上下文學(xué)習(xí)范式,從而促進(jìn)了對(duì)下游未見(jiàn)任務(wù)的泛化。
視覺(jué)生成
圖像分詞器和自回歸模型。 語(yǔ)言模型依賴(lài)于字節(jié)對(duì)編碼(BPE)或WordPiece算法進(jìn)行文本分詞?;谡Z(yǔ)言模型的視覺(jué)生成模型也需要將2D圖像編碼為1D token 序列。早期的嘗試VQVAE已經(jīng)證明了將圖像表示為離散token的能力,盡管重建質(zhì)量相對(duì)較低。VQGAN通過(guò)引入對(duì)抗損失和感知損失來(lái)提高圖像保真度,并采用僅解碼器的transformer以標(biāo)準(zhǔn)掃描方式生成圖像token。VQVAE-2和RQTransformer也遵循VQGAN的掃描方式,但通過(guò)額外的比例或堆疊代碼進(jìn)一步改進(jìn)了VQVAE。Parti利用ViT-VQGAN的基礎(chǔ)架構(gòu)將transformer模型大小擴(kuò)展到200億參數(shù),取得了在文本到圖像合成方面的顯著成果。
Masked-prediction模型。MaskGIT采用了一個(gè)帶有VQ自編碼器的masked預(yù)測(cè)框架,通過(guò)“貪心”算法生成基于圖像tokens的圖像。MagViT將這種方法應(yīng)用到視頻數(shù)據(jù)中,而MagViT-2通過(guò)引入改進(jìn)的VQVAE改進(jìn)了MaskGIT。MUSE將MaskGIT的架構(gòu)擴(kuò)展到30億參數(shù),并將其與T5語(yǔ)言模型合并,在文本到圖像合成方面設(shè)定了新的基準(zhǔn)。
擴(kuò)散模型 被認(rèn)為是視覺(jué)合成的前沿,因?yàn)樗鼈兙哂谐錾纳少|(zhì)量和多樣性。擴(kuò)散模型的進(jìn)展集中在改進(jìn)的采樣技術(shù)、更快的采樣和架構(gòu)增強(qiáng)。Imagen將T5語(yǔ)言模型用于文本條件,并通過(guò)多個(gè)獨(dú)立的擴(kuò)散模型進(jìn)行級(jí)聯(lián)生成和超分辨率來(lái)構(gòu)建圖像生成系統(tǒng)。潛在擴(kuò)散模型(LDM)在latent space中應(yīng)用擴(kuò)散,提高了訓(xùn)練和推理的效率。DiT用基于transformer的架構(gòu)替換了傳統(tǒng)的U-Net,被用于最近的圖像或視頻合成系統(tǒng),如Stable Diffusion 3.0和SORA。
方法
初步:通過(guò)下一個(gè)token預(yù)測(cè)進(jìn)行自回歸建模
討論。 上述的tokenization和展平使得可以在圖像上進(jìn)行下一個(gè)token自回歸學(xué)習(xí),但它們引入了幾個(gè)問(wèn)題:
空間局部性的破壞(問(wèn)題2)是顯而易見(jiàn)的。關(guān)于問(wèn)題1,本文在附錄中提供了實(shí)證證據(jù),分析了流行的量化自編碼器中的token依賴(lài)關(guān)系,并揭示了顯著的雙向相關(guān)性。關(guān)于問(wèn)題3的計(jì)算復(fù)雜性證明在附錄中有詳細(xì)說(shuō)明。這些理論和實(shí)際限制要求重新思考圖像生成中的自回歸模型。
通過(guò)下一尺度預(yù)測(cè)的視覺(jué)自回歸建模
實(shí)現(xiàn)細(xì)節(jié)
VAR tokenizer。 如前所述,使用基本的VQVAE架構(gòu),采用多尺度量化方案,并增加了個(gè)K額外的卷積層(0.03M額外參數(shù))。對(duì)所有尺度使用共享的codebook,其中V=4096,潛在維度為32。與基準(zhǔn)方法[19]一樣,分詞器也在OpenImages上使用復(fù)合損失(5)進(jìn)行訓(xùn)練。更多細(xì)節(jié)請(qǐng)參閱附錄。
VAR transformer。 本文的主要重點(diǎn)是VAR算法,因此保持了簡(jiǎn)單的模型架構(gòu)設(shè)計(jì)。本文采用了類(lèi)似于GPT-2和VQGAN的標(biāo)準(zhǔn)解碼器transformer的架構(gòu),唯一的修改是用自適應(yīng)歸一化(AdaLN)替代傳統(tǒng)的層歸一化——這個(gè)選擇受到了其在視覺(jué)生成模型中被廣泛采用和被證明有效的啟發(fā)。對(duì)于類(lèi)別條件的合成,使用類(lèi)別embedding作為起始token[s],也作為AdaLN的條件。本文沒(méi)有使用現(xiàn)代大語(yǔ)言模型中的高級(jí)技術(shù),比如旋轉(zhuǎn)位置嵌入(RoPE)、SwiGLU MLP或RMS Norm。本文的模型形狀超參數(shù)遵循一個(gè)簡(jiǎn)單的規(guī)則,即寬度W、頭部數(shù)量h和丟失率dr隨著深度d線性縮放,如下所示:
因此,深度d為的VAR transformer的主要參數(shù)數(shù)量由以下公式給出:
實(shí)驗(yàn)結(jié)果
這一部分首先比較了VAR與其他圖像生成模型家族在性能和效率方面的表現(xiàn)。并進(jìn)行了評(píng)估。然后對(duì)VAR模型的可擴(kuò)展性和泛化能力進(jìn)行了評(píng)估。最后進(jìn)行了一些消融實(shí)驗(yàn)和可視化。
最先進(jìn)的圖像生成
設(shè)置。 在ImageNet 256×256和512×512的條件生成基準(zhǔn)上測(cè)試了深度為16、20、24和30的VAR模型,并將它們與最先進(jìn)的圖像生成模型進(jìn)行了比較。在所有基于VQVAE的AR或VAR模型中,VQGAN和本文的模型使用相同的架構(gòu)(CNN)和訓(xùn)練數(shù)據(jù)(OpenImages)進(jìn)行VQVAE訓(xùn)練,而ViT-VQGAN使用ViT自編碼器,并且它和RQTransformer直接在ImageNet上訓(xùn)練VQVAE。結(jié)果總結(jié)如下表所示。
整體比較。
效率比較。 傳統(tǒng)的自回歸(AR)模型在計(jì)算成本上存在很大問(wèn)題,因?yàn)閳D像token的數(shù)量與圖像分辨率的平方成正比。完整的自回歸生成個(gè)token需要的解碼迭代和的總計(jì)算量。相比之下,VAR只需要的迭代和的總計(jì)算量。表1中報(bào)告的墻鐘時(shí)間也提供了實(shí)證證據(jù),即使具有更多的模型參數(shù),VAR的速度也比VQGAN和ViT-VQGAN快約20倍,達(dá)到了高效GAN模型的速度,后者只需要1步即可生成一幅圖像。
與流行的 diffusion transformer相比。 VAR模型在多個(gè)方面都超過(guò)了最近流行的擴(kuò)散模型Diffusion Transformer(DiT),它是最新的Stable Diffusion 3和SORA的前身:
- 在圖像生成的多樣性和質(zhì)量(FID和IS)方面,具有20億參數(shù)的VAR始終優(yōu)于DiT-XL/2,L-DiT-3B和L-DiT-7B。VAR還保持了可比的精度和召回率。
- 對(duì)于推理速度,DiT-XL/2需要比VAR多45倍的墻鐘時(shí)間,而3B和7B模型則需要更多。
- VAR被認(rèn)為更具數(shù)據(jù)效率,因?yàn)樗恍枰?50個(gè)訓(xùn)練周期,而DiT-XL/2需要1400個(gè)。
- 就可擴(kuò)展性而言,圖3和表1顯示,DiT在超過(guò)6.75億參數(shù)時(shí)只能獲得微小甚至負(fù)面的增益。相比之下,VAR的FID和IS不斷提高,與scaling laws研究相一致。這些結(jié)果表明,與DiT等模型相比,VAR是一個(gè)更高效、可擴(kuò)展的圖像生成模型。
冪律 scaling laws
背景。 先前的研究[30, 22, 27, 1]已經(jīng)確定,擴(kuò)展自回歸(AR)大語(yǔ)言模型(LLMs)會(huì)導(dǎo)致測(cè)試損失的可預(yù)測(cè)下降。這一趨勢(shì)與參數(shù)數(shù)量、訓(xùn)練token 和最佳訓(xùn)練計(jì)算呈現(xiàn)出一種冪律關(guān)系:
這些觀察到的scaling laws不僅驗(yàn)證了LLM的可擴(kuò)展性,而且作為AR建模的預(yù)測(cè)工具,有助于根據(jù)較小的對(duì)應(yīng)物估計(jì)更大的AR模型的性能,從而通過(guò)大型模型性能預(yù)測(cè)節(jié)省資源使用。鑒于由LLM帶來(lái)的這些吸引人的規(guī)模律性質(zhì),它們?cè)谟?jì)算機(jī)視覺(jué)中的復(fù)制因此具有重要意義。
設(shè)置scalingVAR模型。 遵循[30, 22, 27, 1]的協(xié)議,檢查本文的VAR模型是否符合類(lèi)似的scaling laws。在12種不同大小的模型上進(jìn)行了訓(xùn)練,參數(shù)從18M到2B不等,使用包含1.28M張圖片(或根據(jù)VQVAE為870B的圖像token)的ImageNet訓(xùn)練集進(jìn)行每輪訓(xùn)練。對(duì)于不同大小的模型,訓(xùn)練持續(xù)了200到350個(gè)epoch,最大的token數(shù)量達(dá)到3050億。以下將重點(diǎn)放在模型參數(shù)和給定足夠token數(shù)的最優(yōu)訓(xùn)練計(jì)算上的scaling laws。
使用模型參數(shù)N的scaling laws。 本文首先調(diào)查了隨著VAR模型大小增加而變化的測(cè)試損失趨勢(shì)。對(duì)于深度為的VAR transformer,參數(shù)數(shù)量,如公式(8)所示。將從6變化到30,得到了12個(gè)模型,參數(shù)數(shù)量從18.5M到2.0B不等。本文評(píng)估了在ImageNet驗(yàn)證集上的最終測(cè)試交叉熵?fù)p失和token預(yù)測(cè)錯(cuò)誤率,該驗(yàn)證集包含50,000張圖片。本文計(jì)算了最后一個(gè)尺度(在最后一個(gè)下一個(gè)尺度的自回歸步驟中)以及全局平均的和。結(jié)果如圖5所示,觀察到作為函數(shù)的清晰的冪律scaling趨勢(shì),與[30, 22, 27, 1]一致。冪律scaling laws可以表示為:
盡管規(guī)模律主要研究了測(cè)試損失,本文也在token錯(cuò)誤率上觀察到類(lèi)似的冪律趨勢(shì):
這些結(jié)果驗(yàn)證了VAR的強(qiáng)大可擴(kuò)展性,通過(guò)擴(kuò)大VAR transformer的規(guī)??梢猿掷m(xù)提高模型的測(cè)試性能。
以最優(yōu)訓(xùn)練計(jì)算量 為尺度的scaling laws。 接著,本文研究了在增加訓(xùn)練計(jì)算量 時(shí),VAR transformer 的scaling行為。對(duì)于這 12 個(gè)模型中的每一個(gè),追蹤了測(cè)試損失 和token誤差率 隨著訓(xùn)練計(jì)算量 的變化情況,訓(xùn)練計(jì)算量以 PFlops(每秒 浮點(diǎn)運(yùn)算)為單位報(bào)告。結(jié)果繪制在圖 6 中。在這里,繪制了 和 的帕累托前沿,以突出達(dá)到一定損失或誤差值所需的最優(yōu)訓(xùn)練計(jì)算量 。
對(duì)于作為 函數(shù)的 和 Err 的擬合冪律為scaling laws:
這些關(guān)系(13、14)在 的 6 個(gè)數(shù)量級(jí)范圍內(nèi)保持一致,本文的發(fā)現(xiàn)與[30, 22]中的結(jié)果一致:在有足夠數(shù)據(jù)的情況下,更大的 VAR transformer 更具計(jì)算效率,因?yàn)樗鼈兛梢杂酶俚挠?jì)算達(dá)到相同的性能水平。
可視化。 為了更好地了解當(dāng)VAR模型擴(kuò)展時(shí)它們是如何學(xué)習(xí)的,在圖7中比較了來(lái)自4種不同尺寸的VAR模型(深度為6、16、26、30)和3個(gè)不同訓(xùn)練階段(總訓(xùn)練token的20%、60%、100%)生成的一些256×256樣本。為了保持內(nèi)容一致,使用了相同的隨機(jī)種子和teacher-forced初始token。觀察到的視覺(jué)保真度和完整性的改進(jìn)與scaling laws一致,因?yàn)楦蟮膖ransformer被認(rèn)為能夠?qū)W習(xí)更復(fù)雜、更精細(xì)的圖像分布。
zero-shot任務(wù)泛化
圖像修復(fù)和摳圖。 對(duì)VAR-d30進(jìn)行了測(cè)試。對(duì)于圖像修復(fù)和摳圖,使用真實(shí)圖像中mask之外的真實(shí)token強(qiáng)制網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)只生成mask內(nèi)的token。沒(méi)有向網(wǎng)絡(luò)注入類(lèi)別標(biāo)簽信息。結(jié)果見(jiàn)圖8。在不修改網(wǎng)絡(luò)架構(gòu)或調(diào)整參數(shù)的情況下,VAR在這些下游任務(wù)上取得了不錯(cuò)的結(jié)果,證實(shí)了VAR的泛化能力。
類(lèi)別條件圖像編輯。 本文也在類(lèi)別條件圖像編輯任務(wù)上對(duì)VAR進(jìn)行了測(cè)試,這與修復(fù)圖像的情況類(lèi)似。模型被強(qiáng)制只在邊界框內(nèi)生成token,條件是某個(gè)類(lèi)別標(biāo)簽。圖8顯示,模型可以生成與周?chē)h(huán)境融合良好的內(nèi)容,再次驗(yàn)證了VAR的通用性。
消融研究
在這項(xiàng)研究中,旨在驗(yàn)證本文提出的VAR框架的有效性和效率。結(jié)果報(bào)告在表3中。
VAR的有效性和效率。 從由[11]實(shí)施的基準(zhǔn)vanilla AR transformer開(kāi)始,本文將其方法替換為VAR,并保持其他設(shè)置不變以獲得第2行。VAR的FID要好得多(18.65比5.22),而推理掛鐘成本僅為AR模型的0.013倍,這顯示了視覺(jué)AR模型在性能和效率上的飛躍。
各組件分離實(shí)驗(yàn)。 本文進(jìn)一步測(cè)試了VAR中的一些關(guān)鍵組件。通過(guò)將標(biāo)準(zhǔn)層歸一化(LN)替換為自適應(yīng)層歸一化(AdaLN),VAR開(kāi)始產(chǎn)生比基準(zhǔn)更好的FID。通過(guò)使用類(lèi)似于基準(zhǔn)的top-k抽樣,VAR的FID進(jìn)一步提高。通過(guò)使用比例為2.0的無(wú)分類(lèi)器指導(dǎo)(CFG),達(dá)到了3.60的FID,比基準(zhǔn)低了15.05,其推斷速度仍然快45倍。由于觀察到的有效性,將最終的VAR模型配備了AdaLN、top-k抽樣和無(wú)分類(lèi)器指導(dǎo)。最后,將VAR大小擴(kuò)展到2.0B,并實(shí)現(xiàn)了1.80的FID。這比基準(zhǔn)FID高出16.85。
未來(lái)工作
在這項(xiàng)工作中,主要關(guān)注學(xué)習(xí)范式的設(shè)計(jì),并保持VQVAE架構(gòu)和訓(xùn)練與基準(zhǔn)[19]保持不變,以更好地證明VAR框架的有效性。本文期望推進(jìn)VQVAE分詞器作為增強(qiáng)自回歸生成模型的另一種有前途的方式,這與本文的工作無(wú)關(guān)。相信在這些最新工作中通過(guò)先進(jìn)的tokenizer或抽樣技術(shù)迭代VAR可以進(jìn)一步提高VAR的性能或速度。
文本提示生成 是研究的一個(gè)持續(xù)方向??紤]到本文模型在基本上與現(xiàn)代LLMs類(lèi)似,它可以很容易地與它們集成,通過(guò)編碼器-解碼器或上下文方式執(zhí)行文本到圖像的生成。這是作者目前重點(diǎn)探索的方向。
結(jié)論
本文引入了一種名為Visual AutoRegressive modeling(VAR)的新視覺(jué)生成框架,該框架在理論上解決了標(biāo)準(zhǔn)圖像自回歸(AR)模型中存在的一些問(wèn)題,并使基于語(yǔ)言模型的AR模型首次在圖像質(zhì)量、多樣性、數(shù)據(jù)效率和推理速度方面超越了強(qiáng)大的擴(kuò)散模型。將VAR擴(kuò)展到20億參數(shù)后,觀察到測(cè)試性能與模型參數(shù)或訓(xùn)練計(jì)算之間存在明顯的冪律關(guān)系,皮爾遜系數(shù)接近-0.998,表明該框架對(duì)性能預(yù)測(cè)具有強(qiáng)大的魯棒性。這些scaling laws以及zero-shot任務(wù)泛化的可能性,作為L(zhǎng)LM的標(biāo)志,在VAR transformer模型中已初步驗(yàn)證。希望本發(fā)現(xiàn)和開(kāi)放源代碼能夠促進(jìn)自然語(yǔ)言處理領(lǐng)域取得的巨大成功更無(wú)縫地整合到計(jì)算機(jī)視覺(jué)中,最終推動(dòng)強(qiáng)大的多模態(tài)智能的發(fā)展。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Keyu Tian等
