在圖像生成領(lǐng)域,自回歸可以打敗擴(kuò)散模型嗎?
圖像生成領(lǐng)域,有這么幾種方法,F(xiàn)low-Based、GAN-Based、VAE+Pixel-CNN系列、擴(kuò)散模型自回歸。更早期的是基于自編碼器的圖像生成,各種Auto-Encoder模型,以及影響很大的變分自編碼器d-VAE。后面又有Flow-Based,不過(guò)似乎Flow-Based引起的注意不是那么大。然后是名噪一時(shí)的GAN。2020年之后,擴(kuò)散模型逐漸火熱,一直到現(xiàn)在慢慢擴(kuò)展到視頻生成、3D生成、目標(biāo)檢測(cè)和語(yǔ)義分割等領(lǐng)域。
與此同時(shí),自回歸模型作為語(yǔ)言模型里面的杠把子,也引起了大家的關(guān)注,早期的Pixel-CNN也算是自回歸圖像生成的一種,然后過(guò)渡到自編碼器+自回歸,比如VQ-VAE+Pixel-CNN,然后是CVPR 2021 Oral工作VQ-GAN橫空出世,VQ-VAE結(jié)合自回歸Transformer作為先驗(yàn)替代Pixel_CNN。不過(guò)同期擴(kuò)散模型的發(fā)展似乎更為火熱一些,提出VQ-GAN的團(tuán)隊(duì)也在CVPR 2022提出了日后紅極一時(shí)的Stable Diffusion系列,可以看作是結(jié)合VQ-GAN和擴(kuò)散模型的工作(當(dāng)然自回歸Transformer需要隱藏一下)。
更早之前,OpenAI提出了Diffusion Models Beat GANs on Image Synthesis(https://arxiv.org/abs/2105.05233),指出在圖像生成領(lǐng)域擴(kuò)散模型可以打敗GAN,之后圖像生成領(lǐng)域的流行范式變成了擴(kuò)散模型(這樣說(shuō)不太準(zhǔn)確,其實(shí)更早之前,GAN的研究熱度也已經(jīng)慢慢降下來(lái)了,DDPM和DDIM之后擴(kuò)散模型的研究也已經(jīng)慢慢火熱了)。兩三年時(shí)間,圖像生成的擴(kuò)散模型的研究也逐漸豐滿,結(jié)合LLM的工作、快速采樣生成圖片的工作、結(jié)合ViT的工作(Diffusion Image Transformer,DiT)也慢慢浮出水面,大家的研究熱點(diǎn)也慢慢的走向擴(kuò)散模型在視頻生成領(lǐng)域的應(yīng)用,雖然可以借鑒之前圖像生成的一些經(jīng)驗(yàn),遇到的挑戰(zhàn)也是更大的。
這個(gè)時(shí)候其實(shí)也是需要思考圖像生成中,自回歸模型的地位,畢竟之前也有很多優(yōu)秀的工作,比如OpenAI的iGPT,Meta的MasktGIT。前面也提到過(guò)字節(jié)也提出了預(yù)測(cè)下一個(gè)level 圖像token的自回歸圖像生成模型 VAR,今天要介紹的也是字節(jié)和港大提出的一個(gè)工作,其名字也是和Diffusion Models Beat GANs on Image Synthesis有異曲同工之妙,Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation。
https://arxiv.org/pdf/2406.06525https://github.com/FoundationVision/LlamaGen
文中提到的自回歸圖像生成模型LlamaGen,模型結(jié)構(gòu)和VQ-GAN是類似的,不過(guò)把學(xué)習(xí)先驗(yàn)的自回歸Transformer換成了參數(shù)量更大的Llama模型,實(shí)現(xiàn)細(xì)節(jié)也借鑒了VQ-GAN和ViT-VQ-GAN的做法,比如Codebook用更大的Vocabulary,在特征向量量化之前對(duì)特征向量進(jìn)行降維和 L2-norm,損失函數(shù)也加入了perceptual loss和PatchGan的對(duì)抗學(xué)習(xí)的損失。
Llama的結(jié)構(gòu)中,基于RMSNorm實(shí)現(xiàn)pre-normalization,SwiGLU激活函數(shù)和旋轉(zhuǎn)位置編碼,也沒(méi)有使用AdaLN。
文中也提到了一個(gè)現(xiàn)象,就是把Codebook的Vocabulary變大之后,想過(guò)會(huì)更好,當(dāng)然embedding的usage會(huì)下降。但是把Vocabulary的embedding向量的維度降低,也會(huì)讓embedding的usage提高。
本文轉(zhuǎn)自AI生成未來(lái),作者:vasgaowei
