自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

在圖像生成領(lǐng)域，自回歸可以打敗擴(kuò)散模型嗎？

發(fā)布于 2024-6-21 12:57

瀏覽

0收藏

圖像生成領(lǐng)域，有這么幾種方法，F(xiàn)low-Based、GAN-Based、VAE+Pixel-CNN系列、擴(kuò)散模型自回歸。更早期的是基于自編碼器的圖像生成，各種Auto-Encoder模型，以及影響很大的變分自編碼器d-VAE。后面又有Flow-Based，不過(guò)似乎Flow-Based引起的注意不是那么大。然后是名噪一時(shí)的GAN。2020年之后，擴(kuò)散模型逐漸火熱，一直到現(xiàn)在慢慢擴(kuò)展到視頻生成、3D生成、目標(biāo)檢測(cè)和語(yǔ)義分割等領(lǐng)域。

在圖像生成領(lǐng)域，自回歸可以打敗擴(kuò)散模型嗎？-AI.x社區(qū)

與此同時(shí)，自回歸模型作為語(yǔ)言模型里面的杠把子，也引起了大家的關(guān)注，早期的Pixel-CNN也算是自回歸圖像生成的一種，然后過(guò)渡到自編碼器+自回歸，比如VQ-VAE+Pixel-CNN，然后是CVPR 2021 Oral工作VQ-GAN橫空出世，VQ-VAE結(jié)合自回歸Transformer作為先驗(yàn)替代Pixel_CNN。不過(guò)同期擴(kuò)散模型的發(fā)展似乎更為火熱一些，提出VQ-GAN的團(tuán)隊(duì)也在CVPR 2022提出了日后紅極一時(shí)的Stable Diffusion系列，可以看作是結(jié)合VQ-GAN和擴(kuò)散模型的工作（當(dāng)然自回歸Transformer需要隱藏一下）。

更早之前，OpenAI提出了Diffusion Models Beat GANs on Image Synthesis（https://arxiv.org/abs/2105.05233），指出在圖像生成領(lǐng)域擴(kuò)散模型可以打敗GAN，之后圖像生成領(lǐng)域的流行范式變成了擴(kuò)散模型（這樣說(shuō)不太準(zhǔn)確，其實(shí)更早之前，GAN的研究熱度也已經(jīng)慢慢降下來(lái)了，DDPM和DDIM之后擴(kuò)散模型的研究也已經(jīng)慢慢火熱了）。兩三年時(shí)間，圖像生成的擴(kuò)散模型的研究也逐漸豐滿，結(jié)合LLM的工作、快速采樣生成圖片的工作、結(jié)合ViT的工作（Diffusion Image Transformer，DiT）也慢慢浮出水面，大家的研究熱點(diǎn)也慢慢的走向擴(kuò)散模型在視頻生成領(lǐng)域的應(yīng)用，雖然可以借鑒之前圖像生成的一些經(jīng)驗(yàn)，遇到的挑戰(zhàn)也是更大的。

這個(gè)時(shí)候其實(shí)也是需要思考圖像生成中，自回歸模型的地位，畢竟之前也有很多優(yōu)秀的工作，比如OpenAI的iGPT，Meta的MasktGIT。前面也提到過(guò)字節(jié)也提出了預(yù)測(cè)下一個(gè)level 圖像token的自回歸圖像生成模型 VAR，今天要介紹的也是字節(jié)和港大提出的一個(gè)工作，其名字也是和Diffusion Models Beat GANs on Image Synthesis有異曲同工之妙，Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation。

https://arxiv.org/pdf/2406.06525https://github.com/FoundationVision/LlamaGen

文中提到的自回歸圖像生成模型LlamaGen，模型結(jié)構(gòu)和VQ-GAN是類似的，不過(guò)把學(xué)習(xí)先驗(yàn)的自回歸Transformer換成了參數(shù)量更大的Llama模型，實(shí)現(xiàn)細(xì)節(jié)也借鑒了VQ-GAN和ViT-VQ-GAN的做法，比如Codebook用更大的Vocabulary，在特征向量量化之前對(duì)特征向量進(jìn)行降維和 L2-norm，損失函數(shù)也加入了perceptual loss和PatchGan的對(duì)抗學(xué)習(xí)的損失。

Llama的結(jié)構(gòu)中，基于RMSNorm實(shí)現(xiàn)pre-normalization，SwiGLU激活函數(shù)和旋轉(zhuǎn)位置編碼，也沒(méi)有使用AdaLN。

文中也提到了一個(gè)現(xiàn)象，就是把Codebook的Vocabulary變大之后，想過(guò)會(huì)更好，當(dāng)然embedding的usage會(huì)下降。但是把Vocabulary的embedding向量的維度降低，也會(huì)讓embedding的usage提高。

本文轉(zhuǎn)自AI生成未來(lái)，作者：vasgaowei

原文鏈接:??https://mp.weixin.qq.com/s/7kTQL0GUMzRTYZ-UKXHShw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer?。ū贝?amp;字節(jié)）

angel ? 1.1w瀏覽 ? 0回復(fù)
ChatGPT可以開(kāi)車嗎？分享大型語(yǔ)言模型在自動(dòng)駕駛方面的應(yīng)用案例

51CTO內(nèi)容精選 ? 2980瀏覽 ? 1回復(fù)
在12個(gè)視頻理解任務(wù)中，Mamba先打敗了Transformer

輕薄滴假象 ? 3125瀏覽 ? 0回復(fù)
自回歸扳回一城！阿里等提出MARS：超越PixArt-α、SD-XL等的文本到圖像生成框架

angel ? 2955瀏覽 ? 0回復(fù)
大模型訓(xùn)練完成之后可以直接使用嗎？該怎么使用訓(xùn)練好的大模型？

AI探索時(shí)代 ? 4290瀏覽 ? 0回復(fù)
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 2032瀏覽 ? 0回復(fù)
Scaling laws在視覺(jué)自回歸模型上失效了？谷歌聯(lián)合MIT發(fā)布Fluid：文生圖質(zhì)量刷新紀(jì)錄！

angel ? 2816瀏覽 ? 0回復(fù)
大模型圖像處理技術(shù)之擴(kuò)散模型——Diffusion Model

AI探索時(shí)代 ? 2615瀏覽 ? 0回復(fù)
首次超越擴(kuò)散模型和非自回歸Transformer模型！字節(jié)開(kāi)源RAR：自回歸生成最新SOTA！

angel ? 2114瀏覽 ? 0回復(fù)
自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成！DeepSeek&北大等開(kāi)源JanusFlow

angel ? 2336瀏覽 ? 0回復(fù)
斯坦福提出擴(kuò)散自蒸餾：定制圖像生成，任意上下文下擴(kuò)展到任意實(shí)例！

angel ? 2252瀏覽 ? 0回復(fù)
南大&清華&騰訊聯(lián)合打造IBQ：自回歸生成最強(qiáng)視覺(jué)分詞器

angel ? 2857瀏覽 ? 0回復(fù)
視覺(jué)自回歸建模（VAR）：通過(guò)下一尺度預(yù)測(cè)實(shí)現(xiàn)可擴(kuò)展的圖像生成（NIPS2024best)

AIRoobt ? 3237瀏覽 ? 0回復(fù)
MagicArticulate: 超48K海量數(shù)據(jù)革新3D動(dòng)畫(huà)，自回歸Transformer驅(qū)動(dòng)關(guān)節(jié)智能生成！

angel ? 2126瀏覽 ? 0回復(fù)
自回歸模型迎來(lái)全能選手！FlexVAR一模型通吃圖像生成/修補(bǔ)，推理速度與質(zhì)量自由調(diào)節(jié)

angel ? 1580瀏覽 ? 0回復(fù)
從 GPT-4O 生圖看自回歸模型與擴(kuò)散模型的博弈：誰(shuí)才是圖像生成的未來(lái)？

智駐未來(lái) ? 1277瀏覽 ? 0回復(fù)
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴(kuò)散架構(gòu)？北大&中山等開(kāi)源GPT-ImgEval

angel ? 1446瀏覽 ? 0回復(fù)
能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域？大型語(yǔ)言擴(kuò)散模型（LLDM）詳解

Baihai_IDP ? 1170瀏覽 ? 0回復(fù)
統(tǒng)一圖像編輯框架，達(dá)到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯(lián)合的圖像生成；視頻試穿框架

AI研究前瞻 ? 164瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：單圖創(chuàng)造虛擬世界只需10秒！斯坦福&MIT聯(lián)合發(fā)布WonderWorld：高質(zhì)量交互生成

下一篇： GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話！71%準(zhǔn)確率成新SOTA

社區(qū)精華內(nèi)容

目錄

^{<center id="k6sdh"></center>}

<cite id="k6sdh"><rp id="k6sdh"><form id="k6sdh"></form></rp></cite>