自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="jzch6"><tt id="jzch6"></tt></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

自回歸超越擴散！北大、字節(jié) VAR 范式解鎖視覺生成 Scaling Law

2024-04-17 13:22:55

在自然語言處理中，以 GPT、LLaMa 系列等大語言模型為例的 Autoregressive 自回歸模型已經(jīng)取得了較大的成功，尤其 Scaling Law 縮放定律和 Zero-shot Task Generalizability 零樣本任務泛化能力十分亮眼，初步展示出通往「通用人工智能 AGI」的潛力。

新一代視覺生成范式「VAR: Visual Auto Regressive」視覺自回歸來了！使 GPT 風格的自回歸模型在圖像生成首次超越擴散模型，并觀察到與大語言模型相似的 Scaling Laws 縮放定律、Zero-shot Task Generalization 泛化能力：

論文標題：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

這項名為 VAR 的新工作由北京大學和字節(jié)跳動的研究者提出，登上了 GitHub 和 Paperwithcode 熱度榜單，并得到大量同行關注：

目前體驗網(wǎng)站、論文、代碼、模型已放出：

體驗網(wǎng)站：https://var.vision/
論文鏈接：https://arxiv.org/abs/2404.02905
開源代碼：https://github.com/FoundationVision/VAR
開源模型：https://huggingface.co/FoundationVision/var

背景介紹

在自然語言處理中，以 GPT、LLaMa 系列等大語言模型為例的 Autoregressive 自回歸模型已經(jīng)取得了較大的成功，尤其 Scaling Law 縮放定律和 Zero-shot Task Generalizability 零樣本任務泛化能力十分亮眼，初步展示出通往「通用人工智能 AGI」的潛力。

然而在圖像生成領域中，自回歸模型卻廣泛落后于擴散（Diffusion）模型：近期持續(xù)刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均屬于 Diffusion 家族。此外，對于視覺生成領域是否存在「Scaling Law 縮放定律」仍未知，即測試集的交叉熵損失是否能夠隨著模型或訓練開銷而呈現(xiàn)出可預測的冪律（Power-law）下降趨勢 仍待探索。

GPT形式自回歸模型的強大能力與 Scaling Law，在圖像生成領域，似乎被「鎖」住了：

自回歸模型在生成效果榜單上落后于一眾 Diffusion 模型

劍指「解鎖」自回歸模型的能力和 Scaling Laws，研究團隊從圖像模態(tài)內(nèi)在本質(zhì)出發(fā)，模仿人類處理圖像的邏輯順序，提出一套全新的「視覺自回歸」生成范式：VAR, Visual AutoRegressive Modeling，首次使得GPT風格的自回歸視覺生成，在效果、速度、Scaling能力多方面超越 Diffusion，并迎來了視覺生成領域的 Scaling Laws：

VAR方法核心：模仿人類視覺，重新定義圖像自回歸順序

人類在感知圖像或進行繪畫時，往往先概覽全局、再深入細節(jié)。這種由粗到細、從把握整體到精調(diào)局部的思想非常自然：

人類感知圖片（左）與創(chuàng)作畫作（右）由粗到細的邏輯順序

然而，傳統(tǒng)的圖像自回歸（AR）卻使用一種不符合人類直覺（但適合計算機處理）的順序，即自上而下、逐行掃描的光柵順序，來逐個預測圖像token：

VAR則「以人為本」，模仿人感知或人創(chuàng)造圖像的邏輯順序，使用從整體到細節(jié)的多尺度順序逐漸生成token map：

除了更自然、更符合人類直覺，VAR帶來的另一個顯著優(yōu)勢是大幅提高了生成速度：在自回歸的每一步（每一個尺度內(nèi)部），所有圖像token是一次性并行生成的；跨尺度則是自回歸的。這使得在模型參數(shù)和圖片尺寸相當?shù)那闆r下，VAR能比傳統(tǒng)AR快數(shù)十倍。此外，在實驗中作者也觀察到 VAR 相比 AR 展現(xiàn)出更強的性能和 Scaling 能力。

VAR方法細節(jié)：兩階段訓練

VAR 在第一階段訓練一個多尺度量化自動編碼器（Multi-scale VQVAE），在第二階段訓練一個與 GPT-2 結構一致（結合使用AdaLN）的自回歸 Transformer。

如左圖所示，VQVAE 的訓練前傳細節(jié)如下：

離散編碼：編碼器將圖片轉化為離散 token map R=(r1, r2, ..., rk)，分辨率從小到大
連續(xù)化：r1至rk先通過嵌入層轉換為連續(xù) feature map，再統(tǒng)一插值到rk對應最大分辨率，并求和
連續(xù)解碼：求和后的 feature map 經(jīng)過解碼器得到重建圖片，并通過重建+感知+對抗三個損失混合訓練

如右圖所示，在 VQVAE 訓練結束后，會進行第二階段的自回歸 Transformer 訓練：

自回歸第一步是通過起始 token [S] 預測最初的 1x1 token map
隨后每一步，VAR都基于歷史所有的 token map 去預測下一個更大尺度的 token map
訓練階段，VAR 使用標準的交叉熵損失監(jiān)督這些 token map 的概率預測
測試階段，采樣得到的 token map 會借助 VQVAE decoder 進行連續(xù)化、插值求和、解碼，從而得到最終生成的圖像

作者表示，VAR 的自回歸框架是全新的，而具體技術方面則吸收了 RQ-VAE 的殘差VAE、StyleGAN與DiT的AdaLN、PGGAN的progressive training等一系列經(jīng)典技術的長處。VAR 實際是站在巨人的肩膀上，聚焦于自回歸算法本身的創(chuàng)新。

實驗效果對比

VAR 在 Conditional ImageNet 256x256 和 512x512 上進行實驗：

VAR 大幅提升了 AR 的效果，一轉 AR 落后于 Diffusion 的局面
VAR 僅需 10 步自回歸步驟，生成速度大幅超過AR、Diffusion，甚至逼近 GAN 的高效率
通過 Scale up VAR 直至 2B/3B，VAR 達到了 SOTA 水平，展現(xiàn)出一個全新的、有潛力的生成模型家族。

令人關注的是，通過與 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer（DiT）對比，VAR 展現(xiàn)出了：

更好效果：經(jīng)過 scale up，VAR最終達到 FID=1.80，逼近理論上的 FID 下限 1.78（ImageNet validation set），顯著優(yōu)于 DiT最優(yōu)的 2.10
更快速度：VAR只需不到0.3秒即可生成一張256圖像，速度是DiT的45倍；在512上更是DiT的81倍
更好 Scaling 能力：如左圖所示，DiT 大模型在增長至 3B、7B 后體現(xiàn)出飽和現(xiàn)象，無法更靠近 FID 下限；而 VAR 經(jīng)過縮放到20億參數(shù)，性能不斷提升，最終觸及 FID 下限
更高效的數(shù)據(jù)利用：VAR僅需350 epoch訓練即超過 DiT 1400 epoch 訓練

這些比 DiT 更高效、更高速、更可擴放的證據(jù)為新一代視覺生成的基礎架構路徑帶來了更多可能性。

Scaling Law 實驗

Scaling law 可謂是大語言模型的「皇冠明珠」。相關研究已經(jīng)確定，在 Scale up 自回歸大型語言模型過程中，測試集上的交叉熵損失 L，會隨著模型參數(shù)量 N、訓練token個數(shù) T，以及計算開銷 Cmin 進行可預測的降低，呈現(xiàn)出冪律（Power-law）關系。

Scaling law 不僅使根據(jù)小模型預測大模型性能成為可能，節(jié)省了計算開銷和資源分配，也體現(xiàn)出自回歸 AR 模型強大的學習能力，測試集性能隨著 N、T、Cmin 增長。

通過實驗，研究者觀察到了 VAR 展現(xiàn)出與 LLM 幾乎完全一致的冪律 Scaling Law：研究者訓練了 12 種大小的模型，縮放模型參數(shù)量從1800萬到20億，總計算量橫跨 6 個數(shù)量級，最大總 token 數(shù)達到3050億，并觀察到測試集損失 L 或測試集錯誤率與 N 之間、L 與 Cmin 之間展現(xiàn)出平滑的的冪律關系，并擬合良好：

在 scale-up 模型參數(shù)和計算量過程中，模型的生成能力可見得到逐步提升（例如下方示波器條紋）：

Zero-shot 實驗

得益于自回歸模型能夠使用 Teacher-forcing 機制強行指定部分 token 不變的這一優(yōu)良性質(zhì)，VAR 也展現(xiàn)出一定的零樣本任務泛化能力。在條件生成任務上訓練好的 VAR Transformer，不通過任何微調(diào)即可零樣本泛化到一些生成式任務中，例如圖像補全（inpainting）、圖像外插（outpainting）、圖像編輯（class-condition editing），并取得一定效果：

結論

VAR 為如何定義圖像的自回歸順序提供了一個全新的視角，即由粗到細、由全局輪廓到局部精調(diào)的順序。在符合直覺的同時，這樣的自回歸算法帶來了很好的效果：VAR 顯著提升自回歸模型的速度和生成質(zhì)量，在多方面使得自回歸模型首次超越擴散模型。同時 VAR 展現(xiàn)出類似 LLM 的 Scaling Laws、Zero-shot Generalizability。作者們希望 VAR 的思想、實驗結論、開源，能夠貢獻社區(qū)探索自回歸范式在圖像生成領域的使用，并促進未來基于自回歸的統(tǒng)一多模態(tài)算法的發(fā)展。

責任編輯：龐桂玉來源：字節(jié)跳動技術團隊

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="wk6g3"><p id="wk6g3"></p></sub><ruby id="wk6g3"></ruby>

<sub id="wk6g3"></sub>