自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="3vvkm"><i id="3vvkm"><video id="3vvkm"></video></i></blockquote>

<sub id="3vvkm"></sub>

<style id="3vvkm"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

13.8倍吞吐提升！浙大上海AI Lab等提出視覺生成新范式，從“下一個(gè)token”到“下一個(gè)鄰域”

作者：量子位 2025-03-31 09:32:00

人工智能新聞

來自浙大、上海AI Lab等機(jī)構(gòu)的研究人員提出了一種全新的視覺生成范式——鄰近自回歸建模（Neighboring Autoregressive Modeling, NAR）。

在圖像/視頻生成任務(wù)中，傳統(tǒng)的“下一個(gè)token預(yù)測(cè)”方法正面臨嚴(yán)重的效率瓶頸。

怎么辦？

來自浙大、上海AI Lab等機(jī)構(gòu)的研究人員提出了一種全新的視覺生成范式——鄰近自回歸建模（Neighboring Autoregressive Modeling, NAR）。與傳統(tǒng)的“下一個(gè)token預(yù)測(cè)”不同，NAR模型采用了“下一個(gè)鄰域預(yù)測(cè)”的機(jī)制，將視覺生成過程視為一種逐步擴(kuò)展的“外繪”過程。

具體來說，NAR模型從初始token開始，按照與初始token的曼哈頓距離從小到大依次生成token。這種生成順序不僅保留了視覺內(nèi)容的空間和時(shí)間局部性，還允許模型在生成過程中并行預(yù)測(cè)多個(gè)相鄰的token。

為了實(shí)現(xiàn)這一點(diǎn)，研究人員引入了維度導(dǎo)向的解碼頭，每個(gè)頭負(fù)責(zé)在空間或時(shí)間的一個(gè)正交維度上預(yù)測(cè)下一個(gè)token。

通過這種方式，NAR模型能夠在每一步中并行生成多個(gè)token，從而大幅減少了生成所需的模型前向計(jì)算步驟。

下面具體來看。

從“下一個(gè)token”到“下一個(gè)鄰域”

在當(dāng)今的AI領(lǐng)域，視覺生成任務(wù)（如圖像和視頻生成）正變得越來越重要。無論是生成逼真的圖像，還是創(chuàng)造連貫的視頻，AI模型的表現(xiàn)都在不斷提升。

然而，現(xiàn)有的視覺生成模型，尤其是基于自回歸（Autoregressive, AR）的模型，面臨著嚴(yán)重的效率瓶頸。

傳統(tǒng)的自回歸模型通常采用“下一個(gè)token預(yù)測(cè)”的范式，即按照光柵順序逐個(gè)生成圖像或視頻的token。這種方法雖然簡(jiǎn)單直觀，但在生成高分辨率圖像或長(zhǎng)視頻時(shí)，模型需要進(jìn)行數(shù)千次甚至數(shù)萬(wàn)次的前向計(jì)算，導(dǎo)致生成速度極其緩慢。

更糟糕的是，現(xiàn)有的加速方法往往以犧牲生成質(zhì)量為代價(jià)。

例如，一些方法嘗試通過并行生成多個(gè)token來提高效率，但由于鄰近圖像token之間的強(qiáng)相關(guān)性以及上下文信息的缺失，這種方法容易導(dǎo)致生成質(zhì)量下降。

因此，如何在保持高質(zhì)量生成的同時(shí)，大幅提升生成效率，成為了視覺生成領(lǐng)域的一個(gè)關(guān)鍵挑戰(zhàn)。

為了解決上述問題，研究人員提出了鄰近自回歸建模（NAR）。

正如一開頭提到的，通過引入維度導(dǎo)向的解碼頭，使每個(gè)頭負(fù)責(zé)在空間或時(shí)間的一個(gè)正交維度上預(yù)測(cè)下一個(gè)token，最終讓NAR模型能夠在每一步中并行生成多個(gè)token，從而大幅減少了生成所需的模型前向計(jì)算步驟。

值得一提的是，維度導(dǎo)向的解碼頭設(shè)計(jì)非常靈活，能夠輕松擴(kuò)展到更高維的視覺內(nèi)容生成。

例如，在視頻生成任務(wù)中，視頻可以被視為三維數(shù)據(jù)（時(shí)間、行、列），NAR模型只需增加一個(gè)時(shí)間維度的解碼頭，即可在時(shí)間、行、列三個(gè)正交維度上并行生成token。

對(duì)于由 t×n×n 個(gè)token表示的視頻，NAR模型僅需 2n+t?2 步即可完成生成過程，遠(yuǎn)遠(yuǎn)少于傳統(tǒng)“下一個(gè)token預(yù)測(cè)”模型所需的 tn² 步。

這一顯著的效率提升使得NAR模型在處理高分辨率視頻生成任務(wù)時(shí)具有極大的優(yōu)勢(shì)。

13.8倍吞吐提升

研究人員在多個(gè)視覺生成任務(wù)上對(duì)NAR模型進(jìn)行了全面評(píng)估，實(shí)驗(yàn)結(jié)果令人振奮：

1、類別圖像生成

在ImageNet 256×256數(shù)據(jù)集上，擁有372M參數(shù)的NAR-L取得了比擁有1.4B參數(shù)的LlamaGen-XXL更低的FID（3.06 vs. 3.09），同時(shí)將生成步數(shù)減少了87.8%并帶來了13.8倍的吞吐提升(195.4 images/s vs. 14.1 images/s)。

與VAR-d16模型相比，NAR-M取得了更低的FID的同時(shí)（3.27 vs. 3.30），能帶來92%的吞吐提升（248.5 images/s vs. 129.3 images/s）。

這說明與現(xiàn)有的自回歸生成方法相比，NAR模型在生成效率和質(zhì)量上均取得了顯著提升。

2、類別視頻生成

在UCF-101數(shù)據(jù)集上，NAR模型相比基于“下一個(gè)詞預(yù)測(cè)”（next-token prediction）的自回歸模型在生成步驟上減少了97.3%。

相比并行解碼方法PAR，NAR在FVD更低的同時(shí)將吞吐提升了8.6倍。

這得益于NAR模型在時(shí)間維度上的并行生成能力，確保了視頻幀之間的連貫性和高質(zhì)量生成。

3、文本到圖像生成

在GenEval基準(zhǔn)測(cè)試中，NAR模型僅使用了0.4%的訓(xùn)練數(shù)據(jù)（6M）便獲得了和Stable Diffusion v1.5相持平的綜合得分。

與參數(shù)量更大且擁有1.4B訓(xùn)練數(shù)據(jù)的Chameleon-7B模型相比，NAR的綜合得分更高（0.43 vs. 0.39）且將吞吐率提高了166倍。

這些實(shí)驗(yàn)結(jié)果不僅證明了NAR模型在生成效率上的巨大優(yōu)勢(shì)，還展示了其在生成質(zhì)量上的卓越表現(xiàn)。

概括而言，NAR模型為視覺生成任務(wù)提供了一種高效且高質(zhì)量的解決方案，有望在未來的AI應(yīng)用中發(fā)揮重要作用。

更多細(xì)節(jié)歡迎查閱原論文。

論文地址：
https://www.arxiv.org/abs/2503.10696
項(xiàng)目主頁(yè)：
https://yuanyu0.github.io/nar/
代碼地址：
https://github.com/ThisisBillhe/NAR

責(zé)任編輯：張燕妮來源：量子位

視覺生產(chǎn)AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="qfzel"></thead>