自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="d0x1v"><track id="d0x1v"></track></cite><p id="d0x1v"></p>

<cite id="d0x1v"><track id="d0x1v"></track></cite>

<style id="d0x1v"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

重磅！北大聯(lián)合字節(jié)VAR模型獲NeurIPS 2024最佳論文：改寫圖像生成的未來范式

作者：AI寒武紀(jì) 2024-12-05 10:00:31

人工智能新聞

VAR模型的成功不僅是技術(shù)上的突破，更是一種范式轉(zhuǎn)變。它讓我們看到，大語(yǔ)言模型的成功經(jīng)驗(yàn)可以移植到視覺領(lǐng)域，從而激發(fā)出更強(qiáng)大的多模態(tài)智能。

人工智能頂會(huì)NeurIPS 2024大會(huì)公布了本年度最佳論文獎(jiǎng)，今年大會(huì)共收到15671篇論文，最終接收率只有25.8%，其中兩篇文章獲得最佳論文獎(jiǎng)

一是由北大與字節(jié)跳動(dòng)團(tuán)隊(duì)共同完成的《Visual AutoRegressive Modeling: Scalable Image Generation via Next-Scale Prediction》（VAR）獲得（尷尬的是論文一作田柯宇被字節(jié)起訴，我們這里就不八卦了，網(wǎng)上有很多瓜，還是專注于解讀技術(shù)）。這篇論文提出了一種顛覆性的新型圖像生成框架，不僅首次讓自回歸模型超越擴(kuò)散模型，還開創(chuàng)了“逐尺度預(yù)測(cè)”的全新范式，為視覺生成領(lǐng)域開辟了全新的方向

另一篇是由新加坡國(guó)立大學(xué)、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》論文一作為 Zekun Shi

北大與字節(jié)的獲獎(jiǎng)?wù)撐耐瞥龅哪Ｐ蚔AR是首個(gè)在視覺領(lǐng)域驗(yàn)證“規(guī)模化定律”的模型，個(gè)人認(rèn)為這是中國(guó)本土從0到1的生成式人工智能基礎(chǔ)研究重大突破

paper：https://openreview.net/pdf?id=gojL67CfS8

從“逐像素”到“逐尺度”

VAR模型最核心的創(chuàng)新在于重新定義了圖像生成的過程，將傳統(tǒng)的逐像素生成方式徹底顛覆：

1. 多尺度預(yù)測(cè)的新范式

傳統(tǒng)自回歸方法采用“逐像素”的方式，即從圖像的左上角逐行生成，依賴每個(gè)像素的前置依賴。這種方法不僅效率低，還容易丟失圖像的全局結(jié)構(gòu)感。而VAR模型則通過引入多尺度VQVAE，將圖像分解為從粗到細(xì)的多層次token。生成時(shí)，VAR從最低分辨率的全局token開始，逐層生成更高分辨率的細(xì)節(jié)，從而實(shí)現(xiàn)了對(duì)圖像的“逐尺度預(yù)測(cè)”

實(shí)現(xiàn)細(xì)節(jié)：

? 首先通過多尺度VQVAE將原始圖像編碼為多層分辨率token

? 在每一層分辨率上，自回歸模型并行生成token，并利用上下文信息預(yù)測(cè)更高分辨率的細(xì)節(jié)

這種方式不僅保留了圖像的空間局部性，還避免了傳統(tǒng)方法中將圖像展平成一維序列所引入的空間破壞

2. 效率的極大提升

傳統(tǒng)自回歸模型需要逐像素生成，每個(gè)步驟依賴所有前置像素，時(shí)間復(fù)雜度高達(dá)

?VAR則通過“逐尺度并行”的方式，將復(fù)雜度降低至

?這一優(yōu)化使VAR在推理速度上比擴(kuò)散模型快20倍，同時(shí)接近于GAN的實(shí)時(shí)生成速度

3. 視覺生成的“Scaling Law”

VAR模型首次在視覺領(lǐng)域系統(tǒng)性地驗(yàn)證了‘規(guī)?；伞故玖四Ｐ蛥?shù)和訓(xùn)練計(jì)算量與性能提升之間的強(qiáng)線性關(guān)系。團(tuán)隊(duì)通過實(shí)驗(yàn)發(fā)現(xiàn)，VAR模型的性能隨著參數(shù)規(guī)模的增加呈現(xiàn)出線性提升，與大語(yǔ)言模型的擴(kuò)展性相似。這種特性不僅使VAR在圖像生成中具備更強(qiáng)的性能預(yù)測(cè)能力，還為更高效的資源分配提供了理論依據(jù)

通過實(shí)驗(yàn)對(duì)VAR模型進(jìn)行規(guī)?；丛龃竽Ｐ蛥?shù)和計(jì)算量）時(shí)的學(xué)習(xí)效果進(jìn)行可視化分析，并驗(yàn)證了規(guī)模化定律的有效性

首度擊敗擴(kuò)散模型

在ImageNet 256×256基準(zhǔn)測(cè)試中，VAR的表現(xiàn)堪稱驚艷：

1. 生成質(zhì)量

VAR的FID分?jǐn)?shù)達(dá)到1.73（分?jǐn)?shù)越低越好），顯著超越擴(kuò)散模型（如DiT-XL/2的2.27）和傳統(tǒng)自回歸方法（如VQGAN的15.78）

在IS（生成圖像多樣性）指標(biāo)上，VAR也達(dá)到了350.2的高分

2. 推理速度

VAR比擴(kuò)散模型快20倍，并且在計(jì)算資源消耗上更高效。它僅需10步推理即可生成高質(zhì)量圖像，而擴(kuò)散模型通常需要250步以上

3. 零樣本泛化能力

VAR無需額外訓(xùn)練即可勝任多種任務(wù)，包括圖像修復(fù)（in-painting）、擴(kuò)展（out-painting）以及條件編輯。這一能力得益于VAR對(duì)圖像多尺度結(jié)構(gòu)的深度建模，使其在陌生任務(wù)中也能展現(xiàn)出驚人的靈活性

從圖像到多模態(tài)智能

VAR的潛力不僅局限于圖像生成，其應(yīng)用場(chǎng)景和未來發(fā)展方向同樣令人期待：

1. 文本到圖像生成：團(tuán)隊(duì)計(jì)劃將VAR與大型語(yǔ)言模型結(jié)合，實(shí)現(xiàn)更強(qiáng)大的文本到圖像生成能力，例如通過提示生成高質(zhì)量的插畫或藝術(shù)作品
2. 視頻生成的革命：VAR天然支持視頻生成的擴(kuò)展，通過將“逐尺度預(yù)測(cè)”應(yīng)用于時(shí)間維度，VAR有望解決傳統(tǒng)視頻生成方法在時(shí)間一致性上的難題，為影視制作和虛擬現(xiàn)實(shí)領(lǐng)域注入新活力
3. 產(chǎn)業(yè)應(yīng)用：在游戲開發(fā)、電影特效、教育可視化等領(lǐng)域，VAR模型將為用戶提供更快、更高效的視覺生成解決方案

結(jié)語(yǔ)：

VAR模型的成功不僅是技術(shù)上的突破，更是一種范式轉(zhuǎn)變。它讓我們看到，大語(yǔ)言模型的成功經(jīng)驗(yàn)可以移植到視覺領(lǐng)域，從而激發(fā)出更強(qiáng)大的多模態(tài)智能。隨著更多模型代碼和數(shù)據(jù)的開源，VAR有望成為視覺生成領(lǐng)域的開山之作，推動(dòng)下一代AI技術(shù)的發(fā)展

VAR項(xiàng)目地址：

https://github.com/FoundationVision/VAR

責(zé)任編輯：張燕妮來源： AI寒武紀(jì)

模型技術(shù)AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)