自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Idea撞車何愷明「分形生成模型」!速度領(lǐng)先10倍,性能更強(qiáng)

人工智能 新聞
澳大利亞國(guó)立大學(xué)團(tuán)隊(duì)提出了ARINAR模型,與何凱明團(tuán)隊(duì)此前提出的分形生成模型類似,采用雙層自回歸結(jié)構(gòu)逐特征生成圖像,顯著提升了生成質(zhì)量和速度,性能超越了FractalMAR模型,論文和代碼已公開。

前不久,大神何愷明剛剛放出新作「分形生成模型」,遞歸調(diào)用原子生成模塊,構(gòu)建了新型的生成模型,形成了自相似的分形架構(gòu),將GenAI模型的模塊化層次提升到全新的高度。

圖片

論文地址:https://arxiv.org/pdf/2502.17437v1

GitHub 地址:https://github.com/LTH14/fractalgen

最近,澳大利亞國(guó)立大學(xué)的研究人員提出了一個(gè)全新的圖像生成模型ARINAR,在思想上與分形生成模型不謀而合,但是在性能和速度上都顯著提升,base模型的FID從11.8提升到2.75,生成時(shí)間從2分鐘降低到12秒!ARINAR不僅超越了之前的擴(kuò)散模型,與目前表現(xiàn)最好的自回歸模型MAR相比,ARINAR生成質(zhì)量相當(dāng),速度是MAR的5倍。

圖片

論文鏈接:https://arxiv.org/abs/2503.02883

GitHub地址:https://github.com/Qinyu-Allen-Zhao/Arinar

ARINAR全稱是雙層自回歸逐特征生成模型(Bi-Level Autoregressive Feature-by-Feature Generative Models),核心思想在于:通過逐特征生成的方式生成tokens,從而提高整體圖像生成的質(zhì)量和速度。

設(shè)計(jì)動(dòng)機(jī)

現(xiàn)有的自回歸(AR)圖像生成模型通常采用逐token生成的方式。具體來說,模型會(huì)首先預(yù)測(cè)第一個(gè)token的分布,根據(jù)這個(gè)分布采樣出第一個(gè)token,然后基于這個(gè)token生成下一個(gè)token的分布,再采樣出第二個(gè)token,依此類推,直到生成完整的圖像。

這里的token可以理解為圖像的某種表示形式,通常是使用自編碼器(如VAE)實(shí)現(xiàn)圖像與一系列tokens之間的轉(zhuǎn)換。每個(gè)token可以看作圖像的一個(gè)局部區(qū)域或特征的編碼。

研究人員指出,逐token生成的核心挑戰(zhàn)在于如何建模高維token的復(fù)雜分布。每個(gè)token通常是一個(gè)高維向量(例如16維)。當(dāng)模型需要預(yù)測(cè)下一個(gè)token的分布時(shí),如何準(zhǔn)確地表達(dá)和預(yù)測(cè)該token的分布一直是一個(gè)難題。

現(xiàn)有的方法主要有兩種思路:

  1. 離散token生成:一些方法使用特殊的自編碼器(如VQVAE)將圖像轉(zhuǎn)換為離散的token,然后使用多項(xiàng)式分布來建模token的分布。這種方法的問題在于,離散化會(huì)引入量化誤差,導(dǎo)致生成圖像的質(zhì)量下降。
  2. 連續(xù)token生成:另一些模型嘗試直接建模連續(xù)token的分布。

例如,GIVT模型使用高斯混合模型(GMM)來預(yù)測(cè)token的分布,并從GMM中采樣生成token。然而,實(shí)踐中GMM難以準(zhǔn)確擬合復(fù)雜的高維token分布;

另一種方法是MAR模型,使用輕量級(jí)的擴(kuò)散模型來生成token。雖然擴(kuò)散模型能夠更好地?cái)M合分布,但擴(kuò)散過程通常需要上百次迭代,導(dǎo)致整個(gè)模型生成速度較慢。

這些方法的局限性在于,要么過于簡(jiǎn)單,無法很好地?cái)M合復(fù)雜的token分布,要么生成速度較慢。

因此,研究人員提出了一個(gè)新的思路:逐特征生成。

具體來說,模型每次不再一次性生成整個(gè)token,而是逐特征生成。每個(gè)token由多個(gè)特征組成(例如16維),模型會(huì)先生成第一個(gè)特征的分布并采樣出第一個(gè)特征,然后基于這個(gè)特征生成第二個(gè)特征的分布,再采樣出第二個(gè)特征,依此類推,直到生成整個(gè)token。

方法設(shè)計(jì)

ARINAR模型的設(shè)計(jì)分為兩層自回歸結(jié)構(gòu):

  • 外層自回歸層:這一層負(fù)責(zé)生成token的條件向量。具體來說,它基于已經(jīng)生成的token,預(yù)測(cè)下一個(gè)token的條件向量。這里外層可以是任意之前的自回歸模型,例如使用MAR。
  • 內(nèi)層自回歸層:這一層基于外層生成的條件向量,逐特征生成下一個(gè)token。具體來說,內(nèi)層會(huì)先生成第一個(gè)特征,然后基于這個(gè)特征生成第二個(gè)特征,依此類推,直到生成整個(gè)token。

假如一個(gè)圖像被轉(zhuǎn)換成256個(gè)16維的tokens,那么外層自回歸模型就會(huì)運(yùn)行256次,每次預(yù)測(cè)下一個(gè)token的條件向量。每次外層自回歸模型生成條件向量后,內(nèi)層自回歸模型就會(huì)運(yùn)行16次來逐特征生成相應(yīng)的token。

圖片

這種雙層結(jié)構(gòu)的好處是,內(nèi)層自回歸只需專注于單個(gè)特征的生成,而不需要一次性建模整個(gè)token的分布。因此,內(nèi)層可以使用簡(jiǎn)單的高斯混合模型(GMM)來建模單個(gè)特征的分布,從而大大簡(jiǎn)化了預(yù)測(cè)token分布的難度。

與FractalMAR的關(guān)系

在論文中,研究人員提到了一個(gè)與之類似的工作FractalMAR,也是一個(gè)多層自回歸模型,但它是在像素空間中逐像素生成圖像的。

也就是說,F(xiàn)ractalMAR的每一層都負(fù)責(zé)生成圖像的不同部分,從大塊區(qū)域到單個(gè)像素。例如使用一個(gè)四層自回歸模型:

  • 最外層生成整個(gè)圖像的大塊區(qū)域;
  • 第二層生成每個(gè)大塊區(qū)域中的小塊區(qū)域;
  • 第三層生成每個(gè)小塊區(qū)域中的像素;
  • 最內(nèi)層生成每個(gè)像素的RGB值。

相比之下,ARINAR是在特征空間中逐特征生成圖像的。ARINAR使用了自編碼器將圖像轉(zhuǎn)換為連續(xù)的特征表示,然后在這些特征上依賴GMM進(jìn)行逐特征生成。

研究人員強(qiáng)調(diào),雖然ARINAR和FractalMAR的設(shè)計(jì)思路相似,但ARINAR在性能和速度上都優(yōu)于FractalMAR。ARINAR可以看作是FractalMAR在潛在空間中的版本。

實(shí)驗(yàn)結(jié)果

研究人員在ImageNet 256×256圖像生成任務(wù)上對(duì)ARINAR進(jìn)行了測(cè)試,使用了213M參數(shù)的模型(ARINAR-B)。實(shí)驗(yàn)結(jié)果顯示:

圖片

生成質(zhì)量上,ARINAR-B在沒有使用CFG(classifier-free guidance)的情況下,F(xiàn)ID(Frechet Inception Distance)得分為9.17,使用CFG后,F(xiàn)ID得分提升到2.75,這個(gè)結(jié)果與當(dāng)前最先進(jìn)的MAR-B模型(FID=2.31)相當(dāng),且顯著超過了FractalMAR。

圖片

生成速度上,ARINAR-B生成一張圖像的平均時(shí)間僅需11.57秒,而MAR-B需要65.69秒,F(xiàn)ractalMAR-B則需要137.62秒。ARINAR在保持高質(zhì)量生成的同時(shí),顯著提升了生成速度。

總結(jié)與不足

ARINAR通過逐特征生成的方式,簡(jiǎn)化了自回歸模型的復(fù)雜度,同時(shí)提高了生成速度和生成質(zhì)量。

與FractalMAR相比,ARINAR在潛在空間中生成圖像,避免了像素空間的復(fù)雜性,從而在性能和速度上都取得了更好的結(jié)果。

這篇論文展示了自回歸模型在圖像生成任務(wù)中的巨大潛力,尤其是在生成速度和生成質(zhì)量之間的平衡上,ARINAR提供了一個(gè)非常有前景的解決方案。

然而,由于計(jì)算資源的限制(使用4張A100 GPU),研究人員在這篇論文中只訓(xùn)練了一個(gè)基礎(chǔ)模型(ARINAR-B),并且訓(xùn)練時(shí)間長(zhǎng)達(dá)8天。這確實(shí)限制了模型的進(jìn)一步擴(kuò)展和更大規(guī)模實(shí)驗(yàn)的進(jìn)行。

論文中也提到,研究人員正在尋求更多的計(jì)算資源,以便進(jìn)行更多的實(shí)驗(yàn)和訓(xùn)練更大的模型。這意味著未來可能會(huì)有更多的研究成果發(fā)布,進(jìn)一步驗(yàn)證ARINAR的潛力和可擴(kuò)展性。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-26 13:23:08

2025-02-26 11:14:10

2023-07-31 11:20:18

AI研究

2022-05-31 10:34:04

研究訓(xùn)練模型

2023-12-08 14:14:00

模型訓(xùn)練

2023-11-02 12:37:25

訓(xùn)練數(shù)據(jù)

2024-10-21 11:15:00

2024-03-25 10:15:58

AI數(shù)據(jù)

2024-06-24 08:10:00

2022-04-01 15:10:28

機(jī)器視覺人工智能目標(biāo)檢測(cè)

2025-02-21 09:40:00

模型訓(xùn)練數(shù)據(jù)

2024-10-06 12:32:42

2022-06-25 21:15:14

機(jī)器人李飛飛

2021-09-30 11:27:58

模型人工智能神經(jīng)網(wǎng)絡(luò)

2021-11-26 18:45:22

AI 數(shù)據(jù)人工智能

2021-11-15 09:51:58

模型人工智能論文

2023-03-10 13:05:17

AI就職

2024-09-02 14:37:50

2025-03-17 08:20:00

神經(jīng)網(wǎng)絡(luò)AI模型

2025-04-17 08:45:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)