自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

何愷明ResNet級(jí)神作，分形生成模型計(jì)算效率狂飆4000倍！清華校友一作

作者：新智元 2025-02-26 13:23:08

人工智能新聞

大自然的分形之美，蘊(yùn)藏著宇宙的設(shè)計(jì)規(guī)則。剛剛，何愷明團(tuán)隊(duì)祭出「分形生成模型」，首次實(shí)現(xiàn)高分辨率逐像素建模，讓計(jì)算效率飆升4000倍，開(kāi)辟AI圖像生成新范式。

圖像生成建模全新范式來(lái)了。

你是否曾凝視過(guò)雪花的精致對(duì)稱，或驚嘆于樹(shù)枝的無(wú)窮分支？

這些都是大自然中的「分形」。早在1983年，數(shù)學(xué)家Mandelbrot就揭示了這一現(xiàn)象。

而如今，何愷明團(tuán)隊(duì)將這一概念注入AI，重磅提出「分形生成模型」（fractal generative models），將GenAI模型的模塊化層次提升到全新的高度。

論文鏈接：https://arxiv.org/abs/2502.17437

類似于數(shù)學(xué)中的分形，它采用了「遞歸結(jié)構(gòu)」，遞歸調(diào)用原子生成模塊，構(gòu)建了新型的生成模型，形成了自相似的分形架構(gòu)。

具體來(lái)說(shuō)，每個(gè)生成模塊內(nèi)部包含了更小的生成模塊，而這些小模塊內(nèi)又嵌套著更小的模塊。

這也并非憑空想象，科學(xué)研究早已證明，大腦的神經(jīng)網(wǎng)絡(luò)正是分形的杰作。人類大腦同樣是通過(guò)模塊化遞歸，將微型神經(jīng)網(wǎng)絡(luò)組合成更大的網(wǎng)絡(luò)。

在像素級(jí)圖像生成上，研究團(tuán)隊(duì)驗(yàn)證了新方法的強(qiáng)大——

「分形生成模型」首次將逐像素建模的精細(xì)分辨率的計(jì)算效率，提升了4000倍。

分形生成模不僅是一種新模型，更是生成建模領(lǐng)域的全新范式。

它將AI設(shè)計(jì)與自然界奧秘合二為一，或許通往真正智能道路，就是更深入理解、模擬自然界已有的設(shè)計(jì)模式。

這篇神作一出世，便有網(wǎng)友表示，何愷明的ResNet 2？

還有大佬稱，「分形生成模型代表了AI領(lǐng)域一個(gè)激動(dòng)人心的新前沿。自回歸模型的遞歸特性，就是在學(xué)習(xí)模仿大自然的模式。

這不僅僅是理論，而是一條通往更豐富、更具適應(yīng)性AI系統(tǒng)的道路」。

自然界終極設(shè)計(jì)模式，「分形」無(wú)處不在

計(jì)算機(jī)科學(xué)的核心概念之一是模塊化。

現(xiàn)代生成模型（如擴(kuò)散模型和自回歸模型）是由基本的「生成步驟」組成的，而每個(gè)步驟本身都是由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的。

將復(fù)雜的功能抽象成基本模塊，通過(guò)組合這些模塊來(lái)構(gòu)建更復(fù)雜的系統(tǒng)。這就是模塊化方法。

基于這一理念，研究團(tuán)隊(duì)提出將生成模型本身作為一個(gè)模塊，從而開(kāi)發(fā)更高級(jí)的生成模型。

新方法受到了生物神經(jīng)網(wǎng)絡(luò)和自然數(shù)據(jù)中觀察到的分形特性的啟發(fā)。

與自然分形結(jié)構(gòu)類似，設(shè)計(jì)的關(guān)鍵組件是定義遞歸生成規(guī)則的「生成器」。

例如，生成器可以是一個(gè)自回歸模型，如圖1所示。在這種實(shí)例化中，每個(gè)自回歸模型由本身也是自回歸模型的模塊組成。具體來(lái)說(shuō)，每個(gè)父自回歸模塊生成多個(gè)子自回歸模塊，而每個(gè)子模塊進(jìn)一步生成更多的自回歸模塊。

最終的架構(gòu)在不同層次上展現(xiàn)出類似分形的自相似模式，如圖1所示。

圖1：分形生成模型

在這個(gè)實(shí)例中，使用自回歸模型作為分形生成器。在自回歸模型中，遞歸調(diào)用自回歸模型，構(gòu)建了一個(gè)具有不同層級(jí)之間自相似性的類似分形的框架。

動(dòng)機(jī)和直覺(jué)

從簡(jiǎn)單的遞歸規(guī)則中，分形可以產(chǎn)生復(fù)雜的模式。

這也是分形生成模型的核心思想：利用現(xiàn)有的原子生成模塊，遞歸地構(gòu)建成更高級(jí)的生成模型。

在分形幾何中，這些規(guī)則通常被稱為「生成器」。

通過(guò)不同的生成器，分形方法可以構(gòu)建許多自然模式，如云、山脈、雪花和樹(shù)枝，并且和更復(fù)雜的系統(tǒng)有關(guān)，如生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、非線性動(dòng)力學(xué)和混沌系統(tǒng)。

Mathworld中不同的分形模式

形式上，分形生成器g_i，指定了如何基于上一級(jí)生成器的輸出xi，生成下一級(jí)生成器的新數(shù)據(jù)集。

例如，如圖1所示，生成器可以通過(guò)在每個(gè)灰色框內(nèi)遞歸調(diào)用類似的生成器來(lái)構(gòu)建分形。

由于每個(gè)生成器層級(jí)可以從單個(gè)輸入生成多個(gè)輸出，在僅需要線性遞歸層級(jí)的情況下，分形框架可以實(shí)現(xiàn)生成輸出的指數(shù)級(jí)增長(zhǎng)。

這特別適合用相對(duì)較少的生成器層級(jí)，來(lái)建模高維數(shù)據(jù)。

「分形生成模型」核心架構(gòu)

分而治之

在理論上，生成模型就是建模多個(gè)高維隨機(jī)變量的聯(lián)合分布，但直接用單一的自回歸模型建模，在計(jì)算上是不可行的。

為了解決這個(gè)問(wèn)題，采用了分而治之的策略。

關(guān)鍵模塊化是將自回歸模型抽象為一個(gè)模塊化單元，用于建模概率分布p(x∣c)。

通過(guò)這種模塊化，可以在多個(gè)下一級(jí)自回歸模型的基礎(chǔ)上構(gòu)建一個(gè)更強(qiáng)大的自回歸模型。

假設(shè)每個(gè)自回歸模型中的序列長(zhǎng)度是一個(gè)可管理的常數(shù)k，并且總隨機(jī)變量數(shù)N=k^n，其中n=log?_k(N)表示框架中的遞歸層級(jí)數(shù)。

分形框架的第一層自回歸模型將聯(lián)合分布劃分為k個(gè)子集，每個(gè)子集包含k^{n?1}個(gè)變量。形式上，我們將聯(lián)合分布分解為：

每個(gè)包含k^{n?1}個(gè)變量的條件分布p(?∣??)，由第二層遞歸的自回歸模型建模，以此類推。

通過(guò)遞歸調(diào)用這種分而治之的過(guò)程，分形框架可以使用n層自回歸模型，高效地處理k^n個(gè)變量的聯(lián)合分布。

架構(gòu)實(shí)例

如圖3所示，每個(gè)自回歸模型將上一層生成器的輸出作為輸入，并為下一層生成器生成多個(gè)輸出。

它還接受一張圖像（可以是原始圖像的一部分），將其切分成多個(gè)patch，并將這些patch嵌入以形成Transformer模型的輸入序列。這些patch也會(huì)被傳遞給相應(yīng)的下一層生成器。

然后，Transformer將上一層生成器的輸出作為一個(gè)獨(dú)立的token，放置在圖像token之前。

基于合并的序列，Transformer生成多個(gè)輸出，供下一層生成器使用。

遵循領(lǐng)域內(nèi)模型中的常見(jiàn)做法，將第一個(gè)生成器g_0的序列長(zhǎng)度設(shè)置為256，將原始圖像劃分為16×16的patch。

然后，第二層生成器對(duì)每個(gè)patch進(jìn)行建模，并進(jìn)一步將這些patch細(xì)分為更小的patch，遞歸地繼續(xù)這一過(guò)程。

為了管理計(jì)算成本，逐漸減少較小patch的Transformer寬度和Transformer塊的數(shù)量，因?yàn)閷?duì)較小的patch建模，通常比較大的patch更容易。

在最后一級(jí)，使用非常輕量的Transformer，以自回歸方式建模每個(gè)像素的RGB通道，并對(duì)預(yù)測(cè)應(yīng)用256路交叉熵?fù)p失。

值得注意的是，分形設(shè)計(jì)建模256×256圖像的計(jì)算，成本僅為建模64×64圖像的兩倍。

實(shí)現(xiàn)

采用寬度優(yōu)先的方式，端到端訓(xùn)練原始圖像像素。

在訓(xùn)練過(guò)程中，每個(gè)自回歸模型從上一層的自回歸模型接收輸入，并為下一層自回歸模型生成一組輸出作為輸入。這個(gè)過(guò)程一直持續(xù)到最終層級(jí)，在那里圖像被表示為像素序列。

最后的模型使用每個(gè)像素的輸出，以自回歸的方式預(yù)測(cè)RGB通道。

對(duì)預(yù)測(cè)的logits計(jì)算交叉熵?fù)p失（將RGB值視為從0到255的離散整數(shù)），并通過(guò)所有層級(jí)的自回歸模型，進(jìn)行反向傳播，從而端到端地訓(xùn)練整個(gè)分形框架。

分形模型以逐像素的方式生成圖像，按照深度優(yōu)先的順序遍歷分形架構(gòu)，如圖2所示。

這里，以下文中的MAR的隨機(jī)順生成方案為例。

論文鏈接：https://arxiv.org/abs/2406.11838

第一層：自回歸模型捕捉16×16圖像patch之間的相互依賴關(guān)系，并在每一步根據(jù)已知的圖像patch生成下一層的輸出。

第二層：模型利用這些輸出，對(duì)每個(gè)16×16圖像patch內(nèi)4×4圖像patch之間的相互依賴關(guān)系建模。

類似地，第三層自回歸模型建模每個(gè)4×4圖像patch內(nèi)的像素之間的相互依賴關(guān)系。

最后，從自回歸預(yù)測(cè)的RGB logits中，最頂層的自回歸模型采樣出實(shí)際的RGB值。

與尺度空間自回歸模型的關(guān)系

尺度空間自回歸模型（Scale-space Autoregressive Models），與分形方法之間的一個(gè)主要區(qū)別在于：它們使用單一的自回歸模型，按尺度逐步預(yù)測(cè)token。

相較之下，分形框架采用了分而治之的策略，通過(guò)生成子模塊遞歸地建模原始像素。

另一個(gè)關(guān)鍵區(qū)別在于計(jì)算復(fù)雜度：尺度空間自回歸模型在生成下一個(gè)尺度的token時(shí)，需要對(duì)整個(gè)序列執(zhí)行全注意力操作，這導(dǎo)致計(jì)算復(fù)雜度顯著更高。

舉個(gè)栗子，當(dāng)生成256×256分辨率的圖像時(shí)，在最后一個(gè)尺度下，尺度空間自回歸模型中每個(gè)注意力patch的注意力矩陣大小為(256 × 256)2 = 4,294,967,296。

而新方法在建模像素間依賴關(guān)系時(shí)，對(duì)非常小的圖patch（4×4）進(jìn)行注意力操作，其中每個(gè)圖patch的注意力矩陣僅為(4 × 4)2 = 256，從而使得總的注意力矩陣大小為(64 × 64) × (4 × 4)2 = 1,048,576次操作。

這種縮減使得分形方法在最精細(xì)的分辨率下，比傳統(tǒng)方法計(jì)算效率提高了4000倍，從而首次實(shí)現(xiàn)了像素逐像素建模高分辨率圖像。

與長(zhǎng)序列建模的關(guān)系

大多數(shù)關(guān)于逐像素生成的前期研究，將問(wèn)題表述為長(zhǎng)序列建模，并利用語(yǔ)言建模中的方法來(lái)解決這個(gè)問(wèn)題。

然而，許多數(shù)據(jù)類型的內(nèi)在結(jié)構(gòu)，包括但不限于圖像，超出了單一維度的序列。

與這些方法不同，研究團(tuán)隊(duì)將這類數(shù)據(jù)視為由多個(gè)元素組成的集合（而非序列），并采用分治策略遞歸地對(duì)包含較少元素的子集進(jìn)行建模。

這一方法的動(dòng)機(jī)來(lái)源于對(duì)這些數(shù)據(jù)的觀察——大量數(shù)據(jù)展現(xiàn)出近似分形結(jié)構(gòu)：

圖像由子圖像組成，
分子由子分子組成，
生物神經(jīng)網(wǎng)絡(luò)由子網(wǎng)絡(luò)組成。

因此，旨在處理這類數(shù)據(jù)的生成模型應(yīng)當(dāng)由子模塊組成，而這些子模塊本身也是生成模型。

實(shí)驗(yàn)結(jié)果

研究人員在ImageNet數(shù)據(jù)集上，對(duì)「分形生成模型」進(jìn)行了廣泛的實(shí)驗(yàn)，分別使用64×64和256×256的分辨率。

評(píng)估包括無(wú)條件和類別條件圖像生成，涵蓋了模型的多個(gè)方面，如似然估計(jì)、保真度、多樣性和生成質(zhì)量。

似然估計(jì)

研究人員首先在ImageNet 64×64無(wú)條件生成任務(wù)上展開(kāi)評(píng)估，以檢驗(yàn)其似然估計(jì)的能力。

為了考察分形框架的有效性，他們比較了不同分形層級(jí)數(shù)量下框架的似然估計(jì)性能，如下表2所示。

使用單個(gè)自回歸模型，對(duì)整個(gè)64×64×3=12,288像素序列建模會(huì)產(chǎn)生過(guò)高的計(jì)算成本，讓訓(xùn)練變得不可行。

此外，先對(duì)整個(gè)像素序列然后對(duì)RGB通道建模的兩級(jí)分形框架，需要的計(jì)算量是三級(jí)分形模型的十多倍。

在表5中，進(jìn)一步將分形框架與其他基于似然的模型進(jìn)行了比較。

分形生成模型，同時(shí)使用因果自回歸和掩碼自回歸分形生成器實(shí)現(xiàn)，取得了強(qiáng)大的似然性能。

特別是，它實(shí)現(xiàn)了每維3.14比特的負(fù)對(duì)數(shù)似然，顯著優(yōu)于此前最佳的自回歸模型（每維3.40比特），并且與SOTA模型相比有著強(qiáng)大得競(jìng)爭(zhēng)力。

這些發(fā)現(xiàn)證明了，分形框架在具有挑戰(zhàn)性的逐像素圖像生成任務(wù)上的有效性，突顯了其在建模高維非序列數(shù)據(jù)分布方面的潛力。

生成質(zhì)量

此外，研究人員還使用「四級(jí)分形結(jié)構(gòu)」評(píng)估了FractalMAR在256×256分辨率下，在具有挑戰(zhàn)性的類別條件圖像生成任務(wù)上的表現(xiàn)。

如下表4中，F(xiàn)ractalMAR-H實(shí)現(xiàn)了6.15的FID，以及348.9的IS。

在單個(gè)Nvidia H100 PCIe GPU上以1024的批大小評(píng)估時(shí)，平均每張圖像的生成時(shí)間為1.29秒。

值得注意的是，新方法在IS和精確率上，具備了顯著優(yōu)勢(shì)，表明其能夠生成具有高保真度和精細(xì)細(xì)節(jié)的圖像，這一點(diǎn)在圖4中也得到了展示。

然而，其FID、召回率相對(duì)較弱，與其他方法相比，生成的樣本多樣性較低。

研究人員推測(cè)，這是由于以逐像素方式對(duì)近200,000個(gè)像素進(jìn)行建模的巨大挑戰(zhàn)所致。

此外，研究人員進(jìn)一步觀察到一個(gè)有前景的Scaling趨勢(shì)：

將模型規(guī)模從1.86億參數(shù)增加到8.48億參數(shù)，顯著改善了FID（從11.80降至6.15）和召回率（從0.29提升至0.46）。

他們預(yù)期，進(jìn)一步增加參數(shù)規(guī)模，可能會(huì)進(jìn)一步縮小FID和召回率的差距。

條件逐像素預(yù)測(cè)

進(jìn)一步地，作者通過(guò)圖像編輯的常規(guī)任務(wù)，檢驗(yàn)了分形方法的條件逐像素預(yù)測(cè)性能。

如下圖5中的幾個(gè)示例，包括修復(fù)（inpainting）、外延（outpainting）、基于掩碼外延（uncropping）和類別條件編輯。

結(jié)果顯示，分享方法能夠基于未掩碼區(qū)域，準(zhǔn)確預(yù)測(cè)被掩碼的像素。

此外，它能夠有效地從類別標(biāo)簽中捕捉高層語(yǔ)義信息，并反映在預(yù)測(cè)的像素中。

這一點(diǎn)在類別條件編輯示例中得到了展示，其中模型通過(guò)條件化狗的類別標(biāo)簽，將貓的臉替換成了狗的臉。這些結(jié)果證明了，新方法在給定已知條件下預(yù)測(cè)未知數(shù)據(jù)的有效性。

更廣泛地說(shuō)，通過(guò)逐像素生成數(shù)據(jù)，新方法提供了一個(gè)相比擴(kuò)散模型或在潛空間運(yùn)作的生成模型，更易于人類理解的生成過(guò)程。

這種可解釋的生成過(guò)程不僅讓我們能夠更好地理解數(shù)據(jù)是如何生成的，還提供了一種控制和交互生成的方式。

未來(lái)，這些能力在視覺(jué)內(nèi)容創(chuàng)作、建筑設(shè)計(jì)和藥物發(fā)現(xiàn)等應(yīng)用中，尤為重要。

作者介紹

Tianhong Li（黎天鴻）

黎天鴻目前是MIT CSAIL（麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室）的博士后研究員，師從何愷明教授。

在此之前，他獲得了MIT博士、碩士學(xué)位，導(dǎo)師是Dina Katabi教授。他本科畢業(yè)于清華大學(xué)姚班計(jì)算機(jī)科學(xué)專業(yè)。

黎天鴻的研究興趣主要集中在表示學(xué)習(xí)、生成模型，以及這兩者之間的協(xié)同效應(yīng)。他的目標(biāo)是構(gòu)建能夠理解和建模，超越人類感知的智能視覺(jué)系統(tǒng)。

他也非常喜歡烹飪，這種熱愛(ài)程度幾乎和做研究一樣。

有趣的是，在個(gè)人主頁(yè)里，他列出了一些自己最喜歡的菜譜。

Qinyi Sun

Qinyi Sun目前是麻省理工學(xué)院（MIT）電氣工程與計(jì)算機(jī)科學(xué)系（EECS）本科生，師從何愷明教授。

Lijie Fan

Lijie Fan目前是谷歌DeepMind研究科學(xué)家。

他于2024年獲得了MIT計(jì)算機(jī)科學(xué)專業(yè)博士學(xué)位，于2018年獲得了清華大學(xué)計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

他的個(gè)人研究重點(diǎn)在生成模型和合成數(shù)據(jù)。

何愷明

何愷明目前是麻省理工學(xué)院（MIT）電氣工程與計(jì)算機(jī)科學(xué)系（EECS）的副教授，于2024年2月加入。

他本人的研究重點(diǎn)是，構(gòu)建能夠從復(fù)雜世界中學(xué)習(xí)表示并發(fā)展智能的計(jì)算機(jī)模型，研究的長(zhǎng)期目標(biāo)是用更強(qiáng)大的AI來(lái)增強(qiáng)人類智能。

何愷明最為人熟知的研究是深度殘差網(wǎng)絡(luò)（ResNets）。ResNets的影響力不僅限于計(jì)算機(jī)視覺(jué)領(lǐng)域，它的設(shè)計(jì)思想被廣泛應(yīng)用于現(xiàn)代深度學(xué)習(xí)模型中。

無(wú)論是自然語(yǔ)言處理中的Transformer（如GPT、ChatGPT），還是強(qiáng)化學(xué)習(xí)中的AlphaGo Zero，甚至是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的AlphaFold，殘差連接都成為了這些模型的核心組件之一。

除了ResNets，何愷明在計(jì)算機(jī)視覺(jué)領(lǐng)域的貢獻(xiàn)同樣令人矚目。他提出的Faster R-CNN和Mask R-CNN，極大地推動(dòng)了目標(biāo)檢測(cè)和圖像分割技術(shù)的發(fā)展。

在加入MIT之前，他于2016年-2024年在Facebook AI研究院（FAIR）擔(dān)任研究科學(xué)家，2011年-2016年在微軟亞洲研究院（MSRA）擔(dān)任研究員。

此前，他于2011年在香港中文大學(xué)獲得博士學(xué)位，2007年在清華大學(xué)獲得學(xué)士學(xué)位。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 模型生成

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="4vd2p"></cite>

<s id="4vd2p"></s>