何愷明ResNet級(jí)神作,分形生成模型計(jì)算效率狂飆4000倍!清華校友一作
圖像生成建模全新范式來(lái)了。
你是否曾凝視過(guò)雪花的精致對(duì)稱,或驚嘆于樹(shù)枝的無(wú)窮分支?
這些都是大自然中的「分形」。早在1983年,數(shù)學(xué)家Mandelbrot就揭示了這一現(xiàn)象。
而如今,何愷明團(tuán)隊(duì)將這一概念注入AI,重磅提出「分形生成模型」(fractal generative models),將GenAI模型的模塊化層次提升到全新的高度。
論文鏈接:https://arxiv.org/abs/2502.17437
類似于數(shù)學(xué)中的分形,它采用了「遞歸結(jié)構(gòu)」,遞歸調(diào)用原子生成模塊,構(gòu)建了新型的生成模型,形成了自相似的分形架構(gòu)。
具體來(lái)說(shuō),每個(gè)生成模塊內(nèi)部包含了更小的生成模塊,而這些小模塊內(nèi)又嵌套著更小的模塊。
這也并非憑空想象,科學(xué)研究早已證明,大腦的神經(jīng)網(wǎng)絡(luò)正是分形的杰作。人類大腦同樣是通過(guò)模塊化遞歸,將微型神經(jīng)網(wǎng)絡(luò)組合成更大的網(wǎng)絡(luò)。
在像素級(jí)圖像生成上,研究團(tuán)隊(duì)驗(yàn)證了新方法的強(qiáng)大——
「分形生成模型」首次將逐像素建模的精細(xì)分辨率的計(jì)算效率,提升了4000倍。
分形生成模不僅是一種新模型,更是生成建模領(lǐng)域的全新范式。
它將AI設(shè)計(jì)與自然界奧秘合二為一,或許通往真正智能道路,就是更深入理解、模擬自然界已有的設(shè)計(jì)模式。
這篇神作一出世,便有網(wǎng)友表示,何愷明的ResNet 2?
還有大佬稱,「分形生成模型代表了AI領(lǐng)域一個(gè)激動(dòng)人心的新前沿。自回歸模型的遞歸特性,就是在學(xué)習(xí)模仿大自然的模式。
這不僅僅是理論,而是一條通往更豐富、更具適應(yīng)性AI系統(tǒng)的道路」。
自然界終極設(shè)計(jì)模式,「分形」無(wú)處不在
計(jì)算機(jī)科學(xué)的核心概念之一是模塊化。
現(xiàn)代生成模型(如擴(kuò)散模型和自回歸模型)是由基本的「生成步驟」組成的,而每個(gè)步驟本身都是由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的。
將復(fù)雜的功能抽象成基本模塊,通過(guò)組合這些模塊來(lái)構(gòu)建更復(fù)雜的系統(tǒng)。這就是模塊化方法。
基于這一理念,研究團(tuán)隊(duì)提出將生成模型本身作為一個(gè)模塊,從而開(kāi)發(fā)更高級(jí)的生成模型。
新方法受到了生物神經(jīng)網(wǎng)絡(luò)和自然數(shù)據(jù)中觀察到的分形特性的啟發(fā)。
與自然分形結(jié)構(gòu)類似,設(shè)計(jì)的關(guān)鍵組件是定義遞歸生成規(guī)則的「生成器」。
例如,生成器可以是一個(gè)自回歸模型,如圖1所示。在這種實(shí)例化中,每個(gè)自回歸模型由本身也是自回歸模型的模塊組成。具體來(lái)說(shuō),每個(gè)父自回歸模塊生成多個(gè)子自回歸模塊,而每個(gè)子模塊進(jìn)一步生成更多的自回歸模塊。
最終的架構(gòu)在不同層次上展現(xiàn)出類似分形的自相似模式,如圖1所示。
圖1:分形生成模型
在這個(gè)實(shí)例中,使用自回歸模型作為分形生成器。在自回歸模型中,遞歸調(diào)用自回歸模型,構(gòu)建了一個(gè)具有不同層級(jí)之間自相似性的類似分形的框架。
動(dòng)機(jī)和直覺(jué)
從簡(jiǎn)單的遞歸規(guī)則中,分形可以產(chǎn)生復(fù)雜的模式。
這也是分形生成模型的核心思想:利用現(xiàn)有的原子生成模塊,遞歸地構(gòu)建成更高級(jí)的生成模型。
在分形幾何中,這些規(guī)則通常被稱為「生成器」。
通過(guò)不同的生成器,分形方法可以構(gòu)建許多自然模式,如云、山脈、雪花和樹(shù)枝,并且和更復(fù)雜的系統(tǒng)有關(guān),如生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、非線性動(dòng)力學(xué)和混沌系統(tǒng)。
Mathworld中不同的分形模式
形式上,分形生成器g_i,指定了如何基于上一級(jí)生成器的輸出xi,生成下一級(jí)生成器的新數(shù)據(jù)集。
例如,如圖1所示,生成器可以通過(guò)在每個(gè)灰色框內(nèi)遞歸調(diào)用類似的生成器來(lái)構(gòu)建分形。
由于每個(gè)生成器層級(jí)可以從單個(gè)輸入生成多個(gè)輸出,在僅需要線性遞歸層級(jí)的情況下,分形框架可以實(shí)現(xiàn)生成輸出的指數(shù)級(jí)增長(zhǎng)。
這特別適合用相對(duì)較少的生成器層級(jí),來(lái)建模高維數(shù)據(jù)。
「分形生成模型」核心架構(gòu)
分而治之
在理論上,生成模型就是建模多個(gè)高維隨機(jī)變量的聯(lián)合分布,但直接用單一的自回歸模型建模,在計(jì)算上是不可行的。
為了解決這個(gè)問(wèn)題,采用了分而治之的策略。
關(guān)鍵模塊化是將自回歸模型抽象為一個(gè)模塊化單元,用于建模概率分布p(x∣c)。
通過(guò)這種模塊化,可以在多個(gè)下一級(jí)自回歸模型的基礎(chǔ)上構(gòu)建一個(gè)更強(qiáng)大的自回歸模型。
假設(shè)每個(gè)自回歸模型中的序列長(zhǎng)度是一個(gè)可管理的常數(shù)k,并且總隨機(jī)變量數(shù)N=k^n,其中n=log?_k(N)表示框架中的遞歸層級(jí)數(shù)。
分形框架的第一層自回歸模型將聯(lián)合分布劃分為k個(gè)子集,每個(gè)子集包含k^{n?1}個(gè)變量。形式上,我們將聯(lián)合分布分解為:
每個(gè)包含k^{n?1}個(gè)變量的條件分布p(?∣??),由第二層遞歸的自回歸模型建模,以此類推。
通過(guò)遞歸調(diào)用這種分而治之的過(guò)程,分形框架可以使用n層自回歸模型,高效地處理k^n個(gè)變量的聯(lián)合分布。
架構(gòu)實(shí)例
如圖3所示,每個(gè)自回歸模型將上一層生成器的輸出作為輸入,并為下一層生成器生成多個(gè)輸出。
它還接受一張圖像(可以是原始圖像的一部分),將其切分成多個(gè)patch,并將這些patch嵌入以形成Transformer模型的輸入序列。這些patch也會(huì)被傳遞給相應(yīng)的下一層生成器。
然后,Transformer將上一層生成器的輸出作為一個(gè)獨(dú)立的token,放置在圖像token之前。
基于合并的序列,Transformer生成多個(gè)輸出,供下一層生成器使用。
遵循領(lǐng)域內(nèi)模型中的常見(jiàn)做法,將第一個(gè)生成器g_0的序列長(zhǎng)度設(shè)置為256,將原始圖像劃分為16×16的patch。
然后,第二層生成器對(duì)每個(gè)patch進(jìn)行建模,并進(jìn)一步將這些patch細(xì)分為更小的patch,遞歸地繼續(xù)這一過(guò)程。
為了管理計(jì)算成本,逐漸減少較小patch的Transformer寬度和Transformer塊的數(shù)量,因?yàn)閷?duì)較小的patch建模,通常比較大的patch更容易。
在最后一級(jí),使用非常輕量的Transformer,以自回歸方式建模每個(gè)像素的RGB通道,并對(duì)預(yù)測(cè)應(yīng)用256路交叉熵?fù)p失。
值得注意的是,分形設(shè)計(jì)建模256×256圖像的計(jì)算,成本僅為建模64×64圖像的兩倍。
實(shí)現(xiàn)
采用寬度優(yōu)先的方式,端到端訓(xùn)練原始圖像像素。
在訓(xùn)練過(guò)程中,每個(gè)自回歸模型從上一層的自回歸模型接收輸入,并為下一層自回歸模型生成一組輸出作為輸入。這個(gè)過(guò)程一直持續(xù)到最終層級(jí),在那里圖像被表示為像素序列。
最后的模型使用每個(gè)像素的輸出,以自回歸的方式預(yù)測(cè)RGB通道。
對(duì)預(yù)測(cè)的logits計(jì)算交叉熵?fù)p失(將RGB值視為從0到255的離散整數(shù)),并通過(guò)所有層級(jí)的自回歸模型,進(jìn)行反向傳播,從而端到端地訓(xùn)練整個(gè)分形框架。
分形模型以逐像素的方式生成圖像,按照深度優(yōu)先的順序遍歷分形架構(gòu),如圖2所示。
這里,以下文中的MAR的隨機(jī)順生成方案為例。
論文鏈接:https://arxiv.org/abs/2406.11838
第一層:自回歸模型捕捉16×16圖像patch之間的相互依賴關(guān)系,并在每一步根據(jù)已知的圖像patch生成下一層的輸出。
第二層:模型利用這些輸出,對(duì)每個(gè)16×16圖像patch內(nèi)4×4圖像patch之間的相互依賴關(guān)系建模。
類似地,第三層自回歸模型建模每個(gè)4×4圖像patch內(nèi)的像素之間的相互依賴關(guān)系。
最后,從自回歸預(yù)測(cè)的RGB logits中,最頂層的自回歸模型采樣出實(shí)際的RGB值。
與尺度空間自回歸模型的關(guān)系
尺度空間自回歸模型(Scale-space Autoregressive Models),與分形方法之間的一個(gè)主要區(qū)別在于:它們使用單一的自回歸模型,按尺度逐步預(yù)測(cè)token。
相較之下,分形框架采用了分而治之的策略,通過(guò)生成子模塊遞歸地建模原始像素。
另一個(gè)關(guān)鍵區(qū)別在于計(jì)算復(fù)雜度:尺度空間自回歸模型在生成下一個(gè)尺度的token時(shí),需要對(duì)整個(gè)序列執(zhí)行全注意力操作,這導(dǎo)致計(jì)算復(fù)雜度顯著更高。
舉個(gè)栗子,當(dāng)生成256×256分辨率的圖像時(shí),在最后一個(gè)尺度下,尺度空間自回歸模型中每個(gè)注意力patch的注意力矩陣大小為(256 × 256)2 = 4,294,967,296。
而新方法在建模像素間依賴關(guān)系時(shí),對(duì)非常小的圖patch(4×4)進(jìn)行注意力操作,其中每個(gè)圖patch的注意力矩陣僅為(4 × 4)2 = 256,從而使得總的注意力矩陣大小為(64 × 64) × (4 × 4)2 = 1,048,576次操作。
這種縮減使得分形方法在最精細(xì)的分辨率下,比傳統(tǒng)方法計(jì)算效率提高了4000倍,從而首次實(shí)現(xiàn)了像素逐像素建模高分辨率圖像。
與長(zhǎng)序列建模的關(guān)系
大多數(shù)關(guān)于逐像素生成的前期研究,將問(wèn)題表述為長(zhǎng)序列建模,并利用語(yǔ)言建模中的方法來(lái)解決這個(gè)問(wèn)題。
然而,許多數(shù)據(jù)類型的內(nèi)在結(jié)構(gòu),包括但不限于圖像,超出了單一維度的序列。
與這些方法不同,研究團(tuán)隊(duì)將這類數(shù)據(jù)視為由多個(gè)元素組成的集合(而非序列),并采用分治策略遞歸地對(duì)包含較少元素的子集進(jìn)行建模。
這一方法的動(dòng)機(jī)來(lái)源于對(duì)這些數(shù)據(jù)的觀察——大量數(shù)據(jù)展現(xiàn)出近似分形結(jié)構(gòu):
圖像由子圖像組成,
分子由子分子組成,
生物神經(jīng)網(wǎng)絡(luò)由子網(wǎng)絡(luò)組成。
因此,旨在處理這類數(shù)據(jù)的生成模型應(yīng)當(dāng)由子模塊組成,而這些子模塊本身也是生成模型。
實(shí)驗(yàn)結(jié)果
研究人員在ImageNet數(shù)據(jù)集上,對(duì)「分形生成模型」進(jìn)行了廣泛的實(shí)驗(yàn),分別使用64×64和256×256的分辨率。
評(píng)估包括無(wú)條件和類別條件圖像生成,涵蓋了模型的多個(gè)方面,如似然估計(jì)、保真度、多樣性和生成質(zhì)量。
似然估計(jì)
研究人員首先在ImageNet 64×64無(wú)條件生成任務(wù)上展開(kāi)評(píng)估,以檢驗(yàn)其似然估計(jì)的能力。
為了考察分形框架的有效性,他們比較了不同分形層級(jí)數(shù)量下框架的似然估計(jì)性能,如下表2所示。
使用單個(gè)自回歸模型,對(duì)整個(gè)64×64×3=12,288像素序列建模會(huì)產(chǎn)生過(guò)高的計(jì)算成本,讓訓(xùn)練變得不可行。
此外,先對(duì)整個(gè)像素序列然后對(duì)RGB通道建模的兩級(jí)分形框架,需要的計(jì)算量是三級(jí)分形模型的十多倍。
在表5中,進(jìn)一步將分形框架與其他基于似然的模型進(jìn)行了比較。
分形生成模型,同時(shí)使用因果自回歸和掩碼自回歸分形生成器實(shí)現(xiàn),取得了強(qiáng)大的似然性能。
特別是,它實(shí)現(xiàn)了每維3.14比特的負(fù)對(duì)數(shù)似然,顯著優(yōu)于此前最佳的自回歸模型(每維3.40比特),并且與SOTA模型相比有著強(qiáng)大得競(jìng)爭(zhēng)力。
這些發(fā)現(xiàn)證明了,分形框架在具有挑戰(zhàn)性的逐像素圖像生成任務(wù)上的有效性,突顯了其在建模高維非序列數(shù)據(jù)分布方面的潛力。
生成質(zhì)量
此外,研究人員還使用「四級(jí)分形結(jié)構(gòu)」評(píng)估了FractalMAR在256×256分辨率下,在具有挑戰(zhàn)性的類別條件圖像生成任務(wù)上的表現(xiàn)。
如下表4中,F(xiàn)ractalMAR-H實(shí)現(xiàn)了6.15的FID,以及348.9的IS。
在單個(gè)Nvidia H100 PCIe GPU上以1024的批大小評(píng)估時(shí),平均每張圖像的生成時(shí)間為1.29秒。
值得注意的是,新方法在IS和精確率上,具備了顯著優(yōu)勢(shì),表明其能夠生成具有高保真度和精細(xì)細(xì)節(jié)的圖像,這一點(diǎn)在圖4中也得到了展示。
然而,其FID、召回率相對(duì)較弱,與其他方法相比,生成的樣本多樣性較低。
研究人員推測(cè),這是由于以逐像素方式對(duì)近200,000個(gè)像素進(jìn)行建模的巨大挑戰(zhàn)所致。
此外,研究人員進(jìn)一步觀察到一個(gè)有前景的Scaling趨勢(shì):
將模型規(guī)模從1.86億參數(shù)增加到8.48億參數(shù),顯著改善了FID(從11.80降至6.15)和召回率(從0.29提升至0.46)。
他們預(yù)期,進(jìn)一步增加參數(shù)規(guī)模,可能會(huì)進(jìn)一步縮小FID和召回率的差距。
條件逐像素預(yù)測(cè)
進(jìn)一步地,作者通過(guò)圖像編輯的常規(guī)任務(wù),檢驗(yàn)了分形方法的條件逐像素預(yù)測(cè)性能。
如下圖5中的幾個(gè)示例,包括修復(fù)(inpainting)、外延(outpainting)、基于掩碼外延(uncropping)和類別條件編輯。
結(jié)果顯示,分享方法能夠基于未掩碼區(qū)域,準(zhǔn)確預(yù)測(cè)被掩碼的像素。
此外,它能夠有效地從類別標(biāo)簽中捕捉高層語(yǔ)義信息,并反映在預(yù)測(cè)的像素中。
這一點(diǎn)在類別條件編輯示例中得到了展示,其中模型通過(guò)條件化狗的類別標(biāo)簽,將貓的臉替換成了狗的臉。這些結(jié)果證明了,新方法在給定已知條件下預(yù)測(cè)未知數(shù)據(jù)的有效性。
更廣泛地說(shuō),通過(guò)逐像素生成數(shù)據(jù),新方法提供了一個(gè)相比擴(kuò)散模型或在潛空間運(yùn)作的生成模型,更易于人類理解的生成過(guò)程。
這種可解釋的生成過(guò)程不僅讓我們能夠更好地理解數(shù)據(jù)是如何生成的,還提供了一種控制和交互生成的方式。
未來(lái),這些能力在視覺(jué)內(nèi)容創(chuàng)作、建筑設(shè)計(jì)和藥物發(fā)現(xiàn)等應(yīng)用中,尤為重要。
作者介紹
Tianhong Li(黎天鴻)
黎天鴻目前是MIT CSAIL(麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室)的博士后研究員,師從何愷明教授。
在此之前,他獲得了MIT博士、碩士學(xué)位,導(dǎo)師是Dina Katabi教授。他本科畢業(yè)于清華大學(xué)姚班計(jì)算機(jī)科學(xué)專業(yè)。
黎天鴻的研究興趣主要集中在表示學(xué)習(xí)、生成模型,以及這兩者之間的協(xié)同效應(yīng)。他的目標(biāo)是構(gòu)建能夠理解和建模,超越人類感知的智能視覺(jué)系統(tǒng)。
他也非常喜歡烹飪,這種熱愛(ài)程度幾乎和做研究一樣。
有趣的是,在個(gè)人主頁(yè)里,他列出了一些自己最喜歡的菜譜。
Qinyi Sun
Qinyi Sun目前是麻省理工學(xué)院(MIT)電氣工程與計(jì)算機(jī)科學(xué)系(EECS)本科生,師從何愷明教授。
Lijie Fan
Lijie Fan目前是谷歌DeepMind研究科學(xué)家。
他于2024年獲得了MIT計(jì)算機(jī)科學(xué)專業(yè)博士學(xué)位,于2018年獲得了清華大學(xué)計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
他的個(gè)人研究重點(diǎn)在生成模型和合成數(shù)據(jù)。
何愷明
何愷明目前是麻省理工學(xué)院(MIT)電氣工程與計(jì)算機(jī)科學(xué)系(EECS)的副教授,于2024年2月加入。
他本人的研究重點(diǎn)是,構(gòu)建能夠從復(fù)雜世界中學(xué)習(xí)表示并發(fā)展智能的計(jì)算機(jī)模型,研究的長(zhǎng)期目標(biāo)是用更強(qiáng)大的AI來(lái)增強(qiáng)人類智能。
何愷明最為人熟知的研究是深度殘差網(wǎng)絡(luò)(ResNets)。ResNets的影響力不僅限于計(jì)算機(jī)視覺(jué)領(lǐng)域,它的設(shè)計(jì)思想被廣泛應(yīng)用于現(xiàn)代深度學(xué)習(xí)模型中。
無(wú)論是自然語(yǔ)言處理中的Transformer(如GPT、ChatGPT),還是強(qiáng)化學(xué)習(xí)中的AlphaGo Zero,甚至是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的AlphaFold,殘差連接都成為了這些模型的核心組件之一。
除了ResNets,何愷明在計(jì)算機(jī)視覺(jué)領(lǐng)域的貢獻(xiàn)同樣令人矚目。他提出的Faster R-CNN和Mask R-CNN,極大地推動(dòng)了目標(biāo)檢測(cè)和圖像分割技術(shù)的發(fā)展。
在加入MIT之前,他于2016年-2024年在Facebook AI研究院(FAIR)擔(dān)任研究科學(xué)家,2011年-2016年在微軟亞洲研究院(MSRA)擔(dān)任研究員。
此前,他于2011年在香港中文大學(xué)獲得博士學(xué)位,2007年在清華大學(xué)獲得學(xué)士學(xué)位。