自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

何愷明ResNet級(jí)神作,分形生成模型計(jì)算效率狂飆4000倍!清華校友一作

人工智能 新聞
大自然的分形之美,蘊(yùn)藏著宇宙的設(shè)計(jì)規(guī)則。剛剛,何愷明團(tuán)隊(duì)祭出「分形生成模型」,首次實(shí)現(xiàn)高分辨率逐像素建模,讓計(jì)算效率飆升4000倍,開(kāi)辟AI圖像生成新范式。

圖像生成建模全新范式來(lái)了。

你是否曾凝視過(guò)雪花的精致對(duì)稱,或驚嘆于樹(shù)枝的無(wú)窮分支?

這些都是大自然中的「分形」。早在1983年,數(shù)學(xué)家Mandelbrot就揭示了這一現(xiàn)象。

而如今,何愷明團(tuán)隊(duì)將這一概念注入AI,重磅提出「分形生成模型」(fractal generative models),將GenAI模型的模塊化層次提升到全新的高度。

圖片

論文鏈接:https://arxiv.org/abs/2502.17437

類似于數(shù)學(xué)中的分形,它采用了「遞歸結(jié)構(gòu)」,遞歸調(diào)用原子生成模塊,構(gòu)建了新型的生成模型,形成了自相似的分形架構(gòu)。

具體來(lái)說(shuō),每個(gè)生成模塊內(nèi)部包含了更小的生成模塊,而這些小模塊內(nèi)又嵌套著更小的模塊。

這也并非憑空想象,科學(xué)研究早已證明,大腦的神經(jīng)網(wǎng)絡(luò)正是分形的杰作。人類大腦同樣是通過(guò)模塊化遞歸,將微型神經(jīng)網(wǎng)絡(luò)組合成更大的網(wǎng)絡(luò)。

在像素級(jí)圖像生成上,研究團(tuán)隊(duì)驗(yàn)證了新方法的強(qiáng)大——

「分形生成模型」首次將逐像素建模的精細(xì)分辨率的計(jì)算效率,提升了4000倍。

圖片

分形生成模不僅是一種新模型,更是生成建模領(lǐng)域的全新范式。

它將AI設(shè)計(jì)與自然界奧秘合二為一,或許通往真正智能道路,就是更深入理解、模擬自然界已有的設(shè)計(jì)模式。

這篇神作一出世,便有網(wǎng)友表示,何愷明的ResNet 2?

圖片

還有大佬稱,「分形生成模型代表了AI領(lǐng)域一個(gè)激動(dòng)人心的新前沿。自回歸模型的遞歸特性,就是在學(xué)習(xí)模仿大自然的模式。

這不僅僅是理論,而是一條通往更豐富、更具適應(yīng)性AI系統(tǒng)的道路」。

圖片

自然界終極設(shè)計(jì)模式,「分形」無(wú)處不在

計(jì)算機(jī)科學(xué)的核心概念之一是模塊化。

現(xiàn)代生成模型(如擴(kuò)散模型和自回歸模型)是由基本的「生成步驟」組成的,而每個(gè)步驟本身都是由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的。

將復(fù)雜的功能抽象成基本模塊,通過(guò)組合這些模塊來(lái)構(gòu)建更復(fù)雜的系統(tǒng)。這就是模塊化方法。

基于這一理念,研究團(tuán)隊(duì)提出將生成模型本身作為一個(gè)模塊,從而開(kāi)發(fā)更高級(jí)的生成模型。

新方法受到了生物神經(jīng)網(wǎng)絡(luò)和自然數(shù)據(jù)中觀察到的分形特性的啟發(fā)。

與自然分形結(jié)構(gòu)類似,設(shè)計(jì)的關(guān)鍵組件是定義遞歸生成規(guī)則的「生成器」。

例如,生成器可以是一個(gè)自回歸模型,如圖1所示。在這種實(shí)例化中,每個(gè)自回歸模型由本身也是自回歸模型的模塊組成。具體來(lái)說(shuō),每個(gè)父自回歸模塊生成多個(gè)子自回歸模塊,而每個(gè)子模塊進(jìn)一步生成更多的自回歸模塊。

最終的架構(gòu)在不同層次上展現(xiàn)出類似分形的自相似模式,如圖1所示。

圖片

圖1:分形生成模型

在這個(gè)實(shí)例中,使用自回歸模型作為分形生成器。在自回歸模型中,遞歸調(diào)用自回歸模型,構(gòu)建了一個(gè)具有不同層級(jí)之間自相似性的類似分形的框架。

動(dòng)機(jī)和直覺(jué)

從簡(jiǎn)單的遞歸規(guī)則中,分形可以產(chǎn)生復(fù)雜的模式。

這也是分形生成模型的核心思想:利用現(xiàn)有的原子生成模塊,遞歸地構(gòu)建成更高級(jí)的生成模型。

在分形幾何中,這些規(guī)則通常被稱為「生成器」。

通過(guò)不同的生成器,分形方法可以構(gòu)建許多自然模式,如云、山脈、雪花和樹(shù)枝,并且和更復(fù)雜的系統(tǒng)有關(guān),如生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、非線性動(dòng)力學(xué)和混沌系統(tǒng)。

圖片

Mathworld中不同的分形模式

形式上,分形生成器g_i,指定了如何基于上一級(jí)生成器的輸出xi,生成下一級(jí)生成器的新數(shù)據(jù)集圖片。

例如,如圖1所示,生成器可以通過(guò)在每個(gè)灰色框內(nèi)遞歸調(diào)用類似的生成器來(lái)構(gòu)建分形。

由于每個(gè)生成器層級(jí)可以從單個(gè)輸入生成多個(gè)輸出,在僅需要線性遞歸層級(jí)的情況下,分形框架可以實(shí)現(xiàn)生成輸出的指數(shù)級(jí)增長(zhǎng)。

這特別適合用相對(duì)較少的生成器層級(jí),來(lái)建模高維數(shù)據(jù)。

「分形生成模型」核心架構(gòu)

分而治之

在理論上,生成模型就是建模多個(gè)高維隨機(jī)變量的聯(lián)合分布,但直接用單一的自回歸模型建模,在計(jì)算上是不可行的。

為了解決這個(gè)問(wèn)題,采用了分而治之的策略。

關(guān)鍵模塊化是將自回歸模型抽象為一個(gè)模塊化單元,用于建模概率分布p(x∣c)。

通過(guò)這種模塊化,可以在多個(gè)下一級(jí)自回歸模型的基礎(chǔ)上構(gòu)建一個(gè)更強(qiáng)大的自回歸模型。

假設(shè)每個(gè)自回歸模型中的序列長(zhǎng)度是一個(gè)可管理的常數(shù)k,并且總隨機(jī)變量數(shù)N=k^n,其中n=log?_k(N)表示框架中的遞歸層級(jí)數(shù)。

分形框架的第一層自回歸模型將聯(lián)合分布劃分為k個(gè)子集,每個(gè)子集包含k^{n?1}個(gè)變量。形式上,我們將聯(lián)合分布分解為:

圖片

每個(gè)包含k^{n?1}個(gè)變量的條件分布p(?∣??),由第二層遞歸的自回歸模型建模,以此類推。

通過(guò)遞歸調(diào)用這種分而治之的過(guò)程,分形框架可以使用n層自回歸模型,高效地處理k^n個(gè)變量的聯(lián)合分布。

架構(gòu)實(shí)例

如圖3所示,每個(gè)自回歸模型將上一層生成器的輸出作為輸入,并為下一層生成器生成多個(gè)輸出。

它還接受一張圖像(可以是原始圖像的一部分),將其切分成多個(gè)patch,并將這些patch嵌入以形成Transformer模型的輸入序列。這些patch也會(huì)被傳遞給相應(yīng)的下一層生成器。

然后,Transformer將上一層生成器的輸出作為一個(gè)獨(dú)立的token,放置在圖像token之前。

基于合并的序列,Transformer生成多個(gè)輸出,供下一層生成器使用。

圖片

遵循領(lǐng)域內(nèi)模型中的常見(jiàn)做法,將第一個(gè)生成器g_0的序列長(zhǎng)度設(shè)置為256,將原始圖像劃分為16×16的patch。

然后,第二層生成器對(duì)每個(gè)patch進(jìn)行建模,并進(jìn)一步將這些patch細(xì)分為更小的patch,遞歸地繼續(xù)這一過(guò)程。

為了管理計(jì)算成本,逐漸減少較小patch的Transformer寬度和Transformer塊的數(shù)量,因?yàn)閷?duì)較小的patch建模,通常比較大的patch更容易。

在最后一級(jí),使用非常輕量的Transformer,以自回歸方式建模每個(gè)像素的RGB通道,并對(duì)預(yù)測(cè)應(yīng)用256路交叉熵?fù)p失。

值得注意的是,分形設(shè)計(jì)建模256×256圖像的計(jì)算,成本僅為建模64×64圖像的兩倍。

實(shí)現(xiàn)

采用寬度優(yōu)先的方式,端到端訓(xùn)練原始圖像像素。

在訓(xùn)練過(guò)程中,每個(gè)自回歸模型從上一層的自回歸模型接收輸入,并為下一層自回歸模型生成一組輸出作為輸入。這個(gè)過(guò)程一直持續(xù)到最終層級(jí),在那里圖像被表示為像素序列。

最后的模型使用每個(gè)像素的輸出,以自回歸的方式預(yù)測(cè)RGB通道。

對(duì)預(yù)測(cè)的logits計(jì)算交叉熵?fù)p失(將RGB值視為從0到255的離散整數(shù)),并通過(guò)所有層級(jí)的自回歸模型,進(jìn)行反向傳播,從而端到端地訓(xùn)練整個(gè)分形框架。

分形模型以逐像素的方式生成圖像,按照深度優(yōu)先的順序遍歷分形架構(gòu),如圖2所示。

圖片

這里,以下文中的MAR的隨機(jī)順生成方案為例。

圖片

論文鏈接:https://arxiv.org/abs/2406.11838

第一層:自回歸模型捕捉16×16圖像patch之間的相互依賴關(guān)系,并在每一步根據(jù)已知的圖像patch生成下一層的輸出。

第二層:模型利用這些輸出,對(duì)每個(gè)16×16圖像patch內(nèi)4×4圖像patch之間的相互依賴關(guān)系建模。

類似地,第三層自回歸模型建模每個(gè)4×4圖像patch內(nèi)的像素之間的相互依賴關(guān)系。

最后,從自回歸預(yù)測(cè)的RGB logits中,最頂層的自回歸模型采樣出實(shí)際的RGB值。

與尺度空間自回歸模型的關(guān)系

尺度空間自回歸模型(Scale-space Autoregressive Models),與分形方法之間的一個(gè)主要區(qū)別在于:它們使用單一的自回歸模型,按尺度逐步預(yù)測(cè)token。

相較之下,分形框架采用了分而治之的策略,通過(guò)生成子模塊遞歸地建模原始像素。

另一個(gè)關(guān)鍵區(qū)別在于計(jì)算復(fù)雜度:尺度空間自回歸模型在生成下一個(gè)尺度的token時(shí),需要對(duì)整個(gè)序列執(zhí)行全注意力操作,這導(dǎo)致計(jì)算復(fù)雜度顯著更高。

舉個(gè)栗子,當(dāng)生成256×256分辨率的圖像時(shí),在最后一個(gè)尺度下,尺度空間自回歸模型中每個(gè)注意力patch的注意力矩陣大小為(256 × 256)2 = 4,294,967,296。

圖片

而新方法在建模像素間依賴關(guān)系時(shí),對(duì)非常小的圖patch(4×4)進(jìn)行注意力操作,其中每個(gè)圖patch的注意力矩陣僅為(4 × 4)2 = 256,從而使得總的注意力矩陣大小為(64 × 64) × (4 × 4)2 = 1,048,576次操作。

這種縮減使得分形方法在最精細(xì)的分辨率下,比傳統(tǒng)方法計(jì)算效率提高了4000倍,從而首次實(shí)現(xiàn)了像素逐像素建模高分辨率圖像。

與長(zhǎng)序列建模的關(guān)系

大多數(shù)關(guān)于逐像素生成的前期研究,將問(wèn)題表述為長(zhǎng)序列建模,并利用語(yǔ)言建模中的方法來(lái)解決這個(gè)問(wèn)題。

然而,許多數(shù)據(jù)類型的內(nèi)在結(jié)構(gòu),包括但不限于圖像,超出了單一維度的序列。

與這些方法不同,研究團(tuán)隊(duì)將這類數(shù)據(jù)視為由多個(gè)元素組成的集合(而非序列),并采用分治策略遞歸地對(duì)包含較少元素的子集進(jìn)行建模。

這一方法的動(dòng)機(jī)來(lái)源于對(duì)這些數(shù)據(jù)的觀察——大量數(shù)據(jù)展現(xiàn)出近似分形結(jié)構(gòu):

圖像由子圖像組成,

分子由子分子組成,

生物神經(jīng)網(wǎng)絡(luò)由子網(wǎng)絡(luò)組成。

因此,旨在處理這類數(shù)據(jù)的生成模型應(yīng)當(dāng)由子模塊組成,而這些子模塊本身也是生成模型。

實(shí)驗(yàn)結(jié)果

研究人員在ImageNet數(shù)據(jù)集上,對(duì)「分形生成模型」進(jìn)行了廣泛的實(shí)驗(yàn),分別使用64×64和256×256的分辨率。

評(píng)估包括無(wú)條件和類別條件圖像生成,涵蓋了模型的多個(gè)方面,如似然估計(jì)、保真度、多樣性和生成質(zhì)量。

似然估計(jì)

研究人員首先在ImageNet 64×64無(wú)條件生成任務(wù)上展開(kāi)評(píng)估,以檢驗(yàn)其似然估計(jì)的能力。

為了考察分形框架的有效性,他們比較了不同分形層級(jí)數(shù)量下框架的似然估計(jì)性能,如下表2所示。

使用單個(gè)自回歸模型,對(duì)整個(gè)64×64×3=12,288像素序列建模會(huì)產(chǎn)生過(guò)高的計(jì)算成本,讓訓(xùn)練變得不可行。

此外,先對(duì)整個(gè)像素序列然后對(duì)RGB通道建模的兩級(jí)分形框架,需要的計(jì)算量是三級(jí)分形模型的十多倍。

圖片

在表5中,進(jìn)一步將分形框架與其他基于似然的模型進(jìn)行了比較。

分形生成模型,同時(shí)使用因果自回歸和掩碼自回歸分形生成器實(shí)現(xiàn),取得了強(qiáng)大的似然性能。

特別是,它實(shí)現(xiàn)了每維3.14比特的負(fù)對(duì)數(shù)似然,顯著優(yōu)于此前最佳的自回歸模型(每維3.40比特),并且與SOTA模型相比有著強(qiáng)大得競(jìng)爭(zhēng)力。

這些發(fā)現(xiàn)證明了,分形框架在具有挑戰(zhàn)性的逐像素圖像生成任務(wù)上的有效性,突顯了其在建模高維非序列數(shù)據(jù)分布方面的潛力。

圖片

生成質(zhì)量

此外,研究人員還使用「四級(jí)分形結(jié)構(gòu)」評(píng)估了FractalMAR在256×256分辨率下,在具有挑戰(zhàn)性的類別條件圖像生成任務(wù)上的表現(xiàn)。

如下表4中,F(xiàn)ractalMAR-H實(shí)現(xiàn)了6.15的FID,以及348.9的IS。

在單個(gè)Nvidia H100 PCIe GPU上以1024的批大小評(píng)估時(shí),平均每張圖像的生成時(shí)間為1.29秒。

圖片

值得注意的是,新方法在IS和精確率上,具備了顯著優(yōu)勢(shì),表明其能夠生成具有高保真度和精細(xì)細(xì)節(jié)的圖像,這一點(diǎn)在圖4中也得到了展示。

然而,其FID、召回率相對(duì)較弱,與其他方法相比,生成的樣本多樣性較低。

研究人員推測(cè),這是由于以逐像素方式對(duì)近200,000個(gè)像素進(jìn)行建模的巨大挑戰(zhàn)所致。

圖片

此外,研究人員進(jìn)一步觀察到一個(gè)有前景的Scaling趨勢(shì):

將模型規(guī)模從1.86億參數(shù)增加到8.48億參數(shù),顯著改善了FID(從11.80降至6.15)和召回率(從0.29提升至0.46)。

他們預(yù)期,進(jìn)一步增加參數(shù)規(guī)模,可能會(huì)進(jìn)一步縮小FID和召回率的差距。

條件逐像素預(yù)測(cè)

進(jìn)一步地,作者通過(guò)圖像編輯的常規(guī)任務(wù),檢驗(yàn)了分形方法的條件逐像素預(yù)測(cè)性能。

如下圖5中的幾個(gè)示例,包括修復(fù)(inpainting)、外延(outpainting)、基于掩碼外延(uncropping)和類別條件編輯。

結(jié)果顯示,分享方法能夠基于未掩碼區(qū)域,準(zhǔn)確預(yù)測(cè)被掩碼的像素。

此外,它能夠有效地從類別標(biāo)簽中捕捉高層語(yǔ)義信息,并反映在預(yù)測(cè)的像素中。

這一點(diǎn)在類別條件編輯示例中得到了展示,其中模型通過(guò)條件化狗的類別標(biāo)簽,將貓的臉替換成了狗的臉。這些結(jié)果證明了,新方法在給定已知條件下預(yù)測(cè)未知數(shù)據(jù)的有效性。

圖片

更廣泛地說(shuō),通過(guò)逐像素生成數(shù)據(jù),新方法提供了一個(gè)相比擴(kuò)散模型或在潛空間運(yùn)作的生成模型,更易于人類理解的生成過(guò)程。

這種可解釋的生成過(guò)程不僅讓我們能夠更好地理解數(shù)據(jù)是如何生成的,還提供了一種控制和交互生成的方式。

未來(lái),這些能力在視覺(jué)內(nèi)容創(chuàng)作、建筑設(shè)計(jì)和藥物發(fā)現(xiàn)等應(yīng)用中,尤為重要。

作者介紹

Tianhong Li(黎天鴻)

圖片

黎天鴻目前是MIT CSAIL(麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室)的博士后研究員,師從何愷明教授。

在此之前,他獲得了MIT博士、碩士學(xué)位,導(dǎo)師是Dina Katabi教授。他本科畢業(yè)于清華大學(xué)姚班計(jì)算機(jī)科學(xué)專業(yè)。

黎天鴻的研究興趣主要集中在表示學(xué)習(xí)、生成模型,以及這兩者之間的協(xié)同效應(yīng)。他的目標(biāo)是構(gòu)建能夠理解和建模,超越人類感知的智能視覺(jué)系統(tǒng)。

他也非常喜歡烹飪,這種熱愛(ài)程度幾乎和做研究一樣。

有趣的是,在個(gè)人主頁(yè)里,他列出了一些自己最喜歡的菜譜。

圖片

Qinyi Sun

圖片

Qinyi Sun目前是麻省理工學(xué)院(MIT)電氣工程與計(jì)算機(jī)科學(xué)系(EECS)本科生,師從何愷明教授。

Lijie Fan

圖片

Lijie Fan目前是谷歌DeepMind研究科學(xué)家。

他于2024年獲得了MIT計(jì)算機(jī)科學(xué)專業(yè)博士學(xué)位,于2018年獲得了清華大學(xué)計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

他的個(gè)人研究重點(diǎn)在生成模型和合成數(shù)據(jù)。

何愷明

圖片

何愷明目前是麻省理工學(xué)院(MIT)電氣工程與計(jì)算機(jī)科學(xué)系(EECS)的副教授,于2024年2月加入。

他本人的研究重點(diǎn)是,構(gòu)建能夠從復(fù)雜世界中學(xué)習(xí)表示并發(fā)展智能的計(jì)算機(jī)模型,研究的長(zhǎng)期目標(biāo)是用更強(qiáng)大的AI來(lái)增強(qiáng)人類智能。

何愷明最為人熟知的研究是深度殘差網(wǎng)絡(luò)(ResNets)。ResNets的影響力不僅限于計(jì)算機(jī)視覺(jué)領(lǐng)域,它的設(shè)計(jì)思想被廣泛應(yīng)用于現(xiàn)代深度學(xué)習(xí)模型中。

無(wú)論是自然語(yǔ)言處理中的Transformer(如GPT、ChatGPT),還是強(qiáng)化學(xué)習(xí)中的AlphaGo Zero,甚至是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的AlphaFold,殘差連接都成為了這些模型的核心組件之一。

除了ResNets,何愷明在計(jì)算機(jī)視覺(jué)領(lǐng)域的貢獻(xiàn)同樣令人矚目。他提出的Faster R-CNN和Mask R-CNN,極大地推動(dòng)了目標(biāo)檢測(cè)和圖像分割技術(shù)的發(fā)展。

在加入MIT之前,他于2016年-2024年在Facebook AI研究院(FAIR)擔(dān)任研究科學(xué)家,2011年-2016年在微軟亞洲研究院(MSRA)擔(dān)任研究員。

此前,他于2011年在香港中文大學(xué)獲得博士學(xué)位,2007年在清華大學(xué)獲得學(xué)士學(xué)位。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-26 11:14:10

2025-03-24 09:08:00

2025-03-13 09:39:05

AImox生成

2023-04-13 13:24:38

OpenAI模型圖片

2023-10-04 19:52:33

模型論文

2021-11-15 09:51:58

模型人工智能論文

2023-09-18 11:25:00

2023-10-16 12:31:17

人工智能數(shù)據(jù)

2013-01-25 15:40:41

手機(jī)游戲產(chǎn)品評(píng)測(cè)

2023-07-31 11:20:18

AI研究

2024-10-28 07:20:00

AI模型

2012-07-31 11:06:48

WebGL

2025-04-17 08:45:04

2023-08-18 14:11:00

藝術(shù)模型

2021-11-19 10:13:01

模型人工智能計(jì)算

2023-06-16 09:45:36

AI視頻

2023-08-16 15:50:00

科學(xué)計(jì)算

2024-10-21 11:15:00

2024-06-20 07:23:29

2023-12-08 14:14:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)