何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現(xiàn)高分辨率逐像素生成
何愷明再次開宗立派!開辟了生成模型的全新范式——
分形生成模型 Fractal Generative Models,首次使逐像素生成高分辨率圖像成為可能,論文名字依舊延續(xù)以往的大道至簡風(fēng)格。
團隊將生成模型本身抽象為可復(fù)用的“原子模塊” 。
通過遞歸地在生成模型中調(diào)用這些原子生成模塊,可以構(gòu)建出一種自相似的分形架構(gòu)。
其靈感源于數(shù)學(xué)中的分形思想。它相當(dāng)于一個粗糙或零碎的幾何形狀分成數(shù)個部分,每一部分都(至少近似地)是整體縮小后的形狀。即具有自相似的性質(zhì)。
嗯,就是像俄羅斯套娃(Matryoshka)那樣子。
By the way,「俄羅斯套娃」這個詞已經(jīng)被其他論文用過了,sad。
團隊提出用參數(shù)化的神經(jīng)網(wǎng)絡(luò)作為分形生成器,從數(shù)據(jù)中學(xué)習(xí)這種遞歸法則,實現(xiàn)對高維非序列數(shù)據(jù)的建模,也可用于材料、蛋白質(zhì)等。
結(jié)果在「逐像素圖像生成」這一任務(wù)中表現(xiàn)出色。
看到這張圖,不免讓人想到此前??何愷明的代表作之一掩碼自編碼器MAE。??
??
通過對輸入圖像的隨機區(qū)塊進(jìn)行掩蔽,然后重建缺失的像素。
此次團隊也結(jié)合MAE的成果探索了一些可能性。目前該成果代碼已開源。
逐像素生成高分辨率圖像
如何使用自回歸模型作為分形生成器?
首先考慮到目標(biāo)是對一大組隨機變量的聯(lián)合分布進(jìn)行建模 ,直接使用單個自回歸模型的計算量令人望而卻步。
團隊采取的關(guān)鍵策略是“分而治之”,將自回歸模型抽象成一個模塊化單元。
由于每個級別的生成器都可以從單個輸入生成多個輸出,因此分形框架可以在只需要線性數(shù)量的遞歸級別的情況下實現(xiàn)生成輸出的指數(shù)級增長。
最終,在每個分形級別中,自回歸模型接收來自前一個生成器的輸出,將其與相應(yīng)的圖像塊連接,并使用多個transformer模塊為下一個生成器生成一組輸出,逐步從圖像塊到像素細(xì)化生成過程。
之所以選擇像素級圖像生成這個任務(wù),是由于原始圖像數(shù)據(jù)具有高維度和復(fù)雜性,像素之間存在豐富的結(jié)構(gòu)模式和相互依賴關(guān)系。
這類高維生成問題任務(wù)在逐個元素生成數(shù)據(jù),但又與長序列建模不同,通常涉及非順序數(shù)據(jù),像分子結(jié)構(gòu)、蛋白質(zhì)、生物神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)也符合這個特點。
團隊認(rèn)為分型生成模型不僅是一個計算機視覺方法,還能展示分形方法在處理這類高維非順序數(shù)據(jù)建模問題上的潛力,為其他數(shù)據(jù)領(lǐng)域的應(yīng)用提供參考。
不過還是來看看它在像素級圖像上的表現(xiàn):
首先是直觀的視覺效果,在ImageNet 256x256數(shù)據(jù)集上,逐像素生成一張圖需要1.29秒。
測試指標(biāo)方面,分形模型在ImageNet 64×64無條件生成上實現(xiàn)了3.14bits/dim的負(fù)對數(shù)似然,超越此前最佳的自回歸模型。
在圖像質(zhì)量上,F(xiàn)ractalMAR-H 模型達(dá)到6.15的FID和348.9的Inception Score。
更值得關(guān)注的是,分形架構(gòu)將計算效率提高到傳統(tǒng)方法的4000倍,逐個像素生成高分辨率圖像首次成為可能。
團隊還探索了將掩碼重建與分形生成模型結(jié)合起來,實驗發(fā)現(xiàn)也可以準(zhǔn)確預(yù)測被掩蔽的像素。
此外,它可以有效地從類標(biāo)簽中捕獲高級語義,并將其反映在預(yù)測的像素中,比如最后一列,把貓的臉替換成狗的臉,這些結(jié)果證明了該方法在已知條件下預(yù)測未知數(shù)據(jù)的有效性。
最后附上更多生成結(jié)果樣本。
何愷明MIT天團,一作黎天鴻
此次成果是由MIT何愷明團隊和谷歌DeepMind全華人班底完成,并由谷歌提供TPU、GPU資源支持。
一作何愷明的學(xué)生黎天鴻。
黎天鴻本科畢業(yè)于清華叉院姚班,在MIT獲得了碩博學(xué)位之后,目前在何愷明組內(nèi)從事博士后研究。
他的主要研究方向是表征學(xué)習(xí)、生成模型以及兩者之間的協(xié)同作用。目標(biāo)是構(gòu)建能夠理解人類感知之外的世界的智能視覺系統(tǒng)。
此前曾作為一作和何愷明開發(fā)了自條件圖像生成框架RCG,團隊最新的多項研究中他也都有參與。
Qinyi Sun,目前MIT三年級本科生。
范麗杰,清華計算機系校友,去年博士畢業(yè)于MIT CSAIL,目前在谷歌DeepMind擔(dān)任研究科學(xué)家,致力于生成模型和合成數(shù)據(jù)。
此前曾與黎天鴻共同參與過FLUID的研究——
一個可擴展的自回歸文本轉(zhuǎn)圖像模型,無需VQ。10B參數(shù)模型實現(xiàn)SOTA性能。
論文地址:
??https://arxiv.org/abs/2502.17437v1??
本文轉(zhuǎn)自 量子位 ,作者:量子位
