4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型
文章鏈接:https://arxiv.org/pdf/2405.04312
github 鏈接:https://github.com/THUDM/Inf-DiT
擴(kuò)散模型在近年來的圖像生成中表現(xiàn)出了顯著的性能。然而,由于生成超高分辨率圖像(如 4096 × 4096)時(shí)內(nèi)存需求呈二次方增加,生成圖像的分辨率通常限制在 1024 × 1024。
本文提出了一種單向塊注意力機(jī)制,可以在推理過程中自適應(yīng)地調(diào)整內(nèi)存開銷并處理全局依賴關(guān)系?;谶@個(gè)模塊,本文采用 DiT 結(jié)構(gòu)進(jìn)行上采樣,并開發(fā)了一種能夠?qū)Ω鞣N形狀和分辨率的圖像進(jìn)行上采樣的無限超分辨率模型。綜合實(shí)驗(yàn)表明,本文的模型在機(jī)器和人類評估中都達(dá)到了生成超高分辨率圖像的最新技術(shù)水平。與常用的 UNet 結(jié)構(gòu)相比,本文的模型在生成 4096 × 4096 圖像時(shí)可以節(jié)省超過 5 倍的內(nèi)存。
介紹
近年來,擴(kuò)散模型取得了迅速進(jìn)展,顯著推動了圖像生成和編輯領(lǐng)域的發(fā)展。盡管有這些進(jìn)展,但仍然存在一個(gè)關(guān)鍵限制:現(xiàn)有圖像擴(kuò)散模型生成的圖像分辨率通常限制在 1024×1024 像素或更低,這在生成超高分辨率圖像時(shí)構(gòu)成了重大挑戰(zhàn)。而超高分辨率圖像在各種實(shí)際應(yīng)用中是不可或缺的,包括復(fù)雜的設(shè)計(jì)項(xiàng)目、廣告、海報(bào)和壁紙的制作等。
一種常用的生成高分辨率圖像的方法是級聯(lián)生成,即首先生成低分辨率圖像,然后應(yīng)用多個(gè)上采樣模型逐步提高圖像的分辨率。這種方法將高分辨率圖像的生成分解為多個(gè)任務(wù)。基于前一階段生成的結(jié)果,后一階段的模型只需進(jìn)行局部生成。在級聯(lián)結(jié)構(gòu)的基礎(chǔ)上,DALL-E2 和 Imagen 都能有效生成分辨率為 1024 的圖像。
對于上采樣到更高分辨率圖像的最大挑戰(zhàn)是顯著的 GPU 內(nèi)存需求。例如,如果在圖像推理中使用廣泛采用的 U-Net 架構(gòu)(如 SDXL,見下圖 2),觀察到隨著分辨率的增加,內(nèi)存消耗急劇上升。具體而言,生成一個(gè) 4096×4096 分辨率的圖像(包含超過 1600 萬個(gè)像素)需要超過 80GB 的內(nèi)存,這超出了標(biāo)準(zhǔn)的 RTX 4090 或 A100 顯卡的容量。此外,高分辨率圖像生成模型的訓(xùn)練過程加劇了這些需求,因?yàn)樗枰~外的內(nèi)存來存儲梯度、優(yōu)化器狀態(tài)等。
LDM 通過利用變分自編碼器(VAE)來壓縮圖像并在較小的潛在空間中生成圖像,從而減少了內(nèi)存消耗。然而,文中也強(qiáng)調(diào),過高的壓縮比會顯著降低生成質(zhì)量,嚴(yán)重限制了內(nèi)存消耗的減少。
基于這一算法,本文優(yōu)化了擴(kuò)散 Transformer(DiT),并訓(xùn)練了一個(gè)名為 Inf-DiT 的模型,該模型能夠?qū)Σ煌直媛屎托螤畹膱D像進(jìn)行上采樣。此外,設(shè)計(jì)了幾種技術(shù),包括提供全局圖像 embedding 以增強(qiáng)全局語義一致性,并提供 zero-shot 文本控制能力,以及通過交叉注意力機(jī)制提供所有相鄰的低分辨率(LR)塊以進(jìn)一步增強(qiáng)局部一致性。評估結(jié)果表明,Inf-DiT 在機(jī)器和人類評估中均顯著優(yōu)于其他高分辨率生成模型。
主要貢獻(xiàn)如下:
- 基于這些方法,訓(xùn)練了一個(gè)圖像上采樣擴(kuò)散模型 Inf-DiT,這是一種 700M 的模型,能夠?qū)Σ煌直媛屎托螤畹膱D像進(jìn)行上采樣。Inf-DiT 在機(jī)器評估(HPDv2 和 DIV2K 數(shù)據(jù)集)和人類評估中均達(dá)到了最新技術(shù)水平。
- 設(shè)計(jì)了多種技術(shù)來進(jìn)一步增強(qiáng)局部和全局一致性,并提供靈活的文本控制的 zero-shot 能力。
方法
單向塊注意力 (UniBA)
生成超高分辨率圖像的關(guān)鍵障礙是內(nèi)存限制
隨著圖像分辨率的增加,網(wǎng)絡(luò)中對應(yīng)的隱藏狀態(tài)的大小呈二次方增長。例如,僅一層中形狀為 2048 × 2048 × 1280 的單個(gè)隱藏狀態(tài)就需要 20GB 的內(nèi)存,使得生成非常大的圖像變得異常艱難。如何避免在內(nèi)存中存儲整個(gè)圖像的隱藏狀態(tài)成為關(guān)鍵問題。
- 塊之間的生成依賴關(guān)系是單向的,并且可以形成一個(gè)有向無環(huán)圖(DAG)。
- 每個(gè)塊對其他塊只有少量的直接(一級)依賴關(guān)系,因?yàn)閴K及其直接依賴塊的隱藏狀態(tài)需要同時(shí)保存在內(nèi)存中。
此外,為了確保整個(gè)圖像的一致性,還需要確保每個(gè)塊具有足夠大的感受野,以處理長程依賴關(guān)系。
根據(jù)上述條件和分析,本文選擇了一種高效的實(shí)現(xiàn)方式,即下圖 3 所示的單向塊注意力(UniBA)。對于每一層,每個(gè)塊直接依賴于三個(gè)一階相鄰塊:頂部的塊、左側(cè)的塊和左上角的塊。例如,如果本文采用了 Inf-DiT 的基礎(chǔ)架構(gòu) Diffusion Transformer(DiT)架構(gòu),則塊之間的依賴關(guān)系是注意力操作,其中每個(gè)塊的查詢向量與其左上角和本身的四個(gè)塊的鍵值向量進(jìn)行交互,如下圖 3 所示。
形式上,Transformer 中的 UniBA 過程可以表示為:
需要注意的是,盡管每個(gè)塊在每層中只關(guān)注少量相鄰塊,但隨著特征層層傳播,塊可以間接與遠(yuǎn)處的塊交互,從而捕捉長短距離關(guān)系。本文的設(shè)計(jì)與自然語言模型 Transformer-XL 具有相似的精神,可以看作是本文的一維情況的特例。
使用 O(N)內(nèi)存消耗的推理過程
盡管本文的方法可以順序生成每個(gè)塊,但它不同于自回歸生成模型,在自回歸生成模型中,下一個(gè)塊依賴于前一個(gè)塊的最終輸出。在本文的模型中,只要它們的依賴塊的集合已經(jīng)生成,就可以并行生成任意數(shù)量的塊?;谶@一特性,本文實(shí)現(xiàn)了一個(gè)簡單但有效的推理過程。如上面圖 3 所示,本文一次生成 n×n 個(gè)塊,從左上到右下。生成一組塊后,本文丟棄不再使用的隱藏狀態(tài)(即 KV 緩存),并將新生成的 KV 緩存附加到內(nèi)存中。
在實(shí)際操作中,盡管對于不同的 n,圖像生成的總 FLOPs 保持不變,但由于操作初始化時(shí)間和內(nèi)存分配時(shí)間等開銷,當(dāng) n 增加時(shí),生成時(shí)間會減少。因此,在內(nèi)存限制允許的情況下,選擇最大的 n 是最優(yōu)的。
基本模型架構(gòu)
下圖 4 概述了本文模型 Inf-DiT 的架構(gòu)。該模型使用了類似 DiT 的主干結(jié)構(gòu),DiT 將視覺 Transformer(ViT)應(yīng)用于擴(kuò)散模型,并證明了其有效性和可擴(kuò)展性。與基于卷積的架構(gòu)(如 UNet)相比,DiT 僅使用注意力作為塊之間的交互機(jī)制,這使得單向塊注意力的實(shí)現(xiàn)變得方便。為了適應(yīng)單向塊注意力并增強(qiáng)上采樣性能,本文進(jìn)行了如下的幾項(xiàng)修改和優(yōu)化。
模型輸入
Inf-DiT 首先將輸入圖像劃分為多個(gè)不重疊的塊,然后將這些塊進(jìn)一步劃分為邊長等于 patch 大小的 patch。與 DiT 不同,考慮到壓縮損失(如顏色偏移和細(xì)節(jié)損失),Inf-DiT 在 RGB 像素空間中進(jìn)行 patch 劃分,而不是在潛在空間中。在超分辨率因子為 f 的情況下,Inf-DiT 首先將低分辨率 RGB 圖像條件上采樣 f 倍,然后在特征維度上將其與擴(kuò)散的噪聲輸入連接起來,再輸入到模型中。
位置編碼
與可以通過卷積操作感知位置關(guān)系的基于 UNet 的擴(kuò)散模型不同,Transformer 中的所有操作(包括自注意力和前饋神經(jīng)網(wǎng)絡(luò))都是置換不變函數(shù)。因此,基于 Transformer 的模型需要輔助輸入顯式位置信息以學(xué)習(xí) patch 之間的關(guān)系。正如最近在大型語言模型中的研究所示,相對位置編碼在捕捉單詞位置相關(guān)性方面比絕對位置編碼更有效,本文參考了旋轉(zhuǎn)位置編碼(RoPE)的設(shè)計(jì),該設(shè)計(jì)在長上下文生成中表現(xiàn)良好,并將其適配為二維形式用于圖像生成。具體來說,本文將隱藏狀態(tài)的通道分成兩半,一半用于編碼 x 坐標(biāo),另一半用于編碼 y 坐標(biāo),并在這兩個(gè)部分中應(yīng)用 RoPE。
本文創(chuàng)建了一個(gè)足夠大的 RoPE 位置編碼表,以確保在生成過程中滿足需求。為了確保模型在訓(xùn)練期間能看到位置編碼表的所有部分,本文采用了隨機(jī)起始點(diǎn):對于每個(gè)訓(xùn)練圖像,本文隨機(jī)分配一個(gè)位置(x,y)作為圖像的左上角,而不是默認(rèn)的(0,0)。
全局和局部一致性
使用 CLIP 圖像 embedding 實(shí)現(xiàn)全局一致性
低分辨率(LR)圖像中的全局語義信息(如藝術(shù)風(fēng)格和物體材質(zhì))在上采樣過程中起著至關(guān)重要的作用。然而,與文本生成圖像模型相比,上采樣模型有一個(gè)額外的任務(wù):理解和分析低分辨率圖像的語義信息,這大大增加了模型的負(fù)擔(dān)。這在沒有文本數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)尤其具有挑戰(zhàn)性,因?yàn)楦叻直媛蕡D像很少有高質(zhì)量的配對文本,使得這些方面對模型來說很難處理。
使用鄰近 LR 交叉注意力實(shí)現(xiàn)局部一致性盡管將 LR 圖像與噪聲輸入連接起來已經(jīng)為模型學(xué)習(xí) LR 和 HR 圖像之間的局部對應(yīng)關(guān)系提供了良好的歸納偏置,但仍然可能存在連續(xù)性問題。原因在于,對于給定的 LR 塊,有多種上采樣的可能性,這需要結(jié)合多個(gè)鄰近 LR 塊進(jìn)行分析以選擇一個(gè)解決方案。假設(shè)上采樣僅基于其左側(cè)和上方的 LR 塊進(jìn)行,它可能會選擇一個(gè)與右側(cè)和下方的 LR 塊沖突的 HR 生成方案。那么,當(dāng)上采樣右側(cè)的 LR 塊時(shí),如果模型認(rèn)為符合其對應(yīng)的 LR 塊比與左側(cè)塊連續(xù)更重要,則會生成與先前塊不連續(xù)的 HR 塊。一個(gè)簡單的解決方案是將整個(gè) LR 圖像輸入到每個(gè)塊中,但當(dāng) LR 圖像的分辨率也很高時(shí),這樣做成本太高。
為了解決這個(gè)問題,本文引入了鄰近 LR 交叉注意力。在 Transformer 的第一層,每個(gè)塊對周圍的 3×3 LR 塊進(jìn)行交叉注意力,以捕捉附近的 LR 信息。本文的實(shí)驗(yàn)表明,這種方法顯著降低了生成不連續(xù)圖像的概率。值得注意的是,這個(gè)操作不會改變本文的推理過程,因?yàn)樵谏芍罢麄€(gè) LR 圖像是已知的。
本文進(jìn)一步設(shè)計(jì)了包括無類別指導(dǎo)的連續(xù)性、基于 LR 的噪聲初始化、QK 規(guī)范化等技術(shù)。
實(shí)驗(yàn)
在本節(jié)中,本文首先介紹 Inf-DiT 的詳細(xì)訓(xùn)練過程,然后通過機(jī)器和人類評價(jià)全面評估 Inf-DiT 的性能。結(jié)果表明,Inf-DiT 在超高分辨率圖像生成和上采樣任務(wù)中均優(yōu)于所有基線模型。最后,本文進(jìn)行消融研究,以驗(yàn)證本文設(shè)計(jì)的有效性。
訓(xùn)練細(xì)節(jié)
數(shù)據(jù)集
數(shù)據(jù)集由分辨率高于 1024×1024 且美學(xué)評分高于 5 的 LAION-5B 子集和來自互聯(lián)網(wǎng)的 10 萬張高分辨率壁紙組成。與之前的工作[20,23,30]相同,本文在訓(xùn)練期間使用固定大小的 512×512 分辨率的圖像裁剪。由于上采樣可以僅使用局部信息進(jìn)行,因此在推理時(shí)可以直接在更高分辨率下進(jìn)行,這對大多數(shù)生成模型來說并不容易。
數(shù)據(jù)處理
由于擴(kuò)散模型生成的圖像通常包含殘留噪聲和各種細(xì)節(jié)不準(zhǔn)確性,因此增強(qiáng)上采樣模型的魯棒性以解決這些問題變得至關(guān)重要。本文采用類似于 Real-ESRGAN 的方法,對訓(xùn)練數(shù)據(jù)中的低分辨率輸入圖像進(jìn)行各種降質(zhì)處理。
在處理分辨率高于 512 的訓(xùn)練圖像時(shí),有兩種替代方法:直接執(zhí)行隨機(jī)裁剪,或?qū)⑤^短的一側(cè)調(diào)整為 512 后再進(jìn)行隨機(jī)裁剪。直接裁剪方法保留了高分辨率圖像中的高頻特征,而調(diào)整后裁剪方法則避免了頻繁裁剪出單色背景區(qū)域,這對模型的收斂性不利。因此,在實(shí)踐中,本文隨機(jī)選擇這兩種處理方法中的一種來裁剪訓(xùn)練圖像。
訓(xùn)練設(shè)置
在訓(xùn)練期間,本文設(shè)置塊大小為 128,patch 大小為 4,這意味著每個(gè)訓(xùn)練圖像被分成 4×4 個(gè)塊,每個(gè)塊有 32×32 個(gè) patch。本文采用 EDM 框架進(jìn)行訓(xùn)練,并將上采樣因子設(shè)置為 4 倍。由于上采樣任務(wù)更關(guān)注圖像的高頻細(xì)節(jié),本文調(diào)整了訓(xùn)練噪聲分布的均值和標(biāo)準(zhǔn)差為-1.0 和 1.4。為了解決訓(xùn)練期間的溢出問題,本文使用了具有更大數(shù)值范圍的 BF16 格式。本文的 CLIP 模型是一個(gè)在 Datacomp 數(shù)據(jù)集上預(yù)訓(xùn)練的 ViT-L/16。由于 CLIP 只能處理 224×224 分辨率的圖像,本文首先將低分辨率圖像調(diào)整為 224×224,然后將其輸入到 CLIP 中。
機(jī)器評價(jià)
在這部分中,本文對 Inf-DiT 在超高分辨率圖像生成任務(wù)上與最先進(jìn)方法進(jìn)行定量比較?;€包括兩大類高分辨率生成:1. 直接高分辨率圖像生成,包括 SDXL 的直接推理、MultiDiffusion、ScaleCrafte 等;2. 基于超分辨率技術(shù)的高分辨率圖像生成,包括 BSRGAN、DemoFusion 等。本文采用 FID(Fréchet Inception Distance)來評估超高分辨率生成的質(zhì)量,這在圖像生成任務(wù)中廣泛用于評估圖像的感知質(zhì)量。為了進(jìn)一步驗(yàn)證本文模型的超分辨率能力,本文還將其與經(jīng)典的超分辨率模型在典型超分辨率任務(wù)上進(jìn)行了基準(zhǔn)測試。
超高分辨率生成本文使用 HPDv2 的測試集進(jìn)行評估。它包含 3200 個(gè)提示,并分為四個(gè)類別:“動畫”、“概念藝術(shù)”、“繪畫”和“照片”。這允許對模型在各個(gè)領(lǐng)域和風(fēng)格中的生成能力進(jìn)行全面評估。本文在兩個(gè)分辨率上進(jìn)行測試:2048x2048 和 4096x4096。對于基于超分辨率的模型,本文首先使用 SDXL 生成 1024x1024 分辨率的圖像,然后在沒有文本的情況下對其進(jìn)行上采樣。本文使用 BSRGAN 的 2× 和 4× 版本分別進(jìn)行 2048x2048 和 4096x4096 的生成。盡管 Inf-DiT 是在 4× 上采樣的設(shè)置下進(jìn)行訓(xùn)練的,但本文發(fā)現(xiàn)它在較低的上采樣倍數(shù)下也能很好地泛化。因此,對于 2048x2048 的生成,本文直接將 LR 圖像從 1024x1024 調(diào)整為 2048x2048,并與噪聲輸入連接起來。本文從 LAION-5B 中隨機(jī)選擇了 3200 張 2048x2048 和 4096x4096 的圖像作為真實(shí)圖像的分布。
如下表 2 所示,本文的模型在所有指標(biāo)上均達(dá)到了最先進(jìn)水平。這表明,作為一個(gè)超分辨率模型,本文的模型不僅在任意尺度上表現(xiàn)出色,而且在最大限度地保留全局和詳細(xì)信息的同時(shí),還能恢復(fù)與原始圖像非常接近的結(jié)果。
人類評價(jià)
為了進(jìn)一步評估 Inf-DiT 并更準(zhǔn)確地從人類視角反映其生成質(zhì)量,本文進(jìn)行了人類評價(jià)。比較設(shè)置與上節(jié)中相同,不過本文排除了 MultiDiffusion 和 Direct Inference 因其非競爭性的結(jié)果。對于每個(gè)類別,本文隨機(jī)選擇了十組比較集,每組集合包含了四個(gè)模型的輸出,共計(jì) 40 組形成了人類評價(jià)數(shù)據(jù)集。為了保證公平性,在每個(gè)比較集中本文對模型輸出的順序進(jìn)行了隨機(jī)化。人類評估者被要求根據(jù)三個(gè)標(biāo)準(zhǔn)評估模型:細(xì)節(jié)真實(shí)性、全局連貫性和與原始低分辨率輸入的一致性。每位評估者平均收到 20 組圖像。在每個(gè)集合中,評估者需要根據(jù)三個(gè)標(biāo)準(zhǔn)對由四個(gè)模型生成的圖像進(jìn)行從高到低的排名。
本文最終收集了 3600 組比較。如下圖 7 所示,本文的模型在所有三個(gè)標(biāo)準(zhǔn)中均優(yōu)于其他三種方法。值得注意的是,其他三種模型中的每一種在至少一個(gè)評估標(biāo)準(zhǔn)上排名相對較低,而 Inf-DiT 在所有三個(gè)標(biāo)準(zhǔn)上的得分都最高:細(xì)節(jié)真實(shí)性、全局連貫性和與低分辨率輸入的一致性。這表明本文的模型是唯一能夠在高分辨率生成和超分辨率任務(wù)中同時(shí)表現(xiàn)出色的模型。
迭代上采樣
由于本文的模型可以對任意分辨率的圖像進(jìn)行上采樣,測試模型是否能夠迭代上采樣自身生成的圖像是一個(gè)自然的想法。在這項(xiàng)研究中,本文在一張 322 分辨率的圖像上進(jìn)行實(shí)驗(yàn),通過三次迭代上采樣,將其生成一張 2048x2048 分辨率的圖像,即 64 倍放大。下圖 8 展示了這個(gè)過程的兩個(gè)案例。在第一個(gè)案例中,模型成功地在三個(gè)階段的上采樣后生成了一張高分辨率圖像。它在不同分辨率的上采樣中生成了不同頻率的細(xì)節(jié):臉部輪廓、眼球形狀和個(gè)別睫毛。然而,模型很難糾正在早期階段生成的不準(zhǔn)確性,導(dǎo)致錯誤的積累。第二個(gè)樣本展示了這個(gè)問題。本文將這個(gè)問題留給未來的工作。
消融研究
相關(guān)工作
擴(kuò)散圖像生成
擴(kuò)散模型已經(jīng)成為圖像生成領(lǐng)域的焦點(diǎn),近年來取得了一系列突破性進(jìn)展。最初于 2015 年引入,并通過諸如 DDPM 和 DDIM 等工作進(jìn)一步發(fā)展,這些模型利用隨機(jī)擴(kuò)散過程,概念化為馬爾可夫鏈,將簡單的先驗(yàn)分布(如高斯噪聲)轉(zhuǎn)化為復(fù)雜的數(shù)據(jù)分布。這一方法在生成的圖像質(zhì)量和多樣性方面取得了令人印象深刻的成果。
近期的增強(qiáng)顯著提升了擴(kuò)散模型的生成能力。CDM 創(chuàng)建了一個(gè)級聯(lián)生成 pipeline,其中包括多階段的超分辨率模型,可應(yīng)用于大型預(yù)訓(xùn)練模型。引入潛在擴(kuò)散模型(LDMs)代表了一個(gè)重要的擴(kuò)展,它結(jié)合了潛在空間,提升了效率和可擴(kuò)展性。除此之外,網(wǎng)絡(luò)架構(gòu)的優(yōu)化也取得了顯著進(jìn)展。擴(kuò)散 Transformer(DiT)的出現(xiàn)取代了 U-Net,使用 ViT 進(jìn)行噪聲預(yù)測。
圖像超分辨率
這里 D 和 F 分別表示退化過程和超分辨率模型。δ和θ 代表參數(shù)。
近年來,盲目 SR 一直是主要關(guān)注的焦點(diǎn):其中退化過程是未知的且可學(xué)習(xí)的。這一視角導(dǎo)致了有效的建模技術(shù)的發(fā)展,例如 BSRGAN 和 Real-ESRGAN。最近,基于擴(kuò)散的 SR 方法取得了令人興奮的結(jié)果。這些工作專注于對預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型進(jìn)行微調(diào),以利用其優(yōu)秀的生成能力。具體來說,DiffBir 在預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型上使用了 ControlNet,而 PASD 通過執(zhí)行像素感知的交叉注意力來增強(qiáng)它。這兩種方法在固定分辨率超分辨率方面取得了相當(dāng)大的成功,但不能直接用于更高的分辨率。
超高分辨率圖像上采樣器
目前,圖像生成方法在生成超高分辨率圖像方面存在著內(nèi)存限制和訓(xùn)練效率問題。在這種情況下,MultiDiffusion 和 Mixture of Diffusers 將多個(gè)擴(kuò)散生成過程綁定在一起,通過將圖像劃分為重疊的塊,分別處理每個(gè)塊,然后將它們拼接在一起,旨在保持塊之間的連續(xù)性。然而,由于它們僅使用局部加權(quán)平均進(jìn)行聚合,導(dǎo)致了交互效率低下,使得很難確保圖像的全局一致性。
鑒于這一問題,DemoFusion 和 ScaleCrafter 采用了擴(kuò)張策略,包括擴(kuò)張采樣和擴(kuò)張卷積核,旨在獲取更多的全局信息。這些方法確實(shí)在全局語義水平上取得了改進(jìn),而無需額外的訓(xùn)練。然而,訓(xùn)練和生成之間的巨大差異導(dǎo)致這些方法很容易產(chǎn)生不合邏輯的圖像。
Inf-DiT 能夠?qū)θ魏紊赡P蜕傻膱D像執(zhí)行上采樣,在這里展示了更多的情況。
結(jié)論
在這項(xiàng)工作中,本文觀察到生成超高分辨率圖像的主要障礙是模型隱藏狀態(tài)占用了大量內(nèi)存?;诖?,本文提出了一種單向塊注意力機(jī)制(UniBA),它可以通過在塊之間進(jìn)行批量生成來降低空間復(fù)雜度。利用 UniBA,本文訓(xùn)練了 Inf-DiT,這是一種 4 倍內(nèi)存效率的圖像上采樣器,在生成和超分辨率任務(wù)中均取得了最先進(jìn)的性能。
本文轉(zhuǎn)自 AI生成未來 ,作者:Zhuoyi Yang等
