自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率! 精華

發(fā)布于 2024-12-16 13:41
瀏覽
0收藏

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.09626
項目鏈接:http://haonanqiu.com/projects/FreeScale.html

亮點直擊

  • 提出了FreeScale,一種無需微調(diào)的推理范式,通過融合不同尺度的信息,使預(yù)訓(xùn)練的擴散模型能夠生成生動的高分辨率結(jié)果。
  • 在文本生成圖像模型和文本生成視頻模型上對該方法進行了實證評估,證明了其有效性。
  • 首次實現(xiàn)了8K分辨率圖像的生成。與其他最新的無需微調(diào)方法相比,F(xiàn)reeScale 以更少的推理時間獲得了更高質(zhì)量的視覺效果。

總結(jié)速覽

解決的問題

當(dāng)前的視覺擴散模型由于高分辨率數(shù)據(jù)缺乏和計算資源限制,僅能在有限分辨率下訓(xùn)練,難以生成高保真圖像或視頻。在生成高于訓(xùn)練分辨率的內(nèi)容時,模型容易引入高頻信息,導(dǎo)致重復(fù)模式和低質(zhì)量內(nèi)容。

提出的方案

FreeScale 是一種無需微調(diào)(tuning-free)的推理范式,通過尺度融合(scale fusion)實現(xiàn)高分辨率視覺內(nèi)容生成。它通過處理不同感受野尺度的信息,并提取所需的頻率成分進行融合,從而克服高頻信息引發(fā)的重復(fù)模式問題。

應(yīng)用的技術(shù)

  • 多尺度信息處理:對不同感受的尺度信息進行提取和處理。
  • 頻率成分提取與融合:提取并融合目標(biāo)頻率成分,優(yōu)化高分辨率生成質(zhì)量。

達到的效果

  • 在圖像和視頻生成任務(wù)中顯著擴展了高分辨率生成的能力。
  • 首次實現(xiàn)了8K分辨率圖像的生成,相較于現(xiàn)有最優(yōu)方法表現(xiàn)更優(yōu)。
  • 通過無調(diào)參方式解決了高分辨率生成中的重復(fù)模式問題,提升了生成內(nèi)容的質(zhì)量與保真度。

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

8K效果

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

方法

定制化的自級聯(lián)超分辨率

直接生成高分辨率結(jié)果容易導(dǎo)致重復(fù)對象的出現(xiàn),破壞原本良好的視覺結(jié)構(gòu)。為了解決這一問題,采用了來自先前研究[13, 14]的自級聯(lián)超分辨率框架,該框架通過逐步增加生成結(jié)果的分辨率來實現(xiàn)高質(zhì)量的視覺輸出。

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

細節(jié)級別的靈活控制

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

受約束的膨脹卷積

ScaleCrafter 發(fā)現(xiàn),導(dǎo)致對象重復(fù)問題的主要原因是卷積感受野的限制,并提出使用膨脹卷積來解決該問題。

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

為了避免災(zāi)難性的質(zhì)量下降,ScaleCrafter僅將膨脹卷積應(yīng)用于 UNet 的部分層,仍保留了多個上采樣塊(up-blocks)。然而,在上采樣塊的層中使用膨脹卷積會導(dǎo)致生成許多混亂的紋理。因此,與以往的工作不同,僅在下采樣塊(down-blocks)和中間塊(mid-blocks)的層中應(yīng)用膨脹卷積。此外,在最后幾個時間步中,結(jié)果的細節(jié)被渲染,而視覺結(jié)構(gòu)幾乎固定。因此,在最后幾個時間步中使用原始卷積。

尺度融合

雖然定制化的自級聯(lián)超分辨率和受約束的膨脹卷積能夠保持粗略的視覺結(jié)構(gòu),并有效生成4X分辨率的圖像,但生成16X分辨率的圖像仍會出現(xiàn)偽影,例如局部重復(fù)(如額外的眼睛或鼻子)。這一問題的根源在于膨脹卷積削弱了對局部特征的關(guān)注。DemoFusion通過使用局部塊操作增強局部關(guān)注解決了這個問題。然而,盡管局部塊操作緩解了局部重復(fù)問題,卻在全局范圍內(nèi)引入了小對象的重復(fù)。

為結(jié)合兩種策略的優(yōu)勢,本文設(shè)計了尺度融合(Scale Fusion),通過融合不同感受野尺度的信息,實現(xiàn)局部和全局細節(jié)的平衡增強。

對于全局信息的提取,采用了全局自注意力特征。原因在于,自注意力層基于相似性增強了塊信息,使后續(xù)的交叉注意力層更容易將語義聚合成完整的對象。這可以表述為:

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

關(guān)于局部信息的提取

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

實驗

實驗設(shè)置

實驗條件

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)


在 LAION-5B 數(shù)據(jù)集中隨機抽取 1024 條描述語句來評估圖像生成性能。為了更貼近人類的審美偏好,我們從 LAION-Aesthetics-V2-6.5plus 數(shù)據(jù)集中隨機選擇提示語進行圖像生成評估。LAION-Aesthetics-V2-6.5plus 是 LAION-5B 的一個子集,包含高視覺質(zhì)量的圖像,這些圖像在美學(xué)預(yù)測模型中的評分達到 6.5 或更高。
在視頻生成評估中,從 WebVid-10M 數(shù)據(jù)集中隨機抽取 512 條描述語句。

評價指標(biāo)
由于高分辨率推理方法旨在保持原始分辨率輸出的質(zhì)量,我們計算了原始低分辨率圖像/視頻與對應(yīng)高分辨率輸出之間的所有指標(biāo)。

  • 圖像質(zhì)量評估:我們報告了 **Frechet Image Distance (FID)**和 **Kernel Image Distance (KID)**。FID 和 KID 在比較之前需要將圖像調(diào)整到299x299的尺寸,這一操作可能會導(dǎo)致高分辨率圖像的質(zhì)量損失。因此,受前人研究 [8] 啟發(fā),我們使用裁剪的局部區(qū)域計算這些指標(biāo),稱為FIDcKIDc。
  • 視頻質(zhì)量評估:我們使用Frechet Video Distance (FVD)來評估視頻生成的質(zhì)量。
  • 動態(tài)性和美學(xué)質(zhì)量:從VBench中測試了動態(tài)程度和美學(xué)質(zhì)量,用以評估視頻的動態(tài)性和視覺吸引力。

高分辨率圖像生成

將 FreeScale 與其他高分辨率圖像生成方法進行了對比,包括:

  1. SDXL直接推理 (SDXL-DI)
  2. ScaleCrafter
  3. DemoFusion
  4. FouriScale

若兼容,采用 FreeU 作為后處理方法。

定性比較

定性比較結(jié)果如下圖 3 所示。觀察到以下現(xiàn)象:

  • 直接生成(SDXL-DI)通常會導(dǎo)致多個重復(fù)對象,并且原始視覺結(jié)構(gòu)丟失。
  • ScaleCrafter容易產(chǎn)生局部重復(fù)現(xiàn)象。
  • DemoFusion生成的畫面中常伴有孤立的小物體。
  • FouriScale對于某些描述,會大幅改變生成圖像的風(fēng)格。

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

相比之下,FreeScale 能夠生成高質(zhì)量圖像,避免任何意外的重復(fù)現(xiàn)象。

定量比較

定量結(jié)果進一步證實了 FreeScale 的優(yōu)越性。如下表 1 所示:

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

  • SDXL-DIFIDcKIDc指標(biāo)上表現(xiàn)最佳。這是因為 SDXL-DI 傾向于生成多個重復(fù)對象,并且裁剪區(qū)域可能更接近參考圖像。然而,這種行為會犧牲視覺結(jié)構(gòu)的完整性,因此在分辨率為  的場景下,SDXL-DI 在FIDKID指標(biāo)上表現(xiàn)最差。
  • 總體上,FreeScale在所有與質(zhì)量相關(guān)的指標(biāo)上都取得了最佳或次優(yōu)成績,并且額外的時間成本可以忽略不計。

靈活細節(jié)控制

此外,FreeScale 提供了對生成結(jié)果中細節(jié)級別的靈活控制。下圖 4 展示了對不同語義區(qū)域調(diào)整細節(jié)級別的示例。


在獲得放大后的 1× 結(jié)果后,我們可以輕松計算語義mask,并在公式 4 中為每個區(qū)域分配不同的  值。如下圖 4 所示,在 Griffons 區(qū)域增加權(quán)重系數(shù),而在其他區(qū)域降低權(quán)重系數(shù)時,生成結(jié)果會更加優(yōu)異。

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

高分辨率視頻生成

將 FreeScale 與其他無需調(diào)優(yōu)的高分辨率視頻生成方法進行了對比,包括:

  1. VideoCrafter2直接推理 (VC2-DI)
  2. ScaleCrafter
  3. DemoFusion

由于 FouriScale 結(jié)合的 FreeU 在視頻生成中表現(xiàn)不佳,因此未進行評估。

如下圖 5 所示,VC2-DI 和 ScaleCrafter 的行為與它們在圖像生成中的表現(xiàn)相似,分別傾向于生成重復(fù)的完整對象和局部部分。然而,DemoFusion 在視頻生成中表現(xiàn)完全不可預(yù)期。其 Dilated Sampling 機制導(dǎo)致所有幀中出現(xiàn)奇怪的圖案,而 Skip Residual 操作則使整個視頻模糊不清。相比之下,FreeScale 能有效生成高分辨率的視頻,且保真度高。下表 3 顯示,我們的方法在推理時間較短的情況下取得了最佳的 FVD 分數(shù)。更多定量評估可以參考補充材料。

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

消融實驗

FreeScale 主要由三個組件組成:

  1. 定制自級聯(lián)上采樣
  2. 限制性膨脹卷積
  3. 尺度融合

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

首次實現(xiàn)8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區(qū)

結(jié)論

FreeScale,一種無需調(diào)優(yōu)的推理范式,旨在增強預(yù)訓(xùn)練擴散模型在高分辨率生成中的能力。通過利用多尺度融合和選擇性頻率提取,FreeScale 有效解決了高分辨率生成中常見的問題,如重復(fù)模式和質(zhì)量退化。實驗結(jié)果表明,FreeScale 在圖像和視頻生成中都表現(xiàn)出色,超越了現(xiàn)有方法的視覺質(zhì)量,同時在推理時間上也具有顯著優(yōu)勢。與以前的方法相比,FreeScale 不僅消除了各種形式的視覺重復(fù),而且確保了生成圖像中的細節(jié)清晰和結(jié)構(gòu)一致性。最終,FreeScale 實現(xiàn)了前所未有的8k 分辨率圖像生成。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/s6bI7joHzfECP14fRsueNQ??

標(biāo)簽
1
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦