自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型 精華

發(fā)布于 2025-2-6 11:32
瀏覽
0收藏

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2502.01993
代碼&模型鏈接:https://github.com/JianzeLi-114/FluxSR

亮點直擊

  • 開發(fā)了FluxSR,一種基于FLUX.1-dev的單步擴散Real-ISR模型。這是首個基于超過120億參數(shù)大模型的單步擴散Real-ISR模型。
  • 提出了一種流軌跡蒸餾(FTD)方法,明確建立了噪聲到圖像流與低分辨率到高分辨率流之間的關(guān)系。在噪聲到圖像流保持不變的情況下,能夠保留T2I模型中的高度逼真性,并有效地將其轉(zhuǎn)移到低分辨率到高分辨率的流中用于超分辨率。
  • 為了使訓(xùn)練可行,提出了一種適合大型模型的訓(xùn)練策略,該策略在訓(xùn)練階段不包括額外的教師模型。將教師的知識融入到噪聲到圖像流中,并在離線模式下生成大量這樣的流,從而減少內(nèi)存消耗和訓(xùn)練成本。

總結(jié)速覽

解決的問題

  • 多步擴散模型的計算成本高,限制了其在真實世界圖像超分辨率(Real-ISR)任務(wù)中的應(yīng)用。
  • 現(xiàn)有的單步擴散方法受教師模型性能限制,低質(zhì)量的教師模型會導(dǎo)致生成的圖像出現(xiàn)偽影。
  • 大模型的訓(xùn)練成本和內(nèi)存消耗高,尤其在蒸餾過程中,使用額外教師模型會顯著增加計算負擔(dān)。

提出的方案

  • 提出了FluxSR,一種基于流匹配模型的單步擴散Real-ISR技術(shù)。
  • 引入了流軌跡蒸餾(FTD)方法,旨在將多步流匹配模型蒸餾為單步Real-ISR模型,解決生成分布偏移的問題。
  • 采用大模型友好的訓(xùn)練策略,通過將教師模型的知識融入到噪聲到圖像流中,并通過離線模式生成流數(shù)據(jù),避免在訓(xùn)練過程中使用額外的教師模型,從而減少內(nèi)存消耗和訓(xùn)練成本。
  • 提出了TV-LPIPS感知損失,結(jié)合總變差(TV)思想,恢復(fù)圖像的高頻分量,減少偽影。
  • 引入了注意力多樣性損失(ADL),作為正則化項,解決了生成圖像中的重復(fù)模式問題。

應(yīng)用的技術(shù)

  • Flux.1-dev作為基礎(chǔ)模型,結(jié)合流匹配理論來學(xué)習(xí)噪聲到圖像流與低分辨率到高分辨率流之間的關(guān)系。
  • 流軌跡蒸餾(FTD),通過保持原有T2I流不變,學(xué)習(xí)SR流軌跡。
  • TV-LPIPS感知損失,強調(diào)高頻成分的恢復(fù),改善圖像真實感。
  • 注意力多樣性損失(ADL),改善Transformer模塊中不同token的多樣性,避免生成圖像中的重復(fù)模式。

達到的效果

  • 生成圖像質(zhì)量顯著提高,能夠保留高照片逼真度,同時有效避免偽影。
  • 僅需一步采樣,大幅減少計算開銷和推理延遲。
  • 通過創(chuàng)新的訓(xùn)練策略,顯著降低了內(nèi)存消耗和訓(xùn)練成本,使得大模型在資源有限的條件下仍能高效訓(xùn)練。
  • 實驗結(jié)果表明,F(xiàn)luxSR在多個評估指標上超越了現(xiàn)有的單步擴散Real-ISR方法。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

方法

流軌跡蒸餾(FTD)

本文的目標是從預(yù)訓(xùn)練的文本到圖像(T2I)流模型中蒸餾出一個單步擴散超分辨率模型。當(dāng)前的大多數(shù)單步擴散ISR方法直接微調(diào)預(yù)訓(xùn)練的T2I模型,并結(jié)合如VSD或GAN等模塊以提升性能。盡管這些方法已取得了不錯的結(jié)果,但仍面臨一些挑戰(zhàn)。如下圖2左側(cè)所示,預(yù)訓(xùn)練的T2I模型的流軌跡與SR模型的流軌跡并不對齊。在微調(diào)過程中,這些方法沒有機制保持擴散終點分布不變。換句話說,圖中的真實數(shù)據(jù)分布(藍色)發(fā)生了偏移,轉(zhuǎn)換為生成分布(橙色)。對于已經(jīng)很好擬合真實數(shù)據(jù)分布的大規(guī)模T2I模型,使用上述方法進行微調(diào)可能導(dǎo)致負面結(jié)果。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

大模型友好的訓(xùn)練策略

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

通過結(jié)合上述方程,得到:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

模型的參數(shù)化可以表達為:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

其中:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

反偽影損失函數(shù)

在訓(xùn)練過程中,觀察到生成器的預(yù)測在像素空間中會出現(xiàn)周期性的高頻偽影。如下圖4所示,偽影的周期為16像素,恰好是VAE縮放因子(8)與變換器補丁大小(2)的乘積。這表明每個token在某些維度上具有相似的成分。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

感知損失的改進。 目標是減少平坦區(qū)域中相鄰像素之間的變化,以抑制高頻偽影,同時保持銳利的邊緣。受到總變差(TV)損失的啟發(fā),提出了TV-LPIPS作為訓(xùn)練的感知損失。具體來說,TV-LPIPS計算如下:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

其中

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

TV-LPIPS度量了像素變化的程度,并計算了與真實值的LPIPS距離。這不僅可以防止平滑區(qū)域中相鄰像素之間的過度變化,還增強了LPIPS損失對高頻成分的敏感性??傊糜谟?xùn)練的重建損失可以表示為:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

注意力多樣性損失(ADL)。 為了解決特征層次的周期性偽影問題,引入了Guo等人提出的注意力多樣性損失(ADL)。ADL旨在減少token之間的相似性并增強注意力的多樣性。將此損失引入以防止不同的token生成相同的特征組件。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

總之,F(xiàn)luxSR 的整體訓(xùn)練過程如算法 1 所示。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

實驗

實驗設(shè)置

訓(xùn)練數(shù)據(jù)集:本文的方法不需要任何真實數(shù)據(jù)集。使用 FLUX.1-dev 生成了 2400 對大小為 1024x1024 的噪聲-圖像對作為訓(xùn)練數(shù)據(jù)。為了獲得相應(yīng)的低分辨率(LR)圖像,使用了 RealESRGAN 提出的退化流程。


測試數(shù)據(jù)集:在合成數(shù)據(jù)集 DIV2K-val以及兩個真實數(shù)據(jù)集 RealSR和 RealSet65 上評估本文的模型。對于 DIV2K-val,使用 RealESRGAN 退化流程生成相應(yīng)的 LR 圖像。在這些數(shù)據(jù)集上,使用全尺寸圖像進行評估,以評估模型在真實場景中的性能。


對比方法與評估指標:將本文的模型與其他基于擴散的圖像超分辨率(ISR)模型進行性能對比,包括多步擴散 ISR 模型:StableSR、DiffBIR、SeeSR、ResShift 和 AddSR;以及單步擴散 ISR 模型:SinSR、OSEDiff和 。使用 4 個全參考指標(PSNR、SSIM、LIPIS 和 DISTS)以及 4 個無參考指標(MUSIQ、MANIQA、TOPIQ 和 Q-Align)評估本文的模型和上述方法。PSNR 和 SSIM 在 YCbCr 空間的 Y 通道上計算。

與最先進方法的對比

定量對比:下表 1 和表 2 展示了 FluxSR 與其他基于擴散的真實圖像超分辨率(Real-ISR)方法的定量對比。在單步方法中,本文的方法在所有測試數(shù)據(jù)集上的所有無參考(NR)指標中均取得了最佳性能。對于 PSNR 和 SSIM 等全參考(FR)指標,最近的研究表明圖像保真度和感知質(zhì)量之間存在權(quán)衡。在基于擴散的超分辨率方法中,PSNR 和 SSIM 的參考價值有限。與多步方法相比,F(xiàn)luxSR 在所有數(shù)據(jù)集上均優(yōu)于 StableSR。與 DiffBIR、SeeSR 和 AddSR 相比,F(xiàn)luxSR 在 TOPIQ 上略低。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

定性對比
下圖 5 展示了 FluxSR 與其他方法的視覺對比。FluxSR 能夠在嚴重退化的情況下生成逼真的細節(jié)。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

例如,在圖 5 的第一行中,展示了一件外套圖像的恢復(fù)結(jié)果,DiffBIR、ResShift 和 SinSR 受到噪聲影響,導(dǎo)致生成的人工紋理。盡管 AddSR 和 TSD-SR 生成的圖像相對清晰,但它們未能準確恢復(fù)衣領(lǐng)的設(shè)計。相比之下,F(xiàn)luxSR 重建的衣領(lǐng)更接近真實外觀。圖 5 的第二行展示了數(shù)字的恢復(fù)結(jié)果。FluxSR 生成了最逼真的結(jié)果,而 TSD-SR 雖然也大致恢復(fù)了數(shù)字,但受到 Sinc 噪聲的影響,數(shù)字周圍產(chǎn)生了明亮的邊緣。

消融實驗

本節(jié)使用 RealSR 作為測試數(shù)據(jù)集,訓(xùn)練迭代次數(shù)設(shè)置為 30k。


FTD 損失的有效性:為了驗證 FTD 的有效性,將其與僅使用重建損失的訓(xùn)練進行了對比,結(jié)果如下表 3 所示。僅使用重建損失訓(xùn)練單步流模型會導(dǎo)致性能較差,無法生成高頻細節(jié)并出現(xiàn)顯著的高頻偽影。使用提出的 FTD 損失不會破壞教師模型學(xué)習(xí)的數(shù)據(jù)分布,能夠有效恢復(fù)高頻細節(jié)并實現(xiàn)更高的真實感。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

ADL 和 TV-LPIPS 的有效性:為了驗證 ADL 和提出的 TV-LPIPS 損失的有效性,進行了相關(guān)的消融實驗,研究每個損失函數(shù)組件的影響。此外還使用了 DFOSD 提出的 EA-DISTS 作為感知損失。下表 4 展示了實驗結(jié)果,表明使用 TV-LPIPS 作為感知損失和 ADL 作為正則化項能夠?qū)崿F(xiàn)最佳性能。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區(qū)

結(jié)論與局限性

本文提出了 FluxSR,一種基于 FLUX(最先進的 T2I 擴散模型)的高效單步 Real-ISR 模型。FluxSR 利用流軌跡蒸餾(FTD)將多步流匹配模型蒸餾為單步超分辨率模型。它通過固定多步模型生成的噪聲-圖像對進行訓(xùn)練,不需要任何真實數(shù)據(jù)。本文采用 TV-LPIPS 和 ADL 來增強生成圖像中的高頻成分并減少周期性偽影。實驗表明,F(xiàn)luxSR 實現(xiàn)了前所未有的真實感。


局限性:盡管 FluxSR 表現(xiàn)出色,但其參數(shù)量大且計算成本高。此外,尚未完全消除周期性偽影。未來,計劃應(yīng)用模型剪枝技術(shù)來壓縮模型,并開發(fā)更有效的算法以防止周期性偽影,旨在實現(xiàn)輕量級且高性能的 Real-ISR 模型。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/T3T2kijmsZrstQ94w5XPcA??


收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦