圖像超分辨新SOTA!南洋理工提出InvSR,利用大模型圖像先驗(yàn)提高SR性能,登上Huggingface熱門項(xiàng)目
南洋理工大學(xué)的研究者們提出了一種基于擴(kuò)散反演的新型圖像超分辨率 (SR) 技術(shù),可以利用大型預(yù)訓(xùn)練擴(kuò)散模型中蘊(yùn)含的豐富圖像先驗(yàn)來提高 SR 性能。
該方法的核心是一個深度噪聲預(yù)測器,用于估計前向擴(kuò)散過程的最佳噪聲圖。一旦訓(xùn)練完成,這個噪聲預(yù)測器就可以用來初始化沿擴(kuò)散軌跡的部分采樣過程,從而生成理想的高分辨率結(jié)果。
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2412.09013
- 代碼:https://github.com/zsyOAOA/InvSR
- 主頁:https://replicate.com/zsyoaoa/invsr
- 試用:https://huggingface.co/spaces/OAOA/InvSR
論文介紹
在兩個真實(shí)示例中,論文提出的方法與最近最先進(jìn)的基于擴(kuò)散的方法進(jìn)行了定性比較,其中采樣步驟數(shù)以“方法名稱-步驟”格式注釋。在第一個示例的子標(biāo)題中以紅色突出顯示了運(yùn)行時間(以毫秒為單位),該示例在 A100 GPU 上的 ×4(128 → 512)SR 任務(wù)上進(jìn)行了測試。該方法提供了一種高效靈活的采樣機(jī)制,允許用戶根據(jù)降級類型或其特定要求自由調(diào)整采樣步驟數(shù)。在第一個示例中,主要因模糊而降級,多步采樣優(yōu)于單步采樣,因?yàn)樗梢灾鸩交謴?fù)更精細(xì)的細(xì)節(jié)。相反,在第二個具有嚴(yán)重噪聲的示例中,單個采樣步驟足以獲得令人滿意的結(jié)果,而額外的步驟可能會放大噪聲并引入不必要的偽影。
方法介紹
提出的方法的推理流程,其中 {τi}Si=1表示反演時間步長。請注意,預(yù)測的噪聲圖zτS 與 LR 圖像表現(xiàn)出明顯的相關(guān)性,表明其統(tǒng)計分布具有非零均值特性。
效果展示
真實(shí)世界圖像超分辨率
AIGC 圖像增強(qiáng)
不同方法對 RealSet80 數(shù)據(jù)集中兩個典型真實(shí)示例的視覺結(jié)果。為了清晰比較,對于基于擴(kuò)散的方法,采樣步驟數(shù)以“方法名稱-步驟”格式注釋。
限制
InvSR 需要進(jìn)行平鋪操作來生成高分辨率圖像,這將大大增加推理時間。 由于 InvSR 的生成特性,有時無法保持 100% 的保真度。 InvSR 有時無法在復(fù)雜的現(xiàn)實(shí)場景下生成完美的細(xì)節(jié)。
結(jié)論
論文提出了一種基于擴(kuò)散反演的新型 SR 方法 InvSR。該方法引入了一個噪聲預(yù)測網(wǎng)絡(luò),旨在估計最佳噪聲圖,從而能夠構(gòu)建預(yù)訓(xùn)練擴(kuò)散模型的中間狀態(tài)作為起始采樣點(diǎn)。這種設(shè)計在兩個方面很有吸引力:首先,InvSR 可以充分利用預(yù)訓(xùn)練擴(kuò)散模型中封裝的先驗(yàn)知識,從而促進(jìn) SR 性能。其次,InvSR 提供了一種靈活的采樣策略,能夠通過結(jié)合噪聲預(yù)測器的時間相關(guān)架構(gòu)從擴(kuò)散模型的各種中間狀態(tài)開始。這種靈活性允許用戶根據(jù)退化類型或其特定要求自由調(diào)整采樣步驟。即使將采樣步驟減少到只有一個,InvSR 仍然表現(xiàn)出比最近的一步基于擴(kuò)散的方法顯著的優(yōu)勢,表明其有效性和效率。