自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)

發(fā)布于 2024-10-28 15:15
瀏覽
0收藏

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2405.16785
項目鏈接:https://www.yongshengyu.com/PromptFix-Page

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

亮點直擊

  • 提出了一個為七個圖像處理任務量身定制的綜合數(shù)據(jù)集。該數(shù)據(jù)集包含約101萬對多樣化的輸入-輸出圖像及其相應的圖像編輯指令。
  • 提出了一種全新的指令引導擴散模型——PromptFix,用于低級圖像處理任務。大量實驗結果表明,PromptFix在各種圖像處理任務中表現(xiàn)優(yōu)于現(xiàn)有方法,并在零樣本盲修復和組合任務中展現(xiàn)出更強的能力。
  • 為擴散模型引入了兩種方法——高頻引導采樣和輔助提示模塊,能夠有效解決指令引導擴散模型在低級任務中高頻信息丟失以及處理嚴重圖像退化問題的不足。

總結速覽

解決的問題:現(xiàn)有擴散模型在處理自定義用戶指令時缺乏多樣化數(shù)據(jù),尤其是在低級任務中表現(xiàn)不足。此外,擴散過程的隨機性導致難以保留生成圖像的細節(jié)。


提出的方案 提出了PromptFix框架,通過構建大規(guī)模指令跟隨數(shù)據(jù)集、引入高頻引導采樣方法以及設計輔助提示適配器來增強模型的指令執(zhí)行能力。


應用的技術:使用高頻引導采樣控制去噪過程,保持未處理區(qū)域的高頻細節(jié);利用視覺-語言模型(VLMs)加強文本提示,提高任務泛化能力。


達到的效果:PromptFix在多種圖像處理任務中表現(xiàn)優(yōu)于現(xiàn)有方法,并在零樣本盲修復和組合任務中展現(xiàn)出更強的能力,同時保持了與基準模型相當?shù)耐评硇省?/p>

數(shù)據(jù)整理

現(xiàn)有的帶有指令標注的圖像數(shù)據(jù)集主要用于促進圖像編輯研究,涵蓋了顏色遷移、對象替換、對象移除、背景更改和風格遷移等任務。然而,它們與低級應用的重疊有限。此外,現(xiàn)有模型在圖像修復任務中的表現(xiàn)難以令人滿意。本文的目標是構建一個專門針對低級任務的綜合視覺指令跟隨數(shù)據(jù)集。獲得了約101萬訓練三元組實例。


配對圖像收集。最初從多個現(xiàn)有數(shù)據(jù)集中收集源圖像,隨后生成退化和修復后的圖像,以創(chuàng)建大量的配對圖像數(shù)據(jù)集。共收集了大約兩百萬個原始數(shù)據(jù)點,涵蓋八個任務:圖像修復、對象創(chuàng)建、圖像去霧、圖像上色、超分辨率、低光增強、雪去除和水印去除。對于測試集,為每個任務隨機選擇了300對圖像。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

方法

設  表示退化的輸入圖像。PromptFix 模型旨在通過提示  和擴散模型  來增強圖像 。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

由于 SDE 的顯著特性,后向擴散過程通過 Fokker-Planck 動力學重新表述,以產(chǎn)生具有一致概率密度的確定性轉(zhuǎn)移,從而形成概率流常微分方程(ODE):

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

基于 VLM 的輔助提示模塊

考慮到低級圖像處理專注于處理退化圖像而非真實世界圖像 ,采用集成 VLM 來為低級圖像I估計輔助提示。該輔助提示包含語義標題和缺陷描述,以增強目標圖像的語義清晰度,從而解決低級圖像處理任務中固有的指令差距。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

高頻引導采樣

在圖像恢復和生成任務中有一個基本要求:處理后的圖像必須在語義上保持高準確性。觀察到,普通的 VAE 重構往往會丟失圖像細節(jié),例如文本渲染,這包含高頻信息,如下圖 5 所示。因此,提出高頻引導采樣,以平衡生成的質(zhì)量和保真度。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

實驗

實驗設置

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

基準和指標。采用基于指令的一般模型,例如 InstructP2P、MGIE 和 InstructDiffusion 作為主要比較。MGIE 使用 VLM 引導的技術進行圖像編輯,而 InstructDiffusion 處理與訓練目標重疊的任務,包括水印去除和修補。此外,還評估了不支持指令輸入的全能圖像修復方法,如 AirNet 和 PromptIR,以及專門為特定子任務微調(diào)的圖像修復專家模型。使用 PSNR、SSIM 和 LPIPS 等指標評估生成圖像與真實圖像的相似性。對于無參考圖像質(zhì)量評估,利用 ManIQA 指標。

定量和定性結果

下表 1 展示了通過 LPIPS 和 ManIQA 指標評估的圖像修復和編輯技術的比較分析。專家模型 Diff-Plugin 在低光增強 (LPIPS/ManIQA: 0.227/0.453) 和去雪 (0.133/0.508) 中表現(xiàn)有限但顯著。一般方法中,AirNet 在去雪和去霧等任務中展現(xiàn)出平衡能力,LPIPS/ManIQA 得分分別為 0.245/0.589 和 0.039/0.780。然而,基于指令的擴散方法揭示了更細致的圖景,PromptFix 顯得特別有希望。在著色任務中,它表現(xiàn)優(yōu)異 (LPIPS/ManIQA: 0.233/0.489),在對象去除 (0.054/0.810) 和水印去除 (0.071/0.811) 中持續(xù)超越其他方法。InstructP2P 和 InstructDiff 在低光增強和去霧等特定任務中表現(xiàn)良好,但在整體多功能性上無法與 PromptFix 匹敵。盡管 MGIE 在某些領域有效,但缺乏 "PromptFix (Ours)" 所展現(xiàn)的一致性。這突顯了 PromptFix 在多種圖像處理任務中的魯棒性和卓越表現(xiàn),并表明 PromptFix 具有在該領域設定新基準的潛力,得益于先進的基于指令的擴散方法。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

下圖 3 展示了所有選擇的基線模型之間的視覺比較。在著色任務中,PromptFix 生成的結果最具視覺準確性和生動性,與真實圖像非常接近。在水印去除任務中,它有效地恢復了原始圖像,而未引入偽影,超越了 MGIE 和其他方法。在去雪和低光增強中,PromptFix 實現(xiàn)了更清晰、更自然的輸出,顯著減少了噪聲并增強了可見性。此外,在超分辨率方面,PromptFix 展現(xiàn)出卓越的清晰度和準確性,保留了細節(jié),超越了所有比較方法。在去霧方面,盡管 PromptFix 的性能在視覺上與圖像修復專家 PromptIR 和 AirNet 相當,但 PromptFix 超越了最近的基于Stable Diffusion的方法 Diff-Plugin,呈現(xiàn)出干凈、清晰的外觀,且與真實圖像高度匹配。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

消融研究

高頻引導采樣的有效性。引入高頻引導采樣(HGS)方法以平衡保真度和質(zhì)量。為了驗證 HGS 的有效性,我們進行了定性和定量實驗。如下圖 5 所示,在低光場景中,模型旨在增強輸入圖像的可見性(質(zhì)量),同時保留其原始文本細節(jié)(保真度)。對于利用Stable Diffusion作為生成先驗的基線方法,變分自編碼器(VAE)強大的壓縮能力也帶來了空間信息損失的問題,如圖 5 中的 InstructDiff、MGIE 和 Diff-Plugin 所示。這個問題與模型有效遵循指令的能力無關。通過變體 “Ours w/o HGS” 可以看出,我們的方法在增強低光圖像方面顯著優(yōu)于三種基線,但仍然無法保留小規(guī)模的文本結構。通過引入 HGS,如 “Ours” 所示,所提出的框架提供了一個高保真度的解決方案,同時滿足低光增強的指令。F(·) 和 S(·) 的使用提高了生成圖像的質(zhì)量,這在下表 4 中的定量結果得到了驗證。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

VLM 指導的盲修復。利用 LLaVA 生成輔助提示,并將指令提示留空。這種方法使得用戶可以輸入圖像,而無需提供修復指令。評估了模型在這種盲修復任務上的表現(xiàn),包括低光增強、去雪和去霧。如下表 3 所示,我們的模型在性能上與四個基線模型相當,與真實圖像的感知差異最小,且具有更優(yōu)越的zero-shot 能力。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

多任務處理

盡管PromptFix并未經(jīng)過專門訓練以同時處理同一圖像中的多個低級任務,但它展現(xiàn)出了多任務處理的能力。我們構建了一個包含200張圖像的驗證數(shù)據(jù)集,每張圖像包含3個恢復任務,如上色、水印去除、低光增強、去雪、去霧和超分辨率。我們將PromptFix與AirNet和PromptIR這兩種通用圖像恢復方法,以及以指令驅(qū)動的擴散方法InstructP2P和InstructDiff進行了基準測試。如下表2所示,PromptFix的表現(xiàn)超越了這些基線,達到了更優(yōu)的圖像質(zhì)量、結構相似性,并且與真實圖像的感知差異最小,體現(xiàn)在競爭力的PSNR、SSIM和LPIPS得分上,同時更高的ManIQA得分也表明其結果在視覺上令人愉悅且質(zhì)量高。相反,雖然像InstructP2P和InstructDiff的方法在特定指標上表現(xiàn)良好,但它們未能匹配PromptFix的整體平衡性能。這些結果表明了PromptFix的魯棒性和多樣性。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

不同類型的指令提示

通過與三種類型的提示進行消融比較來驗證PromptFix對各種人類指令的泛化能力,如下表5所示:訓練期間使用的指令,以及少于20個單詞和40-70個單詞的訓練外人類指令。PromptFix在訓練外指令下的性能略有下降,但變化可以忽略不計。這表明PromptFix對少于20個單詞的指令具有魯棒性,這通常對于低級處理任務來說是足夠的。我們觀察到在較長指令下的性能下降,可能是由于訓練數(shù)據(jù)中指令長度的長尾效應。盡管低級處理任務通常不需要長指令,但通過用更長的指令增強數(shù)據(jù)集來解決這一問題可能是未來工作的一個方向。

圖像編輯多任務一網(wǎng)打盡!PromptFix,新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集(羅切斯特大學&微軟)-AI.x社區(qū)

結論

PromptFix是一種新型的基于擴散的模型,以及一個大規(guī)模的視覺指令訓練數(shù)據(jù)集,旨在促進基于指令的低級圖像處理。PromptFix通過高頻引導采樣和基于視覺語言模型(VLM)的輔助提示模塊,有效解決了空間信息丟失和退化適應相關的挑戰(zhàn)。這些機制提高了模型在基于指令的圖像處理范式中的性能。大量實驗結果證明了PromptFix在生成準確且高質(zhì)量圖像方面的先進能力。除了在傳統(tǒng)指標上的改進,還觀察到PromptFix在多任務處理和低光增強、去雪和去霧等盲恢復任務中的有效性。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:???https://mp.weixin.qq.com/s/dGVuYKKu10AilIZCq8E6fQ??

收藏
回復
舉報
回復
相關推薦