一文看盡297篇文獻!中科院領銜發(fā)表首篇「基于擴散模型的圖像編輯」綜述
本文全面研究圖像編輯前沿方法,并根據(jù)技術路線精煉地劃分為3個大類、14個子類,通過表格列明每個方法的類型、條件、可執(zhí)行任務等信息。
此外,本文提出了一個全新benchmark以及LMM Score指標來對代表性方法進行實驗評估,為研究者提供了便捷的學習參考工具。強烈推薦AIGC大模型研究者或愛好者閱讀,緊跟熱點。
論文地址:https://arxiv.org/abs/2402.17525
開源項目:https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods
摘要
去噪擴散模型已成為各種圖像生成和編輯任務的有力工具,有助于以無條件或輸入條件的方式合成視覺內容。
這些模型背后的核心理念是學習如何逆轉逐漸向圖像中添加噪聲的過程,從而從復雜的分布中生成高質量的樣本。
在這份調查報告中,我們詳盡概述了使用擴散模型進行圖像編輯的現(xiàn)有方法,涵蓋了該領域的理論和實踐方面。我們從學習策略、用戶輸入條件和可完成的一系列具體編輯任務等多個角度對這些作品進行了深入分析和分類。
此外,我們還特別關注圖像的inpainting和outpainting,并探討了早期的傳統(tǒng)上下文驅動方法和當前的多模態(tài)條件方法,對其方法論進行了全面分析。
為了進一步評估文本引導圖像編輯算法的性能,我們提出了一個系統(tǒng)基準 EditEval,其特點是采用了創(chuàng)新指標 LMM Score。最后,我們討論了當前的局限性,并展望了未來研究的一些潛在方向。
基于擴散模型的圖像編輯中研究出版物的統(tǒng)計概述。上圖:學習策略。中:輸入條件。下圖:編輯任務。
介紹
在人工智能生成內容(AIGC)的領域中,利用人工智能來創(chuàng)建和修改數(shù)字內容,圖像編輯被認為是創(chuàng)新和實際應用的一個重要領域。
與從最小輸入創(chuàng)建新圖像的圖像生成不同,圖像編輯涉及改變圖像的外觀、結構或內容,包括從微妙的調整到重大變革的一系列變化。
這項研究在包括數(shù)字媒體、廣告和科學研究在內的各個領域都是基礎性的,其中改變視覺內容是至關重要的。圖像編輯的進化反映了數(shù)字技術的進步,從手工、勞動密集型過程發(fā)展到由基于學習的算法驅動的先進數(shù)字技術。這一進化中的一個關鍵進步是生成對抗網(wǎng)絡(GANs)的引入,顯著增強了創(chuàng)意圖像操作的可能性。
擴散模型在圖像編輯中的應用近年來引起了極大的興趣,這一點從該領域大量研究出版物的顯著增加中可以得到證明。這種日益增長的關注突顯了與先前作品相比,擴散模型在提升圖像編輯性能方面的潛力和多樣性。
鑒于這一重要進步,系統(tǒng)地回顧和總結這些貢獻是必要的。然而,現(xiàn)有關于擴散模型的綜述文獻集中在其他特定的視覺任務上,如視頻應用或圖像復原和增強。一些提到圖像編輯的調查往往只提供了一個粗略的概述,缺少對方法的詳細和集中探索。
為了彌補這一差距,我們進行了一項調查,提供了一份深入而全面的分析,專注于圖像編輯。我們深入探討了擴散模型在該領域實現(xiàn)的方法、輸入條件和廣泛的編輯任務。
該調查批判性地回顧了超過100篇研究論文,根據(jù)學習策略將它們組織成三個主要類別:基于訓練的方法、測試時微調方法和無需訓練和微調的方法。
每個類別進一步基于其核心技術進行劃分,分別在第4、5和6節(jié)中進行了詳細討論。我們還探索了這些方法中使用的10種不同類型的輸入條件,包括文本、掩碼、參考圖像、類別、布局、姿勢、草圖、分割圖、音頻和拖動點,以展示擴散模型在多樣化圖像編輯場景中的適應性。
此外,我們的調查提出了一個新的圖像編輯任務分類,將其分為三個廣泛的類別:語義編輯、風格編輯和結構編輯,涵蓋了12個具體類型。圖1直觀地表示了研究在學習策略、輸入條件和編輯任務類別上的統(tǒng)計分布。
此外,我們特別關注了inpainting和outpainting,它們共同構成了一種獨特的編輯類型。我們探討了早期的傳統(tǒng)方法和當前的多模態(tài)條件方法,第7節(jié)提供了它們方法學的全面分析。我們還介紹了EditEval,一個旨在評估文本引導的圖像編輯算法的基準,詳細內容見第8節(jié)。
特別是,通過利用大型多模態(tài)模型(LMMs)的先進視覺-語言理解能力,提出了一個有效的評估指標,LMM score。最后,我們在第9節(jié)中提出了一些當前挑戰(zhàn)和潛在的未來趨勢作為展望。
總之,這項調查旨在系統(tǒng)地分類和批判性評估基于擴散模型的圖像編輯研究的廣泛文獻。我們的目標是提供一個全面的資源,不僅綜合了當前的發(fā)現(xiàn),而且還指導了這一快速發(fā)展領域未來研究的方向。
圖像編輯的分類
除了擴散模型在圖像生成、恢復和增強方面取得的重大進步外,它們在圖像編輯方面也實現(xiàn)了顯著突破,相比之前占主導地位的生成對抗網(wǎng)絡(GANs),提供了更強的可控性。
不同于專注于從零開始創(chuàng)建新圖像的圖像生成,以及旨在修復和提高退化圖像質量的圖像恢復和增強,圖像編輯涉及修改現(xiàn)有圖像的外觀、結構或內容,包括添加對象、替換背景和改變紋理等任務。
在這項調查中,我們根據(jù)學習策略將圖像編輯論文分為三個主要組別:基于訓練的方法、測試時微調方法和無需訓練和微調的方法,分別在第4、5和6節(jié)中進行詳細闡述。
此外,我們探討了這些方法使用的10種輸入條件來控制編輯過程,包括文本、掩碼、參考圖像、類別、布局、姿勢、草圖、分割圖、音頻和拖動點。
進一步地,我們調查了這些方法可以完成的12種最常見的編輯類型,它們被組織成以下三個廣泛的類別。
- 語義編輯:
此類別包括對圖像內容和敘述的更改,影響所描繪場景的故事、背景或主題元素。這一類別內的任務包括對象添加、對象移除、對象替換、背景更改和情感表達修改。
- 風格編輯:
此類別側重于增強或轉換圖像的視覺風格和審美元素,而不改變其敘述內容。這一類別內的任務包括顏色更改、紋理更改和整體風格更改,涵蓋藝術性和現(xiàn)實性風格。
- 結構編輯:
此類別涉及圖像內元素的空間布局、定位、視角和特征的變化,強調場景內對象的組織和展示。這一類別內的任務包括對象移動、對象大小和形狀更改、對象動作和姿勢更改以及視角/視點更改。
表1全面總結了調查論文的多角度分類,提供了快速搜索的途徑。
從多角度對基于擴散模型的圖像編輯方法進行了全面的分類。這些方法是根據(jù)訓練、微調和免訓練進行顏色渲染的。輸入條件包括文本、類別、參考圖像,分割圖、姿態(tài)、蒙版、布局、草圖、拖動點和音頻。打勾表示可以做的任務。
從多角度對基于擴散模型的圖像編輯方法進行了全面的分類。這些方法是根據(jù)訓練、微調和免訓練進行顏色渲染的。輸入條件包括文本、類別、參考圖像,分割圖、姿態(tài)、蒙版、布局、草圖、拖動點和音頻。打勾表示可以做的任務。
基于訓練的方法
在基于擴散模型的圖像編輯領域,基于訓練的方法已經(jīng)獲得了顯著的突出地位。這些方法不僅因其穩(wěn)定的擴散模型訓練和有效的數(shù)據(jù)分布建模而著名,而且在各種編輯任務中表現(xiàn)可靠。
為了徹底分析這些方法,我們根據(jù)它們的應用范圍、訓練所需條件和監(jiān)督類型將它們分類為四個主要組別,如圖2所示。
此外,在這些主要組別中,我們根據(jù)它們的核心編輯方法將方法分為不同的類型。這種分類展示了這些方法的范圍,從針對特定領域的應用到更廣泛的開放世界用途。
比較兩種有代表性的CLIP指導方法:DiffusionCLIP 和 Asyrp 的框架圖。樣本圖像來自CelebA數(shù)據(jù)集上的Asyrp
指令圖像編輯方法的通用框架。示例圖像來自InstructPix2Pix、InstructAny2Pix和MagicBrush。
測試時微調的方法
在圖像生成和編輯中,測試時微調代表著精確性和控制性的重要一步。本節(jié)探討各種微調策略(見圖5)來增強圖像編輯能力。這些方法,如圖6所示,范圍從微調整個去噪模型到專注于特定層或嵌入。
我們研究微調整個模型、針對特定參數(shù)的方法以及優(yōu)化基于文本的嵌入。此外,我們還討論了超網(wǎng)絡的集成和直接圖像表示優(yōu)化。這些方法共同展示了圖像編輯中微調技術的不斷復雜化和有效性,滿足廣泛的編輯需求和用戶意圖。
使用不同微調組件的微調框架。樣本圖像來自Custom-Edit。
免訓練和微調方法
在圖像編輯領域,無需訓練和微調的方法起點是它們快速且成本低,因為在整個編輯過程中不需要任何形式的訓練(在數(shù)據(jù)集上)或微調(在源圖像上)。
本節(jié)根據(jù)它們修改的內容將它們分類為五個類別,如圖7和8所示。它們巧妙地利用擴散模型內在的原則來實現(xiàn)編輯目標。
免訓練方法的通用框架,其中指出了不同部分中描述的修改。樣本圖片來自LEDITS++
圖像inpainting(補全)和outpainting(外擴)
圖像補全和外擴通常被視為圖像編輯的子任務,在具有不同目標和挑戰(zhàn)的獨特位置上占據(jù)一席之地。為了更好地解釋,我們將它們分為兩大類型(見圖9),詳細內容分別在第7.1節(jié)和第7.2節(jié)中介紹。
在視覺對比中,傳統(tǒng)的上下文驅動的補全(上排)與多模態(tài)條件補全(下排)之間存在顯著差異。上下兩排的樣本分別來自于Palette和Imagen Editor。
基準
在前面的章節(jié)中,我們深入探討了基于擴散模型的圖像編輯方法的方法學方面。除了這些分析之外,評估這些方法、檢查它們在不同編輯任務中的能力至關重要。然而,現(xiàn)有的圖像編輯基準測試有限,沒有完全滿足我們調查中確定的需求。
例如,EditBench主要針對文本和掩碼引導的補全,并忽略了涉及全局編輯如風格轉換的更廣泛任務。TedBench雖然擴展了任務范圍,但缺乏詳細指導,這對于評估依賴于文本指令而非描述的方法至關重要。
此外,盡管EditVal基準試圖提供更全面的任務和方法覆蓋范圍,但受到其從MS-COCO數(shù)據(jù)集中獲取的圖像質量限制,這些圖像通常分辨率低且模糊。
為了解決這些問題,我們引入了EditEval,一個旨在評估通用擴散模型基礎圖像編輯方法的基準。EditEval包括一個精心策劃的50張高質量圖像的數(shù)據(jù)集,每張圖像都附有文本提示。EditEval評估表1中選出的7個常見編輯任務的性能。
此外,我們提出了LMM分數(shù),這是一個定量評估指標,利用大型多模態(tài)模型(LMMs)的能力來評估不同任務上的編輯性能。除了LMM分數(shù)提供的客觀評估外,我們還進行了用戶研究以納入主觀評估。EditEval的構建和應用的詳細信息如下所述。
LMM Score與用戶研究的皮爾遜相關系數(shù)。
LMM Score/CLIPScore與用戶研究的皮爾遜相關系數(shù)比較。
對7種選定的編輯類型進行直觀比較。
挑戰(zhàn)和未來方向
盡管在使用擴散模型進行圖像編輯方面取得了成功,但仍有一些limitation需要在未來的工作中加以解決。
更少步驟的模型推理
大多數(shù)基于擴散的模型在推理過程中需要大量的步驟來獲取最終圖像,這既耗時又耗費計算資源,給模型部署和用戶體驗帶來挑戰(zhàn)。為了提高推理效率,已經(jīng)研究了少步驟或一步生成的擴散模型。
近期的方法通過從預訓練的強擴散模型中提取知識來減少步驟數(shù),以便少步驟模型能夠模仿強模型的行為。一個更有趣但更具挑戰(zhàn)性的方向是直接開發(fā)少步驟模型,而不依賴于預訓練的模型,例如一致性模型。
高效模型
訓練一個能夠生成逼真結果的擴散模型在計算上是密集的,需要大量的高質量數(shù)據(jù)。這種復雜性使得開發(fā)用于圖像編輯的擴散模型非常具有挑戰(zhàn)性。為了降低訓練成本,近期的工作設計了更高效的網(wǎng)絡架構作為擴散模型的骨干。
此外,另一個重要方向是只訓練部分參數(shù),或者凍結原始參數(shù)并在預訓練的擴散模型之上添加一些新層。
復雜對象結構編輯
現(xiàn)有的工作可以在編輯圖像時合成逼真的顏色、風格或紋理。然而,當處理復雜結構時,它們仍然會產(chǎn)生明顯的人為痕跡,例如手指、標志和場景文字。已經(jīng)嘗試解決這些問題。
以前的方法通常使用負面提示,如“六個手指、壞腿等”,以使模型避免生成此類圖像,這在某些情況下是有效的,但不夠穩(wěn)健。近期的工作開始使用布局、邊緣或密集標簽作為指導,編輯圖像的全局或局部結構。
復雜的光照和陰影編輯
編輯對象的光照或陰影仍然是一個挑戰(zhàn),這需要準確估計場景中的光照條件。以前的工作如Total Relighting使用網(wǎng)絡組合來估計前景對象的法線、反照率和陰影,以獲得逼真的重新照明效果。
最近,基于擴散的模型被提議用于編輯面部的光照(DiFaReli)。然而,利用預訓練擴散模型強大的光照先驗來編輯肖像或通用對象的光照仍然是一個開放領域。
同樣,ShadowDiffusion探索了基于擴散的陰影合成,可以生成視覺上令人愉悅的對象陰影。然而,使用擴散模型在不同背景條件下準確編輯對象的陰影仍然是一個未解決的問題。
圖像編輯的非魯棒性
現(xiàn)有基于擴散的圖像編輯模型能夠為給定的一部分條件合成逼真的視覺內容。然而,它們在許多現(xiàn)實世界場景中仍然會失敗。這個問題的根本原因在于模型無法準確地對所有可能的樣本在條件分布空間中進行建模。
如何改進模型以始終生成無瑕疵的內容仍然是一個挑戰(zhàn)。解決這個問題有幾種方法。
首先,擴大模型訓練的數(shù)據(jù)規(guī)模以覆蓋具有挑戰(zhàn)性的場景。這是一種有效但成本較高的方法。
在某些情況下,甚至很難收集到足夠數(shù)量的數(shù)據(jù),如醫(yī)學圖像、視覺檢測數(shù)據(jù)等。
第二,調整模型以接受更多條件,如結構引導、3D感知引導和文本引導,以實現(xiàn)更可控和確定性的內容創(chuàng)作。
第三,采用迭代細化或多階段訓練以逐步改進模型的初始結果。
忠實的評估指標
對圖像編輯進行準確評估對于確保編輯內容與給定條件良好對齊至關重要。然而,盡管一些定量指標如FID、KID、LPIPS、CLIP得分、PSNR和SSIM已被用作該任務的參考,但大多數(shù)現(xiàn)有工作仍然嚴重依賴于用戶研究來為視覺結果提供相對準確的感知評估,這既不高效也不可擴展。
忠實的定量評估指標仍然是一個開放的問題。最近,已經(jīng)提出了更準確的指標來量化對象的感知相似性。
DreamSim測量了兩幅圖像的中等級別相似性,考慮了布局、姿態(tài)和語義內容,并且優(yōu)于LPIPS。
類似地,前景特征平均(FFA)提供了一種簡單而有效的方法,用于測量對象的相似性,盡管其姿態(tài)、視點、光照條件或背景不同。在本文中,我們還提出了一種有效的圖像編輯度量LMM score,借助LMM實現(xiàn)。
總結
我們廣泛回顧了基于擴散模型的圖像編輯方法,從多個角度審視了這一領域。
我們的分析首先根據(jù)學習策略將100多種方法分類為三個主要組別:基于訓練、測試時微調和無需訓練及微調的方法。
然后,我們將圖像編輯任務分為三個獨特的類別:語義編輯、風格編輯和結構編輯,總共包含12種具體類型。
我們探索了這些方法及其對提高編輯性能的貢獻。在我們的圖像編輯基準EditEval中,對7個任務以及最新的先進方法進行了評估。
此外,引入了一種新的度量標準LMM分數(shù),用于這些方法的比較分析。在我們的綜述中,我們強調了圖像編輯領域內廣泛的潛力,并建議了未來研究的方向。