AIGC全新綜述!多模態(tài)引導的基于文生圖大模型的圖像編輯綜述
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
前言:
提出解決一般性編輯任務的統(tǒng)一框架!近期,復旦大學FVL實驗室和南洋理工大學的研究人員對于多模態(tài)引導的基于文生圖大模型的圖像編輯算法進行了總結和回顧。綜述涵蓋300多篇相關研究,調研的最新模型截止至今年6月!該綜述拓展了關于控制條件(自然語言,圖像,用戶接口)和編輯任務的討論 (物體/屬性操作、空間變換、inpainting、風格轉換、圖像翻譯,主體/屬性客制化),以從更新穎和更一般性的角度全面的探討編輯方法。此外,該綜述提出的統(tǒng)一框架將編輯過程表示為不同算法族的組合,并通過全面的定性和定量實驗來說明各種組合的特性以及適應場景。該框架提供了友好的設計空間以滿足用戶不同的需求,并為研究者們提供了一定的參考以開發(fā)新的算法。
摘要:
圖像編輯旨在根據用戶的特定需求編輯給定的合成或真實圖像。作為人工智能生成內容(AIGC)領域中一個有前景且具有挑戰(zhàn)性的領域,圖像編輯得到了廣泛研究。近期,大規(guī)模文生圖(T2I)擴散模型驅動了圖像編輯技術的發(fā)展。這些模型根據文本提示生成圖像,展示了驚人的生成能力,已成為圖像編輯的常用工具?;赥2I的圖像編輯方法顯著提升了編輯性能,為用戶提供了使用多模態(tài)條件引導進行內容修改的接口。我們對基于T2I擴散模型的多模態(tài)引導下的圖像編輯技術進行了全面回顧。首先,我們從更一般性的角度定義了圖像編輯任務的范圍,并詳細描述了各種控制信號和編輯場景。然后,我們提出了一個統(tǒng)一框架來形式化編輯過程,將其表示為兩個算法族的組合。這個框架為用戶提供了一個設計空間,以實現特定目標。接著,我們對該框架內的每個組件進行了深入分析,研究了不同組合的特性和適用場景。由于基于訓練的方法直接學習將源圖像映射到目標圖像,我們對這些方法進行了單獨討論,并介紹了不同場景下源圖像的注入方案。此外,我們也回顧了2D技術在視頻編輯中的應用,重點介紹了解決幀間不一致性的問題。最后,我們也討論了該領域的開放性挑戰(zhàn),并提出了潛在的未來研究方向。
論文和開源倉庫的地址:
論文題目:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
發(fā)表單位:復旦大學FVL實驗室,南洋理工大學
論文地址:https://arxiv.org/abs/2406.14555
項目地址:https://github.com/xinchengshuai/Awesome-Image-Editing
1.研究動機
1.1,在現實生活中,人們對于可控的、高質量的智能化圖像編輯工具的需求日益增加,因此有必要系統(tǒng)地總結與對比下這個方向的方法與技術特點。
1.2,當前的編輯算法與相關的綜述都將編輯場景局限于保留圖像中的大部分與編輯無關的低級語義信息,為此要必要擴展編輯任務的范圍,從更具有一般性的視角討論編輯任務。
1.3,由于需求和場景具有多樣性,有必要將編輯過程形式化為一個統(tǒng)一框架,并為用戶提供一個設計空間來適應不同的編輯目標。
2.這篇綜述的特色,以及與當前的編輯綜述有什么區(qū)別?
2.1 關于編輯任務的定義與討論范圍。相比于現有的算法以及前人的編輯綜述,本文對于圖像編輯任務的定義更加廣泛。具體的,本文將編輯任務分為content-aware 和content-free場景組。其中content-aware組內的場景為之前的文獻所討論的主要任務,它們的共性是保留圖像中的一些低級語義特征,如編輯無關區(qū)域的像素內容,或圖像結構。此外,我們開創(chuàng)性地將客制化任務(customization)納入到content-free場景組中,將這一類保留高級語義(如主體身份信息,或者其他細粒度屬性)的任務作為對常規(guī)的編輯場景的補充。
圖1. Survey討論的各種編輯場景
2.2 一般性編輯算法的統(tǒng)一框架。由于編輯場景的多樣性,現有的算法無法很好的解決所有的需求。因我們將現有的編輯過程形式化為一個統(tǒng)一的框架,將其表示為兩個算法族的組合。此外我們也通過定性和定量實驗分析了不同組合的特性與適應場景,為用戶提供了一個良好的設計空間以適應不同的編輯目標。同時,該框架也為研究者們提供了一個較好的參考,以設計出性能更優(yōu)的算法。
2.3 討論的全面性。我們調研了300多篇的相關論文,系統(tǒng)且全面地闡述了各種模態(tài)的控制信號在不同場景下的應用。對于基于訓練的編輯方法,本文也提供了在各種場景下源圖像注入到T2I模型的策略。此外,我們也探討了圖像編輯技術在視頻領域的應用,使得讀者能夠快速的理解不同領域間編輯算法的聯系。
3.一般性編輯算法的統(tǒng)一框架:
圖2. 一般性編輯算法的統(tǒng)一框架
框架包含了兩個算法族Inversion算法和Editing 算法
。
3.1 Inversion算法。Inversion 算法將源圖像集合
編碼到特定的特征或參數空間,得到對應的表征
(inversion clue),并用對應的源文本描述
作為源圖像的標識符。包括tuning-based
和forward-based
兩種類型的inversion算法。其可以被形式化為:
Tuning-based inversion通過原有的diffusion訓練過程將源圖像集合植入到擴散模型的生成分布中。形式化過程為:
其中為引入的可學習的參數,且
。
Forward-based inversion用于在擴散模型的反向過程中(
)還原某一條前向路徑中的噪聲(
)。形式化過程為:
其中為方法中引入的參數,用于最小化
。在這種方法中,
。
3.2.Editing 算法。Editing算法根據
和多模態(tài)引導集合
來生成最終的編輯結果
。包含attention-based
,blending-based
,score-based
以及optimization-based
的editing算法。其可以被形式化為:
特別地,對于每一步的反向過程,進行了如下操作:
其中中的操作表示編輯算法對于擴散模型采樣過程
的干預,用于保證編輯后的圖像
與源圖像集合
的一致性,并反應出
中引導條件所指明的視覺變換。
特別地,我們將無干預的編輯過程過程視作為普通版本的編輯算法。其形式化為:
Attention-based editing的形式化過程:
Blending-based editing的形式化過程:
Score-based editing的形式化過程:
Optimization-based editing的形式化過程:
3.3 Training-Based 的編輯方法。與training-free的方法不同的是,training-based算法通過在任務特定的數據集中直接學習源圖像集合到編輯圖像的映射。這一類算法可以看作是tuning-based inversion的擴展,即通過額外引入的參數將源圖像編碼到生成分布中。在這類算法中,最重要的是如何將源圖像注入到T2I模型中,以下是針對不同編輯場景的注入方案。
Content-aware 任務的注入方案:
圖3. Content-aware 任務的注入方案
Content-free 任務的注入方案:
圖3. Content-free 任務的注入方案
4. 統(tǒng)一框架在多模態(tài)編輯任務中的應用
本文通過定性實驗說明了各個組合在多模態(tài)編輯任務中的應用:
圖4. 關于attention-based editing的算法組合的應用
圖5. 關于blending-based editing的算法組合的應用
圖6. 關于score-based editing的算法組合的應用
圖7. 關于optimization-based editing的算法組合的應用
具體的分析請查閱原始論文。
5.不同組合在文本引導的編輯場景下的比較
對于常見的文本引導的編輯任務,本文通過設計了多個具有挑戰(zhàn)性的定性實驗,以說明不同組合所適合的編輯場景。此外,本文也相應地收集了高質量和具有一定難度的數據集,以定量地說明各種組合中的先進算法在不同場景下的性能。
對于 content-aware任務,我們主要考慮對象操作(增/刪/替換),屬性改變,風格遷移。特別地,我們考慮了具有挑戰(zhàn)性的實驗設置:1.多目標編輯。2.對于圖像的語義布局影響較大的用例。我們也收集了這些復雜場景的高質量圖片,并對不同組合中的先進算法進行全面的定量地比較。
圖8.Content-aware任務中各個組合的定性比較,從左至右分別是
關于結果的分析以及更多的實驗結果請查閱原始論文。
對于 content-free任務,我們主要考慮基于主體驅動的(subject-driven)客制化任務。并考慮了多種場景,如更換背景,與物體的交互,行為的改變,以及風格的改變。我們也定義了大量的文本引導模板,對以各個方法的整體性能進行定量分析。
圖9. Content-free任務中各個組合的定性比較,從左至右分別是
關于結果的分析以及更多的實驗結果請查閱原始論文。
6.未來可以進行的方向:
此外本文也給出了一些未來的可能一些研究方向分析。這里給出content-aware 任務和content-free 任務的挑戰(zhàn)作為例子。
6.1. Content-aware 任務的挑戰(zhàn)。對于content-aware 編輯任務的挑戰(zhàn),現有方法無法同時處理多種編輯場景和控制信號。這一限制迫使應用在不同任務之間切換合適的后端算法。此外,一些高級方法在易用性方面不友好。某些方法需要用戶調整關鍵參數以獲得最佳結果,而其他方法則需要繁瑣的輸入,例如源和目標提示,或輔助掩碼。
6.2,Content-free 任務的挑戰(zhàn)。對于content-free 編輯任務,現有方法在測試時調優(yōu)過程冗長且存在過擬合問題 。一些研究旨在通過優(yōu)化少量參數或從頭開始訓練模型來緩解這一問題。然而,它們常常會丟失個性化主體的細節(jié),或表現出較差的泛化能力。此外,當前方法在從少量圖像中提取抽象概念方面也有所不足,它們無法完全將所需概念與其他視覺元素分離開來。
更多的研究方向內容可以查閱原始論文。