風格控制水平創(chuàng)新高!南理工&InstantX&小紅書發(fā)布CSGO:簡單高效的端到端風格遷移框架
論文鏈接:https://arxiv.org/pdf/2408.16766
項目鏈接:https://csgo-gen.github.io/
亮點直擊
- 構(gòu)建了一個專門用于風格遷移的數(shù)據(jù)集
- 設(shè)計了一個簡單但有效的端到端訓練的風格遷移框架CSGO框架,以驗證這個大規(guī)模數(shù)據(jù)集在風格遷移中的有益效果。
- 引入了內(nèi)容對齊評分(Content Alignment Score,簡稱CAS)來評估風格遷移的質(zhì)量,有效衡量遷移后內(nèi)容損失的程度。
- 大量的定性和定量研究驗證了本文提出的方法在零樣本風格遷移方面取得了先進的成果。
擴散模型在受控圖像生成方面展示了卓越的能力,這進一步激發(fā)了對圖像風格遷移的興趣?,F(xiàn)有的工作主要集中在基于訓練自由的方法(例如圖像反演),這是由于特定數(shù)據(jù)的稀缺。在本研究中,本文提出了一種用于內(nèi)容-風格-風格化圖像三元組的數(shù)據(jù)構(gòu)建pipeline,該pipeline生成并自動清理風格化數(shù)據(jù)三元組?;诖藀ipeline,本文構(gòu)建了IMAGStyle數(shù)據(jù)集,這是第一個包含21萬圖像三元組的大規(guī)模風格遷移數(shù)據(jù)集,供社區(qū)探索和研究。配備IMAGStyle數(shù)據(jù)集,本文提出了CSGO,一種基于端到端訓練的風格遷移模型,該模型通過獨立特征注入顯式解耦內(nèi)容和風格特征。統(tǒng)一的CSGO實現(xiàn)了圖像驅(qū)動的風格遷移、文本驅(qū)動的風格化合成以及文本編輯驅(qū)動的風格化合成。大量實驗表明,本文的方法在增強圖像生成中的風格控制能力方面是有效的。
數(shù)據(jù) pipeline
在本節(jié)中,本文首先介紹用于構(gòu)建內(nèi)容-風格-風格化圖像三元組的提議pipeline。然后,本文詳細描述構(gòu)建的IMAGStyle數(shù)據(jù)集。
構(gòu)建內(nèi)容-風格-風格化圖像三元組的pipeline
風格化圖像清理。 通過人工參與的慢速數(shù)據(jù)清理方法對于構(gòu)建大規(guī)模風格化數(shù)據(jù)三元組是不可接受的。為此,本文開發(fā)了一種自動清理方法,以高效地獲得理想且高質(zhì)量的風格化圖像T 。首先,本文提出了一個內(nèi)容對齊評分(CAS),它有效地衡量生成圖像與內(nèi)容圖像的內(nèi)容對齊情況。它被定義為生成圖像和原始內(nèi)容圖像的內(nèi)容語義特征(不包含風格信息)之間的特征距離。其表示如下:
IMAGSTYLE 數(shù)據(jù)集詳細信息
內(nèi)容圖像。 為了確保內(nèi)容圖像具有清晰的語義信息并在訓練后便于分離,本文使用顯著性檢測數(shù)據(jù)集 MSRA10K和 MSRA-B作為內(nèi)容圖像。此外,對于素描風格化,本文從 ImageNet-Sketch中抽取了1000張素描圖像作為內(nèi)容圖像。內(nèi)容圖像的類別分布如下圖3所示。本文使用 BLIP(Li 等人,2023)為每個內(nèi)容圖像生成一個標題??偣灿柧毩?1,000張內(nèi)容圖像,并用作內(nèi)容 LoRA。
風格圖像。 為了確保風格多樣性的豐富性,本文從Wikiart數(shù)據(jù)集中抽取了5000張不同繪畫風格的圖像(歷史畫、肖像畫、風俗畫、風景畫和靜物畫)。此外,本文使用Midjourney生成了5000張涵蓋多種風格的圖像,包括古典、現(xiàn)代、浪漫、現(xiàn)實主義、超現(xiàn)實主義、抽象、未來主義、明亮、黑暗等風格??偣彩褂昧?0,000張風格圖像來訓練風格LoRA。
數(shù)據(jù)集。 基于前文中描述的pipeline,本文構(gòu)建了一個風格遷移數(shù)據(jù)集IMAGStyle,該數(shù)據(jù)集包含210,000個內(nèi)容-風格-風格化圖像三元組作為訓練數(shù)據(jù)集。此外,本文從網(wǎng)絡(luò)上收集了248張內(nèi)容圖像,這些圖像包含真實場景、素描場景、人臉和風格場景的圖像,以及206張不同場景的風格圖像作為測試數(shù)據(jù)集。在測試中,每張內(nèi)容圖像會被轉(zhuǎn)換為206種風格。此數(shù)據(jù)集將用于社區(qū)研究風格遷移和風格化合成。
方法
CSGO框架
所提出的風格遷移模型CSGO,如下圖4所示,旨在實現(xiàn)任意圖像的任意風格化,而無需微調(diào),包括素描和自然圖像驅(qū)動的風格遷移、文本驅(qū)動的風格化合成以及文本編輯驅(qū)動的風格化合成。得益于所提出的IMAGStyle數(shù)據(jù)集,CSGO支持端到端的風格遷移訓練范式。為了確保有效的風格遷移和準確的內(nèi)容保留,本文精心設(shè)計了內(nèi)容和風格控制模塊。此外,為了減少內(nèi)容圖像泄露風格信息或風格圖像泄露內(nèi)容的風險,內(nèi)容控制和風格控制模塊被明確解耦,對應的特征被獨立提取。具體來說,本文將CSGO分為兩個主要組件,并詳細描述它們。
模型訓練和推理
推理。 在推理階段,我們采用無分類器指導。時間步t的輸出表示如下:
其中w表示無分類器指導因子(CFG)。
實驗
實驗設(shè)置
數(shù)據(jù)集和評估。 使用提出的IMAGStyle作為訓練數(shù)據(jù)集,并使用其測試數(shù)據(jù)集作為評估數(shù)據(jù)集。我們采用Somepalli等人提出的CSD評分作為評估指標來評估風格相似性。同時,我們使用提出的內(nèi)容對齊評分(CAS)作為評估指標來評估內(nèi)容相似性。
基線方法。 比較了最近的幾種先進的基于反演的風格識別方法,包括Chung等人(2024)的StyleID、Hertz等人(2024)的StyleAligned方法,以及基于Transformer結(jié)構(gòu)的StyTR2 Deng等人(2022)。此外,還比較了Wang等人(2024a)的Instantstyle和Junyao等人(2024)的StyleShot(及其細粒度控制方法StyleShot-lineart),這些方法引入了ControlNet和IPAdapter結(jié)構(gòu)作為基線。在文本驅(qū)動的風格控制任務中,我們還引入了Qi等人(2024)的DEADiff作為基線。
實驗結(jié)果
圖像驅(qū)動的風格遷移。 在下表1中,展示了所提出方法在圖像驅(qū)動風格遷移任務中與最近先進方法的CSD評分和CAS。就風格控制而言,我們的CSGO獲得了最高的CSD評分,表明CSGO在風格控制方面達到了最先進的水平。由于采用了解耦的風格注入方法,所提出的CSGO能夠有效地提取風格特征并將其與高質(zhì)量的內(nèi)容特征融合。如下圖5所示,CSGO在自然、素描、人臉和藝術(shù)場景中精確地遷移風格,同時保持內(nèi)容的語義。
在內(nèi)容保留方面,可以觀察到基于反演的StyleID和StyleAligned在素描風格遷移場景中過于強烈地保持了原始內(nèi)容(CAS非常低)。然而,它們無法注入風格信息,因為CSD評分很低。使用線條來控制內(nèi)容的InstantStyle和StyleShot(包括Lineart)受線條細節(jié)水平的影響,在不同程度上會丟失內(nèi)容(如人臉場景)。所提出的CSGO直接利用內(nèi)容圖像的所有信息,內(nèi)容保留效果最佳。上表1中的定量結(jié)果也表明,所提出的CSGO在實現(xiàn)精確風格遷移的同時,保持了高質(zhì)量的內(nèi)容保留。
文本驅(qū)動的風格化合成。 所提出的方法支持文本驅(qū)動的風格控制,即給定一個文本提示詞和一個風格圖像,生成具有相似風格的圖像。下圖6展示了所提出的CSGO與最先進方法的生成結(jié)果對比。在簡單場景中,很直觀地觀察到我們的CSGO更遵循文本提示。這是因為得益于內(nèi)容和風格特征的顯式解耦,風格圖像僅注入風格信息而不暴露內(nèi)容。此外,在復雜場景中,得益于精心設(shè)計的風格特征注入模塊,CSGO在轉(zhuǎn)換文本含義的同時實現(xiàn)了最佳的風格控制。如下圖7所示,展示了更多結(jié)果。
文本編輯驅(qū)動的風格化合成。 所提出的CSGO支持文本編輯驅(qū)動的風格控制。如下圖8所示,在風格遷移過程中,我們保持原始內(nèi)容圖像的語義和布局,同時允許對文本提示詞進行簡單編輯。上述優(yōu)秀結(jié)果表明,所提出的CSGO是一個強大的風格控制框架。
消融研究
內(nèi)容控制和風格控制。我們討論了兩種特征注入方法的影響,如下圖9所示。內(nèi)容圖像必須通過ControlNet注入以保持布局,同時保留語義信息。如果內(nèi)容特征僅通過IP-Adapter注入到CSGO框架中(下圖9(1)),則內(nèi)容特征只保留語義信息。
引入ControlNet注入后,內(nèi)容保留的質(zhì)量得到了提升,如下圖12所示。然而,如果風格特征僅注入到基礎(chǔ)UNet中而不通過ControlNet注入,這會削弱生成圖像的風格,這可以在上圖9(2)和(3)的對比中觀察到。因此,所提出的CSGO在ControlNet分支中預先注入風格特征,以進一步融合風格特征,從而增強遷移效果。
風格圖像投影層。 風格圖像投影層可以有效地從原始embedding中提取風格特征。我們探索了普通線性層和重采樣器結(jié)構(gòu),實驗結(jié)果如下圖10所示。使用重采樣器結(jié)構(gòu)能夠捕捉到更詳細的風格特征,同時避免內(nèi)容泄露。
Token數(shù)量。 探討了風格投影層中token數(shù)量t對風格遷移和文本驅(qū)動風格合成結(jié)果的影響。實驗結(jié)果如上圖10所示,隨著t的增加,風格控制逐漸變得更好。這與我們的預期一致,即t影響特征提取的質(zhì)量。更大的t意味著投影層能夠提取出更豐富的風格特征。
CFG尺度的影響。 無分類器引導增強了文本到圖像模型的能力。所提出的CSGO同樣受CFG尺度強度的影響。正如上圖13所示,引入CFG增強了風格遷移效果。
結(jié)論
首先提出了一個用于構(gòu)建內(nèi)容-風格-風格化圖像三元組的流程?;诖肆鞒?,我們構(gòu)建了第一個大規(guī)模風格遷移數(shù)據(jù)集IMAGStyle,該數(shù)據(jù)集包含21萬個圖像三元組,涵蓋了廣泛的風格場景。為了驗證IMAGStyle對風格遷移的影響,我們提出了CSGO,這是一種簡單但高度有效的端到端訓練風格遷移框架。我們驗證了所提出的CSGO可以在統(tǒng)一框架下同時執(zhí)行圖像風格遷移、文本驅(qū)動的風格合成和文本編輯驅(qū)動的風格合成任務。大量實驗驗證了IMAGStyle和CSGO對風格遷移的有益效果。我們希望我們的工作能夠激勵研究社區(qū)進一步探索風格化研究。
未來工作。 盡管所提出的數(shù)據(jù)集和框架已經(jīng)取得了非常先進的性能,但仍有改進的空間。由于時間和計算資源的限制,我們僅構(gòu)建了21萬個數(shù)據(jù)三元組。我們相信,通過擴大數(shù)據(jù)集的規(guī)模,CSGO的風格遷移質(zhì)量將會更好。同時,所提出的CSGO框架是一個基礎(chǔ)版本,僅驗證了生成風格化數(shù)據(jù)集對風格遷移的有益效果。我們認為,通過優(yōu)化風格和內(nèi)容特征提取及融合方法,可以進一步提高風格遷移的質(zhì)量。
本文轉(zhuǎn)自 AI生成未來 ,作者:Peng Xing等
