風格遷移重大突破!西湖大學等提出StyleStudio攻克「過擬合」難題 | CVPR 2025
近年來,隨著擴散模型的發(fā)展,風格遷移技術(shù)在文本引導的圖像生成任務中取得了顯著突破。
然而,盡管現(xiàn)有方法可以實現(xiàn)優(yōu)秀的風格化效果,但其對文本信息的精準控制仍存在明顯不足,大多數(shù)方法在融合風格圖像與文本描述時,往往會讓生成結(jié)果過度依賴參考風格圖像,導致對文本內(nèi)容的響應能力下降。
「風格主導的失衡問題」使得用戶在輸入文本提示時難以精準控制圖像的顏色、結(jié)構(gòu)或其他細節(jié)屬性,還可能引入不穩(wěn)定因素,例如棋盤格效應,進一步限制了其實用性。
為了解決這些問題,西湖大學、復旦大學、南洋理工大學、港科廣的研究人員提出了StyleStudio,一種無需額外訓練即可增強文本控制能力、提升風格選擇靈活性,并改善圖像穩(wěn)定性的方法。
論文鏈接:https://arxiv.org/abs/2412.08503
項目地址:https://stylestudio-official.github.io/
Github地址:https://github.com/Westlake-AGI-Lab/StyleStudio
Demo地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio
研究人員還在Huggingface上提供了在線Demo,點擊即可體驗。
目前,該研究成功中稿CVPR 2025,相關(guān)代碼已經(jīng)開源。
風格遷移的挑戰(zhàn):如何克服「過擬合」問題
在文本驅(qū)動的風格遷移任務中,仍然存在兩個關(guān)鍵的挑戰(zhàn),極大限制了生成結(jié)果的靈活性和穩(wěn)定性。
文本與風格的對齊問題當前的風格遷移方法在處理文本與風格圖像的融合時,常常面臨文本與圖像條件之間的對齊難題。
傳統(tǒng)方法往往會過度依賴參考風格圖像,導致風格特征的遷移失去精確控制,進而使得生成的圖像與文本條件不完全匹配,文本與風格之間的失調(diào)不僅削弱了生成圖像的文本響應能力,也使得模型在面對復雜文本提示時缺乏適應性。
棋盤格現(xiàn)象在風格遷移過程中,生成圖像中經(jīng)常會出現(xiàn)布局不穩(wěn)定或重復圖案的問題,例如棋盤格效應。
這種現(xiàn)象會顯著影響生成圖像的視覺質(zhì)量,特別是在大范圍的風格遷移任務中,布局的連貫性和穩(wěn)定性往往難以保證。這不僅損害了圖像的美學效果,也限制了風格遷移技術(shù)在實際應用中的穩(wěn)定性和可靠性。
StyleStudio的創(chuàng)新解決方案
針對上述問題,研究人員提出了幾項核心創(chuàng)新,旨在提升文本驅(qū)動的風格遷移模型的靈活性與穩(wěn)定性:
跨模態(tài)自適應實例正則化技術(shù)(Cross-modal AdaIN)
傳統(tǒng)基于適配器(Adapter-Based)的風格遷移方法通過簡單的加權(quán)求和方式,將文本與風格圖像的條件信息進行融合,但這種方式會導致風格過擬合,最終圖像的文本對齊能力下降。
為了解決這一問題,研究人員提出了跨模態(tài)自適應實例正則化(Cross-modal AdaIN),在經(jīng)典AdaIN技術(shù)的基礎(chǔ)上進行了創(chuàng)新,適用于文本驅(qū)動的風格遷移任務。
該方法的核心思想是:先分別提取文本和風格圖像的特征并生成獨立的特征網(wǎng)格,然后借助AdaIN技術(shù),將文本特征與風格特征進行歸一化融合,使得風格圖像的屬性能夠自適應地調(diào)節(jié)文本特征,從而有效保留風格的整體性,同時確保文本信息的準確傳達,最終生成符合文本要求的風格化圖像。
該技術(shù)的優(yōu)勢在于:解決了傳統(tǒng)加權(quán)求和方法中存在的文本與風格信息沖突問題,使得兩者能夠在同一個嵌入空間中和諧共存。
更重要的是,這一方法不依賴額外的訓練過程,即使在不改變現(xiàn)有模型架構(gòu)的情況下,可以無縫替代傳統(tǒng)的適配器方法,避免了復雜的超參數(shù)調(diào)節(jié),顯著提升了生成圖像的質(zhì)量和準確性。
教師模型穩(wěn)定生成
在圖像生成任務中,布局穩(wěn)定性對最終的視覺效果至關(guān)重要。研究人員發(fā)現(xiàn),在風格遷移的過程中,常見的一個問題是棋盤格效應,即生成的圖像出現(xiàn)不自然的重復圖案,從而影響圖像的整體美感。
為了應對這一挑戰(zhàn),研究人員提出了一個一種即插即用(plug and play)的方法,利用風格遷移方法中對應的Stable Diffusion模型作為教師模型,在生成過程中提供布局指導。
具體來說,這種方法通過教師模型來引導風格化圖像生成的過程:在每一個去噪步驟中,用教師模型生成的注意力圖替代原本風格化圖像的注意力圖,從而確保圖像的空間結(jié)構(gòu)特征穩(wěn)定并且可以實現(xiàn)跨風格圖一致。
在實驗中,可以觀察到兩個重要現(xiàn)象:
首先,相較于替換交叉注意力圖,用自注意力圖進行替換能夠更好地穩(wěn)定圖像布局,并且保證了在跨風格圖像生成過程中布局的一致性;
其次,自注意力圖的替換只需要在去噪的初期進行,若教師模型的影響延續(xù)過長,則可能會導致風格特征的喪失。
基于風格圖像的無分類器生成引導(Style-CFG)
在風格遷移中,當參考風格圖像融合了多種不同的風格元素(如卡通風格與樹葉紋理或夜景元素的結(jié)合)時,往往會出現(xiàn)風格模糊的問題。
這種情況下,現(xiàn)有的方法往往難以有效區(qū)分和控制不同風格元素,導致生成的圖像中風格混雜,無法精確突出所需的特定風格特征。
為了應對這一挑戰(zhàn),研究人員借鑒了擴散模型中常用的無分類器引導(CFG)技術(shù),提出了基于風格的無分類器引導(Style-Based Classifier-Free Guidance, SCFG)。該方法通過對多種風格元素進行選擇性控制,允許用戶明確指定需要強調(diào)的風格特征,并有效過濾掉不相關(guān)或沖突的元素,從而實現(xiàn)更精確的風格遷移。
舉例來說,若參考圖像中包含卡通風格與落葉的元素,Style-CFG可以確保最終生成的圖像僅保留卡通風格,同時去除落葉部分,避免風格元素的沖突和模糊,提供了一種靈活且可控的風格遷移機制,使得圖像生成過程中的風格調(diào)整更加精準、符合用戶需求。
實驗結(jié)果
實驗結(jié)果表明,StyleStudio模型能夠在多個方面超越現(xiàn)有的風格遷移技術(shù):在文本對齊方面,StyleStudio能夠精確捕捉文本中指定的風格屬性,如顏色信息,確保生成圖像忠實于文本提示。在圖像穩(wěn)定性方面,模型有效避免了內(nèi)容泄漏和布局不穩(wěn)定等問題。
針對復雜的文本條件,StyleStudio同樣展現(xiàn)出了強大的處理能力,能夠在細致的文本描述下實現(xiàn)精確的風格和內(nèi)容融合。
StyleStudio中提出的基于風格圖像的無分類器生成引導(Style-Based Classifier-Free Guidance,SCFG)也經(jīng)過了充分的實驗驗證,通過一系列實驗評估了該方法的有效性,并展示了相對于傳統(tǒng)的無分類器指導方法的顯著優(yōu)勢。
定量實驗與用戶調(diào)研實驗表明,StyleStudio在多項指標上超越了傳統(tǒng)方法,展現(xiàn)了其強大的通用性和穩(wěn)健性。
結(jié)論與展望
StyleStudio的提出代表了文本驅(qū)動風格遷移技術(shù)的一次重要進步,尤其在文本控制能力、風格選擇性遷移和圖像生成穩(wěn)定性等方面取得了顯著的技術(shù)突破。該方法不僅在學術(shù)領(lǐng)域具有重要價值,也為數(shù)字藝術(shù)創(chuàng)作、廣告設計等行業(yè)提供了強大的技術(shù)支持。
更為重要的是,StyleStudio能夠在無需額外訓練的條件下直接應用,極大地降低了使用門檻,并已在多個風格遷移任務中取得優(yōu)異成績。