破解LoRA融合密碼!無(wú)需訓(xùn)練奪得SOTA!K-LoRA巧用Top-K策略,讓風(fēng)格與主體完美融合
論文鏈接:https://arxiv.org/pdf/2502.18461
項(xiàng)目鏈接:https://k-lora.github.io/K-LoRA.io/
亮點(diǎn)直擊
- 提出了K-LoRA,一種簡(jiǎn)單而有效的優(yōu)化技術(shù),能夠無(wú)縫融合內(nèi)容和風(fēng)格LoRA,從而在保留細(xì)節(jié)的同時(shí)生成任何主題的任意風(fēng)格。
- 本文的方法用戶友好,無(wú)需重新訓(xùn)練,可直接應(yīng)用于現(xiàn)有的LoRA權(quán)重。它在多樣化的圖像風(fēng)格化任務(wù)中表現(xiàn)出色,超越了現(xiàn)有方法。
總結(jié)速覽
解決的問(wèn)題
- 風(fēng)格與內(nèi)容的同時(shí)保留:現(xiàn)有方法在融合不同LoRA(Low-Rank Adaptation)時(shí),難以同時(shí)有效保留原始圖像的主體內(nèi)容和風(fēng)格細(xì)節(jié)。
- 額外訓(xùn)練需求:現(xiàn)有方法通常需要手動(dòng)調(diào)整超參數(shù)或進(jìn)行額外的訓(xùn)練,增加了復(fù)雜性和計(jì)算成本。
提出的方案
- K-LoRA方法:提出了一種無(wú)需額外訓(xùn)練的LoRA融合方法,稱為K-LoRA。該方法在每個(gè)注意力層中,通過(guò)比較待融合的每個(gè)LoRA的Top-K元素,選擇最優(yōu)的LoRA進(jìn)行融合。
- Top-K選擇機(jī)制:在注意力層的前向傳播過(guò)程中,引入Top-K選擇過(guò)程,以確定每個(gè)位置最合適的注意力組件。
- 縮放因子應(yīng)用:在融合過(guò)程中應(yīng)用縮放因子,以強(qiáng)調(diào)風(fēng)格和內(nèi)容在擴(kuò)散過(guò)程中的不同作用。
應(yīng)用的技術(shù)
- LoRA(Low-Rank Adaptation):利用LoRA在圖像生成任務(wù)中的高效微調(diào)能力,獨(dú)立訓(xùn)練風(fēng)格和內(nèi)容特征。
- 擴(kuò)散模型:結(jié)合擴(kuò)散模型的時(shí)間步長(zhǎng),將LoRA的注意力層按時(shí)間步長(zhǎng)融入模型,以評(píng)估其對(duì)性能的影響。
- Top-K選擇:在每個(gè)注意力層中,通過(guò)Top-K選擇機(jī)制,選擇最具代表性的特征進(jìn)行融合。
達(dá)到的效果
- 有效融合風(fēng)格與內(nèi)容:K-LoRA能夠有效融合原始LoRA學(xué)習(xí)到的主體和風(fēng)格信息,生成圖像中同時(shí)保留風(fēng)格細(xì)節(jié)和主體特征。
- 無(wú)需額外訓(xùn)練:該方法無(wú)需額外訓(xùn)練,簡(jiǎn)化了操作流程,提高了用戶友好性。
- 性能提升:在定性和定量結(jié)果上,K-LoRA均優(yōu)于現(xiàn)有的基于訓(xùn)練的方法,顯著提升了融合LoRA的性能。
方法
K-LoRA
在[26]中指出,在使用LoRA進(jìn)行微調(diào)時(shí),使用較少的關(guān)鍵元素可以實(shí)現(xiàn)與原始方法相同的生成結(jié)果。然而,作者并未在圖像生成領(lǐng)域提供相關(guān)實(shí)驗(yàn)來(lái)解釋這一點(diǎn)。本文首先嘗試?yán)眠@種方法,通過(guò)類似于Magmax的方法,將值較小的元素賦值為零。通過(guò)這種方式修改矩陣元素所得到的結(jié)果與[26, 30]的結(jié)果相似,因?yàn)槟P臀茨苷_解釋其先前學(xué)習(xí)到的概念,導(dǎo)致圖像生成質(zhì)量欠佳。
鑒于直接修改注意力元素的復(fù)雜性和局限性,一個(gè)問(wèn)題隨之而來(lái):能否在去噪過(guò)程中利用LoRA矩陣的稀疏特性?目標(biāo)是找到一種替代方法,在不修改原始LoRA權(quán)重的情況下,為每一步或每一層找到一個(gè)良好的權(quán)重選擇方法和精確的LoRA定位?;诙郘oRA組合,隨機(jī)將內(nèi)容LoRA注意力層應(yīng)用于擴(kuò)散步驟,通過(guò)使用x%的注意力層來(lái)影響對(duì)象,以觀察生成結(jié)果。如下圖3(a)所示,發(fā)現(xiàn)當(dāng)x > 50時(shí),結(jié)果與原始模型幾乎無(wú)法區(qū)分。然而,當(dāng)x < 25時(shí),模型維持原始個(gè)性化概念的能力顯著下降。
受近期研究[20, 29, 35]的啟發(fā),本文進(jìn)一步擴(kuò)展了下圖2中的實(shí)驗(yàn),發(fā)現(xiàn)將風(fēng)格LoRA應(yīng)用于較早的時(shí)間步對(duì)原始對(duì)象的重建有顯著影響,而在較晚的時(shí)間步應(yīng)用則可以保留風(fēng)格信息而不影響原始對(duì)象。對(duì)于內(nèi)容LoRA,在較早的時(shí)間步應(yīng)用比在較晚的時(shí)間步應(yīng)用效果顯著更好。
上述分析促使通過(guò)自適應(yīng)選擇每個(gè)注意力層的LoRA模塊來(lái)實(shí)現(xiàn)生成對(duì)象和風(fēng)格的融合。根據(jù)發(fā)現(xiàn)(i),選擇策略應(yīng)保留整體對(duì)象和風(fēng)格信息。此外,根據(jù)發(fā)現(xiàn)(ii),生成過(guò)程應(yīng)通過(guò)適當(dāng)安排對(duì)象和風(fēng)格組件來(lái)實(shí)現(xiàn)。即在早期擴(kuò)散步驟中,模型應(yīng)更專注于對(duì)象重建,同時(shí)引入風(fēng)格紋理;而在后期步驟中,最好通過(guò)細(xì)微的對(duì)象細(xì)節(jié)來(lái)優(yōu)化風(fēng)格。本文提出了K-LoRA,如下圖4所示,它可以自適應(yīng)地選擇適當(dāng)?shù)腖oRA層來(lái)融合學(xué)習(xí)到的主體和風(fēng)格。
首先,對(duì)LoRA層中的每個(gè)元素取絕對(duì)值,以確定某個(gè)值是否在生成過(guò)程中起到重要作用。
其中,Top-K 返回最大K個(gè)值的索引。對(duì)于K的選擇,注意到 LoRA 訓(xùn)練過(guò)程中的秩數(shù)在一定程度上反映了矩陣中包含的信息量。因此,選擇的K與每個(gè) LoRA 的秩保持一致:
為了更有效地利用發(fā)現(xiàn)(ii),并讓對(duì)象和風(fēng)格在不同階段發(fā)揮各自的作用,同時(shí)確保從以對(duì)象為中心的表示平滑過(guò)渡到以風(fēng)格為中心的表示,本文引入了一個(gè)縮放因子s 。該因子s直接應(yīng)用于 Top-K 選擇過(guò)程,在生成的早期階段增強(qiáng)對(duì)象內(nèi)容,并在后期逐步強(qiáng)調(diào)風(fēng)格。
為了更好地解釋權(quán)重選擇過(guò)程,在下圖6中展示了選擇比例,其中對(duì)象和風(fēng)格無(wú)縫地相互滲透和融合。第一部分主要關(guān)注對(duì)象,同時(shí)融入少量風(fēng)格,而后半部分則主要強(qiáng)調(diào)風(fēng)格,同時(shí)保留對(duì)象的微妙存在,這進(jìn)一步證實(shí)了我們的關(guān)鍵發(fā)現(xiàn)。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集:遵循ZipLoRA的慣例,對(duì)于通過(guò)本地訓(xùn)練獲得的LoRA,從DreamBooth數(shù)據(jù)集中選擇了一組多樣化的內(nèi)容圖像,每組包含4-5張給定主題的圖像。對(duì)于風(fēng)格,我們選擇了StyleDrop作者提供的先前數(shù)據(jù)集,并包括一些經(jīng)典杰作和現(xiàn)代創(chuàng)新風(fēng)格。對(duì)于每種風(fēng)格,僅使用單張圖像進(jìn)行訓(xùn)練。
結(jié)果
定量比較:隨機(jī)選擇了18組對(duì)象和風(fēng)格的組合,每組包含10張圖像進(jìn)行定量比較。使用CLIP來(lái)衡量風(fēng)格相似性,并通過(guò)CLIP分?jǐn)?shù)和DINO分?jǐn)?shù)計(jì)算主體相似性。將本文的方法與社區(qū)中流行的方法以及最先進(jìn)的方法進(jìn)行比較,包括直接算術(shù)融合、聯(lián)合訓(xùn)練、ZipLoRA和B-LoRA。結(jié)果如下表1所示??梢杂^察到,與之前的方法相比,本文的方法顯著提高了主體相似性指標(biāo),同時(shí)也實(shí)現(xiàn)了令人滿意的風(fēng)格相似性。
定性比較:為了確保公平評(píng)估,本階段的所有實(shí)驗(yàn)均使用SD進(jìn)行,結(jié)果如下圖7所示。直接設(shè)置融合比例為1:2而不進(jìn)行大量參數(shù)調(diào)整或種子選擇時(shí),融合LoRA的方法難以保留對(duì)象的原始形狀、顏色和風(fēng)格特征。B-LoRA主要捕捉原始圖像中對(duì)象的顏色和外觀,但往往導(dǎo)致顏色過(guò)擬合,使得生成圖像中難以區(qū)分原始對(duì)象。在ZipLoRA和聯(lián)合訓(xùn)練方法中,雖然融入了某些風(fēng)格紋理,但模型傾向于關(guān)注風(fēng)格的背景元素而非風(fēng)格本身,導(dǎo)致成功率較低。相比之下,本文的方法通過(guò)生成更高質(zhì)量的輸出圖像并在廣泛的種子變化中表現(xiàn)穩(wěn)定,解決了這些局限性。此外,本文的方法無(wú)需額外訓(xùn)練或參數(shù)微調(diào)。
隨機(jī)選擇了22組結(jié)果供用戶進(jìn)行比較評(píng)估。每組包括ZipLoRA、B-LoRA和本文的方法的輸出,以及訓(xùn)練對(duì)象和風(fēng)格的參考圖像。用戶被要求確定哪種方法最能同時(shí)保留風(fēng)格和對(duì)象。結(jié)果顯示在下表2中,表明本文的方法最受青睞。此外,我們還咨詢了GPT-4o進(jìn)行類似評(píng)估。本文的方法在GPT-4o評(píng)估中顯示出顯著優(yōu)勢(shì),進(jìn)一步反映了我們方法的優(yōu)越性。
消融分析
Top-K選擇:本文進(jìn)行了兩項(xiàng)實(shí)驗(yàn)來(lái)驗(yàn)證Top-K選擇方法的有效性:固定選擇和隨機(jī)選擇。發(fā)現(xiàn)(ii)提出了一種直接的方法:如果縮放因子大于1,則選擇內(nèi)容LoRA;否則,選擇風(fēng)格LoRA。這種方法稱之為“固定選擇”,作為測(cè)試Top-K選擇方法消融的有用基線。它也可以被視為多LoRA組合的擴(kuò)展和改進(jìn),在某些場(chǎng)景中顯示出良好的效果。然而,在特定的風(fēng)格LoRA條件下,這種方法可能會(huì)導(dǎo)致對(duì)象模糊或內(nèi)容外觀的改變,如圖9所示。
為了確保模塊在指定的前向?qū)影才胖斜憩F(xiàn)一致,而不是依賴于任意配置,進(jìn)行了一項(xiàng)稱為“隨機(jī)選擇”的對(duì)照實(shí)驗(yàn),使用隨機(jī)種子。在此設(shè)置中,模型使用一個(gè)隨機(jī)數(shù),有1/3的概率選擇內(nèi)容注意力,2/3的概率選擇風(fēng)格注意力。如圖9所示,在這些隨機(jī)選擇條件下,生成的圖像通常僅保留單一的對(duì)象特征或風(fēng)格特征,或者完全無(wú)法保留兩者。這一結(jié)果進(jìn)一步驗(yàn)證了我們的發(fā)現(xiàn)(ii),突出了對(duì)象和風(fēng)格組件在早期和后期擴(kuò)散時(shí)間步中的不同作用。
此外,評(píng)估了不同K值對(duì)生成圖像的影響,如下圖8所示。在Top-K方法中,系統(tǒng)地改變了K的值。當(dāng)K較小時(shí),風(fēng)格和對(duì)象的特征都不夠突出。隨著K的增加,這一問(wèn)題逐漸改善。然而,如果K過(guò)大,風(fēng)格可能無(wú)法保留,對(duì)象的形狀也可能發(fā)生顯著扭曲。
縮放因子:為了評(píng)估縮放因子的有效性,將其移除,僅關(guān)注原始的Top-K方法。在第一個(gè)實(shí)驗(yàn)中,如下圖9所示,分析表明,雖然在某些條件下僅使用Top-K可以產(chǎn)生令人滿意的結(jié)果,但擴(kuò)大實(shí)驗(yàn)范圍會(huì)發(fā)現(xiàn)對(duì)象失真和風(fēng)格丟失的情況。為了進(jìn)一步評(píng)估縮放因子中的重要性,我們測(cè)試了兩個(gè)來(lái)源不同的LoRA模型的性能,其特征是元素和的顯著差異。如圖9底部所示,Top-K選擇未能準(zhǔn)確捕捉風(fēng)格,而固定選擇中對(duì)象和風(fēng)格的融合明顯弱于本文的方法。
總之,移除這兩個(gè)模塊會(huì)導(dǎo)致生成性能下降,突出了它們對(duì)模型整體有效性的關(guān)鍵貢獻(xiàn)。
結(jié)論
K-LoRA,它能夠無(wú)縫融合獨(dú)立訓(xùn)練的風(fēng)格和主體LoRA模型。K-LoRA在保留原始風(fēng)格復(fù)雜細(xì)節(jié)的同時(shí),實(shí)現(xiàn)了精確的對(duì)象微調(diào)。本文的方法通過(guò)Top-K選擇和縮放因子,有效利用了對(duì)象和風(fēng)格LoRA在每一步擴(kuò)散中的貢獻(xiàn),最大化地利用了原始權(quán)重,并實(shí)現(xiàn)了無(wú)需重新訓(xùn)練或手動(dòng)超參數(shù)調(diào)整的精確風(fēng)格融合。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
