為Stable Diffusion模型瘦身并達(dá)到SOTA!LAPTOP-Diff:剪枝蒸餾新高度(哈工大&OPPO) 精華
文章鏈接:??https://arxiv.org/pdf/2404.11098??
在AIGC時代,對低成本甚至設(shè)備端應(yīng)用擴(kuò)散模型的需求日益增加。在壓縮Stable Diffusion模型(SDM)方面,提出了幾種方法,其中大多數(shù)利用手工設(shè)計(jì)的層移除方法來獲得更小的U-Net,同時利用知識蒸餾來恢復(fù)網(wǎng)絡(luò)性能。然而,這種手工設(shè)計(jì)的層移除方式效率低下,缺乏可擴(kuò)展性和泛化性,并且在重新訓(xùn)練階段使用的特征蒸餾面臨著不平衡問題,即一些數(shù)值顯著的特征損失項(xiàng)在整個重新訓(xùn)練過程中占主導(dǎo)地位。
為此,本文提出了用于壓縮擴(kuò)散模型(LAPTOP-Diff)的層剪枝和歸一化蒸餾方法。
- 引入了層剪枝方法來自動壓縮SDM的U-Net,并提出了一個有效的一次性剪枝準(zhǔn)則,其一次性性能由其良好的可加性特性保證,超越了其他層剪枝和手工設(shè)計(jì)的層移除方法;
- 提出了歸一化特征蒸餾用于重新訓(xùn)練,緩解了不平衡問題。
利用所提出的LAPTOP-Diff,壓縮了SDXL和SDM-v1.5的U-Net,以獲得最先進(jìn)的性能,即使在剪枝比率為50%時,PickScore僅下降了最小的4.0%,而比較方法的最小PickScore下降為8.2%。
引言
在最近幾年,文本到圖像(T2I)合成的生成建模經(jīng)歷了快速進(jìn)展。特別是,擴(kuò)散模型以其生成高分辨率、照片逼真且多樣化的圖像的能力而出現(xiàn)。在所有擴(kuò)散模型中,Stable Diffusion模型(SDM)是最具影響力的一個,在AIGC社區(qū)中扮演著至關(guān)重要的角色,作為一個開源框架,為廣泛的下游應(yīng)用提供了基礎(chǔ)。
然而,SDM卓越的性能伴隨著其相當(dāng)大的內(nèi)存消耗和延遲,使其在個人計(jì)算機(jī)甚至移動設(shè)備上的部署受到嚴(yán)重限制。此外,最近版本的SDM系列,如SDXL,往往會增加更多的參數(shù),導(dǎo)致內(nèi)存消耗和延遲進(jìn)一步增加。
為了減少SDM的推理預(yù)算,提出了幾種方法,即降噪步驟的減少、高效的架構(gòu)設(shè)計(jì)、結(jié)構(gòu)剪枝、量化和硬件優(yōu)化。這些方法通常是相互正交的。
在這些方法中,高效的架構(gòu)設(shè)計(jì)和結(jié)構(gòu)剪枝是被低估的。一方面,先前的高效架構(gòu)設(shè)計(jì)方法通常通過大量的經(jīng)驗(yàn)研究來識別SDM的U-Net中不重要的層,然后移除它們以獲得更小更快的網(wǎng)絡(luò)。這種手工設(shè)計(jì)的方式通常無法達(dá)到最佳性能,并且缺乏可擴(kuò)展性和泛化性。
注意到,這些手工設(shè)計(jì)的層移除方法可以被自動方案中的層剪枝方法所替代,以獲得更好的可擴(kuò)展性和性能。另一方面,先前的SDM結(jié)構(gòu)剪枝方法側(cè)重于精細(xì)的剪枝,即剪枝參數(shù)矩陣的行和列。然而,有研究表明,與更細(xì)粒度的結(jié)構(gòu)剪枝相比,粗粒度的層剪枝通常在減少模型延遲方面效率更低,并且有趣的是,層剪枝有可能達(dá)到與更細(xì)粒度的結(jié)構(gòu)剪枝甚至更好的性能?;谝陨蟽牲c(diǎn),層剪枝方法值得研究。
在層移除或剪枝之后,SDMs通常無法直接生成清晰的圖像。先前的方法利用知識蒸餾來重新訓(xùn)練被剪枝的網(wǎng)絡(luò)以恢復(fù)其性能。先前的方法通常利用三種類型的目標(biāo),即常規(guī)訓(xùn)練目標(biāo)、對數(shù)蒸餾(輸出蒸餾)目標(biāo)和特征蒸餾目標(biāo)。在這三個部分中,特征蒸餾是關(guān)鍵部分。然而,進(jìn)一步的檢查發(fā)現(xiàn),先前基于蒸餾的重新訓(xùn)練方法存在一個不平衡問題,即一些特征損失項(xiàng)在整個重新訓(xùn)練過程中占主導(dǎo)地位,導(dǎo)致性能下降。
本文提出了用于壓縮擴(kuò)散模型的層剪枝和歸一化蒸餾方法(LAPTOP-Diff),將SDM的高效架構(gòu)設(shè)計(jì)和結(jié)構(gòu)剪枝推向自動化、可擴(kuò)展性和更大性能的領(lǐng)域。從組合優(yōu)化問題的高角度來闡述層剪枝問題,并以簡單而有效的一次性方式解決它。
受益于這種視角,我們探索了幾種其他可能的剪枝標(biāo)準(zhǔn),并通過消融研究,發(fā)現(xiàn)一次性層剪枝標(biāo)準(zhǔn)的有效性來自其良好的可加性屬性。此外,確定了先前基于蒸餾的重新訓(xùn)練方法存在一個不平衡問題,即一些特征損失項(xiàng)在整個重新訓(xùn)練過程中占主導(dǎo)地位,通過提出的歸一化特征蒸餾來緩解這個問題。貢獻(xiàn)總結(jié)如下:
- 探索了層剪枝在SDMs上的一個被低估的結(jié)構(gòu)剪枝方法,并提出了一個有效的一次性剪枝標(biāo)準(zhǔn),其一次性性能由其良好的可加性屬性保證,超越了其他層剪枝和手工設(shè)計(jì)的層移除方法,將先前基于層移除的高效架構(gòu)設(shè)計(jì)方法推向自動化、可擴(kuò)展性和更大性能。
- 通過提出的歸一化特征蒸餾方法緩解了先前基于蒸餾的重新訓(xùn)練存在的不平衡問題。
- 提出的LAPTOP-Diff在不同SDMs和剪枝比率下大大超越了基于層移除的高效架構(gòu)設(shè)計(jì)方法,在不同SDMs和剪枝比率下具有更好的網(wǎng)絡(luò)性能。
相關(guān)工作
擴(kuò)散模型
擴(kuò)散模型是一種利用迭代去噪過程來合成數(shù)據(jù)的生成模型。在文本到圖像(T2I)合成領(lǐng)域,諸如DALL·E、Imagen、Deepfloyd IF和Stable Diffusion等擴(kuò)散模型展示了它們生成高分辨率、照片逼真且多樣化圖像的顯著能力。在各種擴(kuò)散模型中,Stable Diffusion在學(xué)術(shù)界和工業(yè)界都是最具影響力的一個。Stable Diffusion模型(SDM)是一種在低維潛在空間執(zhí)行迭代去噪過程,然后通過VAE解碼器將潛在表示轉(zhuǎn)換為像素空間圖像的潛在擴(kuò)散模型。SDM系列還有一個更新版本,即SDXL,在更高分辨率的1024×1024下展示出卓越的圖像生成質(zhì)量。
然而,擴(kuò)散模型令人印象深刻的性能伴隨著相當(dāng)大的內(nèi)存消耗和延遲。為了減少SDM的模型預(yù)算,已經(jīng)探索了幾種方法,例如,減少去噪步驟、量化、硬件優(yōu)化、高效的架構(gòu)設(shè)計(jì)和結(jié)構(gòu)剪枝。
SDM的高效架構(gòu)設(shè)計(jì)
與許多其他減少SDM模型預(yù)算的方法正交,高效的架構(gòu)設(shè)計(jì)主要旨在設(shè)計(jì)原始SDM U-Net的有效子結(jié)構(gòu),因?yàn)榇蟛糠諷DM的內(nèi)存消耗和延遲來自其U-Net。這種類型的先前方法通常通過大量的經(jīng)驗(yàn)研究來識別SDM U-Net中不重要的層,并移除它們以獲得更小更快的網(wǎng)絡(luò)。
例如,BK-SDM通過層移除為SDM-v1或SDM-v2手工設(shè)計(jì)了3個不同大小的高效U-Net,部分遵循了對BERT模型進(jìn)行壓縮的經(jīng)驗(yàn)結(jié)論。SSD-1B和Segmind-Vega(在本文的其余部分將它們簡稱為SSD和Vega)通過人類評估識別不重要的層,然后施加層移除,為SDXL手工設(shè)計(jì)了2個不同大小的高效U-Net。KOALA是從BK-SDM衍生出來的,也通過層移除為SDXL手工設(shè)計(jì)了2個不同大小的高效U-Net。
這種手工設(shè)計(jì)的方式通常無法達(dá)到最佳性能,并且缺乏可擴(kuò)展性和泛化性。我們注意到這些基于層移除的方法可以歸類為手工設(shè)計(jì)的層剪枝。因此,我們提出這些手工設(shè)計(jì)的層移除方法可以被層剪枝方法在自動方案中替代,以獲得更好的可擴(kuò)展性和性能。
層剪枝
層剪枝,也稱為深度剪枝,是一種旨在自動評估和移除不重要層的結(jié)構(gòu)剪枝方法。與其他結(jié)構(gòu)剪枝方法不同,由于其粗粒度的特性,層剪枝受到的關(guān)注較少。相比于那些細(xì)粒度的結(jié)構(gòu)剪枝方法,層剪枝通常被認(rèn)為效果較差。然而,有研究表明,與細(xì)粒度的結(jié)構(gòu)剪枝方法相比,粗粒度的層剪枝通常更有效地減少模型的延遲,并且有可能實(shí)現(xiàn)相同甚至更好的性能。
雖然已經(jīng)提出了幾種層剪枝方法,但是沒有一種方法是從組合優(yōu)化問題的角度來看待層剪枝?;诜群突谔├照归_的剪枝是常見的基準(zhǔn)線?;诜鹊膶蛹糁κ褂脤又袇?shù)的幅度總和作為層重要性標(biāo)準(zhǔn),基于泰勒展開的層剪枝使用損失函數(shù)的一階泰勒展開作為層重要性標(biāo)準(zhǔn)。在通過不同的重要性標(biāo)準(zhǔn)評估每個層的重要性后,先前的層剪枝方法選擇修剪最不重要的層。
本文從更高的角度將層剪枝問題描述為組合優(yōu)化問題,并以簡單而有效的一次性方式解決了它,形成了一個有效的一次性剪枝標(biāo)準(zhǔn),超越了其他層剪枝和手工設(shè)計(jì)的層移除方法。此外,通過這樣的視角,能夠確定一次性層剪枝標(biāo)準(zhǔn)的有效性來自于其良好的可加性屬性。
基于蒸餾的重新訓(xùn)練
在層移除或剪枝之后,SDMs通常無法直接生成清晰的圖像。先前的方法通過利用知識蒸餾來重新訓(xùn)練被剪枝的SDMs以恢復(fù)其性能。在重新訓(xùn)練階段使用的知識蒸餾通常包括三部分,即常規(guī)訓(xùn)練目標(biāo)、對數(shù)蒸餾(輸出蒸餾)目標(biāo)和特征蒸餾目標(biāo)。在這三個部分中,特征蒸餾是最有效的。然而,在實(shí)踐中,發(fā)現(xiàn)了基于蒸餾的重新訓(xùn)練過程中存在一個不平衡問題。為此提出了一種簡單而有效的重新加權(quán)策略來緩解這個問題。
方法論
初步
先前的方法重新訓(xùn)練剪枝的SDM U-Net使用了三個目標(biāo),即任務(wù)損失、對數(shù)蒸餾(輸出蒸餾)損失和特征蒸餾損失:
一次性層剪枝
目標(biāo)(2)的上界。根據(jù)三角不等式,我們得到了目標(biāo)(2)的上界。
因此,我們?yōu)槟繕?biāo)(2)找到了一個替代目標(biāo)。
最終,借助假設(shè)(5),我們可以通過優(yōu)化其近似的目標(biāo)來優(yōu)化目標(biāo)(4)。
使用目標(biāo)(6)來代替原始目標(biāo)(2)意味著一種有趣的屬性,稱為可加性,即網(wǎng)絡(luò)受到多個擾動引起的輸出失真大約等于每個單一擾動引起的輸出失真之和。在第4.3節(jié)中進(jìn)行的進(jìn)一步實(shí)驗(yàn)驗(yàn)證了我們方法在SDMs上的可加性屬性,顯示出最終的目標(biāo)(6)是對原始目標(biāo)(2)的良好近似,同時,假設(shè)(5)也得到了很好的支持。
實(shí)驗(yàn)和消融研究表明,我們的輸出損失剪枝標(biāo)準(zhǔn)顯著滿足可加性屬性,并在不同SDM模型上實(shí)現(xiàn)了最佳性能。此外,對于我們構(gòu)建的三個剪枝標(biāo)準(zhǔn),即輸出損失、Δ任務(wù)損失和ΔCLIP分?jǐn)?shù),對于每個模型,具有更強(qiáng)可加性屬性的標(biāo)準(zhǔn)實(shí)現(xiàn)了更好的剪枝性能。這個觀察是合理的,因?yàn)橐淮涡詫蛹糁χ苯觾?yōu)化了替代目標(biāo),如(6),而不是原始目標(biāo),如(2),優(yōu)化那些更好地近似原始目標(biāo)的替代目標(biāo)通??梢詫?shí)現(xiàn)更好的剪枝性能?;谝陨嫌^察和討論,我們可以得出結(jié)論,我們的輸出損失標(biāo)準(zhǔn)的有效性來自其良好的可加性屬性。
規(guī)范化特征蒸餾
在實(shí)踐中,我們發(fā)現(xiàn)重新訓(xùn)練的關(guān)鍵目標(biāo)是特征損失LFeatKD。然而,進(jìn)一步的檢查揭示了前面在重新訓(xùn)練階段采用的特征蒸餾方法存在不平衡問題。如下圖3所示,不同階段末端的特征圖的L2-范數(shù)和不同特征損失項(xiàng)的值變化顯著。在圖3中顯示的相同現(xiàn)象在使用我們的層剪枝或手工層刪除的不同剪枝設(shè)置下,無論是在SDXL還是SDM-v1.5上都觀察到。在整個蒸餾過程中,最高的特征損失項(xiàng)約比最低的特征損失項(xiàng)大10000倍,并產(chǎn)生大約1000倍更大的梯度,稀釋了數(shù)值上不顯著的特征損失項(xiàng)的梯度。
由于具有更大 L2-范數(shù)的特征圖自然傾向于產(chǎn)生更大的特征損失項(xiàng),不同特征損失項(xiàng)的顯著幅度差異歸因于兩個因素,即在不同階段末端,教師和學(xué)生之間特征圖的固有差異不同,以及特征圖的 L2-范數(shù)不同。第二個因素在很大程度上加劇了不平衡問題。
基于以上觀察,簡單地將所有特征損失項(xiàng)相加將導(dǎo)致少數(shù)特征損失項(xiàng)嚴(yán)重占優(yōu),阻礙數(shù)值上不顯著的特征損失項(xiàng)的減少,導(dǎo)致性能下降。為此,我們提出了一種簡單而有效的特征蒸餾重新加權(quán)策略,以消除第二個因素對不平衡問題的影響。我們選擇利用教師特征圖的 L2-范數(shù)重新加權(quán)特征損失項(xiàng),并將特征蒸餾適應(yīng)于我們的剪枝方案。規(guī)范化特征損失的制定如下:
其中,?? 是剪枝后仍保留有殘差層或transformer層的階段集合,|?? | 是集合 ?? 的大小。因此,整體重新訓(xùn)練目標(biāo)是:
實(shí)驗(yàn)
實(shí)現(xiàn)
在本小節(jié)中,主要詳細(xì)闡述了基本的實(shí)現(xiàn)設(shè)置。更多細(xì)節(jié)請參見補(bǔ)充材料。
模型選擇。在后面實(shí)驗(yàn)中,采用 512×512 分辨率以進(jìn)行快速驗(yàn)證,對 SDXL 模型使用 ProtoVisionXL-v6.2.0,因?yàn)楣俜桨l(fā)布的 SDXL-Base-1.0在 512×512 分辨率附近生成的圖像異常,而對于 SDM-v1.5 模型,我們使用了官方發(fā)布的 stable-diffusion-v1-5。實(shí)驗(yàn),我們使用了每種比較方法的相同教師模型。
數(shù)據(jù)集。對于用于剪枝的校準(zhǔn)數(shù)據(jù)集,使用 LAION-2B的隨機(jī)抽樣的 1K 子集。在消融研究中,使用了 LAION-2B的隨機(jī)抽樣的 0.34M 子集。為了與其他方法進(jìn)行比較,使用了相同的數(shù)據(jù)集或選擇了質(zhì)量和數(shù)量較低的數(shù)據(jù)集,如果其他方法報(bào)告的數(shù)據(jù)集難以復(fù)現(xiàn),會選擇質(zhì)量和數(shù)量較低的數(shù)據(jù)集。數(shù)據(jù)集的選擇詳見補(bǔ)充材料。
評估指標(biāo)。盡管評估生成式 T2I 模型常用的指標(biāo)是 FID和 CLIP 分?jǐn)?shù),但最近的研究表明這兩個指標(biāo)與視覺美學(xué)和人類偏好之間的相關(guān)性較低。因此,
采用了 3 個高級指標(biāo)來評估模型的綜合性能。使用 HPS v2、PickScore和 ImageReward來評估生成圖像的視覺質(zhì)量和文本-圖像一致性。在它們各自的基準(zhǔn)數(shù)據(jù)集上計(jì)算這 3 個指標(biāo),即 HPS v2 在其 3.2K 基準(zhǔn)數(shù)據(jù)集上計(jì)算,ImageReward 在 ImageRewardDB的隨機(jī)抽樣的 3K 子集上計(jì)算,而 PickScore 在 Pick-a-Pic v1的隨機(jī)抽樣的 3K 子集上計(jì)算。
與其他方法的比較
到目前為止,對于 SDM 模型有三種手工制作的層移除方法。KOALA、SSD 和 Vega適用于 SDXL,而 BK-SDM可應(yīng)用于 SDM-v1 或 SDM-v2。將 LAPTOP-Diff 與這三種方法在相應(yīng)的模型上進(jìn)行比較。使用 SDXL-Base-1.0與 KOALA 1.16B 和 782M 進(jìn)行比較,使用 RealisticVision-v4.0與更先進(jìn)的 BK-SDM實(shí)現(xiàn)(由 Segmind)進(jìn)行比較,即 579M small-sd和 323M tiny-sd。對于與 1.3B SSD和 745M Vega進(jìn)行比較,僅使用它們在多教師蒸餾策略中使用的三個教師模型之一,即 ZavychromaXL-v1.0。對于所有比較方法的評估,我們使用它們發(fā)布的模型權(quán)重。
表1 顯示了與最先進(jìn)的壓縮 SDM 模型的比較結(jié)果。提出的 LAPTOP-Diff 實(shí)現(xiàn)了最先進(jìn)的性能。與 SSD和 Vega的視覺比較如圖5 所示,其他方法的更多視覺比較見補(bǔ)充材料??梢杂^察到,與其他方法相比,我們的方法在不同提示下實(shí)現(xiàn)了更好的視覺效果。值得注意的是,我們的大約 50% 壓縮的 SDXL 模型幾乎可以達(dá)到原始模型的相同視覺質(zhì)量。
添加性質(zhì)的驗(yàn)證
由于最終的替代目標(biāo) (6) 是原始目標(biāo) (2) 的上界的近似,有必要檢驗(yàn)近似的精度。通過選擇不同的 ?? 和 Rm,覆蓋從 0% 到 90% 的剪枝比率,模擬了近似準(zhǔn)則 (6) 和真實(shí)準(zhǔn)則 (2) 的值。我們還對剪枝準(zhǔn)則 Δtask loss 和 ΔCLIP score 進(jìn)行了相同的實(shí)驗(yàn)。如圖6 所示,我們的輸出損失準(zhǔn)則在不同模型下顯著滿足添加性質(zhì),即使在極端的剪枝比率下也是如此,幾乎所有觀察點(diǎn)都位于恒等線附近。因此,我們最終的替代目標(biāo) (6) 是原始目標(biāo) (2) 的出色近似。另一方面,其他準(zhǔn)則未能始終滿足添加性質(zhì)。雖然我們的輸出損失準(zhǔn)則在不同模型之間具有最強(qiáng)的添加性質(zhì),但 ΔCLIP score 在 SDXL 上具有第二強(qiáng)的添加性質(zhì),而 Δtask loss 在 SDM-v1.5 上具有第二強(qiáng)的添加性質(zhì)。
剪枝準(zhǔn)則消融實(shí)驗(yàn)
實(shí)驗(yàn)表明,我們的輸出損失準(zhǔn)則在不同模型上顯著并一致地滿足添加性質(zhì),而其他準(zhǔn)則未能達(dá)到這一點(diǎn)。此外,我們評估了使用不同剪枝準(zhǔn)則的剪枝性能,包括我們構(gòu)建的剪枝準(zhǔn)則和兩個基線剪枝準(zhǔn)則,即幅度度量和損失函數(shù)的一階泰勒展開。我們首先使用不同的層剪枝準(zhǔn)則對 SDXL 和 SDM-v1.5 進(jìn)行剪枝,然后通過普通蒸餾對修剪后的網(wǎng)絡(luò)進(jìn)行相同次數(shù)的重新訓(xùn)練。如表2 所示,在不同模型上,輸出損失準(zhǔn)則在剪枝準(zhǔn)則中取得了最高的剪枝性能。
除了不同的剪枝準(zhǔn)則,還將層剪枝方法與手工制作的層移除方法進(jìn)行了比較。對于 SDXL 和 SDM-v1.5 的實(shí)驗(yàn),分別使用 SSD和 BK-SDM的相同手工制作層移除設(shè)置。表2 中的結(jié)果顯示,除了基于幅度的層剪枝被 SDXL 上的手工制作方法 SSD 打敗外,幾乎所有的層剪枝方法通常都優(yōu)于手工制作方法。
值得注意的是,在我們構(gòu)建的三種剪枝準(zhǔn)則中,即輸出損失、Δtask loss 和 ΔCLIP score,雖然輸出損失在不同模型上取得了最佳性能,但 ΔCLIP score 在 SDXL 上取得了第二好的性能,而 Δtask loss 在 SDM-v1.5 上取得了第二好的性能,與它們添加性質(zhì)的排名相一致。
知識蒸餾消融實(shí)驗(yàn)
通過消融研究驗(yàn)證了我們的歸一化特征蒸餾的有效性。使用我們的一次性層剪枝方法對 SDXL 和 SDM-v1.5 進(jìn)行剪枝,然后使用普通蒸餾或我們的歸一化蒸餾對修剪后的網(wǎng)絡(luò)進(jìn)行相同次數(shù)的重新訓(xùn)練。如表3 所示,我們的方法在 SDXL 和 SDM-v1.5 上都取得了很好的性能改進(jìn)。
剪枝分析
以剪枝比例為 50% 的 SDXL 的 U-Net 和剪枝比例為 33% 的 SDM-v1.5 的 U-Net 為例進(jìn)行了剪枝架構(gòu)的分析。如表4 所示,對于 SDXL 和 SDM-v1.5,許多位于中間階段及其附近的層被認(rèn)為不太重要,因此被剪枝了。這一觀察結(jié)果與先前的手工制作層移除方法一致。然而,我們觀察到的是,與之前的手工制作層移除方法不同,更多的層在 Dn 階段被剪枝,而不是在 Up 階段。對于 SDXL,我們觀察到在 Dn 階段有 30 層中有 18 層被剪枝,而在 Up 階段只有 10 層中有 10 層被剪枝。同樣的現(xiàn)象也在 SDM-v1.5 上觀察到,在 Dn 階段有 14 層中有 4 層被剪枝,而在 Up 階段只有 21 層中有 1 層被剪枝。這一觀察結(jié)果與其他研究一致,即 Dn 階段,即 U-Net 的編碼器,不如 U-Net 的其他部分重要。
結(jié)論
本項(xiàng)工作提出了用于壓縮擴(kuò)散模型的層剪枝和歸一化蒸餾(LAPTOP-Diff)。引入了層剪枝方法來實(shí)現(xiàn)自動化、可擴(kuò)展性和更好的性能,并提出了一種有效的一次性剪枝準(zhǔn)則,即輸出損失準(zhǔn)則,其有效性是通過其良好的添加性質(zhì)來保證的。進(jìn)一步通過提出的歸一化特征蒸餾來緩解先前基于蒸餾的重訓(xùn)練中的不平衡問題。使用提出的 LAPTOP-Diff,為 SDMs 實(shí)現(xiàn)了最先進(jìn)的性能壓縮。
本文轉(zhuǎn)自 AI生成未來 ,作者:Dingkun Zhang等
