無需引導(dǎo)采樣,清華大學(xué)提出視覺模型訓(xùn)練新范式
引導(dǎo)采樣 Classifier-Free Guidance(CFG)一直以來都是視覺生成模型中的關(guān)鍵技術(shù)。然而最近,清華大學(xué) TSAIL 團(tuán)隊(duì)提出了一種極其簡(jiǎn)單的方法,實(shí)現(xiàn)了原生無需引導(dǎo)采樣視覺模型的直接訓(xùn)練。他們?cè)?Stable Diffusion,DiT,VAR,LlamaGen,MAR 五個(gè)截然不同的視覺架構(gòu)上進(jìn)行了驗(yàn)證,一致發(fā)現(xiàn)新方法性能與 CFG 相當(dāng),而采樣成本減半。
- 算法名稱:Guidance-Free Training (GFT)
- 論文鏈接:https://arxiv.org/abs/2501.15420
文生圖任務(wù)中,免引導(dǎo)采樣算法 GFT 與引導(dǎo)采樣算法 CFG 均能大幅提升生成質(zhì)量,而前者更為高效。
GFT 可通過調(diào)節(jié)采樣時(shí)的「溫度系數(shù)」來調(diào)節(jié) diversity-fidelity trade-off
與此同時(shí),GFT 算法保持了與 CFG 訓(xùn)練流程的高度一致,只需更改不到 10 行代碼就可輕松實(shí)現(xiàn)。
視覺引導(dǎo)采樣的問題與挑戰(zhàn)
生成質(zhì)量和多樣性是相互牽制的關(guān)系。大語(yǔ)言模型(LLMs)主要通過將模型輸出直接除以一個(gè)采樣溫度系數(shù) 來權(quán)衡二者,可明顯提高生成質(zhì)量。然而,早期研究卻發(fā)現(xiàn)這類溫度采樣方法對(duì)視覺生成完全不起作用。如今,視覺生成依賴引入一個(gè)新的無條件模型,用引導(dǎo)采樣(CFG)達(dá)到類似溫度采樣的效果:
然而,CFG 中引入的無條件模型卻給視覺模型訓(xùn)練帶來了種種掣肘,因?yàn)樵诿恳粋€(gè)采樣步我們都需要進(jìn)行有條件和無條件兩次模型推理,導(dǎo)致計(jì)算開銷倍增。此外,在對(duì)預(yù)訓(xùn)練模型微調(diào)或進(jìn)一步蒸餾時(shí),我們也需要分別考慮有條件和無條件兩個(gè)視覺模型的訓(xùn)練,這又增加了模型訓(xùn)練的開銷及算法復(fù)雜度。
為了避免 CFG 引導(dǎo)采樣導(dǎo)致的額外計(jì)算開銷,已有的方法大多采用基于一個(gè)預(yù)訓(xùn)練好的 CFG 教師模型繼續(xù)蒸餾的手段。但這引入了一個(gè)額外的訓(xùn)練階段,可能會(huì)帶來性能損失。
GFT 算法正是嘗試解決這一問題。簡(jiǎn)單說,它實(shí)現(xiàn)了原生免 CFG 視覺模型從零訓(xùn)練,且有著和 CFG 相當(dāng)?shù)氖諗克俣?,算法穩(wěn)定性與采樣表現(xiàn)。更重要的是,它足夠簡(jiǎn)潔、通用。一種算法可同時(shí)用于擴(kuò)散、自回歸、掩碼三種視覺模型。
Guidance Free Training 算法設(shè)計(jì)
GFT 完全采用了監(jiān)督訓(xùn)練中的擴(kuò)散損失函數(shù)。在訓(xùn)練中,其和 CFG 最大的不同是:GFT 并不顯式參數(shù)化一個(gè)「有條件視覺模型」,而是將其表示為一個(gè)采樣模型和一個(gè)無條件模型的線性組合:
這樣在在我們訓(xùn)練這個(gè)「隱式」有條件模型時(shí),我們本質(zhì)上在直接訓(xùn)練其背后參數(shù)化好的采樣模型。
論文證明,隨著線性組合系數(shù) β(又稱「?jìng)螠囟认禂?shù)」)的變化,其對(duì)應(yīng)的采樣模型將和 CFG 算法定義的采樣分布一一對(duì)應(yīng)。
GFT 的算法靈魂:簡(jiǎn)單、高效、兼容
在實(shí)際部署中,由于 GFT 算法在設(shè)計(jì)上可以與 CFG 訓(xùn)練方法保持了高度對(duì)齊,這使得其可以最低成本被部署實(shí)現(xiàn)(<10 行代碼),甚至不需要更改已有代碼的訓(xùn)練超參數(shù)。
GFT 訓(xùn)練也非常高效,與 CFG 相比,它不需要任何額外的內(nèi)存開銷,只需增加約 20% 的訓(xùn)練時(shí)間,即可節(jié)約 50% 的采樣成本。
此外,GFT 高度通用。不僅僅適用于擴(kuò)散視覺模型,對(duì)于自回歸、掩碼這類離散視覺模型也同樣適用:
實(shí)驗(yàn)驗(yàn)證
GFT 在擴(kuò)散模型 DiT、Stable Diffusion,自回歸模型 VAR,LlamaGen,掩碼擴(kuò)散模型 MAR 五個(gè)截然不同的模型上面分別進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
首先,研究者測(cè)試了 GFT 作為一個(gè)微調(diào)算法,把當(dāng)下已有的 CFG 預(yù)訓(xùn)練模型轉(zhuǎn)換為免引導(dǎo)采用模型的能力。發(fā)現(xiàn)在 FID 指標(biāo)上,GFT 可以做到無損轉(zhuǎn)換。
隨后、研究者測(cè)試了 GFT 作為一個(gè)預(yù)訓(xùn)練算法,和 CFG 訓(xùn)練的比較(相同訓(xùn)練步)。
結(jié)果表明,GFT 訓(xùn)練出的免引導(dǎo)采用模型能力與 CFG 模型持平甚至更優(yōu)。連損失函數(shù)收斂曲線也基本重合。
最后,論文還在不同模型上測(cè)試了 GFT 對(duì)于采樣質(zhì)量和多樣性權(quán)衡曲線的控制能力。
作者介紹
本文有兩位共同一作。陳華玉、清華大學(xué)計(jì)算機(jī)系四年級(jí)博士生。主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)與生成式模型。曾在 ICML/NeurIPS/ICLR 國(guó)際會(huì)議上發(fā)表多篇學(xué)術(shù)論文。是開源強(qiáng)化學(xué)習(xí)算法庫(kù)「天授」的主要作者(Github 8k 星標(biāo))。導(dǎo)師為朱軍教授。
姜?jiǎng)P、清華大學(xué) TSAIL 團(tuán)隊(duì)實(shí)習(xí)生,主要研究方向?yàn)橐曈X生成模型。導(dǎo)師為陳鍵飛副教授。