自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS Spotlight|從分類到生成:無訓(xùn)練的可控擴(kuò)散生成

人工智能 新聞
斯坦福大學(xué)、北京大學(xué)、清華大學(xué)等機(jī)構(gòu)的研究團(tuán)隊聯(lián)合提出了一種全新的統(tǒng)一算法框架,名為無訓(xùn)練指導(dǎo)(Training-Free Guidance, 簡稱 TFG)。

論文一作為斯坦福大學(xué)計算機(jī)博士葉皓天,指導(dǎo)老師為斯坦福大學(xué) Stefano Ermon 與 James Zou 教授。北京大學(xué)博士林昊葦、斯坦福大學(xué)博士韓家琦為共同第一作者。

近年來,擴(kuò)散模型(Diffusion Models)已成為生成模型領(lǐng)域的研究前沿,它們在圖像生成、視頻生成、分子設(shè)計、音頻生成等眾多領(lǐng)域展現(xiàn)出強(qiáng)大的能力。然而,生成符合特定條件(如標(biāo)簽、屬性或能量分布)的樣本,通常需要為每個目標(biāo)訓(xùn)練專門的生成模型,這種方法不僅耗費資源,還嚴(yán)重制約了擴(kuò)散模型作為未來基座模型實際應(yīng)用潛力。

為了解決這一難題,斯坦福大學(xué)、北京大學(xué)、清華大學(xué)等機(jī)構(gòu)的研究團(tuán)隊聯(lián)合提出了一種全新的統(tǒng)一算法框架,名為無訓(xùn)練指導(dǎo)(Training-Free Guidance, 簡稱 TFG)。這一框架無縫整合現(xiàn)有的無訓(xùn)練指導(dǎo)方法,憑借理論創(chuàng)新和大規(guī)模實驗驗證,成為擴(kuò)散模型條件生成領(lǐng)域的重要里程碑,目前已經(jīng)被 NeurIPS 2024 接收為 Spotlight。

圖片


  • 論文標(biāo)題:TFG: Unified Training-Free Guidance for Diffusion Models
  • 論文鏈接:https://arxiv.org/abs/2409.15761
  • 項目地址:https://github.com/YWolfeee/Training-Free-Guidance

問題背景:擴(kuò)散模型的條件生成難題

擴(kuò)散模型以其漸進(jìn)降噪生成樣本的特性,逐漸被廣泛應(yīng)用于從圖像到視頻到音頻、從分子到 3D 結(jié)構(gòu)等多領(lǐng)域。然而,條件生成的需求(如生成特定類別的圖像或滿足特定能量約束的分子結(jié)構(gòu))對模型提出了更高要求。

傳統(tǒng)條件生成方法依賴 “基于分類器的指導(dǎo)”(classifier-guidance)或 “無分類器指導(dǎo)”(classifier-free)技術(shù)。這些方法通常需要為這一類事先確定的目標(biāo)屬性訓(xùn)練一個生成 + 預(yù)測模型或是帶標(biāo)簽的生成模型。一旦訓(xùn)練完成,該模型就難以被運用到同一領(lǐng)域的其他條件生成任務(wù)中,因而難以推廣至多目標(biāo)或新目標(biāo)場景。與之相比,無訓(xùn)練指導(dǎo)旨在利用現(xiàn)成的目標(biāo)預(yù)測器(如預(yù)訓(xùn)練分類器、能量函數(shù)、損失函數(shù)等)直接為擴(kuò)散模型生成提供指導(dǎo),避免了額外的訓(xùn)練步驟。然而,現(xiàn)有無訓(xùn)練方法存在以下顯著問題:

  • 缺乏系統(tǒng)性理論支持和設(shè)計指導(dǎo);
  • 即使在簡單任務(wù)中表現(xiàn)也不穩(wěn)定,容易失?。?/span>
  • 難以高效選擇適合的超參數(shù)。

TFG 框架的核心創(chuàng)新

1. 統(tǒng)一設(shè)計空間(unified design space)

TFG 提出了一個通用的無訓(xùn)練指導(dǎo)設(shè)計空間,將現(xiàn)有算法視為其特殊情況。這種統(tǒng)一視角不僅簡化了對不同算法的比較,還通過擴(kuò)展設(shè)計空間提升了性能。具體而言,TFG 基于多維超參數(shù)設(shè)計,涵蓋了多種指導(dǎo)方法的變體,為任務(wù)適配提供了靈活性。

2. 高效超參數(shù)搜索策略(efficient searching strategy)

為了應(yīng)對多目標(biāo)、多樣化任務(wù)場景,TFG 引入了一種高效的超參數(shù)搜索策略。在此框架下,用戶無需復(fù)雜的調(diào)參過程,通過自動化策略即可快速確定最優(yōu)超參數(shù)組合,適配多種下游任務(wù)。

3. 全面基準(zhǔn)測試(comprehensive benchmark)

TFG 框架在 7 種擴(kuò)散模型上開展了廣泛的實驗,包括圖像、分子、音頻等 16 項任務(wù)和 40 個具體目標(biāo)。實驗結(jié)果顯示,TFG 平均性能提升 8.5%,在多個任務(wù)中均超越現(xiàn)有最佳方法。

圖片

方法概述:TFG 如何實現(xiàn)無訓(xùn)練指導(dǎo)?

圖片

實現(xiàn) TFG 的核心是利用 Tweedie’s formula,通過預(yù)訓(xùn)練的擴(kuò)散模型預(yù)測當(dāng)前噪聲樣本對應(yīng)的干凈樣本分布均值,再用判別器進(jìn)行打分,將可微的分?jǐn)?shù)進(jìn)行反向傳播,從而指導(dǎo)噪聲樣本的去噪過程。基于以上思路,TFG 提出了一個統(tǒng)一的算法框架,精細(xì)設(shè)計了四大關(guān)鍵機(jī)制來提升條件生成任務(wù)的表現(xiàn):Mean Guidance、Variance Guidance、Implicit Dynamics 和 Recurrence。以下是各部分的詳細(xì)介紹:

1. Mean Guidance(均值指導(dǎo))

Mean Guidance 利用預(yù)測樣本的均值梯度來引導(dǎo)生成過程,核心思想是對生成樣本的目標(biāo)屬性進(jìn)行直接優(yōu)化。在每一步去噪過程中,模型會根據(jù)當(dāng)前的預(yù)測樣本  計算目標(biāo)預(yù)測器(如分類器)的梯度。這些梯度被用于調(diào)整樣本,使其逐漸向高目標(biāo)密度區(qū)域移動。Mean guidance 的優(yōu)點是簡單直接,易于實現(xiàn)。但在目標(biāo)空間的低概率區(qū)域中,梯度可能不穩(wěn)定,導(dǎo)致生成的樣本質(zhì)量下降。為此,TFG 通過 recurrence(遞歸)和動態(tài)調(diào)整梯度強(qiáng)度來改進(jìn)這一不足。

2. Variance Guidance(方差指導(dǎo))

Variance Guidance 利用預(yù)測樣本的方差信息,通過對梯度進(jìn)行協(xié)方差調(diào)整,進(jìn)一步優(yōu)化生成方向。通過在噪聲樣本空間計算梯度,而非直接作用于預(yù)測樣本 ,引入了更多高階信息。根據(jù)梯度與樣本協(xié)方差矩陣的相互作用,對樣本生成方向進(jìn)行動態(tài)調(diào)整。文章中證明了這種方法等價于對梯度進(jìn)行了協(xié)方差加權(quán),增強(qiáng)了生成過程中目標(biāo)屬性之間的協(xié)同作用。例如,正相關(guān)的目標(biāo)特性會被相互加強(qiáng),而負(fù)相關(guān)的特性會被弱化。

3. Implicit Dynamics(隱式動態(tài))

隱式動態(tài)通過為目標(biāo)預(yù)測器引入高斯核平滑,形成了一種漸進(jìn)式的 “動態(tài)噪聲引導(dǎo)”。在每一步生成中,對目標(biāo)函數(shù)進(jìn)行高斯平滑,逐步增加噪聲,并通過噪聲樣本計算梯度。這種操作使得樣本更容易跳出低概率區(qū)域,收斂至高目標(biāo)密度區(qū)域。即使采用少量的采樣樣本,也能顯著提升生成樣本的多樣性和精度。

4. Recurrence(遞歸機(jī)制)

遞歸機(jī)制通過重復(fù)應(yīng)用前述指導(dǎo)步驟來逐步強(qiáng)化生成結(jié)果。每一步去噪的中間結(jié)果被不斷 “回滾” 并重新生成,類似于一個動態(tài)優(yōu)化的循環(huán)過程。每次遞歸的目的是修正前一輪生成的誤差,同時引入更多的指導(dǎo)信息。在標(biāo)準(zhǔn)的標(biāo)簽指導(dǎo)任務(wù)(如 CIFAR10 和 ImageNet)中,遞歸次數(shù)的增加顯著提升了樣本準(zhǔn)確率。例如,在 CIFAR10 數(shù)據(jù)集上,將遞歸次數(shù)從 1 增加到 4,準(zhǔn)確率從 52% 提升到 77%,縮小了與基于訓(xùn)練的指導(dǎo)方法的性能差距。

本文從理論上證明,已有的一些無訓(xùn)練指導(dǎo)算法(例如 UGD,F(xiàn)reeDoM,MPGD,DPS,LGD)都是 TFG 的特例。TFG 構(gòu)建了一個全面的超參數(shù)搜索空間,而已有的算法本質(zhì)上都是在這個空間的某個子空間進(jìn)行搜索。所以,TFG 將免訓(xùn)練指導(dǎo)算法設(shè)計的問題轉(zhuǎn)化為:如何進(jìn)行高效有效的超參數(shù)搜索?

設(shè)計空間的構(gòu)建

TFG 框架的一個核心創(chuàng)新在于其設(shè)計空間(Design Space)的構(gòu)建與超參數(shù)優(yōu)化策略的提出。研究團(tuán)隊對這一問題進(jìn)行了系統(tǒng)分析,并提出了一種高效的通用搜索方法,具體由以下幾個超參數(shù)組成:

1. 時間相關(guān)向量:包括 ρ(Variance Guidance 強(qiáng)度) 和 μ(Mean Guidance 強(qiáng)度),分別控制梯度的影響力度及其在每個時間步的分布。

2. 時間無關(guān)標(biāo)量:

  • 圖片:遞歸次數(shù),決定了每個時間步的重復(fù)優(yōu)化程度。
  • 圖片:梯度計算迭代次數(shù),用于控制 Mean Guidance 的漸進(jìn)式優(yōu)化。
  • 圖片:用于 Implicit Dynamics 的高斯平滑參數(shù)。

這些參數(shù)的組合定義了 TFG 的設(shè)計空間 。研究表明,現(xiàn)有的無訓(xùn)練指導(dǎo)方法(如 DPS、FreeDoM、UGD 等)可以被視為該設(shè)計空間的特殊情況,這意味著 TFG 實現(xiàn)了對這些方法的統(tǒng)一與擴(kuò)展。為了更好地分析和使用設(shè)計空間,研究團(tuán)隊提出了分解方法,將時間相關(guān)的向量(如 ρ 和 μ)分解為:

圖片

在設(shè)計空間中定義了三種結(jié)構(gòu):

1. Increase(遞增結(jié)構(gòu)):圖片,權(quán)重隨時間步逐漸增加。

2. Decrease(遞減結(jié)構(gòu)):圖片,權(quán)重隨時間步逐漸減小。

3. Constant(恒定結(jié)構(gòu)):權(quán)重在每個時間步均相同。

通過實驗對比,研究團(tuán)隊發(fā)現(xiàn):ρ 和 μ 的遞增結(jié)構(gòu)在多個任務(wù)中表現(xiàn)最佳,生成樣本的準(zhǔn)確率和質(zhì)量顯著提高;這一結(jié)果極大地簡化了設(shè)計空間的優(yōu)化過程,為不同任務(wù)選擇合適的超參數(shù)提供了明確的指導(dǎo)。

高效超參數(shù)搜索策略

為了在廣泛的任務(wù)中實現(xiàn)高效優(yōu)化,研究團(tuán)隊設(shè)計了一種通用的超參數(shù)搜索策略,包括以下核心步驟:

1. 初始值設(shè)定:從較小的初始超參數(shù)值開始(如 ρ =μ=0.25),模擬無條件生成的效果。

2. 分步搜索:

  • 在每次迭代中,分別對進(jìn)行倍增(如從 0.25 增加到 0.5),生成多個新配置。
  • 使用小規(guī)模的生成樣本測試新配置,評估其表現(xiàn)(例如 FID 和準(zhǔn)確率)。

3. 選擇最佳配置:將表現(xiàn)最優(yōu)的配置加入候選集,并重復(fù)搜索,直至搜索結(jié)果穩(wěn)定或達(dá)到預(yù)設(shè)的迭代次數(shù)。

該搜索方法將生成樣本數(shù)量顯著減少,保證在合理的計算成本內(nèi)完成優(yōu)化。在計算資源有限的情況下,研究團(tuán)隊建議將遞歸次數(shù)和迭代次數(shù)分別限制在 4 次以內(nèi),既能保證性能,又能控制計算復(fù)雜度。

實驗亮點:TFG 的廣泛適用性和卓越表現(xiàn)

圖片

1. 精細(xì)類別生成任務(wù)

精細(xì)類別指導(dǎo)(Fine-Grained Label Guidance)是一種比傳統(tǒng)標(biāo)簽指導(dǎo)更具挑戰(zhàn)性的任務(wù),旨在為擴(kuò)散模型生成出滿足更細(xì)致條件的樣本。在這項研究中,TFG 首次將無訓(xùn)練指導(dǎo)方法成功應(yīng)用于超越訓(xùn)練分布的細(xì)粒度標(biāo)簽生成任務(wù)。

研究團(tuán)隊選擇了鳥類圖像的細(xì)粒度標(biāo)簽指導(dǎo)任務(wù)(例如基于鳥類的物種特征生成圖像)。這類任務(wù)的挑戰(zhàn)在于:

  1. 數(shù)據(jù)分布超出訓(xùn)練模型的常見分布范圍,導(dǎo)致生成的樣本極易偏離目標(biāo)特性。
  2. 即使對于成熟的文本 - 圖像生成模型(如 DALL-E),該問題也難以解決。

TFG 通過其遞歸增強(qiáng)(Recurrence)機(jī)制顯著提升了生成性能。在實驗中,TFG 成功生成了具有 2.24% 準(zhǔn)確率的目標(biāo)樣本,相比無條件生成(0% 準(zhǔn)確率)是一個巨大飛躍。盡管絕對精度仍有提升空間,但這標(biāo)志著無訓(xùn)練指導(dǎo)方法在細(xì)粒度標(biāo)簽生成領(lǐng)域的重要突破。

2. 分子生成任務(wù)

TFG 首次應(yīng)用于分子生成任務(wù)的無訓(xùn)練指導(dǎo),利用無訓(xùn)練指導(dǎo)優(yōu)化分子屬性(如極化率、電偶極矩等)。實驗結(jié)果顯示,TFG 在有效性上顯著領(lǐng)先于現(xiàn)有方法,進(jìn)一步拓展了擴(kuò)散模型的應(yīng)用邊界。

3. 多目標(biāo)條件生成

TFG 在多屬性指導(dǎo)任務(wù)(如生成特定性別和發(fā)色組合的人臉)中展示了顯著的均衡性和適配性。通過對生成樣本進(jìn)行詳細(xì)分析,研究團(tuán)隊發(fā)現(xiàn) TFG 有效緩解了由于訓(xùn)練數(shù)據(jù)分布不平衡導(dǎo)致的生成偏差問題。例如,在 “男性 + 金發(fā)” 這一稀有目標(biāo)組合中,TFG 的生成準(zhǔn)確率高達(dá) 46.7%,遠(yuǎn)高于原始數(shù)據(jù)分布中的 1%。

4. 音頻生成任務(wù)

在少有探索的音頻生成領(lǐng)域,TFG 同樣表現(xiàn)出色。實驗涵蓋了音頻修復(fù)(去剪裁、補(bǔ)全)等任務(wù),相比其他方法,TFG 的相對性能提升超過 15%。

TFG 的未來展望:重新定義擴(kuò)散模型的可能性

TFG 不僅為無訓(xùn)練指導(dǎo)提供了統(tǒng)一理論基礎(chǔ)和實用工具,也為擴(kuò)散模型在不同領(lǐng)域的拓展應(yīng)用提供了新的思路。其核心優(yōu)勢包括:

  • 高效適應(yīng)性:無需為每個任務(wù)額外訓(xùn)練模型,顯著降低了條件生成的門檻;
  • 廣泛兼容性:框架適用于從圖像到音頻、從分子到多目標(biāo)生成的多種任務(wù);
  • 性能優(yōu)越性:通過理論與實驗的結(jié)合,顯著提升了生成的準(zhǔn)確性和質(zhì)量。

未來,TFG 有望在藥物設(shè)計、精準(zhǔn)醫(yī)學(xué)、復(fù)雜音頻生成、高級圖像編輯等領(lǐng)域進(jìn)一步發(fā)揮作用。研究團(tuán)隊還計劃優(yōu)化框架,進(jìn)一步縮小與基于訓(xùn)練方法的性能差距。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-08-19 09:00:00

人工智能GANs生成模型

2025-01-15 09:28:42

訓(xùn)練模型圖像生成

2025-02-24 13:40:00

模型生成訓(xùn)練

2017-10-23 06:36:27

生成對抗網(wǎng)絡(luò)架構(gòu)訓(xùn)練技巧

2024-10-28 07:30:00

2024-12-18 07:20:00

2024-09-30 09:04:20

2015-12-02 11:18:32

2022-10-19 14:17:32

圖像模型

2024-12-23 15:46:59

2023-02-01 13:39:46

2025-03-17 11:35:36

LLaDALLM大型語言模型

2024-08-14 16:30:00

3D AIGC

2023-06-08 14:09:00

研究訓(xùn)練

2022-09-13 15:40:56

模型分析

2023-02-13 10:26:27

模型數(shù)據(jù)

2024-09-29 13:24:41

2023-06-19 13:22:51

模型音頻

2025-03-17 08:25:00

模型AI訓(xùn)練

2025-01-10 10:15:00

AI視覺模型
點贊
收藏

51CTO技術(shù)棧公眾號