自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

再次顛覆學界想象,何愷明發(fā)表新作:擴散模型不一定需要噪聲條件

人工智能 新聞
研究者對這些模型在無噪聲條件情況下的行為進行了理論分析。

一直以來,研究者普遍認為,去噪擴散模型要想成功運行,噪聲條件是必不可少的。

而大神何愷明的一項最新研究,對這個觀點提出了「質(zhì)疑」。

「受圖像盲去噪研究的啟發(fā),我們研究了各種基于去噪的生成模型在沒有噪聲調(diào)節(jié)的情況下的表現(xiàn)。出乎我們意料的是,大多數(shù)模型都表現(xiàn)出了優(yōu)美的退化,它們甚至在沒有噪聲條件的情況下表現(xiàn)得更好?!?/span>

截屏2025-02-20 09.18.25.png

  • 論文標題:Is Noise Conditioning Necessary for Denoising Generative Models?
  • 論文地址:https://arxiv.org/pdf/2502.13129

研究者對這些模型在無噪聲條件情況下的行為進行了理論分析。具體來說,他們研究了噪聲水平分布中固有的不確定性、在沒有噪聲條件的情況下去噪所造成的誤差以及迭代采樣器中的累積誤差。綜合這些因素,提出了一個誤差邊界,該誤差邊界的計算無需任何訓練,完全取決于噪聲條件和數(shù)據(jù)集。

實驗表明,這個誤差邊界與所研究的模型的噪聲 - 無條件行為有很好的相關(guān)性,特別是在模型出現(xiàn)災難性失敗的情況下,其誤差邊界要高出幾個數(shù)量級。

由于噪聲 - 無條件模型很少被考慮,專門為這種未充分探索的情況設計模型是有價值的。為此,研究者從 EDM 模型中提出了一個簡單的替代方案。在沒有噪聲條件的情況下,該變體可以實現(xiàn)很強的性能,在 CIFAR10 數(shù)據(jù)集上的 FID 得分達到 2.23。這一結(jié)果大大縮小了噪聲 - 無條件系統(tǒng)與噪聲 - 條件系統(tǒng)之間的差距(例如,EDM 的 FID 為 1.97)。

關(guān)于未來,研究者希望消除噪聲條件將為基于去噪的生成模型的新進展鋪平道路,激勵業(yè)界重新審視相關(guān)方法的基本原理,并探索去噪生成模型領域的新方向。例如,只有在沒有噪聲條件的情況下,基于分數(shù)的模型才能學習到獨特的分數(shù)函數(shù),并實現(xiàn)經(jīng)典的、基于物理學的朗格文動力學。

對于這項新研究,有人評論稱:我們花了數(shù)年時間來完善噪聲條件技術(shù),到頭來卻發(fā)現(xiàn)即使沒有噪聲條件,模型同樣能運行得很好。所以,科學其實就是利用額外數(shù)學的反復試錯。

image.png

去噪生成模型的重構(gòu)

研究者提出了一種可以總結(jié)各種去噪生成模型訓練和采樣過程的重構(gòu)(reformulation),核心動機是隔離神經(jīng)網(wǎng)絡 NN_θ,從而專注于其在噪聲條件方面的行為。

首先來看去噪生成模型的訓練目標。在訓練期間,從數(shù)據(jù)分布 p (x) 中采樣一個數(shù)據(jù)點 x,并從噪聲分布 p (?)(例如正態(tài)分布 N (0, I))中采樣噪聲 ?。噪聲圖像 z 由以下公式得出:

image.png

一般來說,去噪生成模型涉及最小化損失函數(shù),該函數(shù)可以寫成:

image.png

現(xiàn)有幾種方法(iDDPM、DDIM、EDM 和 FM)的調(diào)度函數(shù)具體如下表 1 所示。值得注意的是,在研究者的重構(gòu)中,他們關(guān)注的是回歸目標 r 與神經(jīng)網(wǎng)絡 NN_θ 直接輸出之間的關(guān)系。

image.png

其次是采樣。給定訓練好的 NN_θ,采樣器迭代地進行去噪。具體來講,對于初始噪聲 x_0 ~  N (0, b (t_max)^2I),采樣器迭代地計算如下:

image.png

最后是噪聲條件網(wǎng)絡。在現(xiàn)有方法中,神經(jīng)網(wǎng)絡 NN_θ(z|t) 以 t 指定的噪聲水平為條件,具體可以參見圖 1(左)。

同時,t-embedding 提供時間級信息作為網(wǎng)絡額外輸入。本文的研究涉及這種噪聲條件的影響,即考慮了 NN_θ(z) 和 NN_θ(z|t),參見圖 1(右)。

image.png

無噪聲條件模型

基于上述重構(gòu),研究者對消除噪聲條件的影響進行了理論分析,其中涉及到了訓練目標和采樣過程。他們首先分析了訓練階段的有效回歸目標和單個去噪步驟中的誤差,然后給出了迭代采樣器中累積誤差的上限。

有效目標 

形式上,優(yōu)化公式 (2) 中的損失等同于優(yōu)化以下?lián)p失,其中預期 E [?] 中的每個項都有對應的唯一有效目標:

image.png

對于無噪聲條件的有效目標,同樣地,如果網(wǎng)絡 NN_θ(z) 不接受 t 作為條件,則其唯一的有效目標 R (z) 應該僅取決于Z。在這種情況下,損失為:

image.png

唯一有效目標如下:

image.png

后驗集中 p (t|z)

接下來,研究者探究了 p (t|z) 與狄拉克 δ 函數(shù)的相似度。對于圖像等高維數(shù)據(jù),人們早已意識到可以可靠地對噪聲水平進行估計,這意味著可以得到一個集中的 p (t|z)。

陳述 1:(p (t|z) 集中)。考慮單個數(shù)據(jù)點 x ? [-1, 1]^d,則 ?~(0, I),t~U [-0, 1] 以及 z = (1 - t) x + t?(流匹配情況)。給定一個由已有 t_?生成的噪聲圖像 z = (1 - t_?) x + t_??,條件分布 p (t|z) 下 t 的方差如下:

image.png

有效回歸目標的誤差

使用 p (t|z),研究者探究了有效回歸目標 R (z) 和 R (z|t) 之間的誤差。在形式上,考慮如下:

image.png

他們表明,方差 E (z) 明顯小于 R (z) 的范數(shù)。

陳述 2(有效回歸目標的誤差)。考慮到陳述 1 中的場景以及流匹配情況,公式 (10) 中定義的誤差滿足如下:

image.png

采樣中的累積誤差

到目前為止,研究者關(guān)注到了單個回歸步驟的誤差。而在去噪生成模型中,推理采樣器是迭代的,因而進一步研究了迭代采樣器中的累積誤差。

為了便于分析,研究者假設網(wǎng)絡 NN_θ 足以擬合有效回歸目標 R (z|t) 或 R (z)。在此假設下,他們將上面公式 (4) 中的 NN_θ 替換為 R。這就有了以下陳述 3:

陳述 3(累積誤差的上限)。考慮公式 (4) 中 N 個步驟的采樣過程,從相同的初始噪聲 x_0 = x’_0 開始。通過噪聲調(diào)節(jié),采樣器計算如下:

image.png

而在無噪聲條件下,計算如下:

image.png

作為參考,EDM 設置為image.png,其中 σ_d 為數(shù)據(jù)標準差。由于是應用于網(wǎng)絡 NN_θ 的系數(shù),因而研究者將其設置為常數(shù)以使該網(wǎng)絡不用建模一個 t - 依賴尺度。在實驗中,這種簡單的設計表現(xiàn)出了比 EDM 更低的誤差上限(陳述 3),因而被命名為了 uEDM,它是無噪聲條件的縮寫。

實驗結(jié)果

研究者對各種模型的噪聲條件影響進行了實證評估:

  • 擴散:iDDPM、ADM、uEDM
  • 基于流的模型:此處采用了 Rectified Flow (1-RF)
  • 一致性模型:iCT ECM

下表 2 總結(jié)了不同生成模型中的 FID 變化情況,有或無噪聲調(diào)節(jié)分別用 “w/t ” 和 “w/o t ” 表示。

2025-02-20_093403.png

劃重點如下:

(i) 與通常的看法相反,噪聲條件并不是大多數(shù)基于去噪模型發(fā)揮作用的有利因素。大多數(shù)變體都能優(yōu)雅地工作,表現(xiàn)出微小但適當?shù)乃p(黃色);

(ii) 在去除噪聲條件后,一些基于流的變體可以獲得更好的 FID(綠色);

(ili) uEDM 變體在不使用噪聲條件的情況下實現(xiàn)了 2.23 的 FID,縮小了與噪聲條件方法的強基線的差距;

(iv) 與擴散模型相關(guān)但目標函數(shù)有很大不同的一致性模型,也可以表現(xiàn)得很優(yōu)美;

(v) 在本文研究的所有變體中,只有「DDIM w/ ODEsampler*」會導致災難性失?。t色),F(xiàn)ID 顯著惡化至 40.90。圖 5 (a) 展示了其定性表現(xiàn):模型仍然能夠理解形狀和結(jié)構(gòu),但 「overshoot」或「undershoot」會產(chǎn)生過飽和或噪聲結(jié)果。

2025-02-20_093642.png

在圖 4 中,研究者根據(jù)經(jīng)驗評估了在 100 步 ODE 采樣器下不同方法的陳述 3 中的誤差邊界。誤差邊界的計算只取決于每種方法的時間表和數(shù)據(jù)集。圖 4 也展示了理論邊界與經(jīng)驗行為之間的緊密聯(lián)系。具體來說,DDIM 的災難性失敗可以用其誤差邊界高出幾個數(shù)量級來解釋。另一方面,EDMFM 和 uEDM 在整個過程中的誤差邊界都很小。

2025-02-20_093803.png

隨機性水平。在表 2 中,DDIM 只在確定性 ODE 采樣器中失??;在 SDE 采樣器(即 DDPM 采樣器)中仍然表現(xiàn)良好。

如圖 6 所示,隨機性越大,F(xiàn)ID 分數(shù)越高。當 λ=1 時,DDIM 的表現(xiàn)與 iDDP 類似。

image.png

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-07-31 11:20:18

AI研究

2020-08-30 14:31:40

Python編程語言開發(fā)

2021-02-26 09:04:22

數(shù)組ArrayListHashMap

2016-11-28 11:19:48

術(shù)語神秘

2022-12-26 09:16:45

Guava架構(gòu)模型

2023-12-08 14:14:00

模型訓練

2018-03-09 10:34:48

顯卡參數(shù)超頻

2024-03-25 10:15:58

AI數(shù)據(jù)

2018-01-18 05:20:59

2024-10-06 12:32:42

2017-01-19 17:57:47

大數(shù)據(jù)

2018-02-08 09:11:25

Linux命令rm

2021-10-23 06:44:02

性能分析Profiler復雜度分析

2023-03-10 13:05:17

AI就職

2022-09-06 15:35:01

開源軟件OSS

2011-01-12 18:38:25

2009-04-08 08:57:09

鴻海郭臺銘職場出牌學

2012-10-16 09:52:27

數(shù)據(jù)結(jié)構(gòu)

2010-04-14 09:32:40

Office 2010

2013-08-14 18:25:28

點贊
收藏

51CTO技術(shù)棧公眾號