深度學(xué)習(xí)算法全景圖:從理論證明其正確性
論文地址:https://arxiv.org/abs/1705.07038
本論文通過(guò)理論分析深度神經(jīng)網(wǎng)絡(luò)群體風(fēng)險(xiǎn)(population risk)的收斂行為和它的駐點(diǎn)(stationary point)與屬性來(lái)研究深度學(xué)習(xí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)全景圖。對(duì)于 L 層的線性神經(jīng)網(wǎng)絡(luò),我們證明其經(jīng)驗(yàn)風(fēng)險(xiǎn)一致收斂到訓(xùn)練樣本大小為 n、比率(rate)為的群體風(fēng)險(xiǎn),其中 d 是總權(quán)重維度、r 是每一層權(quán)重的量級(jí)范圍。然后,我們基于這一結(jié)果推導(dǎo)出經(jīng)驗(yàn)風(fēng)險(xiǎn)的穩(wěn)定性和泛化邊界。此外,我們確立了經(jīng)驗(yàn)風(fēng)險(xiǎn)梯度與群體風(fēng)險(xiǎn)梯度的收斂一致性。我們同樣證明了經(jīng)驗(yàn)風(fēng)險(xiǎn)和群體風(fēng)險(xiǎn)之間的非退化(non-degenerate)駐點(diǎn)和收斂的對(duì)應(yīng)關(guān)系,這就描述了深度神經(jīng)網(wǎng)絡(luò)算法的全景圖。此外,我們同樣分析了用 Sigmoid 函數(shù)作為激活函數(shù)的深度非線性神經(jīng)網(wǎng)絡(luò)的特性。我們證明了深度非線性神經(jīng)網(wǎng)絡(luò)經(jīng)驗(yàn)風(fēng)險(xiǎn)梯度的收斂行為和線性一樣,并同時(shí)分析了其非退化駐點(diǎn)的性質(zhì)。
據(jù)我們所知,該研究是***次理論上描述深度學(xué)習(xí)算法全景圖(landscape)的工作。此外,我們的研究結(jié)果為訓(xùn)練良好的深度學(xué)習(xí)算法提供了樣本復(fù)雜度(sample complexity)。我們同樣提供了神經(jīng)網(wǎng)絡(luò)深度 L、層級(jí)寬度、網(wǎng)絡(luò)規(guī)模 d 和參數(shù)量級(jí)如何決定神經(jīng)網(wǎng)絡(luò)格局的理論理解。
1. 簡(jiǎn)介
深度學(xué)習(xí)算法已經(jīng)在很多領(lǐng)域取得了令人矚目的成果,比如計(jì)算機(jī)視覺(jué) [1, 2, 3]、自然語(yǔ)言處理 [4, 5] 和語(yǔ)音識(shí)別 [6, 7] 等等。然而,由于其高度非凸性和內(nèi)在復(fù)雜性,我們對(duì)這些深度學(xué)習(xí)算法屬性的理論理解依然落后于其實(shí)際成就。事實(shí)上,深度學(xué)習(xí)算法經(jīng)常通過(guò)最小化經(jīng)驗(yàn)性風(fēng)險(xiǎn)來(lái)學(xué)習(xí)其模型參數(shù)。因此我們致力于分析深度學(xué)習(xí)算法的經(jīng)驗(yàn)風(fēng)險(xiǎn)全景圖以更好地理解其實(shí)際表現(xiàn)。
正式地,我們考慮由 L 層網(wǎng)絡(luò) (L ≥ 2) 組成的深度神經(jīng)網(wǎng)絡(luò)模型,并通過(guò)最小化常用的平方損失函數(shù)(來(lái)自未知分布 D 的樣本)進(jìn)行訓(xùn)練。理想情況是深度學(xué)習(xí)算法可通過(guò)最小化群體風(fēng)險(xiǎn)找到其***參數(shù) w∗。
其中 w 是模型參數(shù),
該方程為樣本 x 服從分布 D 的平方損失函數(shù)。這里 v (l) 是第 l 層的輸出,y 是樣本 x 的目標(biāo)輸出。實(shí)際上,由于樣本分布 D 經(jīng)常未知,并且只有有限的訓(xùn)練樣本 x(i),以及來(lái)自 D 的,所以常常通過(guò)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)以訓(xùn)練網(wǎng)絡(luò)模型。
在這項(xiàng)工作中,通過(guò)將經(jīng)驗(yàn)風(fēng)險(xiǎn)收斂到群體風(fēng)險(xiǎn) J(w) 及其駐點(diǎn)和屬性的分析,我們同時(shí)為多層線性和非線性神經(jīng)網(wǎng)絡(luò)描述了深度學(xué)習(xí)算法經(jīng)驗(yàn)風(fēng)險(xiǎn)的全景圖。
2. 文獻(xiàn)綜述
到目前為止,只有少數(shù)理論可以解釋深度學(xué)習(xí),并且它們可大致被分為三類。
- ***類旨在分析深度學(xué)習(xí)的訓(xùn)練誤差。
- 第二類的工作 [13, 14, 9, 15] 致力于分析深度學(xué)習(xí)之中高度非凸性損失函數(shù)的損失曲面,如駐點(diǎn)的分布。
- 第三類是一些最近的工作,其試圖把問(wèn)題分解為更小的部分來(lái)試圖降低分析難度。
然而,還沒(méi)有分析深度學(xué)習(xí)算法經(jīng)驗(yàn)風(fēng)險(xiǎn)全部格局的工作。
3. 深度線性神經(jīng)網(wǎng)絡(luò)的研究結(jié)果
我們首先證明了深度線性神經(jīng)網(wǎng)絡(luò)經(jīng)驗(yàn)風(fēng)險(xiǎn)到群體風(fēng)險(xiǎn)的一致收斂性(uniform convergence)?;谠擁?xiàng)證明,我們推導(dǎo)出了穩(wěn)定性和泛化邊界(generalization bounds)。隨后,我們提出了經(jīng)驗(yàn)梯度(empirical gradient)和群體梯度之間的一致性收斂保證,然后還分析了經(jīng)驗(yàn)風(fēng)險(xiǎn)非退化駐點(diǎn)的性質(zhì)。
在本論文的分析中,我們假定輸入數(shù)據(jù) x 服從τ^2 -sub-Gaussian 分布,同時(shí)如假設(shè) 1(Assumption 1)所述存在受限量級(jí)。
假設(shè) 1. 輸入數(shù)據(jù),其均值為 0 且服從 τ^2 -sub-Gaussian 分布。因此 x 就滿足
此外,x 的 L2 范數(shù)滿足(x 的量級(jí)受限):
其中 rx 為正項(xiàng)通用常數(shù)。
3.1 一致性收斂、經(jīng)驗(yàn)風(fēng)險(xiǎn)的穩(wěn)定性和泛化性
定理 1 確定了深度線性神經(jīng)網(wǎng)絡(luò)經(jīng)驗(yàn)風(fēng)險(xiǎn)的一致收斂性結(jié)果。
定理 1: 假定假設(shè) 1 中的輸入數(shù)據(jù) x 在深度神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)是線性的。那么存在兩個(gè)通用常數(shù) cf ′ 和 cf,且滿足:
那么,就存在:
該不等式的置信度至少為 1 − ε。其中 l 為神經(jīng)網(wǎng)絡(luò)層級(jí)數(shù)量、n 為樣本規(guī)模、dl 為***一層的維度大小。
3.2 梯度的一致性收斂
在這一部分中,我們分析了深度線性神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)風(fēng)險(xiǎn)和群體風(fēng)險(xiǎn)的梯度收斂性。梯度收斂的結(jié)果對(duì)描繪神經(jīng)網(wǎng)絡(luò)算法的全景圖十分有效。我們的結(jié)果展現(xiàn)在下面。
定理 2 :假定假設(shè) 1 中的輸入數(shù)據(jù) x 在深度神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)是線性的。經(jīng)驗(yàn)風(fēng)險(xiǎn)梯度在 L2 范數(shù)(歐幾里德范數(shù))中收斂到群體風(fēng)險(xiǎn)梯度。特別地,若
其中 cg' 為通用常數(shù),那么存在通用常數(shù) cg 滿足:
該不等式的置信度至少為 1 − ε,其中
3.3 駐點(diǎn)的一致性收斂
這里我們分析了在優(yōu)化深度學(xué)習(xí)算法經(jīng)驗(yàn)風(fēng)險(xiǎn)時(shí)的駐點(diǎn)屬性。為了簡(jiǎn)化起見(jiàn),我們使用了幾何性孤立(geometrically isolated)的非退化駐點(diǎn),因此該駐點(diǎn)局部中是唯一的。
4. 深度非線性神經(jīng)網(wǎng)絡(luò)的結(jié)果
在以上章節(jié),我們分析了深度線性神經(jīng)網(wǎng)絡(luò)模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)優(yōu)化全景圖。在本節(jié)中,我們接著分析深度非線形神經(jīng)網(wǎng)絡(luò),它采用了 sigmoid 激活函數(shù)并在實(shí)踐之中更受歡迎。值得注意的是,我們的分析技巧也適用于其他三階微分函數(shù),比如 帶有不同收斂率的 tanh 函數(shù)。這里我們假設(shè)輸入數(shù)據(jù)是高斯變量(i.i.d. Gaussian variables)。
4.1 一致性收斂、經(jīng)驗(yàn)風(fēng)險(xiǎn)的穩(wěn)定性和泛化
本章節(jié)中,我們首先給出經(jīng)驗(yàn)風(fēng)險(xiǎn)的一致收斂分析,接著分析其穩(wěn)定性(Stability)和泛化。
定理 4. 假定輸入樣本 x 服從假設(shè) 2,并且深度神經(jīng)網(wǎng)絡(luò)的激活函數(shù)是 sigmoid 函數(shù),那么如果
那么存在通用的常數(shù) cy,滿足:
該不等式的置信度至少為 1−ε,其中
4.2 梯度和駐點(diǎn)的一致性收斂
在這一部分中,我們分析了深度非線性神經(jīng)網(wǎng)絡(luò)經(jīng)驗(yàn)風(fēng)險(xiǎn)的梯度收斂性質(zhì)。
定理 5 假定輸入樣本 x 服從假設(shè) 2,并且深度神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)為 sigmoid 函數(shù)。那么經(jīng)驗(yàn)風(fēng)險(xiǎn)的梯度以 L2 范數(shù)(歐幾里德范數(shù))的方式一致收斂到群體風(fēng)險(xiǎn)的梯度。特別地,如果
其中 cy' 為常數(shù),那么有:
該不等式的置信度至少為 1 − ε,其中 cy、 cd 和 cr 是在定理 4 中的相同參數(shù)。
6. 證明概覽
在該章節(jié)中,我們將簡(jiǎn)單介紹證明的過(guò)程,不過(guò)由于空間限制,定理 1 到 6、推論 1 到 2、還有技術(shù)引理在補(bǔ)充材料中展示。
7. 結(jié)論
在這項(xiàng)工作中,我們提供了深度線性/非線性神經(jīng)網(wǎng)絡(luò)經(jīng)驗(yàn)風(fēng)險(xiǎn)優(yōu)化全景圖的理論分析,包括一致性收斂、穩(wěn)定性和經(jīng)驗(yàn)風(fēng)險(xiǎn)本身的泛化及其梯度和駐點(diǎn)的屬性。我們證明了經(jīng)驗(yàn)風(fēng)險(xiǎn)到群體風(fēng)險(xiǎn)的收斂率為。這些結(jié)果同樣揭示了神經(jīng)網(wǎng)絡(luò)深度(層級(jí)數(shù))l、網(wǎng)絡(luò)大小及寬度對(duì)收斂率至關(guān)重要。我們也證明了權(quán)重參數(shù)的量級(jí)在收斂速度上也扮演著重要角色。事實(shí)上,我們建議使用小量級(jí)權(quán)重?cái)?shù)。所有的結(jié)果與實(shí)踐中廣泛使用的網(wǎng)絡(luò)架構(gòu)相匹配。
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】