自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何理解深度學(xué)習(xí)的優(yōu)化?通過分析梯度下降的軌跡

開發(fā) 開發(fā)工具 深度學(xué)習(xí)
深度學(xué)習(xí)很大程度上仍是一個(gè)黑箱,但研究者一直沒有停下理解它的步伐。普林斯頓高等研究院的研究者 Nadav Cohen 近日發(fā)文介紹了理解深度學(xué)習(xí)優(yōu)化的進(jìn)展以及他們近期在這方面的一項(xiàng)研究成果。

神經(jīng)網(wǎng)絡(luò)優(yōu)化本質(zhì)上是非凸的,但簡(jiǎn)單的基于梯度的方法似乎總是能解決這樣的問題。這一現(xiàn)象是深度學(xué)習(xí)的核心支柱之一,并且也是我們很多理論學(xué)家試圖揭示的謎題。這篇文章將總結(jié)一些試圖攻克這一問題的近期研究,***還將討論我與 Sanjeev Arora、Noah Golowich 和 Wei Hu 合作的一篇新論文(arXiv:1810.02281)。該論文研究了深度線性神經(jīng)網(wǎng)絡(luò)上梯度下降的情況,能保證以線性速率收斂到全局最小值。

[[249965]]

圖景(landscape)方法及其局限性

很多有關(guān)深度學(xué)習(xí)優(yōu)化的論文都隱含地假設(shè):在建立了損失圖景(尤其是臨界點(diǎn)的損失圖景,臨界點(diǎn)是指梯度消失的點(diǎn))的幾何性質(zhì)之后,就會(huì)得到對(duì)其的嚴(yán)格理解。舉個(gè)例子,通過類比凝聚態(tài)物理學(xué)的球形自旋玻璃模型,Choromanska et al. 2015 的論證變成了深度學(xué)習(xí)領(lǐng)域的一個(gè)猜想:

圖景猜想:在神經(jīng)網(wǎng)絡(luò)優(yōu)化問題中,次優(yōu)的臨界點(diǎn)的 Hessian 非??赡苡胸?fù)的特征值。換句話說,幾乎沒有糟糕的局部最小值,而且?guī)缀跛械陌包c(diǎn)都是嚴(yán)格的。

針對(duì)多種不同的涉及淺(兩層)模型的簡(jiǎn)單問題的損失圖景,這一猜想的強(qiáng)形式已經(jīng)得到了證明。這些簡(jiǎn)單問題包括矩陣感知、矩陣完成、正交張量分解、相位恢復(fù)和具有二次激活的神經(jīng)網(wǎng)絡(luò)。也有研究者在探究當(dāng)圖景猜想成立時(shí)實(shí)現(xiàn)梯度下降到全局最小值的收斂,Rong Ge、Ben Recht、Chi Jin 和 Michael Jordan 的博客已經(jīng)給出了很好的描述:

  • http://www.offconvex.org/2016/03/22/saddlepoints/
  • http://www.offconvex.org/2016/03/24/saddles-again/
  • http://www.offconvex.org/2016/03/24/saddles-again/

他們描述了梯度下降可以如何通過逃避所有的嚴(yán)格鞍點(diǎn)來達(dá)到二階局部最小值(Hessian 為正半定的臨界點(diǎn)),并還描述了當(dāng)將擾動(dòng)加入到該算法時(shí)這個(gè)過程是如何有效的。注意這是在圖景猜想下,即當(dāng)沒有糟糕的局部最小值和非嚴(yán)格鞍點(diǎn)時(shí),二階局部最小值可能也是全局最小值。

但是,很顯然,圖景方法(和圖景猜想)不能以這種方式應(yīng)用于深度(三層或更多層)網(wǎng)絡(luò)。有多個(gè)原因。***,深度網(wǎng)絡(luò)通常會(huì)引入非嚴(yán)格鞍點(diǎn)(比如,在所有權(quán)重都為零的點(diǎn),參見 Kawaguchi 2016)。第二,圖景角度很大程度上忽視了算法方面,而在實(shí)踐中算法方面對(duì)深度網(wǎng)絡(luò)的收斂有很大的影響——比如初始化或批歸一化的類型。***,正如我在之前的文章中談到的,基于 Sanjeev Arora 和 Elad Hazan 的研究,為經(jīng)典線性模型添加(冗余的)線性層有時(shí)能為基于梯度的優(yōu)化帶來加速,而不會(huì)給模型的表現(xiàn)力帶來任何增益,但是卻會(huì)為之前的凸問題引入非凸性。任何僅依靠臨界點(diǎn)性質(zhì)的圖景分析都難以解釋這一現(xiàn)象,因?yàn)橥ㄟ^這樣的方法,因?yàn)閮?yōu)化一個(gè)具有單個(gè)臨界點(diǎn)且該臨界點(diǎn)是全局最小值的凸目標(biāo)是最困難的。

解決方案?

圖景方法在分析深度學(xué)習(xí)優(yōu)化上的局限性說明它可能拋棄了太多重要細(xì)節(jié)。比起「圖景方法是否優(yōu)雅」,也許更相關(guān)的問題是「來自特定初始化的特定優(yōu)化器軌跡(trajectory)具有怎樣的行為?」

盡管基于軌跡的方法看起來比圖景方法繁重得多,但它已經(jīng)帶來了可觀的進(jìn)展。近期一些論文(比如 Brutzkus and Globerson 2017、Li and Yuan 2017、Zhong et al. 2017、Tian 2017、Brutzkus et al. 2018、Li et al. 2018、Du et al. 2018、Liao et al. 2018)已經(jīng)采用了這一策略,并成功分析了不同類型的淺模型。此外,基于軌跡的分析也正開始涉足圖景方法之外的領(lǐng)域——對(duì)于線性神經(jīng)網(wǎng)絡(luò)情況,他們已經(jīng)成功確立在任意深度下梯度下降到全局最小值的收斂性。

對(duì)深度線性神經(jīng)網(wǎng)絡(luò)的基于軌跡的分析

線性神經(jīng)網(wǎng)絡(luò)是使用線性激活或不使用激活的全連接神經(jīng)網(wǎng)絡(luò)。具體來說,一個(gè)輸入維度為 d_0,輸出維度為 d_N 且隱藏維度為 d_1,d_2...d_{N-1} 的深度為 N 的線性網(wǎng)絡(luò)是的線性映射,該映射被參數(shù)化為,其中是第 j 層的權(quán)重矩陣。盡管這樣表示看起來很簡(jiǎn)單普通,但線性神經(jīng)網(wǎng)絡(luò)在優(yōu)化方面在某種程度上復(fù)雜得讓人驚訝——它們會(huì)導(dǎo)致具有多個(gè)最小值和鞍點(diǎn)的非凸訓(xùn)練問題。被視為深度學(xué)習(xí)中優(yōu)化的替代理論,基于梯度的算法在線性神經(jīng)網(wǎng)絡(luò)上的應(yīng)用在這段時(shí)間收到了極大的關(guān)注。

就我所知,Saxe et al. 2014 是***為深度(三或更多層)線性網(wǎng)絡(luò)執(zhí)行了基于軌跡的分析,在白化的數(shù)據(jù)上處理最小化 ℓ2 損失的梯度流(學(xué)習(xí)率極小的梯度下降)。盡管這個(gè)分析有很重要的貢獻(xiàn),但卻并未正式確立到全局最小值的收斂性,也沒有考慮計(jì)算復(fù)雜性方面(收斂所需的迭代次數(shù))。近期研究 Bartlett et al. 2018 在填補(bǔ)這些空白上取得了進(jìn)展,應(yīng)用了基于軌跡的方法來分析用于線性殘差網(wǎng)絡(luò)特定案例的梯度下降,即所有層都有統(tǒng)一寬度(d_0=d_1=...=d_N)且同等初始化(W_j=I, ∀j)的線性網(wǎng)絡(luò)。考慮到數(shù)據(jù)-標(biāo)簽分布各有不同(他們稱之為「targets」),Bartlett 等人展示了可證明梯度下降以線性速率收斂到全局最小值的案例——在次迭代后與***的損失小于 ϵ>0;還展示了無法收斂的情況。

在我與 Sanjeev Arora、Noah Golowich 和 Wei Hu 合作的一篇新論文中,我們?cè)谑褂没谲壽E的方法方面又向前邁進(jìn)了一步。具體而言,我們分析了任意不包含「瓶頸層」的線性神經(jīng)網(wǎng)絡(luò)的梯度下降軌跡,瓶頸層是指其隱藏維度不小于輸入和輸出維度之間的最小值;還證明了以線性速率到全局最小值的收斂性。但初始化需要滿足下面兩個(gè)條件:(1)近似平衡度(approximate balancedness)——;(2)缺值余量(deficiency margin)——初始損失小于任意秩缺失解的損失。我們證明這兩個(gè)條件都是必需的,違反其中任意一個(gè)都可能導(dǎo)致軌跡不收斂。在線性殘差網(wǎng)絡(luò)的特殊案例中,初始化時(shí)的近似平衡度很容易滿足,而且對(duì)于以零為中心的小隨機(jī)擾動(dòng)進(jìn)行初始化的自定義設(shè)置也同樣容易滿足。后者也會(huì)導(dǎo)致出現(xiàn)具有正概率的缺值余量。對(duì)于 d_N=1 的情況(即標(biāo)量回歸),我們提供了一個(gè)隨機(jī)初始化方案,能同時(shí)滿足這兩個(gè)條件,因此能以恒定概率以線性速率收斂到全局最小值。

我們分析的關(guān)鍵是觀察權(quán)重是否初始化到了近似平衡,它們會(huì)在梯度下降的整個(gè)迭代中一直這樣保持。換句話說,優(yōu)化方法所采取的軌跡遵循一個(gè)特殊的特征:

其意思是在整個(gè)時(shí)間線中,所有層都有(接近)一樣的奇異值集合,而且每層的左側(cè)奇異值向量都與其后一層的右側(cè)奇異值向量(接近)一致。我們表明這種規(guī)律性意味著梯度下降能穩(wěn)定運(yùn)行,從而證明即使是在損失圖景整體很復(fù)雜的案例中(包括很多非嚴(yán)格鞍點(diǎn)),它也可能會(huì)在優(yōu)化器所取的特定軌跡周圍表現(xiàn)得特別良好。

總結(jié)

通過圖景方法解決深度學(xué)習(xí)中優(yōu)化的問題在概念上很吸引人,即分析與訓(xùn)練所用算法無關(guān)的目標(biāo)的幾何性質(zhì)。但是這一策略存在固有的局限性,主要是因?yàn)樗笳麄€(gè)目標(biāo)都要優(yōu)雅,這似乎是一個(gè)過于嚴(yán)格的要求。替代方法是將優(yōu)化器及其初始化納入考量,并且僅沿所得到的軌跡關(guān)注其圖景。這種替代方法正得到越來越多的關(guān)注。圖景分析目前僅限于淺(兩層)模型,而基于軌跡的方法最近已經(jīng)處理了任意深度的模型,證明了梯度下降能以線性速率收斂到全局最小值。但是,這一成功僅包含了線性神經(jīng)網(wǎng)絡(luò),還仍有很多工作有待完成。我預(yù)計(jì)基于軌跡的方法也將成為我們正式理解深度非線性網(wǎng)絡(luò)的基于梯度的優(yōu)化的關(guān)鍵。

原文鏈接:http://www.offconvex.org/2018/11/07/optimization-beyond-landscape/

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

 

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2018-07-20 14:58:16

深度學(xué)習(xí)梯度下降損失函數(shù)

2017-03-22 12:25:29

機(jī)器學(xué)習(xí)梯度下降法

2017-07-25 12:59:10

機(jī)器學(xué)習(xí)梯度下降算法

2016-11-28 09:24:08

Python內(nèi)存技巧

2017-08-24 10:54:29

Andrew NG深度學(xué)習(xí)操作

2014-06-19 14:14:35

機(jī)器學(xué)習(xí)

2017-11-20 13:46:10

AI深度學(xué)習(xí)方法

2020-05-19 10:02:20

物聯(lián)網(wǎng)數(shù)據(jù)分析IOT

2017-04-24 08:35:09

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)合成梯度

2017-03-06 16:56:37

深度學(xué)習(xí)本質(zhì)現(xiàn)狀

2021-04-21 20:42:42

Nadam梯度優(yōu)化

2017-04-19 09:15:57

深度學(xué)習(xí)

2017-04-13 17:20:21

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2019-03-28 07:31:03

2023-09-06 14:46:37

2018-11-21 09:22:54

策略梯度算法機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2020-09-16 10:09:58

深度學(xué)習(xí)DNN計(jì)算

2023-05-14 22:00:01

2017-04-05 19:04:09

2017-05-08 08:39:12

梯度算法Octave機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)