自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

想知道深度學習優(yōu)化算法的原理?點我!快點我

人工智能 深度學習 算法
深度學習是一個高度迭代的過程。必須嘗試超參數(shù)的各種排列才能確定最佳組合。因此,在不影響成本的前提下,深度學習模式必須在更短的時間內(nèi)進行訓練。本文將解釋深度學習中常用優(yōu)化算法背后的數(shù)學原理。

深度學習是一個高度迭代的過程。必須嘗試超參數(shù)的各種排列才能確定最佳組合。因此,在不影響成本的前提下,深度學習模式必須在更短的時間內(nèi)進行訓練。本文將解釋深度學習中常用優(yōu)化算法背后的數(shù)學原理。

[[274188]]

優(yōu)化算法

在算法f(x)中,優(yōu)化算法可得到f(x)的最大值或最小值。在深度學習中,可通過優(yōu)化代價函數(shù)J來訓練神經(jīng)網(wǎng)絡。代價函數(shù)為:

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

代價函數(shù)J的值是預測值y '與實際值y之間損失L的均值。利用網(wǎng)絡的權(quán)值W和偏置b,在正向傳播過程中得到y(tǒng) '值。通過優(yōu)化算法更新可訓練參數(shù)W和b的值,從而使代價函數(shù)J的值最小化。

梯度下降法

權(quán)值矩陣W是隨機初始化的。利用梯度下降法可使代價函數(shù)J最小化,得到最優(yōu)權(quán)矩陣W和偏置b。梯度下降法是一種求函數(shù)最小值的一階迭代優(yōu)化算法。將代價函數(shù)J應用于梯度下降法來最小化成本。數(shù)學上可定義為:

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

第一個方程表示權(quán)值矩陣W的變化量,第二個方程表示偏置b的變化量。這兩個值的變化由學習率和成本J對權(quán)值矩陣W和偏置b的導數(shù)決定。反復更新W和 b,直到代價函數(shù)J最小化。接下來本文將通過下圖來解釋梯度下降法的原理:

 

想知道深度學習優(yōu)化算法的原理?點我!快點我
  • 案例1. 假設W初始值小于其達到全局最小值時的值。這一點的斜率J對W的偏導數(shù)為負,因此,根據(jù)梯度下降方程,權(quán)值增加。
  • 案例2. 假設W初始值大于其達到全局最小值時的值。這一點的斜率J對W的偏導數(shù)為正,因此,根據(jù)梯度下降方程權(quán)值下降。

因此,W和b都取得最優(yōu)值,代價函數(shù)J的值被最小化。

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

以上給出了以梯度下降法為優(yōu)化算法的基本策略。

小批量梯度下降法

梯度下降法的缺點之一是只有在經(jīng)過完整的訓練數(shù)據(jù)后才可更新參數(shù)。當訓練數(shù)據(jù)過大無法載入計算機內(nèi)存時,這無疑構(gòu)成了一大挑戰(zhàn)。小批量梯度下降法是解決上述梯度下降問題的一種應變之法。

在小批量梯度下降中,可根據(jù)用例將整個訓練數(shù)據(jù)分布在大小為16、32、64等的小批量中。然后使用這些小批量來迭代訓練網(wǎng)絡。使用小批量有以下兩個優(yōu)點:

  1. 在最初的幾個訓練案例中,只要遍歷第一個小批量,即可開始訓練。
  2. 當擁有大量不適合儲入內(nèi)存的數(shù)據(jù)時,可以訓練一個神經(jīng)網(wǎng)絡。

現(xiàn)在batch_size成為新的模型超參數(shù)。

  1. 當batch_size = number of training examples (訓練樣本數(shù))時,稱為批量梯度下降。此時就存在著需要遍歷整個數(shù)據(jù)集后才能開始學習的問題。
  2. 當batch_size = 1時,稱為隨機梯度下降。由于沒有充分利用矢量化,訓練將變得非常緩慢。
  3. 因此,通常選擇64或128或256或512。然而,這取決于用例和系統(tǒng)內(nèi)存,換而言之,應確保一個小批量能載入系統(tǒng)內(nèi)存。

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

以上給出了采用小批量梯度下降法作為優(yōu)化算法的基本策略。

Momentum

動量梯度下降法是一種先進的優(yōu)化算法,可加快代價函數(shù)J的優(yōu)化。動量梯度下降法利用移動平均來更新神經(jīng)網(wǎng)絡的可訓練參數(shù)。

移動平均值是在n個連續(xù)值上計算的平均值,而不是整組值。數(shù)學上表示為:

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

這里,A[i]表示X[i]值在i數(shù)據(jù)點處的移動平均值。參數(shù)β決定計算平均值的數(shù)值n。例如,如果β= 0.9,移動平均值用10個連續(xù)值來計算;如果β= 0.99, 移動平均值用100個連續(xù)值來計算。一般情況下,n的值可近似為:

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

下圖顯示了移動平均線的工作原理。隨著β值增加,n增加,圖形偏向右邊,這是因為初始階段,這些值都會增加。然而,當β減少,n減少,就可以正確建模X。因此有必要找出適當?shù)?beta;值以得到良好的移動平均線??梢钥闯?beta;= 0.9時適用于大多數(shù)情況。

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

現(xiàn)在,了解了什么是移動平均線,接下來試著理解其在動量算法中的應用。訓練神經(jīng)網(wǎng)絡時,目標是優(yōu)化代價函數(shù)J,使其值最小化。傳統(tǒng)梯度下降優(yōu)化器遵循藍色路徑,而動量優(yōu)化器遵循綠色路徑以達到最小值(紅色)。

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

與動量相比,梯度下降的路徑步驟過多。這是因為梯度下降在y軸上有很大波動,而在x軸上移動得很少,也就接近最小值。正確的解決方案是通過抑制y軸的運動來減少波動。這就是移動平均線發(fā)揮作用的地方。

觀察藍色的路徑,可以看到y(tǒng)軸上的運動是一系列的正負變化。將加權(quán)平均應用于幾乎為零的運動,隨后即出現(xiàn)y軸上的波動。對于x軸的運動也有類似的直覺。這減少了路徑上的波動,最終,隨著訓練迭代次數(shù)的減少,神經(jīng)網(wǎng)絡在較短的時間內(nèi)達到最小值。為此,引入兩個新的變量VdW和Vdb來跟蹤權(quán)值dW和偏置db的導數(shù)的加權(quán)平均值。

值得注意的是,由于只有參數(shù)更新方法發(fā)生了更改,所以也可使用小批量處理方法和力矩優(yōu)化器。

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

以上給出了以動量為優(yōu)化算法的基本策略。

RMS Prop

RMS Prop是指均方根傳播,與動量類似,它是一種抑制y軸運動的技術(shù)。前面的示例有助于理解其原理。為了更好地理解,這里將y軸表示為偏置b,把x軸表示為權(quán)重W。

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

憑直覺而言,當用一個大數(shù)除以另一個數(shù)時,結(jié)果會變得很小。該例中,第一個大數(shù)為db,第二大數(shù)為加權(quán)平均db²。引入了兩個新的變量Sdb和SdW,跟蹤db²和dW²的加權(quán)平均。db和Sdb相除得到一個更小的值,它抑制了y軸的運動。引入Ⲉ避免出現(xiàn)除以零的錯誤。對于 x軸上W的值的更新也有類似的直覺。

值得注意的是,這里以y軸為偏置b, x軸為權(quán)值W,以便更好地理解和可視化參數(shù)的更新。也可用類似的方法消除由任何偏置b(b1, b2,…,bn)或權(quán)值W(W1, W2,…,Wn)或兩者引起的任何波動。同樣,由于只有參數(shù)更新方法發(fā)生了更改,也可使用小批量處理方法和均方根優(yōu)化器(RMS optimizer)。

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

以上給出了使用RMS Prop作為優(yōu)化算法時的基本策略。

AdaM

AdaM是指適應性動量。它使用單一方法結(jié)合動量和RMS prop,是一種強大而快速的優(yōu)化器。也可利用誤差修正方法解決加權(quán)平均計算中的冷啟動問題(即加權(quán)平均值的前幾個值與實際值相差太遠)。V值包含動量邏輯,而S值包含RMS prop邏輯。

值得注意的是,計算中使用2個不同的β值。β1用于計算相關(guān)動量,而β2用于計算相關(guān)RMS prop。同樣,由于只有參數(shù)更新方法發(fā)生了更改,所以也可使用小批量處理方法和AdaM 優(yōu)化器。

 

想知道深度學習優(yōu)化算法的原理?點我!快點我

以上給出了使用AdaM作為優(yōu)化算法時的基本策略。

性能比較

 

想知道深度學習優(yōu)化算法的原理?點我!快點我
圖1

 

想知道深度學習優(yōu)化算法的原理?點我!快點我
圖2

損失曲面的輪廓及不同優(yōu)化算法的時間演化

責任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2017-07-13 10:03:43

優(yōu)化算法Adam深度學習

2019-09-21 20:57:59

Android安卓開發(fā)

2018-06-20 00:30:06

2021-04-16 11:31:24

人工智能深度學習

2015-04-13 16:13:11

2020-04-16 11:19:55

深度學習神經(jīng)網(wǎng)絡網(wǎng)絡層

2017-07-11 10:19:24

淺層模型機器學習優(yōu)化算法

2016-01-31 17:36:51

WiFi密碼

2018-06-04 09:12:54

2011-07-14 16:21:34

WPS Online

2022-10-14 08:45:54

2009-09-24 08:45:26

微軟競爭對手Chrome

2021-07-01 09:00:00

安全數(shù)字化轉(zhuǎn)型滲透

2017-09-01 14:18:50

前端React組件

2019-10-29 15:28:40

Refs組件前端

2020-10-14 10:25:20

深度學習機器學習神經(jīng)網(wǎng)絡

2018-10-22 11:25:01

Photoshop工具移動

2020-10-20 10:14:01

JVM內(nèi)存模型

2012-05-27 18:20:19

蘋果

2011-08-12 09:39:14

Office 15
點贊
收藏

51CTO技術(shù)棧公眾號