自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="wb555"></ruby>

<sub id="wb555"></sub>

<label id="wb555"><button id="wb555"><span id="wb555"></span></button></label>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

想知道深度學習優(yōu)化算法的原理？點我！快點我

作者：讀芯術(shù) 2019-08-20 09:02:09

人工智能深度學習算法

深度學習是一個高度迭代的過程。必須嘗試超參數(shù)的各種排列才能確定最佳組合。因此，在不影響成本的前提下，深度學習模式必須在更短的時間內(nèi)進行訓練。本文將解釋深度學習中常用優(yōu)化算法背后的數(shù)學原理。

深度學習是一個高度迭代的過程。必須嘗試超參數(shù)的各種排列才能確定最佳組合。因此，在不影響成本的前提下，深度學習模式必須在更短的時間內(nèi)進行訓練。本文將解釋深度學習中常用優(yōu)化算法背后的數(shù)學原理。

優(yōu)化算法

在算法f(x)中，優(yōu)化算法可得到f(x)的最大值或最小值。在深度學習中，可通過優(yōu)化代價函數(shù)J來訓練神經(jīng)網(wǎng)絡。代價函數(shù)為：

想知道深度學習優(yōu)化算法的原理？點我！快點我

代價函數(shù)J的值是預測值y '與實際值y之間損失L的均值。利用網(wǎng)絡的權(quán)值W和偏置b，在正向傳播過程中得到y(tǒng) '值。通過優(yōu)化算法更新可訓練參數(shù)W和b的值，從而使代價函數(shù)J的值最小化。

梯度下降法

權(quán)值矩陣W是隨機初始化的。利用梯度下降法可使代價函數(shù)J最小化，得到最優(yōu)權(quán)矩陣W和偏置b。梯度下降法是一種求函數(shù)最小值的一階迭代優(yōu)化算法。將代價函數(shù)J應用于梯度下降法來最小化成本。數(shù)學上可定義為：

想知道深度學習優(yōu)化算法的原理？點我！快點我

第一個方程表示權(quán)值矩陣W的變化量，第二個方程表示偏置b的變化量。這兩個值的變化由學習率和成本J對權(quán)值矩陣W和偏置b的導數(shù)決定。反復更新W和 b，直到代價函數(shù)J最小化。接下來本文將通過下圖來解釋梯度下降法的原理：

想知道深度學習優(yōu)化算法的原理？點我！快點我

案例1. 假設W初始值小于其達到全局最小值時的值。這一點的斜率J對W的偏導數(shù)為負，因此，根據(jù)梯度下降方程，權(quán)值增加。
案例2. 假設W初始值大于其達到全局最小值時的值。這一點的斜率J對W的偏導數(shù)為正，因此，根據(jù)梯度下降方程權(quán)值下降。

因此，W和b都取得最優(yōu)值，代價函數(shù)J的值被最小化。

想知道深度學習優(yōu)化算法的原理？點我！快點我

以上給出了以梯度下降法為優(yōu)化算法的基本策略。

小批量梯度下降法

梯度下降法的缺點之一是只有在經(jīng)過完整的訓練數(shù)據(jù)后才可更新參數(shù)。當訓練數(shù)據(jù)過大無法載入計算機內(nèi)存時，這無疑構(gòu)成了一大挑戰(zhàn)。小批量梯度下降法是解決上述梯度下降問題的一種應變之法。

在小批量梯度下降中，可根據(jù)用例將整個訓練數(shù)據(jù)分布在大小為16、32、64等的小批量中。然后使用這些小批量來迭代訓練網(wǎng)絡。使用小批量有以下兩個優(yōu)點：

在最初的幾個訓練案例中，只要遍歷第一個小批量，即可開始訓練。
當擁有大量不適合儲入內(nèi)存的數(shù)據(jù)時，可以訓練一個神經(jīng)網(wǎng)絡。

現(xiàn)在batch_size成為新的模型超參數(shù)。

當batch_size = number of training examples (訓練樣本數(shù))時，稱為批量梯度下降。此時就存在著需要遍歷整個數(shù)據(jù)集后才能開始學習的問題。
當batch_size = 1時，稱為隨機梯度下降。由于沒有充分利用矢量化，訓練將變得非常緩慢。
因此，通常選擇64或128或256或512。然而，這取決于用例和系統(tǒng)內(nèi)存，換而言之，應確保一個小批量能載入系統(tǒng)內(nèi)存。

想知道深度學習優(yōu)化算法的原理？點我！快點我

以上給出了采用小批量梯度下降法作為優(yōu)化算法的基本策略。

Momentum

動量梯度下降法是一種先進的優(yōu)化算法，可加快代價函數(shù)J的優(yōu)化。動量梯度下降法利用移動平均來更新神經(jīng)網(wǎng)絡的可訓練參數(shù)。

移動平均值是在n個連續(xù)值上計算的平均值，而不是整組值。數(shù)學上表示為：

這里，A[i]表示X[i]值在i數(shù)據(jù)點處的移動平均值。參數(shù)β決定計算平均值的數(shù)值n。例如,如果β= 0.9,移動平均值用10個連續(xù)值來計算;如果β= 0.99, 移動平均值用100個連續(xù)值來計算。一般情況下，n的值可近似為：

下圖顯示了移動平均線的工作原理。隨著β值增加,n增加,圖形偏向右邊,這是因為初始階段,這些值都會增加。然而,當β減少,n減少,就可以正確建模X。因此有必要找出適當?shù)?beta;值以得到良好的移動平均線?？梢钥闯?beta;= 0.9時適用于大多數(shù)情況。

想知道深度學習優(yōu)化算法的原理？點我！快點我

現(xiàn)在，了解了什么是移動平均線，接下來試著理解其在動量算法中的應用。訓練神經(jīng)網(wǎng)絡時，目標是優(yōu)化代價函數(shù)J，使其值最小化。傳統(tǒng)梯度下降優(yōu)化器遵循藍色路徑，而動量優(yōu)化器遵循綠色路徑以達到最小值(紅色)。

想知道深度學習優(yōu)化算法的原理？點我！快點我

與動量相比，梯度下降的路徑步驟過多。這是因為梯度下降在y軸上有很大波動，而在x軸上移動得很少，也就接近最小值。正確的解決方案是通過抑制y軸的運動來減少波動。這就是移動平均線發(fā)揮作用的地方。

觀察藍色的路徑，可以看到y(tǒng)軸上的運動是一系列的正負變化。將加權(quán)平均應用于幾乎為零的運動，隨后即出現(xiàn)y軸上的波動。對于x軸的運動也有類似的直覺。這減少了路徑上的波動，最終，隨著訓練迭代次數(shù)的減少，神經(jīng)網(wǎng)絡在較短的時間內(nèi)達到最小值。為此，引入兩個新的變量VdW和Vdb來跟蹤權(quán)值dW和偏置db的導數(shù)的加權(quán)平均值。

值得注意的是，由于只有參數(shù)更新方法發(fā)生了更改，所以也可使用小批量處理方法和力矩優(yōu)化器。

想知道深度學習優(yōu)化算法的原理？點我！快點我

以上給出了以動量為優(yōu)化算法的基本策略。

RMS Prop

RMS Prop是指均方根傳播，與動量類似，它是一種抑制y軸運動的技術(shù)。前面的示例有助于理解其原理。為了更好地理解，這里將y軸表示為偏置b，把x軸表示為權(quán)重W。

想知道深度學習優(yōu)化算法的原理？點我！快點我

憑直覺而言，當用一個大數(shù)除以另一個數(shù)時，結(jié)果會變得很小。該例中,第一個大數(shù)為db，第二大數(shù)為加權(quán)平均db²。引入了兩個新的變量Sdb和SdW，跟蹤db²和dW²的加權(quán)平均。db和Sdb相除得到一個更小的值，它抑制了y軸的運動。引入Ⲉ避免出現(xiàn)除以零的錯誤。對于 x軸上W的值的更新也有類似的直覺。

值得注意的是，這里以y軸為偏置b, x軸為權(quán)值W，以便更好地理解和可視化參數(shù)的更新。也可用類似的方法消除由任何偏置b(b1, b2，…，bn)或權(quán)值W(W1, W2，…，Wn)或兩者引起的任何波動。同樣，由于只有參數(shù)更新方法發(fā)生了更改，也可使用小批量處理方法和均方根優(yōu)化器(RMS optimizer)。

想知道深度學習優(yōu)化算法的原理？點我！快點我

以上給出了使用RMS Prop作為優(yōu)化算法時的基本策略。

AdaM

AdaM是指適應性動量。它使用單一方法結(jié)合動量和RMS prop，是一種強大而快速的優(yōu)化器。也可利用誤差修正方法解決加權(quán)平均計算中的冷啟動問題(即加權(quán)平均值的前幾個值與實際值相差太遠)。V值包含動量邏輯,而S值包含RMS prop邏輯。

值得注意的是,計算中使用2個不同的β值。β1用于計算相關(guān)動量，而β2用于計算相關(guān)RMS prop。同樣，由于只有參數(shù)更新方法發(fā)生了更改，所以也可使用小批量處理方法和AdaM 優(yōu)化器。

想知道深度學習優(yōu)化算法的原理？點我！快點我

以上給出了使用AdaM作為優(yōu)化算法時的基本策略。

性能比較

想知道深度學習優(yōu)化算法的原理？點我！快點我

圖1

想知道深度學習優(yōu)化算法的原理？點我！快點我

圖2

損失曲面的輪廓及不同優(yōu)化算法的時間演化

責任編輯：未麗燕來源：今日頭條

深度學習優(yōu)化算法梯度

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<p id="flvo3"><rp id="flvo3"></rp></p>

<style id="flvo3"><rp id="flvo3"></rp></style>