自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="dn1m8"></sub>

<sub id="dn1m8"><p id="dn1m8"><li id="dn1m8"></li></p></sub>

<cite id="dn1m8"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

神經網絡如何學習的？

作者：deephub 2020-08-06 10:11:13

人工智能深度學習

毫無疑問，神經網絡是目前使用的最流行的機器學習技術。所以我認為了解神經網絡如何學習是一件非常有意義的事。

像下山一樣，找到損失函數(shù)的最低點。

毫無疑問，神經網絡是目前使用的最流行的機器學習技術。所以我認為了解神經網絡如何學習是一件非常有意義的事。

為了能夠理解神經網絡是如何進行學習的，讓我們先看看下面的圖片:

神經網絡如何學習的？

如果我們把每一層的輸入和輸出值表示為向量，把權重表示為矩陣，把誤差表示為向量，那么我們就得到了上述的一個神經網絡的視圖，它只是一系列向量函數(shù)的應用。也就是說，函數(shù)將向量作為輸入，對它們進行一些轉換，然后把變換后的向量輸出。在上圖中，每條線代表一個函數(shù)，它可以是一個矩陣乘法加上一個誤差向量，也可以是一個激活函數(shù)。這些圓表示這些函數(shù)作用的向量。

例如，我們從輸入向量開始，然后將其輸入到第一個函數(shù)中，該函數(shù)用來計算其各分量的線性組合，然后我們將獲得的向量作為輸出。然后把這個向量作為激活函數(shù)的輸入，如此類推，直到我們到達序列中的最后一個函數(shù)。最后一個函數(shù)的輸出就是神經網絡的預測值。

到目前為止，我們已經討論過神經網絡是如何得到輸出的，這正是我們感興趣的內容。我們知道神經網絡只是將它的輸入向量傳遞給一系列函數(shù)。但是這些函數(shù)要依賴于一些參數(shù)：權重和誤差。

神經網絡如何通過學習得到這些參數(shù)來獲得好的預測呢?

讓我們回想一下神經網絡實際上是什么：實際上它只是一個函數(shù)，是由一個個小函數(shù)按順序排列組成的大函數(shù)。這個函數(shù)有一組參數(shù)，在一開始，我們并不知道這些參數(shù)應該是什么，我們僅僅是隨機初始化它們。因此在一開始神經網絡會給我們一些隨機的值。那么我們如何改進他們呢?在嘗試改進它們之前，我們首先需要一種評估神經網絡性能的方法。如果我們沒有辦法衡量模型的好壞，那么我們應該如何改進模型的性能?

為此，我們需要設計一個函數(shù)，這個函數(shù)將神經網絡的預測值和數(shù)據(jù)集中的真實標簽作為輸入，將一個代表神經網絡性能的數(shù)字作為輸出。然后我們就可以將學習問題轉化為求函數(shù)的最小值或最大值的優(yōu)化問題。在機器學習領域，這個函數(shù)通常是用來衡量我們的預測有多糟糕，因此被稱為損失函數(shù)。我們的問題就變成了找到使這個損失函數(shù)最小化的神經網絡參數(shù)。

隨機梯度下降算法

你可能很擅長從微積分中求函數(shù)的最小值。對于這種問題，通常取函數(shù)的梯度，令其等于0，求出所有的解(也稱為臨界點)，然后從中選擇使函數(shù)值最小的那一個。這就是全局最小值。我們能做同樣的事情來最小化我們的損失函數(shù)嗎?事實上是行不通的，主要的問題是神經網絡的損失函數(shù)并不像微積分課本中常見的那樣簡潔明了。它是一個極其復雜的函數(shù)，有數(shù)千個、幾十萬個甚至數(shù)百萬個參數(shù)。有時甚至不可能找到一個解決問題的收斂解。這個問題通常是通過迭代的方法來解決的，這些方法并不試圖找到一個直接的解，而是從一個隨機的解開始，并在每次迭代中嘗試改進一點。最終，經過大量的迭代，我們將得到一個相當好的解決方案。

其中一種迭代方法是梯度下降法。你可能知道，一個函數(shù)的梯度給出了最陡的上升方向，如果我們取梯度的負值，它會給我們最陡下降的方向，也就是我們可以在這個方向上最快地達到最小值。因此，在每一次迭代(也可以將其稱作一次訓練輪次)時，我們計算損失函數(shù)的梯度，并從舊參數(shù)中減去它(乘以一個稱為學習率的因子)以得到神經網絡的新參數(shù)。

神經網絡如何學習的？

其中θ(theta)表示包含神經網絡所有參數(shù)的向量。

在標準梯度下降法中，梯度是將整個數(shù)據(jù)集考慮進來并進行計算的。通常這是不可取的，因為該計算可能是昂貴的。在實踐中，數(shù)據(jù)集被隨機分成多個塊，這些塊被稱為批。對每個批進行更新。這種方法就叫做隨機梯度下降。

上面的更新規(guī)則在每一步只考慮在當前位置計算的梯度。這樣，在損失函數(shù)曲面上運動的點的軌跡對任何變動都很敏感。有時我們可能想讓這條軌跡更穩(wěn)健。為此，我們使用了一個受物理學啟發(fā)的概念：動量。我們的想法是，當我們進行更新時，也考慮到以前的更新，這會累積成一個變量Δθ。如果在同一個方向上進行更多的更新，那么我們將"更快"地朝這個方向前進，并且不會因為任何小的擾動而改變我們的軌跡。把它想象成速度。

神經網絡如何學習的？

其中α是非負因子，它可以決定舊梯度到底可以貢獻多少值。當它為0時，我們不使用動量。

反向傳播算法

我們如何計算梯度呢?回想一下神經網絡和損失函數(shù)，它們只是一個函數(shù)的組合。那么如何計算復合函數(shù)的偏導數(shù)呢?我們可以使用鏈式法則。讓我們看看下面的圖片：

神經網絡如何學習的？

如果我們要計算損失函數(shù)對第一層權重參數(shù)的偏導數(shù):我們首先讓第一個線性表達式對權重參數(shù)求偏導,然后用這個結果乘上下一個函數(shù)(也就是激活函數(shù))關于它前面函數(shù)輸出內容的偏導數(shù)，一直執(zhí)行這個操作,直到我們乘上損失函數(shù)關于最后一個激活函數(shù)的偏導數(shù)。那如果我們想要計算對第二層的權重參數(shù)求的導數(shù)呢?我們必須做同樣的過程，但是這次我們從第二個線性組合函數(shù)對權重參數(shù)求導數(shù)開始，然后，我們要乘的其他項在計算第一層權重的導數(shù)時也出現(xiàn)了。所以，與其一遍又一遍地計算這些術語，我們將從后向前計算，因此得名為反向傳播算法。

我們將首先計算出損失函數(shù)關于神經網絡輸出層的偏導數(shù)，然后通過保持導數(shù)的運行乘積將這些導數(shù)反向傳播到第一層。需要注意的是，我們有兩種導數(shù)：一種是函數(shù)關于它輸入內容的導數(shù)。我們把它們乘以導數(shù)的乘積，目的是跟蹤神經網絡從輸出層到當前層神經元節(jié)點的誤差。第二類導數(shù)是關于參數(shù)的，這類導數(shù)是我們用來優(yōu)化參數(shù)的。我們不把它與其它導數(shù)的乘積相乘，相反，我們將它們存儲為梯度的一部分，稍后我們將使用它來更新參數(shù)。

所以，在反向傳播時，當我們遇到沒有可學習參數(shù)的函數(shù)時(比如激活函數(shù))，我們只取第一種的導數(shù)，只是為了反向傳播誤差。但是,當我們遇到的函數(shù)有可學的參數(shù)(如線性組合,有權重和偏差)，那么我們取這兩種導數(shù):第一種是用誤差傳播的輸入，第二種是加權和偏差，并將它們作為梯度的一部分來存儲。整個過程，我們從損失函數(shù)開始，直到我們到達第一層，在這一層我們沒有任何想要添加到梯度中的可學習參數(shù)。這就是反向傳播算法。

Softmax激活和交叉熵損失函數(shù)

分類任務中，最后一層常用的激活函數(shù)是softmax函數(shù)。

神經網絡如何學習的？

softmax函數(shù)將其輸入向量轉換為概率分布。從上圖中可以看到softmax的輸出的向量元素都是正的，它們的和是1。當我們使用softmax激活時，我們在神經網絡最后一層創(chuàng)建與數(shù)據(jù)集中類數(shù)量相等的節(jié)點，并且softmax激活函數(shù)將給出在可能的類上的概率分布。因此，神經網絡的輸出將會把輸入向量屬于每一個可能類的概率輸出給我們，我們選擇概率最高的類作為神經網絡的預測。

當把softmax函數(shù)作為輸出層的激活函數(shù)時，通常使用交叉熵損失作為損失函數(shù)。交叉熵損失衡量兩個概率分布的相似程度。我們可以將輸入值x的真實標簽表示為一個概率分布：其中真實類標簽的概率為1，其他類標簽的概率為0。標簽的這種表示也被稱為一個熱編碼。然后我們用交叉熵來衡量網絡的預測概率分布與真實概率分布的接近程度。

神經網絡如何學習的？

其中y是真標簽的一個熱編碼，y hat是預測的概率分布，yi，yi hat是這些向量的元素。

如果預測的概率分布接近真實標簽的一個熱編碼，那么損失函數(shù)的值將接近于0。否則如果它們相差很大，損失函數(shù)的值可能會無限大。

均方誤差損失函數(shù)

softmax激活和交叉熵損失主要用于分類任務，而神經網絡只需在最后一層使用適當?shù)膿p失函數(shù)和激活函數(shù)就可以很容易地適應回歸任務。例如，如果我們沒有類標簽作為依據(jù)，我們有一個我們想要近似的數(shù)字列表，我們可以使用均方誤差(簡稱MSE)損失函數(shù)。通常，當我們使用MSE損失函數(shù)時，我們在最后一層使用身份激活(即f(x)=x)。

神經網絡如何學習的？

綜上所述，神經網絡的學習過程只不過是一個優(yōu)化問題：我們要找到使損失函數(shù)最小化的參數(shù)。但這不是一件容易的事，有很多關于優(yōu)化技術的書。而且，除了優(yōu)化之外，對于給定的任務選擇哪種神經網絡結構也會出現(xiàn)問題。

我希望這篇文章對你有幫助，并十分感謝你的閱讀。

責任編輯：未麗燕來源：今日頭條

神經網絡機器學習算法

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="kasim"></style>

<blockquote id="kasim"><rt id="kasim"></rt></blockquote>

<sub id="kasim"></sub>

<legend id="kasim"><track id="kasim"></track></legend>

<style id="kasim"></style>