深度學習的工作原理:窺視驅(qū)動今日AI的神經(jīng)網(wǎng)絡的內(nèi)部
譯文【51CTO.com快譯】今天人工智能的繁榮離不開一種名為深度學習的技術(shù),該技術(shù)基于人工神經(jīng)網(wǎng)絡。本文通過圖形解釋了如何構(gòu)建和訓練這些神經(jīng)網(wǎng)絡。
圖1. 架構(gòu)圖
人工神經(jīng)網(wǎng)絡中的每個神經(jīng)元對輸入求和,并運用激活函數(shù)以確定輸出。這種架構(gòu)的靈感來自大腦中的機理,其中神經(jīng)元通過突觸彼此之間傳輸信號。
圖2
這是一個假設的前饋深度神經(jīng)網(wǎng)絡的結(jié)構(gòu)(之所以是“深度”,是由于它有多個隱藏層)。該例子展示的一個網(wǎng)絡解釋了手寫數(shù)字的圖像,并將它們分類為10個可能數(shù)字中的一個。
輸入層含有許多神經(jīng)元,每個神經(jīng)元都有一個激活(activation),被設置為圖像中一個像素的灰度值。這些輸入神經(jīng)元連接到下一層的神經(jīng)元,在它們乘以某個值(稱為權(quán)重)后傳遞其激活級別。第二層中的每個神經(jīng)元對許多輸入求和,并運用激活函數(shù)以確定輸出,該輸出以相同的方式前饋。
訓練
這種神經(jīng)網(wǎng)絡通過計算實際輸出和預期輸出之間的差異來加以訓練。這里的數(shù)學優(yōu)化問題中的維度與網(wǎng)絡中的可調(diào)參數(shù)一樣多——主要是神經(jīng)元之間連接的權(quán)重,可以是正[藍線] 或負[紅線]。
訓練網(wǎng)絡本質(zhì)上是找到這種多維“損失”或“成本”函數(shù)的最小值。它在多輪訓練中迭代完成,逐漸改變網(wǎng)絡的狀態(tài)。實際上,這需要根據(jù)為一組隨機輸入示例計算的輸出對網(wǎng)絡的權(quán)重進行多次小的調(diào)整,每次都從控制輸出層的權(quán)重開始,然后通過網(wǎng)絡向后移動。(為簡單起見,這里只顯示了與每一層中單個神經(jīng)元相關的連接。)這個反向傳播過程針對許多隨機的訓練樣本集重復進行,直到損失函數(shù)最小化,然后網(wǎng)絡提供它為任何新輸入所能提供的最佳結(jié)果。
圖3
圖4
第1步:在輸入端顯示手寫的“3”時,未經(jīng)訓練的網(wǎng)絡的輸出神經(jīng)元會有隨機激活。希望與3相關的輸出神經(jīng)元有高激活[深色陰影],而其他輸出神經(jīng)元有低激活[淺色陰影]。因此,比如說,必須加大與3相關的神經(jīng)元的激活[紫色箭頭]。
圖5
第2步:為此,從第二個隱藏層中的神經(jīng)元到數(shù)字“3”的輸出神經(jīng)元的連接權(quán)重應該會變得更正[黑色箭頭],變化的大小與所連接的隱藏神經(jīng)元的激活成正比。
圖6
第 3 步:然后對第二個隱藏層中的神經(jīng)元執(zhí)行類似的過程。比如說,為了使網(wǎng)絡更準確,該層中的頂部神經(jīng)元可能需要降低激活[綠色箭頭]。通過調(diào)整其與第一個隱藏層[黑色箭頭]的連接權(quán)重,可以將網(wǎng)絡往該方向推進。
圖7
第4步:然后對第一個隱藏層重復該過程。比如說,該層中的第一個神經(jīng)元可能需要加大激活 [橙色箭頭]。
原文標題:How Deep Learning Works Inside the neural networks that power today's AI,作者:SAMUEL K. MOORE DAVID SCHNEIDER ELIZA STRICKLAND
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】