自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

100行Python代碼,輕松搞定神經(jīng)網(wǎng)絡(luò)

開發(fā) 后端
用tensorflow,pytorch這類深度學(xué)習(xí)庫來寫一個神經(jīng)網(wǎng)絡(luò)早就不稀奇了??墒牵阒涝趺从胮ython和numpy來優(yōu)雅地搭一個神經(jīng)網(wǎng)絡(luò)嘛?

[[264277]]

大數(shù)據(jù)文摘出品

來源:eisenjulian

編譯:周家樂、錢天培

用tensorflow,pytorch這類深度學(xué)習(xí)庫來寫一個神經(jīng)網(wǎng)絡(luò)早就不稀奇了。

可是,你知道怎么用python和numpy來優(yōu)雅地搭一個神經(jīng)網(wǎng)絡(luò)嘛?

現(xiàn)如今,有多種深度學(xué)習(xí)框架可供選擇,他們帶有自動微分、基于圖的優(yōu)化計算和硬件加速等各種重要特性。對人們而言,似乎享受這些重要特性帶來的便利已經(jīng)是理所當(dāng)然的事兒了。但其實,瞧一瞧隱藏在這些特性下的東西,能更好的幫助你理解這些網(wǎng)絡(luò)究竟是如何工作的。

所以今天,文摘菌就來手把手教大家搭一個神經(jīng)網(wǎng)絡(luò)。原料就是簡單的python和numpy代碼!

文章中的所有代碼可以都在這兒獲取。

https://colab.research.google.com/github/eisenjulian/slides/blob/master/NN_from_scratch/notebook.ipynb

符號說明

在計算反向傳播時, 我們可以選擇使用函數(shù)符號、變量符號去記錄求導(dǎo)過程。它們分別對應(yīng)了計算圖中的邊和節(jié)點來表示它們。

給定R^n→R和x∈R^n, 那么梯度是由偏導(dǎo)∂f/∂j(x)組成的n維行向量。

如果f:R^n→R^m 和x∈R^n,那么 Jacobian矩陣是下列函數(shù)組成的一個m×n的矩陣。

對于給定的函數(shù)f和向量a和b如果a=f(b)那么我們用∂a/∂b 表示Jacobian矩陣,當(dāng)a是實數(shù)時則表示梯度。

鏈?zhǔn)椒▌t

給定三個分屬于不同向量空間的向量a∈A及c∈C和兩個可微函數(shù)f:A→B及g:B→C使得f(a)=b和g(b)=c,我們能得到復(fù)合函數(shù)的Jacobian矩陣是函數(shù)f和g的jacobian矩陣的乘積:

這就是大名鼎鼎的鏈?zhǔn)椒▌t。提出于上世紀(jì)60、70年代的反向傳播算法就是應(yīng)用了鏈?zhǔn)椒▌t來計算一個實函數(shù)相對于其不同參數(shù)的梯度的。

要知道我們的最終目標(biāo)是通過沿著梯度的相反方向來逐步找到函數(shù)的最小值 (當(dāng)然***是全局最小值), 因為至少在局部來說, 這樣做將使得函數(shù)值逐步下降。當(dāng)我們有兩個參數(shù)需要優(yōu)化時, 整個過程如圖所示:

反向模式求導(dǎo)

假設(shè)函數(shù)fi(ai)=ai+1由多于兩個函數(shù)復(fù)合而成,我們可以反復(fù)應(yīng)用公式求導(dǎo)并得到:

可以有很多種方式計算這個乘積,最常見的是從左向右或從右向左。

如果an是一個標(biāo)量,那么在計算整個梯度的時候我們可以通過先計算∂an/∂an-1并逐步右乘所有的Jacobian矩陣∂ai/∂ai-1來得到。這個操作有時被稱作VJP或向量-Jacobian乘積(Vector-Jacobian Product)。

又因為整個過程中我們是從計算∂an/∂an-1開始逐步計算∂an/∂an-2,∂an/∂an-3等梯度到***,并保存中間值,所以這個過程被稱為反向模式求導(dǎo)。最終,我們可以計算出an相對于所有其他變量的梯度。

相對而言,前向模式的過程正相反。它從計算Jacobian矩陣如∂a2/∂a1開始,并左乘∂a3/∂a2來計算∂a3/∂a1。如果我們繼續(xù)乘上∂ai/∂ai-1并保存中間值,最終我們可以得到所有變量相對于∂a2/∂a1的梯度。當(dāng)∂a2/∂a1是標(biāo)量時,所有乘積都是列向量,這被稱為Jacobian向量乘積(或者JVP,Jacobian-Vector Product )。

你大概已經(jīng)猜到了,對于反向傳播來說,我們更偏向應(yīng)用反向模式——因為我們想要逐步得到損失函數(shù)對于每層參數(shù)的梯度。正向模式雖然也可以計算需要的梯度, 但因為重復(fù)計算太多而效率很低。

計算梯度的過程看起來像是有很多高維矩陣相乘, 但實際上,Jacobian矩陣常常是稀疏、塊或者對角矩陣,又因為我們只關(guān)心將其右乘行向量的結(jié)果,所以就不需要耗費太多計算和存儲資源。

在本文中, 我們的方法主要用于按順序逐層搭建的神經(jīng)網(wǎng)絡(luò), 但同樣的方法也適用于計算梯度的其他算法或計算圖。

關(guān)于反向和正向模式的詳盡描述可以參考這里☟:

http://colah.github.io/posts/2015-08-Backprop/

深度神經(jīng)網(wǎng)絡(luò)

在典型的監(jiān)督機器學(xué)習(xí)算法中, 我們通常用到一個很復(fù)雜函數(shù),它的輸入是存有標(biāo)簽樣本數(shù)值特征的張量。此外,還有很多用于描述模型的權(quán)重張量。

損失函數(shù)是關(guān)于樣本和權(quán)重的標(biāo)量函數(shù), 它是衡量模型輸出與預(yù)期標(biāo)簽的差距的指標(biāo)。我們的目標(biāo)是找到最合適的權(quán)重讓損失最小。在深度學(xué)習(xí)中, 損失函數(shù)被表示為一串易于求導(dǎo)的簡單函數(shù)的復(fù)合。所有這些簡單函數(shù)(除了***一個函數(shù)),都是我們指的層, 而每一層通常有兩組參數(shù): 輸入 (可以是上一層的輸出) 和權(quán)重。

而***一個函數(shù)代表了損失度量, 它也有兩組參數(shù): 模型輸出y和真實標(biāo)簽y^。例如, 如果損失度量l為平方誤差, 則∂l/∂y為 2 avg(y-y^)。損失度量的梯度將是應(yīng)用反向模式求導(dǎo)的起始行向量。

Autograd

自動求導(dǎo)背后的思想已是相當(dāng)成熟了。它可以在運行時或編譯過程中完成,但如何實現(xiàn)會對性能產(chǎn)生巨大影響。我建議你能認(rèn)真閱讀 HIPS autograd的 Python 實現(xiàn),來真正了解autograd。

核心想法其實始終未變。從我們在學(xué)校學(xué)習(xí)如何求導(dǎo)時, 就應(yīng)該知道這一點了。如果我們能夠追蹤最終求出標(biāo)量輸出的計算, 并且我們知道如何對簡單操作求導(dǎo) (例如加法、乘法、冪、指數(shù)、對數(shù)等等), 我們就可以算出輸出的梯度。

假設(shè)我們有一個線性的中間層f,由矩陣乘法表示(暫時不考慮偏置):

為了用梯度下降法調(diào)整w值,我們需要計算梯度∂l/∂w。這里我們可以觀察到,改變y從而影響l是一個關(guān)鍵。

每一層都必須滿足下面這個條件: 如果給出了損失函數(shù)相對于這一層輸出的梯度, 就可以得到損失函數(shù)相對于這一層輸入(即上一層的輸出)的梯度。

現(xiàn)在應(yīng)用兩次鏈?zhǔn)椒▌t得到損失函數(shù)相對于w的梯度:

相對于x的是:

因此, 我們既可以后向傳遞一個梯度, 使上一層得到更新并更新層間權(quán)重, 以優(yōu)化損失, 這就行啦!

動手實踐

先來看看代碼, 或者直接試試Colab Notebook:

https://colab.research.google.com/github/eisenjulian/slides/blob/master/NN_from_scratch/notebook.ipynb

我們從封裝了一個張量及其梯度的類(class)開始。

現(xiàn)在我們可以創(chuàng)建一個layer類,關(guān)鍵的想法是,在前向傳播時,我們返回這一層的輸出和可以接受輸出梯度和輸入梯度的函數(shù),并在過程中更新權(quán)重梯度。

然后, 訓(xùn)練過程將有三個步驟, 計算前向傳遞, 然后后向傳遞, ***更新權(quán)重。這里關(guān)鍵的一點是把更新權(quán)重放在***, 因為權(quán)重可以在多個層中重用,我們更希望在需要的時候再更新它。

  1. class Layer: 
  2.   def __init__(self): 
  3.     self.parameters = [] 
  4.  
  5.   def forward(self, X): 
  6.     """ 
  7.     Override me! A simple no-op layer, it passes forward the inputs 
  8.     """ 
  9.     return X, lambda D: D 
  10.  
  11.   def build_param(self, tensor): 
  12.     """ 
  13.     Creates a parameter from a tensor, and saves a reference for the update step 
  14.     """ 
  15.     param = Parameter(tensor) 
  16.     self.parameters.append(param) 
  17.     return param 
  18.  
  19.   def update(self, optimizer): 
  20.     for param in self.parameters: optimizer.update(param) 

標(biāo)準(zhǔn)的做法是將更新參數(shù)的工作交給優(yōu)化器, 優(yōu)化器在每一批(batch)后都會接收參數(shù)的實例。最簡單和最廣為人知的優(yōu)化方法是mini-batch隨機梯度下降。

  1. class SGDOptimizer(): 
  2.   def __init__(self, lr=0.1): 
  3.     self.lr = lr 
  4.  
  5.   def update(self, param): 
  6.     param.tensor -self.lr * param.gradient 
  7.     param.gradient.fill(0) 

在此框架下, 并使用前面計算的結(jié)果后, 線性層如下所示:

  1. class Linear(Layer): 
  2.   def __init__(self, inputs, outputs): 
  3.     super().__init__() 
  4.     tensor = np.random.randn(inputs, outputs) * np.sqrt(1 / inputs) 
  5.     selfself.weights = self.build_param(tensor) 
  6.     selfself.bias = self.build_param(np.zeros(outputs)) 
  7.  
  8.   def forward(self, X): 
  9.     def backward(D): 
  10.       self.weights.gradient += X.T @ D 
  11.       self.bias.gradient += D.sum(axis=0
  12.       return D @ self.weights.tensor.T 
  13.     return X @ self.weights.tensor +  self.bias.tensor, backward 

接下來看看另一個常用的層,激活層。它們屬于點式(pointwise)非線性函數(shù)。點式函數(shù)的 Jacobian矩陣是對角矩陣, 這意味著當(dāng)乘以梯度時, 它是逐點相乘的。

  1. class ReLu(Layer): 
  2.   def forward(self, X): 
  3.     mask = X > 0 
  4.     return X * mask, lambda D: D * mask 

計算Sigmoid函數(shù)的梯度略微有一點難度,而它也是逐點計算的:

  1. class Sigmoid(Layer): 
  2.   def forward(self, X): 
  3.     S = 1 / (1 + np.exp(-X)) 
  4.     def backward(D): 
  5.       return D * S * (1 - S) 
  6.     return S, backward 

當(dāng)我們按序構(gòu)建很多層后,可以遍歷它們并先后得到每一層的輸出,我們可以把backward函數(shù)存在一個列表內(nèi),并在計算反向傳播時使用,這樣就可以直接得到相對于輸入層的損失梯度。就是這么神奇:

  1. class Sequential(Layer): 
  2.   def __init__(self, *layers): 
  3.     super().__init__() 
  4.     self.layers = layers 
  5.     for layer in layers: 
  6.       self.parameters.extend(layer.parameters) 
  7.  
  8.   def forward(self, X): 
  9.     backprops = [] 
  10.     Y = X 
  11.     for layer in self.layers: 
  12.       Y, backprop = layer.forward(Y) 
  13.       backprops.append(backprop) 
  14.     def backward(D): 
  15.       for backprop in reversed(backprops): 
  16.         D = backprop(D) 
  17.       return D 
  18.     return Y, backward 

正如我們前面提到的,我們將需要定義批樣本的損失函數(shù)和梯度。一個典型的例子是MSE,它被常用在回歸問題里,我們可以這樣實現(xiàn)它:

  1. def mse_loss(Yp, Yt): 
  2.   diff = Yp - Yt 
  3.   return np.square(diff).mean(), 2 * diff / len(diff) 

就差一點了!現(xiàn)在,我們定義了兩種層,以及合并它們的方法,下面如何訓(xùn)練呢?我們可以使用類似于scikit-learn或者Keras中的API。

  1. class Learner(): 
  2.   def __init__(self, model, loss, optimizer): 
  3.     self.model = model 
  4.     self.loss = loss 
  5.     self.optimizer = optimizer 
  6.  
  7.   def fit_batch(self, X, Y): 
  8.     Y_, backward = self.model.forward(X) 
  9.     L, D = self.loss(Y_, Y) 
  10.     backward(D) 
  11.     self.model.update(self.optimizer) 
  12.     return L 
  13.  
  14.   def fit(self, X, Y, epochs, bs): 
  15.     losses = [] 
  16.     for epoch in range(epochs): 
  17.       p = np.random.permutation(len(X)) 
  18.       X, Y = X[p], Y[p] 
  19.       loss = 0.0 
  20.       for i in range(0, len(X), bs): 
  21.         loss += self.fit_batch(X[i:i + bs], Y[i:i + bs]) 
  22.       losses.append(loss) 
  23.     return losses 

這就行了!如果你跟隨著我的思路,你可能就會發(fā)現(xiàn)其實有幾行代碼是可以被省掉的。

這代碼能用不?

現(xiàn)在可以用一些數(shù)據(jù)測試下我們的代碼了。

  1. X = np.random.randn(100, 10) 
  2. w = np.random.randn(10, 1) 
  3. b = np.random.randn(1) 
  4. Y = X @ W + B 
  5.  
  6. model = Linear(10, 1) 
  7. learner = Learner(model, mse_loss, SGDOptimizer(lr=0.05)) 
  8. learner.fit(X, Y, epochs=10bs=10

我一共訓(xùn)練了10輪。

我們還能檢查學(xué)到的權(quán)重和真實的權(quán)重是否一致。

  1. print(np.linalg.norm(m.weights.tensor - W), (m.bias.tensor - B)[0]) 
  2. > 1.848553648022619e-05 5.69305886743976e-06 

好了,就這么簡單。讓我們再試試非線性數(shù)據(jù)集,例如y=x1x2,并且再加上一個Sigmoid非線性層和另一個線性層讓我們的模型更復(fù)雜些。像下面這樣:

  1. X = np.random.randn(1000, 2) 
  2. Y = X[:, 0] * X[:, 1] 
  3.  
  4. losses1 = Learner
  5.     Sequential(Linear(2, 1)), 
  6.     mse_loss, 
  7.     SGDOptimizer(lr=0.01) 
  8. ).fit(X, Y, epochs=50bs=50
  9.  
  10. losses2 = Learner
  11.     Sequential( 
  12.         Linear(2, 10), 
  13.         Sigmoid(), 
  14.         Linear(10, 1) 
  15.     ), 
  16.     mse_loss, 
  17.     SGDOptimizer(lr=0.3) 
  18. ).fit(X, Y, epochs=50bs=50
  19.  
  20. plt.plot(losses1) 
  21. plt.plot(losses2) 
  22. plt.legend(['1 Layer', '2 Layers']) 
  23. plt.show() 

比較單一層vs兩層模型在使用sigmoid激活函數(shù)的情況下的訓(xùn)練損失。

***

希望通過搭建這個簡單的神經(jīng)網(wǎng)絡(luò),你已經(jīng)掌握了用python和numpy實現(xiàn)神經(jīng)網(wǎng)絡(luò)的基本思路。

在這篇文章中,我們只定義了三種類型的層和一個損失函數(shù), 所以還有很多事情可做,但基本原理都相似。感興趣的同學(xué)可以試著實現(xiàn)更復(fù)雜的神經(jīng)網(wǎng)絡(luò)哦!

References:

  • Thinc Deep Learning Library:https://github.com/explosion/thinc
  • PyTorch Tutorial:https://pytorch.org/tutorials/beginner/nn_tutorial.html
  • Calculus on Computational Graphs:http://colah.github.io/posts/2015-08-Backprop/
  • HIPS Autograd:https://github.com/HIPS/autograd

相關(guān)報道:https://eisenjulian.github.io/deep-learning-in-100-lines/

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2019-07-25 08:20:37

代碼開發(fā)神經(jīng)網(wǎng)絡(luò)

2020-04-20 13:45:32

神經(jīng)網(wǎng)絡(luò)模型代碼

2023-03-07 18:55:05

代碼機器學(xué)習(xí)

2017-09-15 13:35:11

JavaScript神經(jīng)網(wǎng)絡(luò)

2017-09-18 08:08:33

JavaScript神經(jīng)網(wǎng)絡(luò)代碼

2020-04-24 12:16:48

Python 圖像分類實戰(zhàn)

2021-01-08 05:26:31

ServerlessPython 預(yù)測

2019-05-07 19:12:28

機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)Python

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2017-08-29 09:40:26

JavaScript代碼神經(jīng)網(wǎng)絡(luò)

2020-03-16 10:16:19

代碼開發(fā)工具

2023-05-04 07:34:37

Rust代碼CPU

2021-08-18 15:48:03

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2021-04-07 13:43:07

PythonDash數(shù)據(jù)庫

2017-09-10 07:07:32

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集可視化

2025-02-25 14:13:31

2018-01-24 10:48:34

神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)前端

2020-08-21 13:40:17

Python代碼人體膚色

2018-01-10 22:19:44

2022-02-15 23:38:22

Python機器學(xué)習(xí)算法
點贊
收藏

51CTO技術(shù)棧公眾號