自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="wdccr"><kbd id="wdccr"></kbd></s>

<cite id="wdccr"></cite>

<style id="wdccr"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

【深度學(xué)習(xí)系列】卷積神經(jīng)網(wǎng)絡(luò)CNN原理詳解(一)——基本原理

作者：Charlotte77 2018-04-03 11:20:00

人工智能開發(fā)工具

上篇文章我們給出了用paddlepaddle來做手寫數(shù)字識別的示例，并對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行到了調(diào)整，提高了識別的精度。有的同學(xué)表示不是很理解原理，為什么傳統(tǒng)的機(jī)器學(xué)習(xí)算法，簡單的神經(jīng)網(wǎng)絡(luò)(如多層感知機(jī))都可以識別手寫數(shù)字，我們要采用卷積神經(jīng)網(wǎng)絡(luò)CNN來進(jìn)行別呢？

上篇文章我們給出了用paddlepaddle來做手寫數(shù)字識別的示例，并對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行到了調(diào)整，提高了識別的精度。有的同學(xué)表示不是很理解原理，為什么傳統(tǒng)的機(jī)器學(xué)習(xí)算法，簡單的神經(jīng)網(wǎng)絡(luò)(如多層感知機(jī))都可以識別手寫數(shù)字，我們要采用卷積神經(jīng)網(wǎng)絡(luò)CNN來進(jìn)行別呢？CNN到底是怎么識別的？用CNN有哪些優(yōu)勢呢？我們下面就來簡單分析一下。在講CNN之前，為避免完全零基礎(chǔ)的人看不懂后面的講解，我們先簡單回顧一下傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的基本知識。

神經(jīng)網(wǎng)絡(luò)的預(yù)備知識

為什么要用神經(jīng)網(wǎng)絡(luò)？

特征提取的高效性。

　　大家可能會疑惑，對于同一個分類任務(wù)，我們可以用機(jī)器學(xué)習(xí)的算法來做，為什么要用神經(jīng)網(wǎng)絡(luò)呢？大家回顧一下，一個分類任務(wù)，我們在用機(jī)器學(xué)習(xí)算法來做時，首先要明確feature和label，然后把這個數(shù)據(jù)"灌"到算法里去訓(xùn)練，最后保存模型，再來預(yù)測分類的準(zhǔn)確性。但是這就有個問題，即我們需要實現(xiàn)確定好特征，每一個特征即為一個維度，特征數(shù)目過少，我們可能無法精確的分類出來，即我們所說的欠擬合，如果特征數(shù)目過多，可能會導(dǎo)致我們在分類過程中過于注重某個特征導(dǎo)致分類錯誤，即過擬合。

　　舉個簡單的例子，現(xiàn)在有一堆數(shù)據(jù)集，讓我們分類出西瓜和冬瓜，如果只有兩個特征：形狀和顏色，可能沒法分區(qū)來；如果特征的維度有：形狀、顏色、瓜瓤顏色、瓜皮的花紋等等，可能很容易分類出來；如果我們的特征是：形狀、顏色、瓜瓤顏色、瓜皮花紋、瓜蒂、瓜籽的數(shù)量，瓜籽的顏色、瓜籽的大小、瓜籽的分布情況、瓜籽的XXX等等，很有可能會過擬合，譬如有的冬瓜的瓜籽數(shù)量和西瓜的類似，模型訓(xùn)練后這類特征的權(quán)重較高，就很容易分錯。這就導(dǎo)致我們在特征工程上需要花很多時間和精力，才能使模型訓(xùn)練得到一個好的效果。然而神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使我們不需要做大量的特征工程，譬如提前設(shè)計好特征的內(nèi)容或者說特征的數(shù)量等等，我們可以直接把數(shù)據(jù)灌進(jìn)去，讓它自己訓(xùn)練，自我“修正”，即可得到一個較好的效果。

數(shù)據(jù)格式的簡易性

　　在一個傳統(tǒng)的機(jī)器學(xué)習(xí)分類問題中，我們“灌”進(jìn)去的數(shù)據(jù)是不能直接灌進(jìn)去的，需要對數(shù)據(jù)進(jìn)行一些處理，譬如量綱的歸一化，格式的轉(zhuǎn)化等等，不過在神經(jīng)網(wǎng)絡(luò)里我們不需要額外的對數(shù)據(jù)做過多的處理，具體原因可以看后面的詳細(xì)推導(dǎo)。

參數(shù)數(shù)目的少量性

　　在面對一個分類問題時，如果用SVM來做，我們需要調(diào)整的參數(shù)需要調(diào)整核函數(shù)，懲罰因子，松弛變量等等，不同的參數(shù)組合對于模型的效果也不一樣，想要迅速而又準(zhǔn)確的調(diào)到最適合模型的參數(shù)需要對背后理論知識的深入了解(當(dāng)然，如果你說全部都試一遍也是可以的，但是花的時間可能會更多),對于一個基本的三層神經(jīng)網(wǎng)絡(luò)來說(輸入-隱含-輸出)，我們只需要初始化時給每一個神經(jīng)元上隨機(jī)的賦予一個權(quán)重w和偏置項b，在訓(xùn)練過程中，這兩個參數(shù)會不斷的修正，調(diào)整到最優(yōu)質(zhì)，使模型的誤差最小。所以從這個角度來看，我們對于調(diào)參的背后理論知識并不需要過于精通(只不過做多了之后可能會有一些經(jīng)驗，在初始值時賦予的值更科學(xué)，收斂的更快罷了)

有哪些應(yīng)用？

　　應(yīng)用非常廣，不過大家注意一點，我們現(xiàn)在所說的神經(jīng)網(wǎng)絡(luò)，并不能稱之為深度學(xué)習(xí)，神經(jīng)網(wǎng)絡(luò)很早就出現(xiàn)了，只不過現(xiàn)在因為不斷的加深了網(wǎng)絡(luò)層，復(fù)雜化了網(wǎng)絡(luò)結(jié)構(gòu)，才成為深度學(xué)習(xí)，并在圖像識別、圖像檢測、語音識別等等方面取得了不錯的效果。

基本網(wǎng)絡(luò)結(jié)構(gòu)

　　一個神經(jīng)網(wǎng)絡(luò)最簡單的結(jié)構(gòu)包括輸入層、隱含層和輸出層，每一層網(wǎng)絡(luò)有多個神經(jīng)元，上一層的神經(jīng)元通過激活函數(shù)映射到下一層神經(jīng)元，每個神經(jīng)元之間有相對應(yīng)的權(quán)值，輸出即為我們的分類類別。

詳細(xì)數(shù)學(xué)推導(dǎo)

　　去年中旬我參考吳恩達(dá)的UFLDL和mattmazur的博客寫了篇文章詳細(xì)講解了一個最簡單的神經(jīng)網(wǎng)絡(luò)從前向傳播到反向傳播的直觀推導(dǎo)，大家可以先看看這篇文章--一文弄懂神經(jīng)網(wǎng)絡(luò)中的反向傳播法--BackPropagation。

優(yōu)缺點

　　前面說了很多優(yōu)點，這里就不多說了，簡單說說缺點吧。我們試想一下如果加深我們的網(wǎng)絡(luò)層，每一個網(wǎng)絡(luò)層增加神經(jīng)元的數(shù)量，那么參數(shù)的個數(shù)將是M*N（m為網(wǎng)絡(luò)層數(shù)，N為每層神經(jīng)元個數(shù)），所需的參數(shù)會非常多，參數(shù)一多，模型就復(fù)雜了，越是復(fù)雜的模型就越不好調(diào)參，也越容易過擬合。此外我們從神經(jīng)網(wǎng)絡(luò)的反向傳播的過程來看，梯度在反向傳播時，不斷的迭代會導(dǎo)致梯度越來越小，即梯度消失的情況，梯度一旦趨于0，那么權(quán)值就無法更新，這個神經(jīng)元相當(dāng)于是不起作用了，也就很難導(dǎo)致收斂。尤其是在圖像領(lǐng)域，用最基本的神經(jīng)網(wǎng)絡(luò)，是不太合適的。后面我們會詳細(xì)講講為啥不合適。

為什么要用卷積神經(jīng)網(wǎng)絡(luò)？

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的劣勢

　　前面說到在圖像領(lǐng)域，用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)并不合適。我們知道，圖像是由一個個像素點構(gòu)成，每個像素點有三個通道，分別代表RGB顏色，那么，如果一個圖像的尺寸是（28，28，1），即代表這個圖像的是一個長寬均為28，channel為1的圖像（channel也叫depth,此處1代表灰色圖像）。如果使用全連接的網(wǎng)絡(luò)結(jié)構(gòu)，即，網(wǎng)絡(luò)中的神經(jīng)與與相鄰層上的每個神經(jīng)元均連接，那就意味著我們的網(wǎng)絡(luò)有28 * 28 =784個神經(jīng)元，hidden層采用了15個神經(jīng)元，那么簡單計算一下，我們需要的參數(shù)個數(shù)(w和b)就有：784*15*10+15+10=117625個，這個參數(shù)太多了，隨便進(jìn)行一次反向傳播計算量都是巨大的，從計算資源和調(diào)參的角度都不建議用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)。(評論中有同學(xué)對這個參數(shù)計算不太理解，我簡單說一下：圖片是由像素點組成的，用矩陣表示的，28*28的矩陣，肯定是沒法直接放到神經(jīng)元里的，我們得把它“拍平”，變成一個28*28=784 的一列向量，這一列向量和隱含層的15個神經(jīng)元連接，就有784*15=11760個權(quán)重w，隱含層和最后的輸出層的10個神經(jīng)元連接，就有11760*10=117600個權(quán)重w，再加上隱含層的偏置項15個和輸出層的偏置項10個，就是：117625個參數(shù)了)

圖1 三層神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字

卷積神經(jīng)網(wǎng)絡(luò)是什么？

三個基本層

卷積層（Convolutional Layer）

　　上文提到我們用傳統(tǒng)的三層神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù)，原因在于每個神經(jīng)元都和相鄰層的神經(jīng)元相連接，但是思考一下，這種連接方式是必須的嗎？全連接層的方式對于圖像數(shù)據(jù)來說似乎顯得不這么友好，因為圖像本身具有“二維空間特征”，通俗點說就是局部特性。譬如我們看一張貓的圖片，可能看到貓的眼鏡或者嘴巴就知道這是張貓片，而不需要說每個部分都看完了才知道，啊，原來這個是貓啊。所以如果我們可以用某種方式對一張圖片的某個典型特征識別，那么這張圖片的類別也就知道了。這個時候就產(chǎn)生了卷積的概念。舉個例子，現(xiàn)在有一個4*4的圖像，我們設(shè)計兩個卷積核，看看運(yùn)用卷積核后圖片會變成什么樣。

圖2　4*4 image與兩個2*2的卷積核操作結(jié)果

　　由上圖可以看到，原始圖片是一張灰度圖片,每個位置表示的是像素值，0表示白色，1表示黑色，（0，1）區(qū)間的數(shù)值表示灰色。對于這個4*4的圖像，我們采用兩個2*2的卷積核來計算。設(shè)定步長為1，即每次以2*2的固定窗口往右滑動一個單位。以第一個卷積核filter1為例，計算過程如下：

1 feature_map1(1,1) = 1*1 + 0*(-1) + 1*1 + 1*(-1) = 1 
2 feature_map1(1,2) = 0*1 + 1*(-1) + 1*1 + 1*(-1) = -1 
3 ``` 
4 feature_map1(3,3) = 1*1 + 0*(-1) + 1*1 + 0*(-1) = 2

　　可以看到這就是最簡單的內(nèi)積公式。feature_map1(1,1)表示在通過第一個卷積核計算完后得到的feature_map的第一行第一列的值，隨著卷積核的窗口不斷的滑動，我們可以計算出一個3*3的feature_map1;同理可以計算通過第二個卷積核進(jìn)行卷積運(yùn)算后的feature_map2，那么這一層卷積操作就完成了。feature_map尺寸計算公式：[ (原圖片尺寸 -卷積核尺寸)/ 步長 ] + 1。這一層我們設(shè)定了兩個2*2的卷積核，在paddlepaddle里是這樣定義的：

1 conv_pool_1 = paddle.networks.simple_img_conv_pool(
2         input=img,
3         filter_size=3,
4         num_filters=2,
5         num_channel=1,
6         pool_stride=1,
7         act=paddle.activation.Relu())

　　這里調(diào)用了networks里simple_img_conv_pool函數(shù)，激活函數(shù)是Relu(修正線性單元)，我們來看一看源碼里外層接口是如何定義的：

View Code

　　我們在Paddle/python /paddle /v2 /framework /nets.py 里可以看到simple_img_conv_pool這個函數(shù)的定義：

 1 def simple_img_conv_pool(input,
 2                          num_filters,
 3                          filter_size,
 4                          pool_size,
 5                          pool_stride,
 6                          act,
 7                          pool_type='max',
 8                          main_program=None,
 9                          startup_program=None):
10     conv_out = layers.conv2d(
11         input=input,
12         num_filters=num_filters,
13         filter_size=filter_size,
14         act=act,
15         main_program=main_program,
16         startup_program=startup_program)
17 
18     pool_out = layers.pool2d(
19         input=conv_out,
20         pool_size=pool_size,
21         pool_type=pool_type,
22         pool_stride=pool_stride,
23         main_program=main_program,
24         startup_program=startup_program)
25     return pool_out

　　可以看到這里面有兩個輸出，conv_out是卷積輸出值，pool_out是池化輸出值，最后只返回池化輸出的值。conv_out和pool_out分別又調(diào)用了layers.py的conv2d和pool2d，去layers.py里我們可以看到conv2d和pool2d是如何實現(xiàn)的：

　　conv2d:

View Code

　　pool2d:

View Code

　　大家可以看到，具體的實現(xiàn)方式還調(diào)用了layers_helper.py:

View Code

　　詳細(xì)的源碼細(xì)節(jié)我們下一節(jié)會講這里指寫一下實現(xiàn)的方式和調(diào)用的函數(shù)。

　　所以這個卷積過程就完成了。從上文的計算中我們可以看到，同一層的神經(jīng)元可以共享卷積核，那么對于高位數(shù)據(jù)的處理將會變得非常簡單。并且使用卷積核后圖片的尺寸變小，方便后續(xù)計算，并且我們不需要手動去選取特征，只用設(shè)計好卷積核的尺寸，數(shù)量和滑動的步長就可以讓它自己去訓(xùn)練了，省時又省力啊。

為什么卷積核有效？

　　那么問題來了，雖然我們知道了卷積核是如何計算的，但是為什么使用卷積核計算后分類效果要由于普通的神經(jīng)網(wǎng)絡(luò)呢？我們仔細(xì)來看一下上面計算的結(jié)果。通過第一個卷積核計算后的feature_map是一個三維數(shù)據(jù)，在第三列的絕對值最大，說明原始圖片上對應(yīng)的地方有一條垂直方向的特征，即像素數(shù)值變化較大；而通過第二個卷積核計算后，第三列的數(shù)值為0，第二行的數(shù)值絕對值最大，說明原始圖片上對應(yīng)的地方有一條水平方向的特征。

　　仔細(xì)思考一下，這個時候，我們設(shè)計的兩個卷積核分別能夠提取，或者說檢測出原始圖片的特定的特征。此時我們其實就可以把卷積核就理解為特征提取器??！現(xiàn)在就明白了，為什么我們只需要把圖片數(shù)據(jù)灌進(jìn)去，設(shè)計好卷積核的尺寸、數(shù)量和滑動的步長就可以讓自動提取出圖片的某些特征，從而達(dá)到分類的效果??！

　　注：1.此處的卷積運(yùn)算是兩個卷積核大小的矩陣的內(nèi)積運(yùn)算，不是矩陣乘法。即相同位置的數(shù)字相乘再相加求和。不要弄混淆了。

　　　　2.卷積核的公式有很多，這只是最簡單的一種。我們所說的卷積核在數(shù)字信號處理里也叫濾波器，那濾波器的種類就多了，均值濾波器，高斯濾波器，拉普拉斯濾波器等等，不過，不管是什么濾波器，都只是一種數(shù)學(xué)運(yùn)算，無非就是計算更復(fù)雜一點。

3.每一層的卷積核大小和個數(shù)可以自己定義，不過一般情況下，根據(jù)實驗得到的經(jīng)驗來看，會在越靠近輸入層的卷積層設(shè)定少量的卷積核，越往后，卷積層設(shè)定的卷積核數(shù)目就越多。具體原因大家可以先思考一下，小結(jié)里會解釋原因。

池化層（Pooling Layer）

　　通過上一層2*2的卷積核操作后，我們將原始圖像由4*4的尺寸變?yōu)榱?*3的一個新的圖片。池化層的主要目的是通過降采樣的方式，在不影響圖像質(zhì)量的情況下，壓縮圖片，減少參數(shù)。簡單來說，假設(shè)現(xiàn)在設(shè)定池化層采用MaxPooling，大小為2*2，步長為1，取每個窗口最大的數(shù)值重新，那么圖片的尺寸就會由3*3變?yōu)?*2：(3-2)+1=2。從上例來看，會有如下變換：

　　　　　　圖3 Max Pooling結(jié)果

通常來說，池化方法一般有一下兩種：

MaxPooling：取滑動窗口里最大的值
AveragePooling：取滑動窗口內(nèi)所有值的平均值

為什么采用Max Pooling？

　　從計算方式來看，算是最簡單的一種了，取max即可，但是這也引發(fā)一個思考，為什么需要Max Pooling，意義在哪里？如果我們只取最大值，那其他的值被舍棄難道就沒有影響嗎？不會損失這部分信息嗎？如果認(rèn)為這些信息是可損失的，那么是否意味著我們在進(jìn)行卷積操作后仍然產(chǎn)生了一些不必要的冗余信息呢？

　　其實從上文分析卷積核為什么有效的原因來看，每一個卷積核可以看做一個特征提取器，不同的卷積核負(fù)責(zé)提取不同的特征，我們例子中設(shè)計的第一個卷積核能夠提取出“垂直”方向的特征，第二個卷積核能夠提取出“水平”方向的特征，那么我們對其進(jìn)行Max Pooling操作后，提取出的是真正能夠識別特征的數(shù)值，其余被舍棄的數(shù)值，對于我提取特定的特征并沒有特別大的幫助。那么在進(jìn)行后續(xù)計算使，減小了feature map的尺寸，從而減少參數(shù)，達(dá)到減小計算量，缺不損失效果的情況。

　　不過并不是所有情況Max Pooling的效果都很好，有時候有些周邊信息也會對某個特定特征的識別產(chǎn)生一定效果，那么這個時候舍棄這部分“不重要”的信息，就不劃算了。所以具體情況得具體分析，如果加了Max Pooling后效果反而變差了，不如把卷積后不加Max Pooling的結(jié)果與卷積后加了Max Pooling的結(jié)果輸出對比一下，看看Max Pooling是否對卷積核提取特征起了反效果。

Zero Padding

所以到現(xiàn)在為止，我們的圖片由4*4，通過卷積層變?yōu)?*3，再通過池化層變化2*2，如果我們再添加層，那么圖片豈不是會越變越??？這個時候我們就會引出“Zero Padding”（補(bǔ)零），它可以幫助我們保證每次經(jīng)過卷積或池化輸出后圖片的大小不變，如，上述例子我們?nèi)绻尤隯ero Padding，再采用3*3的卷積核，那么變換后的圖片尺寸與原圖片尺寸相同，如下圖所示：

　　圖4 zero padding結(jié)果

　　通常情況下，我們希望圖片做完卷積操作后保持圖片大小不變，所以我們一般會選擇尺寸為3*3的卷積核和1的zero padding，或者5*5的卷積核與2的zero padding，這樣通過計算后，可以保留圖片的原始尺寸。那么加入zero padding后的feature_map尺寸 =( width + 2 * padding_size - filter_size )/stride + 1

　　注：這里的width也可換成height，此處是默認(rèn)正方形的卷積核，weight = height，如果兩者不相等，可以分開計算，分別補(bǔ)零。

Flatten層 & Fully Connected Layer

　　到這一步，其實我們的一個完整的“卷積部分”就算完成了，如果想要疊加層數(shù)，一般也是疊加“Conv-MaxPooing",通過不斷的設(shè)計卷積核的尺寸，數(shù)量，提取更多的特征，最后識別不同類別的物體。做完Max Pooling后，我們就會把這些數(shù)據(jù)“拍平”，丟到Flatten層，然后把Flatten層的output放到full connected Layer里，采用softmax對其進(jìn)行分類。

　　　　圖5 Flatten過程

小結(jié)

　　這一節(jié)我們介紹了最基本的卷積神經(jīng)網(wǎng)絡(luò)的基本層的定義，計算方式和起的作用。有幾個小問題可以供大家思考一下：　

1.卷積核的尺寸必須為正方形嗎？可以為長方形嗎？如果是長方形應(yīng)該怎么計算？

2.卷積核的個數(shù)如何確定？每一層的卷積核的個數(shù)都是相同的嗎？

3.步長的向右和向下移動的幅度必須是一樣的嗎？

　　如果對上面的講解真的弄懂了的話，其實這幾個問題并不難回答。下面給出我的想法，可以作為參考：

　　1.卷積核的尺寸不一定非得為正方形。長方形也可以，只不過通常情況下為正方形。如果要設(shè)置為長方形，那么首先得保證這層的輸出形狀是整數(shù)，不能是小數(shù)。如果你的圖像是邊長為 28 的正方形。那么卷積層的輸出就滿足 [ (28 - kernel_size)/ stride ] + 1 ，這個數(shù)值得是整數(shù)才行，否則沒有物理意義。譬如，你算得一個邊長為 3.6 的 feature map 是沒有物理意義的。 pooling 層同理。FC 層的輸出形狀總是滿足整數(shù)，其唯一的要求就是整個訓(xùn)練過程中 FC 層的輸入得是定長的。如果你的圖像不是正方形。那么在制作數(shù)據(jù)時，可以縮放到統(tǒng)一大?。ǚ钦叫危?，再使用非正方形的 kernel_size 來使得卷積層的輸出依然是整數(shù)。總之，撇開網(wǎng)絡(luò)結(jié)果設(shè)定的好壞不談，其本質(zhì)上就是在做算術(shù)應(yīng)用題：如何使得各層的輸出是整數(shù)。

　　2.由經(jīng)驗確定。通常情況下，靠近輸入的卷積層，譬如第一層卷積層，會找出一些共性的特征，如手寫數(shù)字識別中第一層我們設(shè)定卷積核個數(shù)為5個，一般是找出諸如"橫線"、“豎線”、“斜線”等共性特征，我們稱之為basic feature，經(jīng)過max pooling后，在第二層卷積層，設(shè)定卷積核個數(shù)為20個，可以找出一些相對復(fù)雜的特征，如“橫折”、“左半圓”、“右半圓”等特征，越往后，卷積核設(shè)定的數(shù)目越多，越能體現(xiàn)label的特征就越細(xì)致，就越容易分類出來，打個比方，如果你想分類出“0”的數(shù)字，你看到[[223795]]這個特征，能推測是什么數(shù)字呢？只有越往后，檢測識別的特征越多，試過能識別[[223796]]這幾個特征，那么我就能夠確定這個數(shù)字是“0”。

　　3.有stride_w和stride_h，后者表示的就是上下步長。如果用stride，則表示stride_h=stride_w=stride。

手寫數(shù)字識別的CNN網(wǎng)絡(luò)結(jié)構(gòu)

　　上面我們了解了卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)后，現(xiàn)在來具體看一下在實際數(shù)據(jù)---手寫數(shù)字識別中是如何操作的。上文中我定義了一個最基本的CNN網(wǎng)絡(luò)。如下(代碼詳見github)：

 1 def convolutional_neural_network_org(img):
 2     # first conv layer
 3     conv_pool_1 = paddle.networks.simple_img_conv_pool(
 4         input=img,
 5         filter_size=3,
 6         num_filters=20,
 7         num_channel=1,
 8         pool_size=2,
 9         pool_stride=2,
10         act=paddle.activation.Relu())
11     # second conv layer
12     conv_pool_2 = paddle.networks.simple_img_conv_pool(
13         input=conv_pool_1,
14         filter_size=5,
15         num_filters=50,
16         num_channel=20,
17         pool_size=2,
18         pool_stride=2,
19         act=paddle.activation.Relu())
20     # fully-connected layer
21     predict = paddle.layer.fc(
22         input=conv_pool_2, size=10, act=paddle.activation.Softmax())
23     return predict

　　那么它的網(wǎng)絡(luò)結(jié)構(gòu)是：

　　conv1----> conv2---->fully Connected layer

　　非常簡單的網(wǎng)絡(luò)結(jié)構(gòu)。第一層我們采取的是3*3的正方形卷積核，個數(shù)為20個，深度為1，stride為2，pooling尺寸為2*2，激活函數(shù)采取的為RELU；第二層只對卷積核的尺寸、個數(shù)和深度做了些變化，分別為5*5，50個和20；最后鏈接一層全連接，設(shè)定10個label作為輸出，采用Softmax函數(shù)作為分類器，輸出每個label的概率。

　　那么這個時候我考慮的問題是，既然上面我們已經(jīng)了解了卷積核，改變卷積核的大小是否會對我的結(jié)果造成影響？增多卷積核的數(shù)目能夠提高準(zhǔn)確率？于是我做了個實驗：

　第一次改進(jìn)：僅改變第一層與第二層的卷積核數(shù)目的大小，其他保持不變?？梢钥吹浇Y(jié)果提升了0.06%
　第二次改進(jìn)：保持3*3的卷積核大小，僅改變第二層的卷積核數(shù)目，其他保持不變，可以看到結(jié)果相較于原始參數(shù)提升了0.08%

　　由以上結(jié)果可以看出，改變卷積核的大小與卷積核的數(shù)目會對結(jié)果產(chǎn)生一定影響，在目前手寫數(shù)字識別的項目中，縮小卷積核尺寸，增加卷積核數(shù)目都會提高準(zhǔn)確率。不過以上實驗只是一個小測試，有興趣的同學(xué)可以多做幾次實驗，看看參數(shù)帶來的具體影響，下篇文章我們會著重分析參數(shù)的影響。

　　這篇文章主要介紹了神經(jīng)網(wǎng)絡(luò)的預(yù)備知識，卷積神經(jīng)網(wǎng)絡(luò)的常見的層及基本的計算過程，看完后希望大家明白以下幾個知識點：

為什么卷積神經(jīng)網(wǎng)絡(luò)更適合于圖像分類？相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)優(yōu)勢在哪里？

卷積層中的卷積過程是如何計算的？為什么卷積核是有效的？

卷積核的個數(shù)如何確定？應(yīng)該選擇多大的卷積核對于模型來說才是有效的？尺寸必須為正方形嗎？如果是長方形因該怎么做？

步長的大小會對模型的效果產(chǎn)生什么樣的影響？垂直方向和水平方向的步長是否得設(shè)定為相同的？

為什么要采用池化層，Max Pooling有什么好處？

Zero Padding有什么作用？如果已知一個feature map的尺寸，如何確定zero padding的數(shù)目？

上面的問題，有些在文章中已經(jīng)詳細(xì)講過，有些大家可以根據(jù)文章的內(nèi)容多思考一下。最后給大家留幾個問題思考一下：

為什么改變卷積核的大小能夠提高結(jié)果的準(zhǔn)確率？卷積核大小對于分類結(jié)果是如何影響的？

卷積核的參數(shù)是怎么求的？一開始隨機(jī)定義一個，那么后來是如何訓(xùn)練才能使這個卷積核識別某些特定的特征呢？

1*1的卷積核有意義嗎？為什么有些網(wǎng)絡(luò)層結(jié)構(gòu)里會采用1*1的卷積核？

　　下篇文章我們會著重講解以下幾點：

卷積核的參數(shù)如何確定？隨機(jī)初始化一個數(shù)值后，是如何訓(xùn)練得到一個能夠識別某些特征的卷積核的？

CNN是如何進(jìn)行反向傳播的？

如何調(diào)整CNN里的參數(shù)？

如何設(shè)計最適合的CNN網(wǎng)絡(luò)結(jié)構(gòu)？

能夠不用調(diào)用框架的api，手寫一個CNN，并和paddlepaddle里的實現(xiàn)過程做對比，看看有哪些可以改進(jìn)的？

ps：本篇文章是基于個人對CNN的理解來寫的，本人能力有限，有些地方可能寫的不是很嚴(yán)謹(jǐn)，如有錯誤或疏漏之處，請留言給我，我一定會仔細(xì)核實并修改的^_^！不接受無腦噴哦~此外，文中的圖表結(jié)構(gòu)均為自己所做，希望不要被人隨意抄襲，可以進(jìn)行非商業(yè)性質(zhì)的轉(zhuǎn)載，需要轉(zhuǎn)載留言或發(fā)郵件即可，希望能夠尊重勞動成果，謝謝！有不懂的也請留言給我，我會盡力解答的哈~

責(zé)任編輯：張燕妮來源： www.cnblogs.com

深度學(xué)習(xí)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營