自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【深度學(xué)習(xí)系列】用PaddlePaddle和Tensorflow實(shí)現(xiàn)GoogLeNet InceptionV2/V3/V4

人工智能 深度學(xué)習(xí) 開發(fā)工具
上一篇文章我們引出了GoogLeNet InceptionV1的網(wǎng)絡(luò)結(jié)構(gòu),這篇文章中我們會詳細(xì)講到Inception V2/V3/V4的發(fā)展歷程以及它們的網(wǎng)絡(luò)結(jié)構(gòu)和亮點(diǎn)。

上一篇文章我們引出了GoogLeNet InceptionV1的網(wǎng)絡(luò)結(jié)構(gòu),這篇文章中我們會詳細(xì)講到Inception V2/V3/V4的發(fā)展歷程以及它們的網(wǎng)絡(luò)結(jié)構(gòu)和亮點(diǎn)。


GoogLeNet Inception V2

GoogLeNet Inception V2在《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》出現(xiàn),***亮點(diǎn)是提出了Batch Normalization方法,它起到以下作用:

  • 使用較大的學(xué)習(xí)率而不用特別關(guān)心諸如梯度爆炸或消失等優(yōu)化問題;
  • 降低了模型效果對初始權(quán)重的依賴;
  • 可以加速收斂,一定程度上可以不使用Dropout這種降低收斂速度的方法,但卻起到了正則化作用提高了模型泛化性;
  • 即使不使用ReLU也能緩解激活函數(shù)飽和問題;
  • 能夠?qū)W習(xí)到從當(dāng)前層到下一層的分布縮放( scaling (方差),shift (期望))系數(shù)。

  在機(jī)器學(xué)習(xí)中,我們通常會做一種假設(shè):訓(xùn)練樣本獨(dú)立同分布(iid)且訓(xùn)練樣本與測試樣本分布一致,如果真實(shí)數(shù)據(jù)符合這個假設(shè)則模型效果可能會不錯,反之亦然,這個在學(xué)術(shù)上叫Covariate Shift,所以從樣本(外部)的角度說,對于神經(jīng)網(wǎng)絡(luò)也是一樣的道理。從結(jié)構(gòu)(內(nèi)部)的角度說,由于神經(jīng)網(wǎng)絡(luò)由多層組成,樣本在層與層之間邊提特征邊往前傳播,如果每層的輸入分布不一致,那么勢必造成要么模型效果不好,要么學(xué)習(xí)速度較慢,學(xué)術(shù)上這個叫InternalCovariate Shift。 

假設(shè):yy為樣本標(biāo)注,X={x1,x2,x3,......}X={x1,x2,x3,......}為樣本xx通過神經(jīng)網(wǎng)絡(luò)若干層后每層的輸入;

理論上:p(x,y)p(x,y)的聯(lián)合概率分布應(yīng)該與集合XX中任意一層輸入的聯(lián)合概率分布一致,如:p(x,y)=p(x1,y)p(x,y)=p(x1,y);

但是:p(x,y)=p(y|x)p(x)p(x,y)=p(y|x)·p(x),其中條件概率p(y|x)p(y|x)是一致的,即p(y|x)=p(y|x1)=p(y|x1)=......p(y|x)=p(y|x1)=p(y|x1)=......,但由于神經(jīng)網(wǎng)絡(luò)每一層對輸入分布的改變,導(dǎo)致邊緣概率是不一致的,即p(x)p(x1)p(x2)......p(x)≠p(x1)≠p(x2)......,甚至隨著網(wǎng)絡(luò)深度的加深,前面層微小的變化會導(dǎo)致后面層巨大的變化。

 

  BN整個算法過程如下: 

  • 以batch的方式做訓(xùn)練,對m個樣本求期望和方差后對訓(xùn)練數(shù)據(jù)做白化,通過白化操作可以去除特征相關(guān)性并把數(shù)據(jù)縮放在一個球體上,這么做的好處既可以加快優(yōu)化算法的優(yōu)化速度也可能提高優(yōu)化精度,一個直觀的解釋:

  

   左邊是未做白化的原始可行域,右邊是做了白化的可行域;

  • 當(dāng)原始輸入對模型學(xué)習(xí)更有利時能夠恢復(fù)原始輸入(和殘差網(wǎng)絡(luò)有點(diǎn)神似):

  

  這里的參數(shù)γγσσ是需要學(xué)習(xí)的。

  卷積神經(jīng)網(wǎng)絡(luò)中的BN

  卷積網(wǎng)絡(luò)中采用權(quán)重共享策略,每個feature map只有一對γγσσ需要學(xué)習(xí)。

 


GoogLeNet Inception V3

GoogLeNet Inception V3在《Rethinking the Inception Architecture for Computer Vision》中提出(注意,在這篇論文中作者把該網(wǎng)絡(luò)結(jié)構(gòu)叫做v2版,我們以最終的v4版論文的劃分為標(biāo)準(zhǔn)),該論文的亮點(diǎn)在于:

  • 提出通用的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)準(zhǔn)則
  • 引入卷積分解提高效率
  • 引入高效的feature map降維

網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的準(zhǔn)則

前面也說過,深度學(xué)習(xí)網(wǎng)絡(luò)的探索更多是個實(shí)驗(yàn)科學(xué),在實(shí)驗(yàn)中人們總結(jié)出一些結(jié)構(gòu)設(shè)計(jì)準(zhǔn)則,但說實(shí)話我覺得不一定都有實(shí)操性:

  • 避免特征表示上的瓶頸,尤其在神經(jīng)網(wǎng)絡(luò)的前若干層 

神經(jīng)網(wǎng)絡(luò)包含一個自動提取特征的過程,例如多層卷積,直觀并符合常識的理解:如果在網(wǎng)絡(luò)初期特征提取的太粗,細(xì)節(jié)已經(jīng)丟了,后續(xù)即使結(jié)構(gòu)再精細(xì)也沒法做有效表示了;舉個極端的例子:在宇宙中辨別一個星球,正常來說是通過由近及遠(yuǎn),從房屋、樹木到海洋、大陸板塊再到整個星球之后進(jìn)入整個宇宙,如果我們一開始就直接拉遠(yuǎn)到宇宙,你會發(fā)現(xiàn)所有星球都是球體,沒法區(qū)分哪個是地球哪個是水星。所以feature map的大小應(yīng)該是隨著層數(shù)的加深逐步變小,但為了保證特征能得到有效表示和組合其通道數(shù)量會逐漸增加。   

下圖違反了這個原則,剛開就始直接從35×35×320被抽樣降維到了17×17×320,特征細(xì)節(jié)被大量丟失,即使后面有Inception去做各種特征提取和組合也沒用。

  • 對于神經(jīng)網(wǎng)絡(luò)的某一層,通過更多的激活輸出分支可以產(chǎn)生互相解耦的特征表示,從而產(chǎn)生高階稀疏特征,從而加速收斂,注意下圖的1×3和3×1激活輸出:

  • 合理使用維度縮減不會破壞網(wǎng)絡(luò)特征表示能力反而能加快收斂速度,典型的例如通過兩個3×3代替一個5×5的降維策略,不考慮padding,用兩個3×3代替一個5×5能節(jié)省1-(3×3+3×3)/(5×5)=28%的計(jì)算消耗。

  • 以及一個n×n卷積核通過順序相連的兩個1×n和n×1做降維(有點(diǎn)像矩陣分解),如果n=3,計(jì)算性能可以提升1-(3+3)/9=33%,但如果考慮高性能計(jì)算性能,這種分解可能會造成L1 cache miss率上升。

  • 通過合理平衡網(wǎng)絡(luò)的寬度和深度優(yōu)化網(wǎng)絡(luò)計(jì)算消耗(這句話尤其不具有實(shí)操性)。
  • 抽樣降維,傳統(tǒng)抽樣方法為pooling+卷積操作,為了防止出現(xiàn)特征表示的瓶頸,往往需要更多的卷積核,例如輸入為n個d×d的feature map,共有k個卷積核,pooling時stride=2,為不出現(xiàn)特征表示瓶頸,往往k的取值為2n,通過引入inception module結(jié)構(gòu),即降低計(jì)算復(fù)雜度,又不會出現(xiàn)特征表示瓶頸,實(shí)現(xiàn)上有如下兩種方式:

  平滑樣本標(biāo)注

對于多分類的樣本標(biāo)注一般是one-hot的,例如[0,0,0,1],使用類似交叉熵的損失函數(shù)會使得模型學(xué)習(xí)中對ground truth標(biāo)簽分配過于置信的概率,并且由于ground truth標(biāo)簽的logit值與其他標(biāo)簽差距過大導(dǎo)致,出現(xiàn)過擬合,導(dǎo)致降低泛化性。一種解決方法是加正則項(xiàng),即對樣本標(biāo)簽給個概率分布做調(diào)節(jié),使得樣本標(biāo)注變成“soft”的,例如[0.1,0.2,0.1,0.6],這種方式在實(shí)驗(yàn)中降低了top-1和top-5的錯誤率0.2%。

  網(wǎng)絡(luò)結(jié)構(gòu)


GoogLeNet Inception V4

GoogLeNet Inception V4/和ResNet V1/V2這三種結(jié)構(gòu)在《Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning》一文中提出,論文的亮點(diǎn)是:提出了效果更好的GoogLeNet Inception v4網(wǎng)絡(luò)結(jié)構(gòu);與殘差網(wǎng)絡(luò)融合,提出效果不遜于v4但訓(xùn)練速度更快的結(jié)構(gòu)。

GoogLeNet Inception V4網(wǎng)絡(luò)結(jié)構(gòu)

GoogLeNet Inception ResNet網(wǎng)絡(luò)結(jié)構(gòu)

 


 代碼實(shí)踐

  Tensorflow的代碼在slim模塊下有完整的實(shí)現(xiàn),paddlepaddle的可以參考上篇文章中寫的inception v1的代碼來寫。

 


 總結(jié) 

  這篇文章比較偏理論,主要講了GoogLeNet的inception模塊的發(fā)展,包括在v2中提出的batch normalization,v3中提出的卷積分級與更通用的網(wǎng)絡(luò)結(jié)構(gòu)準(zhǔn)則,v4中的與殘差網(wǎng)絡(luò)結(jié)合等,在實(shí)際應(yīng)用過程中可以可以對同一份數(shù)據(jù)用不同的網(wǎng)絡(luò)結(jié)構(gòu)跑一跑,看看結(jié)果如何,實(shí)際體驗(yàn)一下不同網(wǎng)絡(luò)結(jié)構(gòu)的loss下降速率,對準(zhǔn)確率的提升等。  

責(zé)任編輯:張燕妮 來源: www.cnblogs.com
相關(guān)推薦

2018-04-17 09:40:22

深度學(xué)習(xí)

2018-04-09 10:20:32

深度學(xué)習(xí)

2018-04-11 09:30:41

深度學(xué)習(xí)

2018-04-16 11:30:32

深度學(xué)習(xí)

2010-08-05 16:00:14

NFS v4

2018-12-12 09:12:54

深度學(xué)習(xí)百度PaddlePaddl

2010-07-28 15:17:07

2017-07-26 08:17:03

V4AppLaunchChApi

2018-03-26 20:14:32

深度學(xué)習(xí)

2011-05-20 07:52:54

RADVISIONSCOPIA Mobi

2024-12-30 20:32:36

2009-11-30 15:36:35

阿爾法路由器v3

2010-08-03 16:17:17

NFS協(xié)議

2014-05-16 11:21:37

OceanStorV3華為

2014-05-16 11:24:29

華為存儲華為

2010-08-05 11:32:07

NFS協(xié)議

2018-03-26 21:31:30

深度學(xué)習(xí)

2014-04-28 15:58:46

PrintUsage 打印

2018-04-04 10:19:32

深度學(xué)習(xí)

2018-04-02 10:45:11

深度學(xué)習(xí)PaddlePaddl手寫數(shù)字識別
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號