熬過深宮十幾載,深度學習上位這五年
作者 | Thimira Amaratunga
編譯 | 寧云州、吳雙、張伯楠
【深度學習】這個幾年前還鮮為人知的術語,近期迅速躥紅,成為人盡皆知的大IP。不過在火起來之前,這個技術已經發(fā)展了十幾年。人盡皆知前,深度學習是如何一步一步自我演化并走進公眾視野的?
1998年,Yann LeCun 發(fā)表Gradient-Based Learning Applied to Document Recognition,至今,深度學習已經發(fā)展了十幾年了。以大家熟知的CNNs為代表的技術在近幾年內取得了跨越式的發(fā)展,但理解深度學習的技術細節(jié)往往需要深入的數理知識,導致我們對于深度學習的理解一直停留在較淺的程度。本文就將帶你回顧深度學習近些年來的里程碑式成果,就算看不懂技術細節(jié),也可以一睹深度學習的前世今生。
2012年-AlexNet
AlexNet的結構圖(圖片來自于論文:《基于ImageNet圖像識別的深度卷積神經網絡》)
這篇文章被稱為深度學習的開山之作。當然,也有很多人堅稱Yann LeCun 1998年發(fā)表的Gradient-Based Learning Applied to Document Recognition才是開山之作,即便這樣, 這篇文章使得深度學習進入主流科學界的視野也是毋庸置疑的。事實上,有人的地方就有江湖,這種爭論與當年牛頓和萊布尼茨爭論微積分的發(fā)明權一樣都無損于我們作為學習者領略這些成果美妙的思想和燦爛的智慧,這篇文章的作者Alex Krizhevsky, Ilya Sutskever, 和 Geoffrey E. Hinton同Yann Lecun都是最杰出的學者。
特點:
- 在結構上,AlexNet由8層神經網絡組成:其中有5層卷積層和3層全連接層(相比較現在的神經網絡,這真是太簡單了,但即便是這樣,它也足以用來分類1000類圖片了)。
- AlexNet使用ReLU作為非線性函數,而不是此前一直廣泛使用的常規(guī)tanh函數。
- AlexNet還首次提出了使用Dropout Layers(降層)和Data Augmentation (數據增強)來解決過度匹配的問題,對于誤差率的降低至關重要。
- 這篇文章之所名留青史與其在應用方面的優(yōu)異表現分不開(時間果然是檢驗真理的唯一標準啊),AlexNet贏得了2012年的ILSVRC(ImageNet大規(guī)模視覺識別挑戰(zhàn)賽),誤差率為15.4%。甩了當時的第二名十條大街(26.2%) 。
論文:《基于ImageNet圖像識別的深度卷積神經網絡》- Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton
2013年-ZF Net
ZF net 結構圖(圖片來自論文:《卷積網絡的可視化與理解》)
學術界的反映其實總要比我們想象地要快得多,在2013年的ILSVRC(ImageNet大規(guī)模視覺識別挑戰(zhàn)賽)上,就出現了大量的CNN模型,而其中奪得桂冠的就是ZF Net(錯誤率進一步降低到11.2%),其實ZF Net更像是一個AlexNet的升級版,但它仍然有以下特點:
- 推出了反卷積網絡(又名DeConvNet),一種可查看卷積網絡(CNN)內部運作的可視化技術。
- 激活函數用了ReLu,誤差函數用了交叉熵損失(cross-entropy loss),訓練使用批量隨機梯度下降方法。
- 大大減少了訓練模型使用的圖片數量,AlexNet使用了1500萬張圖片做訓練,而ZF Net只用了130萬張。
論文:《卷積網絡的可視化與理解》- Matthew D. Zeiler, Rob Fergus
2014年-VGG Net
VGG結構圖(圖片來自Keras的博客:https://blog.keras.io)
看到這里我們已經可以發(fā)現深度學習和ILSVRC深深的糾葛,接下來我們要介紹的VGG Net正是ILSVRC 2014“圖像識別+定位”組別的獲勝者,誤差率為7.3%。
VGG Net具有以下特點:
- VGG結構在圖像識別和定位兩個方面都表現出色。
- 使用了19層網絡,3x3的濾波器。 (而不是AlexNet的11x11濾波器和ZF Net的7x7濾波器相比)
- 提供了可用于分層特征提取的簡單深度結構。
- 利用抖動(scale jittering)作為訓練時數據增強的手段。
- VGG Net成為里程碑的主要原因除了它在定位和圖像識別兩方面都表現突出外,還因為它強調了卷積神經網絡需要用到深度網絡結構才能把圖像數據的層次表達出來,為之后深度學習的發(fā)展提供了指導。
論文:《用于大規(guī)模圖像識別的超深度卷積網絡》- Karen Simonyan, Andrew Zisserman
2014/2015年-GoogLeNet
GoogleNet結構圖(圖片來自于論文:《深入探索卷積》)
讀到這里的讀者應該已經能把ILSVRC這個大賽當作老朋友了。在2014年的ILSVRC大賽中,我們剛才介紹的VGG Net只是“圖像識別+定位”組別的冠軍,而GoogLeNet則憑借6.7%的誤差率贏得了ILSVRC 2014圖像識別的冠軍。
它具有以下特點:
- 引入了“初始模塊”,強調了CNN的層次并不總是必須順序堆疊的。
初始模塊(圖片來自論文《深入探索卷積》)
- 22層深的網絡(如果獨立計算則總網絡超過100層)。
- 沒有使用全連接層,而是以使用平均池化代替,將7x7x1024的輸入量轉換為1x1x1024的輸入量。 這節(jié)省了大量的參數。
- 證明了優(yōu)化的非順序結構可能比順序結構性能更好。
- GoogLeNet 的創(chuàng)新主要在于這是第一個真正不通過簡單順序疊加卷積層和池化層來構建的CNN架構之一,為后來CNN在架構上的創(chuàng)新打下了基礎。
論文:《深入探索卷積》- Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, 谷歌公司,北卡羅來納大學教堂山分校,密歇根大學安娜堡分校,Magic Leap公司
2015年—微軟ResNet
ResNet 結構圖(圖片來自于論文:《圖像識別的深度殘差學習》)
ResNet是2015年ILSVRC的獲勝者(又是ILSVRC!),它的誤差率達到了驚人的3.6%,首次在圖像識別的準確率上超越了人類(5%-10%),它擁有以下特點:
- 真的很深,ResNet 具有152層的“極端深度”(原文作者用Ultra-deep這個詞來描述它)的結構。
- 提出了使用殘差模塊以減輕過度匹配。
殘差模塊(圖片來自于論文:《圖像識別的深度殘差學習》)
論文:《圖像識別的深度殘差學習》- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, 微軟亞洲研究院
意義:超越人類還不算意義嗎?
深度學習只有CNNs(卷積神經網絡)嗎?
當!然!不!是!現在我們終于能擺脫被ILSVRC支配的恐懼,談點其他的了,事實上,深度學習的模型還包括:
- Deep Boltzmann Machine(深度玻爾茲曼機)
- Deep Belief Networks(深度信念網絡)
- Stacked Autoencoders(棧式自編碼算法)
如果你讀到了這里,仍然想了解一些深度學習的技術細節(jié),請點擊這里閱讀這篇文章【站在巨人的肩膀上,深度學習的9篇開山之作】,里面對本文中提到的論文進行了較為深入的解讀,并且對非CNNs的深度學習模型進行了介紹。
原文:https://medium.com/towards-data-science/milestones-of-deep-learning-1aaa9aef5b18
【本文是51CTO專欄機構大數據文摘的原創(chuàng)譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】