自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用兩萬篇論文告訴你:機器學習在過去五年中發(fā)生了什么

人工智能 機器學習
來自斯坦福大學計算機學院的博士畢業(yè)生、OpenAI 的高級科學家 Andrej Karpathy 基于一份 arXiv 機器學習論文大數(shù)據(jù),從論文數(shù)量、開源框架、數(shù)學模型和優(yōu)化算法等多個方面對過去五年中的機器學習變化趨勢進行了詳細分析。

[[188225]]

arXiv.org 是一個專門收集物理學、數(shù)學、計算機科學與生物學論文預印本的網(wǎng)站。數(shù)據(jù)顯示,截至 2014 年底的時候,arXiv 已經達到了一百萬篇以上的論文藏量,并且還在以每月8000篇的速率增長。算是目前全球***規(guī)模的論文數(shù)據(jù)庫之一。

近日,來自斯坦福大學計算機學院的博士畢業(yè)生、OpenAI 的高級科學家 Andrej Karpathy 基于一份 arXiv 機器學習論文大數(shù)據(jù),從論文數(shù)量、開源框架、數(shù)學模型和優(yōu)化算法等多個方面對過去五年中的機器學習變化趨勢進行了詳細分析,并將分析結果發(fā)布在個人博客上。

想必你一定聽說過谷歌趨勢(Google Trends)或者百度指數(shù)這種工具,任意輸入一個關鍵詞,就能立刻看到關于該詞在過去幾個月甚至幾年之內的變化趨勢。受此啟發(fā),碰巧我手邊正好有一份 arXiv 論文數(shù)據(jù)集,它收集了過去五年中機器學習相關的 28303 篇論文。那么與谷歌趨勢類似,從這些論文中,我們能否看到一些機器學習領域的科研發(fā)展趨勢呢?我就此進行了詳細的數(shù)據(jù)分析,發(fā)現(xiàn)這個結果相當有趣,因此在這里把它分享出來。

論文總量

首先我們看一下論文數(shù)量。在過去五年中,arXiv 收集的機器學習論文數(shù)量變化情況如下圖所示。

從上圖可以看到,論文總數(shù)在 2017 年 3 月出現(xiàn)了一次激增,從時間上看可能是由于 NIPS 和 ICML 等大型會議的論文提交截止日期正好在 3 月。而且有一點需要說明的是,arXiv 的論文數(shù)據(jù)集雖然全面,但也并不能完全代表整個機器學習行業(yè)的變化趨勢,因為畢竟不是所有人都習慣于將自己的論文投遞到 arXiv 網(wǎng)站上。不過,從上圖我們仍然可以看到一個明顯的上升趨勢,這說明機器學習的熱度的確在持續(xù)地上升中。

下面我們將以這些論文作為研究材料,看看其中包含著怎樣的變化趨勢。

深度學習框架

首先看看深度學習框架的情況。這里我記錄了在 2017 年 3 月上傳的所有論文中(包括參考書目和論文內容)提到的機器學習框架情況:

可以看到,在 2017 年 3 月份提交的所有論文中大約有 10% 都提到了 TensorFlow。當然,并不是每一篇論文都聲明了框架的使用,但是如果我們假設論文以某一固定的概率分布來聲明框架,并且這個概率與框架本身無關的話,那么大概有高達 40% 的社區(qū)都在使用 TensorFlow(如果也算上用 TensorFlow 作為 Keras 后端的論文,這一比例將會更大)。下面是這些框架隨時間變化的趨勢:

可以看到,Theano 已經高速發(fā)展了一段時間了,但近期它的增速正在放緩。Caffe 從 2014 年前后開始快速爆發(fā),但在過去幾個月中已經被強大的 TensorFlow 反超。Torch(以及最近的 PyTorch)也處于上升期,雖然增速略顯緩慢,不過增長穩(wěn)定。我估計再過幾個月再來看這個結果會更有趣,因為根據(jù)我的估計,未來 Caffe 和 Theano 將會緩慢衰落,而由于 PyTorch 的崛起,TensorFlow 的增速可能會放緩。

卷積神經網(wǎng)絡模型(CNN)

下面再看一下卷積神經網(wǎng)絡的情況,從下面的圖表中可以清楚地看到,作為 CNN 領域里重要里程碑的 ResNets(深度殘差網(wǎng)絡)在 2016 年底的激增情況,在 2017 年 3 月提交的所有論文中甚至有大約 9% 都提到了 ResNets。

另外,這里還能看到在谷歌 InceptionNet 之前,實際上已經有論文提到了 inception 的概念。

優(yōu)化算法

在優(yōu)化算法方面,Adam 算法可以算是應用最多的一個,大約有高達 23% 的論文都提到了它。這里需要說明的是,在實際使用中 Adam 算法的采用率可能更高,因為許多論文都不會顯式地聲明優(yōu)化算法,更有一部分論文甚至不會闡述關于神經網(wǎng)絡優(yōu)化的內容。另外,從圖表中還能看出,在 2014 年 12 月 Adam 優(yōu)化算法被正式提出之前,實際上也有一些論文提到了 “Adam” 關鍵詞,它的概率大約維持在 5% 左右,我猜想可能是因為有許多作者的名字也叫 Adam 的緣故。

研究者

這里我還很好奇地研究了一下深度學習領域各位大牛的名字在論文中的變化情況,結果如下圖所示。需要說明的是,這里的僅根據(jù)關鍵詞統(tǒng)計的方式很粗糙,另外我還做了一些歸一化操作。

從圖表中可以看到,在所有提交的論文中,大約有 35% 提到了 bengio,但這里實際上有兩個人: Samy 和 Yoshua,圖中是兩人加起來的結果。另外需要特別指出的是,在所有新論文中有超過 30% 都提到了 Geoff Hinton 大神,這一點很強大。

關鍵詞

***一部分是關鍵詞。這里我首先統(tǒng)計了所有一元關鍵詞和二元關鍵詞在論文中的出現(xiàn)情況 ,并對當下和一年之前這些詞匯的***采用率做了對比。這里我作為基準采用的論文都是一些近兩年被引用次數(shù)***的優(yōu)秀論文。以下是一些排名靠前的關鍵詞:

以 ResNet 舉例來說,它的相對熱度之所以是 8.17,是因為它在 2016 年 3 月所有論文中的采用比是 1.044%,而到了今年 3 月,它的采用比則增長到了 8.53%,用兩個百分比相除,就得到了 8.17。

從以上圖表可以看出,在過去一年中最火熱的機器學習創(chuàng)新技術包括:ResNets、GAN、Adam 和 BatchNorm。在研究方向上熱詞包括:風格轉換(style transfer)、深度強化學習(deep RL)、神經網(wǎng)絡翻譯以及圖像生成等。***,在模型方面可以看到:全卷積網(wǎng)絡(FCN)、 LSTMs/GRUs、Siamese Nets 以及 Encoder decoder nets 等熱詞。

與之相反,哪些關鍵詞在過去一年中出現(xiàn)了下滑,變成了最冷門的關鍵詞?我整理了以下排名:

可以看到,fractal(分形) 和 bayesian(貝葉斯)相關的內容在近一年的時間中熱度衰減嚴重。

總結

話說,看完了所有的分析結果,你不趕緊寫一篇基于全卷積神經網(wǎng)絡、BatchNorm、ResNet 和 GAN 技術,通過 Adam 算法優(yōu)化,并應用于風格轉換的論文么。

責任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關推薦

2019-04-19 19:30:20

區(qū)塊鏈數(shù)字貨幣比特幣

2012-11-26 10:42:41

2021-04-11 10:40:16

Git軟件開發(fā)

2018-12-20 11:50:46

Python房租分析

2023-03-31 08:12:30

操作系統(tǒng)nanosleep信號

2016-01-05 11:56:34

2022-08-23 10:02:56

桌面環(huán)境Linux

2021-05-17 08:54:52

AI 數(shù)據(jù)人工智能

2017-09-06 17:55:17

用戶體驗UE社交媒體

2012-02-10 09:08:57

運維2012宕機

2020-12-21 10:19:39

商業(yè)智能BI疫情

2020-04-07 10:29:46

容器微服務開發(fā)

2023-03-07 11:23:04

2023-11-29 16:15:48

CIOCISO

2020-07-09 13:49:21

Python開發(fā)技術

2021-01-17 16:31:46

漏洞網(wǎng)絡安全網(wǎng)絡攻擊

2021-10-16 07:21:03

IPv6網(wǎng)絡互聯(lián)網(wǎng)

2021-05-11 10:33:17

首席信息官首席財務官CIO

2022-01-25 11:33:14

數(shù)據(jù)泄露網(wǎng)絡攻擊

2017-12-27 22:13:34

點贊
收藏

51CTO技術棧公眾號