2018數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)調(diào)查:Hadoop被拋棄!
近日,著名數(shù)據(jù)科學(xué)網(wǎng)站 KDnuggets 發(fā)布了 2018 年數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工具調(diào)查結(jié)果。超過(guò) 2000 人對(duì)自己「過(guò)去 12 個(gè)月內(nèi)在項(xiàng)目開(kāi)發(fā)中使用過(guò)的數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)工具和編程語(yǔ)言」進(jìn)行了投票。該統(tǒng)計(jì)還對(duì)過(guò)去三年來(lái)的排名進(jìn)行了對(duì)比分析。
這份投票結(jié)果既有預(yù)料之內(nèi),也有預(yù)料之外的部分。數(shù)據(jù)顯示,Python 作為機(jī)器學(xué)習(xí)常用的編程語(yǔ)言正在不斷擴(kuò)大領(lǐng)先優(yōu)勢(shì),R 語(yǔ)言的使用率***次降到了 50% 以下。在深度學(xué)習(xí)框架上,最近呼聲很高的深度學(xué)習(xí)框架 PyTorch 僅僅占據(jù)了 6.4% 的使用率,遠(yuǎn)遠(yuǎn)落后于 TensorFlow 的 29.9% 和 Keras 的 22.2%。
Python 繼續(xù)侵蝕著 R 的用戶(hù)領(lǐng)域,RapidMiner 熱門(mén)度增加,SQL 保持穩(wěn)定,TensorFlow 和 Keras ***前進(jìn),Hadoop 衰落,數(shù)據(jù)科學(xué)平臺(tái)整合等等。
第 19 次年度 KDnuggets 軟件調(diào)查有超過(guò) 2300 人參與投票,略微少于 2017 年,可能是因?yàn)閮H有一個(gè)供應(yīng)商 RapidMiner 積極地參與 KDnuggests 調(diào)查的投票。平均來(lái)說(shuō),每個(gè)參與者選擇 7 個(gè)使用過(guò)的不同工具,因此僅投票一個(gè)工具會(huì)帶來(lái)偏差。KDnuggets 排除了大約 260 個(gè)這樣的「獨(dú)好」投票(主要來(lái)自 RapidMiner),因?yàn)榧词顾麄兇砹嗽摴ぞ叩暮戏ㄓ脩?hù),他們的行為也是非典型的,并且會(huì)歪曲結(jié)果。
以下是基于 2052 個(gè)參與者的初始結(jié)果分析,其中「獨(dú)好」投票者已被排除。更多詳細(xì)分析和匿名數(shù)據(jù)將在大約兩周內(nèi)公布。
***的分析、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)工具

圖 1:KDnuggests 分析/數(shù)據(jù)科學(xué) 2018 年軟件調(diào)查:2018 年***工具,以及它們相對(duì)于 2016-2017 年的排名變化。(為了更有效的比較,KDnuggests 排除了「獨(dú)好」投票者并重新計(jì)算了 2016 年、2017 年的調(diào)查結(jié)果。)
上圖顯示了排名前 11 的工具,每個(gè)工具的使用率至少為 20%。

▲表 1:KDnuggests 2018 年軟件調(diào)查***的分析/數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)軟件
在這里,「2018 % share」一欄是指使用該工具的用戶(hù)百分比,「% change」是指和 2017 年軟件調(diào)查相比的變化比例,綠色和紅色標(biāo)記表示比例的變化幅度達(dá)到了 10% 或更多。
每個(gè)投票人的平均使用工具數(shù)量是 7 個(gè),略微高于 2017 年調(diào)查的 6.75 個(gè)(也排除了「獨(dú)好」投票人)。
和 2017 年的軟件調(diào)查相比,進(jìn)入前 11 名的新工具是 Keras。Knime 從第 11 名下跌,可能是因?yàn)榻衲晁麄儾](méi)有積極調(diào)動(dòng)其用戶(hù)參與投票。
以下是一些觀察結(jié)果。
Python 正在吞噬 R 的用戶(hù)領(lǐng)域
2017 年 Python 的使用率超過(guò) 50%,今年它的使用率上升至 66%,而 R 的使用率***下跌,跌破 50%。
RapidMiner
在之前的幾次問(wèn)卷中,RapidMiner 這一***數(shù)據(jù)科學(xué)平臺(tái)正快速傳播,它的用戶(hù)使用率由 2017 年的 33% 增長(zhǎng)到了今年的 52.7%。根據(jù) RapidMiner 的創(chuàng)始人和董事長(zhǎng) Ingo Mierswa,他們采取了一些措施鼓勵(lì)用戶(hù)參與該調(diào)查。
對(duì)于 KDnuggets 的問(wèn)卷調(diào)查,Ingo Mierswa 說(shuō):「近兩年我們都向用戶(hù)發(fā)送郵件推廣該問(wèn)卷調(diào)查,但今年有超過(guò) 400 多位用戶(hù)回郵件表示很高興能幫助 RapidMiner 的傳播。而且今年 RapidMiner 月度活躍用戶(hù)增長(zhǎng)率超出去年 300%,因此我們向更多用戶(hù)發(fā)送了關(guān)于 KDnuggets 問(wèn)卷調(diào)查的郵件。我很高興看到如此活躍的社區(qū)?!?/p>
SQL 保持穩(wěn)定
作為數(shù)據(jù)管理系統(tǒng)的程序語(yǔ)言,SQL(包括 Spark SQL 和 SQL to Hadoop 工具)繼續(xù)保持著約 40% 的使用率,和之前 3 次調(diào)查結(jié)果一樣。因此,如果你是一位有雄心壯志的數(shù)據(jù)科學(xué)家,學(xué)習(xí) SQL 吧,它在很長(zhǎng)一段時(shí)間里都會(huì)很有用!
趨勢(shì)
該調(diào)查唯一使用率超過(guò) 2% 的新工具是 Spark SQL,使用率達(dá)到 11.7%。下表列舉了使用率增幅達(dá)到 20% 及以上、2018 年使用率為 3% 以上的工具。

▲表 2:使用率增幅***的主要分析/數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)工具。
整合
2017 年使用率達(dá)到 2% 及以上的 56 個(gè)工具中,有 19 個(gè)(僅 1/3)工具在 2018 年使用率有所上升,其余 37 個(gè)均下降。這和近期的收購(gòu)案(Datawatch 收購(gòu) Angoss、Minitab 收購(gòu) Salford)一道表明數(shù)據(jù)科學(xué)平臺(tái)的整合正在進(jìn)行過(guò)程中。
2017 年使用率至少 3% 的工具,今年下降了 25% 甚至更多,詳見(jiàn)下表。

▲表 3:使用率跌幅***的主要分析/數(shù)據(jù)科學(xué)工具。
深度學(xué)習(xí)工具
近兩年,該調(diào)查中使用深度學(xué)習(xí)工具的投票者所占份額保持穩(wěn)定。2018 年有 33% 的投票者使用深度學(xué)習(xí)工具,2017 年和 2016 年分別有 32% 和 18%。谷歌維護(hù)的 TensorFlow 仍然占主導(dǎo)地位,而發(fā)展迅速的 Keras 可作為構(gòu)建在 TensorFlow 和 MXNet 等框架上的高級(jí) API。
另一方面,主要由 Facebook 推動(dòng),推出已過(guò)一年的 PyTorch 吸引了一批研究者和工程人員,使用率達(dá)到 6.4%,排名第三。由于這款深度學(xué)習(xí)框架已和 Caffe2 合并,在未來(lái)我們肯定將會(huì)看到 PyTorch 占據(jù)更大的份額。
不過(guò) KDnuggets 更關(guān)注數(shù)據(jù)科學(xué),也更常使用淺層的機(jī)器學(xué)習(xí)算法。我們可能更希望了解機(jī)器學(xué)習(xí)及深度學(xué)習(xí)社區(qū)在框架上的選擇,因此讀者可以在文末對(duì)常用的深度學(xué)習(xí)框架進(jìn)行投票。
深度學(xué)習(xí)工具排名:
- Tensorflow, 29.9%
- Keras, 22.2%
- PyTorch, 6.4%
- Theano, 4.9%
- Other Deep Learning Tools, 4.9%
- DeepLearning4J, 3.4%
- Microsoft Cognitive Toolkit (Prev. CNTK), 3.0%
- Apache MXnet, 1.5%
- Caffe, 1.5%
- Caffe2, 1.2%
- TFLearn, 1.1%
- Torch, 1.0%
- Lasagne, 0.3%
大數(shù)據(jù)工具:Hadoop 使用率下降
2018 年,大約 33% 的用戶(hù)使用大數(shù)據(jù)工具,要么是 Hadoop,要么是 Spark,和 2017 年一樣。但 Hadoop 的使用率顯著下降,跌幅超過(guò) 30%。
以下是相關(guān)細(xì)節(jié):

編程語(yǔ)言
Python 似乎不僅正在取代 R,還包括除了 SQL、Java、C/C++ 之外的大多數(shù)其它語(yǔ)言,這三者與 Python 大致處于同一個(gè)級(jí)別。自 KDnuggets 開(kāi)始做這項(xiàng)調(diào)查以來(lái),R 使用率***出現(xiàn)下跌。其它語(yǔ)言也出現(xiàn)了衰落的趨勢(shì)。
以下是按熱門(mén)度排序的主要編程語(yǔ)言:
- Python, 65.6% (was 59.0% in 2017), 11% up
- R, 48.5% (was 56.6%), 14% down
- SQL, 39.6% (was 39.2%), 1% up
- Java, 15.1% (was 15.5%), 3% down
- Unix, shell/awk/gawk, 9.2% (was 10.8%), 15% down
- Other programming and data languages, 6.9%, (was 7.6%), -9% down
- C/C++, 6.8%, (was 7.1%), 3% down
- Scala, 5.9%, (was 8.3%), 29% down
- Perl, 1.0% (was 1.9%), 46% down
- Julia, 0.7% (was 1.2%), 45% down
- Lisp, 0.3% (was 0.4%), -25% down
- Clojure, 0.2% (was 0.3%), -38% down
- F, # 0.1% (was 0.5%), -73% down
地區(qū)參與度
本次調(diào)查中不同地區(qū)的參與比例是:
- 歐洲,37.5%
- 美國(guó)/加拿大,36.6%
- 亞洲,11.7%
- 拉丁美洲,6.6%
- 非洲/中東,4.5%
- 澳大利亞/新西蘭,3.1%
和 2017 年相比,主要的變化是歐洲的參與比例變高了(之前為 35.5%),而美國(guó)/加拿大的參與比例變低了(之前為 41.5%)。
完整結(jié)果和 3 年來(lái)的趨勢(shì)
以下表格展示了調(diào)查結(jié)果的細(xì)節(jié)(由于篇幅限制,此處僅列出排名前 12 的工具):
