2019數(shù)據(jù)科學(xué)家最需要的技能盤(pán)點(diǎn),Python大火,Pytorch職位需求翻番
大數(shù)據(jù)文摘出品
來(lái)源:medium
編譯:趙吉克
2018年medium上一篇博文分析了數(shù)據(jù)科學(xué)家最需要的技能,那篇文章引起了很大的反響,在medium上有超過(guò)11000次點(diǎn)贊,并被翻譯成幾種語(yǔ)言,成為了2018年11月KD Nuggets最受歡迎的文章。
2018年文章鏈接:
https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db
一年多過(guò)去了,2019的作者也發(fā)布了最新的分析,讓我們看看有什么變化。
2018年的文章考察了對(duì)統(tǒng)計(jì)和溝通交流等一般技能的需求以及對(duì)Python和R等技術(shù)的需求。軟件技術(shù)的變化一定快于一般技能需求上的變化,所以在本更新中只包括技術(shù)部分。
我們搜索了SimplyHired、Indeed、Monster和LinkedIn以查看在美工作的列表中哪些關(guān)鍵詞和“數(shù)據(jù)科學(xué)家”共同出現(xiàn)。這一次,我們決定用Request和Beautiful Soup包來(lái)獲取工作列表,而不是手工搜索。
事實(shí)證明,LinkedIn的爬取要困難得多,因?yàn)椴榭垂ぷ鞯牧斜淼臏?zhǔn)確數(shù)字需要身份驗(yàn)證。我決定使用Selenium進(jìn)行無(wú)頭瀏覽。2019年9月,美國(guó)最高法院對(duì)LinkedIn做出了判決,允許其數(shù)據(jù)被爬取。盡管如此,在幾次抓取嘗試后,還是無(wú)法訪(fǎng)問(wèn)賬戶(hù),這個(gè)問(wèn)題可能源于刷新率限制。
不管怎么說(shuō),微軟擁有LinkedIn,Randstad Holding擁有Monster, Recruit Holdings擁有Indeed和SimplyHired。
無(wú)論如何,LinkedIn的數(shù)據(jù)可能無(wú)法提供從去年到今年的蘋(píng)果公司職位對(duì)比。今年夏天,LinkedIn的一些技術(shù)職位搜索詞每周都會(huì)出現(xiàn)大幅波動(dòng)。這可能是由于他們?cè)噲D通過(guò)使用自然語(yǔ)言處理來(lái)衡量搜索目的,因而對(duì)他們的搜索結(jié)果算法進(jìn)行了實(shí)驗(yàn)。相比之下,另外三個(gè)搜索網(wǎng)站在過(guò)去兩年中出現(xiàn)的“數(shù)據(jù)科學(xué)家”相關(guān)職位列表數(shù)量則相對(duì)接近。
基于這些原因,LinkedIn被排除在本文2019年和2018年的分析之外。
對(duì)于每個(gè)工作搜索網(wǎng)站,我們計(jì)算了該網(wǎng)站中出現(xiàn)的每個(gè)關(guān)鍵詞在所有數(shù)據(jù)科學(xué)家工作列表中所占的百分比。然后,在三個(gè)站點(diǎn)上為每個(gè)關(guān)鍵字取這些百分比的平均值。
同時(shí)手動(dòng)調(diào)查了新的搜索詞以及那些看起來(lái)很有前途的詞。在2019年,沒(méi)有新的搜索詞達(dá)到占全體5%的占有水平,這是下述結(jié)果中使用的截?cái)嘀笜?biāo)。
PyTorch職位需求翻番
我們采用四種方法來(lái)查看每個(gè)關(guān)鍵字的結(jié)果:
- 方法1:對(duì)于每個(gè)求職網(wǎng)站,在每個(gè)年度用包含關(guān)鍵詞的列表數(shù)量除以包含data scientist的搜索詞總數(shù)。然后取三個(gè)網(wǎng)站的平均值。
- 方法2:看看2018年至2019年這些列表的平均比例變化的絕對(duì)值。
- 方法3:看看2018年至2019年這些列表的平均比例變化的相對(duì)百分比。
在完成上面的第一個(gè)步驟之后,計(jì)算每個(gè)關(guān)鍵字相對(duì)于該年度其他關(guān)鍵字的排名,然后計(jì)算每一年的排名變化。
觀(guān)察前三個(gè)帶有柱狀圖的選項(xiàng),然后我們將展示一個(gè)包含數(shù)據(jù)的表并討論結(jié)果。
這是上文中方法1對(duì)應(yīng)的2019年圖表,顯示Python出現(xiàn)在近75%的列表中。
這是上文中方法2的圖表,顯示了2018年至2019年職位列表中某項(xiàng)技能需求的變化。AWS顯示上升了5%。在2019年和2018年上市的公司中,這一比例分別為19.4%和14.6%。
這是上文方法3對(duì)應(yīng)的圖表,顯示了每年的百分比變化。2018年,PyTorch上榜職位需求數(shù)平均增長(zhǎng)了108.1%。
以下是上述圖表中的信息用表格形式展示的結(jié)果,按2018年至2019年上榜職位比例在三家網(wǎng)站平均后的變化百分比排序。
穩(wěn)居榜首的python,落寞的R
在不到14個(gè)月的時(shí)間內(nèi)技術(shù)需求發(fā)生了相當(dāng)大的變化!
1. 優(yōu)勝者
Python仍然排名第一。到目前為止,它是最常用的語(yǔ)言。幾乎霸占了四分之三的榜單,與2018年相比,Python使用量有了可觀(guān)的增長(zhǎng)。
SQL使用量快速提升。它幾乎快要超過(guò)獲得第二高平均分?jǐn)?shù)的R語(yǔ)言。如果繼續(xù)保持該趨勢(shì),SQL很快將成為真正的第二。
杰出的深度學(xué)習(xí)框架得到了廣泛使用。PyTorch在所有關(guān)鍵字中的增幅最大,Keras和TensorFlow也表現(xiàn)出色。Keras和PyTorch在排名中均上升了4位,TensorFlow上升了3位。請(qǐng)注意,由于PyTorch的起始平均值較低,TensorFlow的當(dāng)前平均值仍是PyTorch平均值的兩倍。
數(shù)據(jù)科學(xué)家對(duì)云平臺(tái)技能的需求越來(lái)越大。AWS的出現(xiàn)頻率高達(dá)20%,Azure約10%。Azure在排名中躍升了四位。
2. 落敗者
R語(yǔ)言的總體平均下降幅度最大?;谄渌{(diào)研,這一趨勢(shì)不足為奇。Python顯然已經(jīng)取代R成為數(shù)據(jù)科學(xué)的首選語(yǔ)言。 盡管如此,R仍然非常受歡迎,出現(xiàn)在55%的榜單中。如果您熟悉R語(yǔ)言,請(qǐng)不要沮喪,但如果您想要掌握需求量更大的技能,請(qǐng)考慮學(xué)習(xí)Python。
許多Apache產(chǎn)品受到歡迎,包括Pig,Hive,Hadoop和Spark。Pig的排名下降了5位,比任何其他技術(shù)都下降得多。Spark和Hadoop仍然是人們普遍希望掌握的技能,但是我認(rèn)為,轉(zhuǎn)向其他大數(shù)據(jù)技術(shù)已經(jīng)成為一種趨勢(shì)。
專(zhuān)有的統(tǒng)計(jì)軟件包MATLAB和SAS使用量急劇下降。 MATLAB在排名中下降了四位,而SAS從第六位下降到第八位。與2018年的平均水平相比,兩種語(yǔ)言均出現(xiàn)了大幅下降。
推薦一個(gè)學(xué)習(xí)路徑
如果你剛開(kāi)始從事數(shù)據(jù)科學(xué),我建議你專(zhuān)注于需求增長(zhǎng)和有發(fā)展?jié)摿Φ募夹g(shù),并且每次只專(zhuān)心學(xué)習(xí)一種技能。
以下是我推薦的學(xué)習(xí)路徑:
- 學(xué)習(xí)Python以掌握常規(guī)編程;
- 學(xué)習(xí)pandas來(lái)進(jìn)行數(shù)據(jù)操作;
- 通過(guò)Scikit-learn庫(kù)學(xué)習(xí)機(jī)器學(xué)習(xí);
- 學(xué)習(xí)用于高效查詢(xún)相關(guān)數(shù)據(jù)庫(kù)的SQL;
- 學(xué)習(xí)Tableau以進(jìn)行數(shù)據(jù)可視化;
- 關(guān)于云計(jì)算平臺(tái),基于A(yíng)WS的市場(chǎng)份額,它是一個(gè)不錯(cuò)的選擇;
- 學(xué)習(xí)一個(gè)機(jī)器學(xué)習(xí)框架,Keras現(xiàn)在與TensorFlow緊密結(jié)合,因此它是一個(gè)很好的起點(diǎn),PyTorch也在迅速發(fā)展。
這是我的總體學(xué)習(xí)路徑建議。按照你的需要各取所需吧。
相關(guān)報(bào)道:
https://towardsdatascience.com/the-most-in-demand-tech-skills-for-data-scientists-d716d10c191d
https://bdtechtalks.com/2019/11/25/ai-research-neural-networks-compute-costs/
【本文是51CTO專(zhuān)欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】