自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從拉勾網(wǎng)爬的招聘數(shù)據(jù) 解析中國數(shù)據(jù)挖掘人才能掙多少錢

大數(shù)據(jù)
緣起是因?yàn)閿?shù)據(jù)挖掘入行不久,一直上拉勾網(wǎng)看各種公司的招聘JD,人工看一方面是時(shí)間很消耗,更嚴(yán)重的是抓不住重點(diǎn),最近剛好入手python爬蟲,試圖簡化這部分工作。

 

[[153519]]

緣起是因?yàn)閿?shù)據(jù)挖掘入行不久,一直上拉勾網(wǎng)看各種公司的招聘JD,人工看一方面是時(shí)間很消耗,更嚴(yán)重的是抓不住重點(diǎn),最近剛好入手python爬蟲,試圖簡化這部分工作。另一方面學(xué)習(xí)爬蟲之后,發(fā)現(xiàn)自己整天上網(wǎng)手動(dòng)翻網(wǎng)頁找信息這個(gè)動(dòng)作很low,所以花了兩天的時(shí)間連爬取帶寫文檔。文檔中同時(shí)附上github代碼,各位想上手python的童鞋可以下載玩一下,(自知代碼粗淺,大牛求放過~)

工具:windows7,python3.4,IDE PyCharm 4.5

Python代碼:

抓取 https://github.com/lichald/python/blob/master/python34/spider

分詞https://github.com/lichald/python/blob/master/python34/wordcut

樣本規(guī)模,:拉勾網(wǎng)20151020根據(jù)“數(shù)據(jù)挖掘”關(guān)鍵字可以搜索到的Jobs。工作數(shù)量450個(gè),招聘公司318家,分布在21個(gè)城市。工作數(shù)量最多的前五名分別為北京、上海、深圳、廣州、杭州(排名分先后),占工作總數(shù)的88%,基于二八法則,取這五個(gè)城市的樣本作為分析基礎(chǔ),其他城市暫不考慮。

1.數(shù)據(jù)挖掘在哪個(gè)城市需求更加旺盛?

數(shù)據(jù)挖掘

 

從總值上看,北京在數(shù)據(jù)挖掘崗位open的職位數(shù)量和公司數(shù)量上占據(jù)絕對優(yōu)勢,甚至超過后面4個(gè)城市的數(shù)值加和;僅就北京和上海相比,公司數(shù)量是3倍,職位數(shù)量是4倍。從公司平均招聘人數(shù)上看,北京也領(lǐng)先于其他城市。即使排除拉勾網(wǎng)base在北京中關(guān)村地利優(yōu)勢和3W咖啡的線下優(yōu)勢,北京的數(shù)值依然是遙遙領(lǐng)先。

2.公司如何定價(jià)員工的工作資歷?

數(shù)據(jù)挖掘

從主流數(shù)量上看,工作經(jīng)歷在1-5年的現(xiàn)在需求最旺盛,且大多數(shù)公司均會(huì)給到11-25K的價(jià)位。且對于11-15K、16-20K、21-25K三個(gè)細(xì)分檔次的價(jià)位,用人單位對于1-3年工作經(jīng)驗(yàn)的人11-15K是主流價(jià)碼,優(yōu)秀的人可以提升至16-20K,更優(yōu)秀的再提升至21-25K;用人單位對于3-5年工作經(jīng)驗(yàn)的人21-25K是主流價(jià)碼,有經(jīng)驗(yàn)但能力欠缺的降至16-20K,再弱一些的就降至11-15K。

數(shù)據(jù)挖掘

還有一個(gè)非常有意思的現(xiàn)象是,有相當(dāng)一部分企業(yè)對于“經(jīng)驗(yàn)不限”的情況大多數(shù)也愿意給出11-15K和21-25K的價(jià)位,說明在互聯(lián)網(wǎng)領(lǐng)域仍有企業(yè)是看重能力而不是資歷,對于經(jīng)驗(yàn)有相當(dāng)?shù)淖杂啥取A硗鈱τ?-10年的人員數(shù)量非常低,排除專業(yè)獵頭分的蛋糕之外,也可能說明這個(gè)行業(yè)的專家非常少,或者是企業(yè)的數(shù)據(jù)挖掘需求還遠(yuǎn)沒有達(dá)到需要專家的級別。這兩點(diǎn)結(jié)合來看,專家權(quán)威效應(yīng)不明顯,企業(yè)看重能力而非資歷,對于這個(gè)行業(yè)的新人是利好的消息。

請注意,企業(yè)對于1年以下經(jīng)驗(yàn)的人招聘數(shù)量和薪資認(rèn)可方面都是非常低的,說明新人前1-2年先不著急跳槽,好好打好基本功,迎接之后的量質(zhì)轉(zhuǎn)換!

3.高薪資都存在哪些高大上的行業(yè)?

數(shù)據(jù)挖掘

數(shù)據(jù)聲明:在拉勾網(wǎng)上發(fā)布職位的公司一般都會(huì)貼上兩個(gè)以上的標(biāo)簽,本文將對這些標(biāo)簽重復(fù)計(jì)算。例如宜信公司標(biāo)簽是<移動(dòng)互聯(lián)網(wǎng)·金融>,則在這兩個(gè)領(lǐng)域分別會(huì)計(jì)數(shù)。圖中移動(dòng)互聯(lián)網(wǎng)的絕對值非常高,說明移動(dòng)互聯(lián)網(wǎng)是一種主流的趨勢。

移動(dòng)互聯(lián)網(wǎng)的主流薪資認(rèn)可是11-25K范圍,且能夠容納的人員數(shù)量非常多,說明該行業(yè)不差錢。數(shù)據(jù)服務(wù)是這行里面的默默無聞的耕耘者,有很多新興企業(yè),提供數(shù)據(jù)服務(wù),也是通過高新來吸引人才。電商、O2O、文化(主要是視頻)、廣告、金融幾個(gè)行業(yè)對數(shù)據(jù)挖掘人才需求的數(shù)量和質(zhì)量相差無幾。如果希望從事一份體面的數(shù)據(jù)挖掘工作,可以考慮從這些行業(yè)中來找。

4.公司處于何種階段會(huì)需要數(shù)據(jù)挖掘?

數(shù)據(jù)挖掘

融到錢的公司(途徑包括各種輪和上市)對于數(shù)據(jù)挖掘的需求明顯高于其他,早在天使輪就有體現(xiàn)。就成功融資的這些企業(yè)來講,11-15K的人在AB輪時(shí)達(dá)到頂峰,說明這階段應(yīng)該是數(shù)據(jù)挖掘部門急劇膨脹的階段,需要比較多的初級數(shù)據(jù)挖掘人員;21-25K的人員在ABCD和上市之后的需求保持持平,說明對于有能力的資深人士,需求是一直存在的,而且可能滿足要求的人員較少,公司之間的流動(dòng)性比較高,招聘需求一直穩(wěn)定存在。

平均收入是根據(jù)人數(shù)加權(quán)得出,從中可以看出,“成功融資”、“未融資”、“不需要融資”呈依次遞減的水平,在融資領(lǐng)域內(nèi),平均收入水平依據(jù)成熟度而顯示逐步上升。

如果你是希望通過跳槽來獲取更高的收入11-20K,不考慮期權(quán)的因素下,成熟度高的已成功融資、如CD輪或者上市的公司是最理想的選擇,這些公司總體平均收入比較高,未來有進(jìn)一步上升的潛力;如果覺得競爭太激烈,可以退而求其次,將目標(biāo)放在AB輪,這些公司對此檔人員的需求最高,但平均收入不一定高。(但事情一體兩面,如果你選擇時(shí)機(jī)得當(dāng),AB輪獲得股權(quán)期權(quán),將來成功套現(xiàn),也將是一筆不小的收入)。

5.企業(yè)發(fā)展到何種規(guī)模需要數(shù)據(jù)挖掘?

數(shù)據(jù)挖掘

對于11-15K的等級,在企業(yè)發(fā)展階段呈現(xiàn)先上升后下降的趨勢,其中150-500人是需求的頂峰;對于16-25K的人員,企業(yè)發(fā)展階段是持續(xù)上升的需求,其中在50-500人階段呈現(xiàn)出一個(gè)小高峰??梢岳斫馄髽I(yè)在發(fā)展到150-500人之前,15K以下的數(shù)據(jù)挖掘即可滿足需要,但在之后數(shù)據(jù)量的膨脹導(dǎo)致數(shù)據(jù)的價(jià)值陡增,對于21K以上的中高級人才產(chǎn)生巨大的渴求。

從人員加權(quán)平均收入來看,隨著規(guī)模的增長是在不斷上升的,企業(yè)的發(fā)展越大,數(shù)據(jù)挖掘越容易產(chǎn)生價(jià)值。

如果你熱衷于數(shù)據(jù)挖掘領(lǐng)域創(chuàng)造價(jià)值,大公司將是不錯(cuò)的歷練平臺(tái);但如果可以接受11-15K水平的初級人員,150-500人的公司將會(huì)是一個(gè)不錯(cuò)的跳板。

6.數(shù)據(jù)挖掘工具的運(yùn)用與收入之間的關(guān)系?

數(shù)據(jù)說明:從每個(gè)網(wǎng)頁中抓取JD說明,根據(jù)python中jieba庫進(jìn)行文本分詞,并計(jì)算出現(xiàn)頻次,并建立自己的分詞標(biāo)簽字典。

數(shù)據(jù)挖掘

數(shù)據(jù)說明:詞頻占比=該詞詞頻/所有詞詞頻。平均每個(gè)JD中出現(xiàn)次數(shù)=詞頻/JD數(shù)。在JD中,非關(guān)系型數(shù)據(jù)庫、腳本語言和關(guān)系型數(shù)據(jù)庫是三種主要被提及的工具,平均每個(gè)job中均會(huì)提及一次以上。說明這些是必備技能。具體取了排名前30的原始詞做成云圖如下。

數(shù)據(jù)挖掘

以Hadoop為代表的非關(guān)系型數(shù)據(jù)庫,以python和java為代表的語言,以SQL為代表的關(guān)系型數(shù)據(jù)庫構(gòu)成工具的主流。

數(shù)據(jù)挖掘

數(shù)據(jù)說明:面積圖為對應(yīng)詞出現(xiàn)的頻次總數(shù),折線圖為詞頻/job數(shù)量的比例、代表平均每個(gè)職位描述中出現(xiàn)某詞的頻次。

從折線圖上看,在6-15K、16-25K、26-100K三個(gè)階段內(nèi),絕大多數(shù)工具需求都呈現(xiàn)正三角形的結(jié)構(gòu),即“小大小”的情況,可以理解為在25K以前,薪資隨著工具的提升而不斷提升,26K以后需要有其他非軟件工具技能來獲得職業(yè)生涯的突破。

從工作數(shù)量上看,hadoop、python、java的數(shù)值很高,說明獲得絕大多數(shù)公司的認(rèn)可,所以這三門工具是在數(shù)據(jù)挖掘領(lǐng)域走向人生巔峰的必備良藥。

 

責(zé)任編輯:李英杰 來源: 36大數(shù)據(jù)
相關(guān)推薦

2020-07-13 07:24:41

暗網(wǎng)網(wǎng)絡(luò)安全惡意軟件

2009-09-29 09:34:57

IT員工薪水

2011-07-28 09:07:52

創(chuàng)富Android谷歌

2018-05-22 09:07:18

2018-01-16 00:50:43

2015-04-21 10:25:51

2019-10-08 14:49:30

Google云市場Google Clou

2016-01-05 17:46:21

招聘

2014-05-04 10:38:50

拉勾網(wǎng)

2015-02-05 09:24:48

代碼

2016-12-02 19:34:26

數(shù)據(jù)科學(xué)大數(shù)據(jù)

2019-02-21 10:48:17

年終獎(jiǎng)大數(shù)據(jù)辭職

2016-10-17 14:14:55

大數(shù)據(jù)人才招聘

2010-10-28 10:43:49

求職

2016-11-11 20:46:01

數(shù)據(jù)科學(xué)大數(shù)據(jù)Python

2020-06-18 15:27:42

程序員技能開發(fā)者

2018-03-07 11:35:49

Python可視化數(shù)據(jù)

2012-08-01 10:32:07

代碼

2015-07-01 16:11:30

數(shù)據(jù)人才數(shù)據(jù)

2015-12-03 10:14:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號