“數(shù)據(jù)分析崗位”招聘情況分析!| Excel版
為了練習(xí)Excel技能,以及實(shí)踐數(shù)據(jù)分析的流程。我用Web Scraper爬取了前程無(wú)憂4月16日全國(guó)發(fā)布的約2500條數(shù)據(jù)分析的職位信息,對(duì)數(shù)據(jù)分析崗位的招聘情況進(jìn)行簡(jiǎn)單的分析。整個(gè)過(guò)程分為五個(gè)步驟:明確目的,觀察數(shù)據(jù),清洗數(shù)據(jù),分析過(guò)程,得出結(jié)論。
01 明確目的
一切數(shù)據(jù)分析都是以業(yè)務(wù)為核心目的。本次項(xiàng)目的目的是通過(guò)數(shù)據(jù)分析崗位的招聘信息,包括地區(qū)分布、薪資水平、職位要求等,了解***數(shù)據(jù)分析崗位的情況。
02 觀察數(shù)據(jù)
- positionName:職位名稱
- link:職位詳情頁(yè)鏈接
- companyName:公司名稱
- city:工作城市
- salary:薪資
- Releasedate:發(fā)布日期
- companyType:公司類型
- Field:公司領(lǐng)域
- conmpanySize:公司規(guī)模
- JD:職位描述
- address:公司地址
- companyProfile:公司簡(jiǎn)介
- info:招聘信息 (源于爬取的原因包含了公司地點(diǎn)、工作經(jīng)驗(yàn)、教育要求、招聘人數(shù)、發(fā)布時(shí)間,以|分隔)
- positionLables:職能類別
- keyword:職位關(guān)鍵字
- positionAdvantage:福利
首先看一下哪些字段數(shù)據(jù)可以去除。link為職位詳情頁(yè)鏈接,是爬取二級(jí)頁(yè)面需要的;Releasedate是職位發(fā)布時(shí)間,都為4月16日,這兩列可以刪除。
JD:職位描述、address:公司地址、companyProfile:公司簡(jiǎn)介、keyword:職位關(guān)鍵字
雖然JD中的職位描述比info中信息更準(zhǔn)確,但此次初級(jí)分析不對(duì)文本進(jìn)行挖掘,所以先隱藏。盡量不刪除數(shù)據(jù),而是隱藏,保證原始數(shù)據(jù)的完整性,以后可能會(huì)用到。
03 清洗數(shù)據(jù)
檢查數(shù)據(jù)缺失:Excel中可以通過(guò)選取該列,在屏幕的右下角查看計(jì)數(shù),以此判別有無(wú)缺失數(shù)據(jù),缺失值很大程度上影響分析結(jié)果。如果某一字段缺失數(shù)據(jù)較多(超過(guò)50%),分析過(guò)程中要考慮是否刪除該字段,因?yàn)槿笔н^(guò)多就沒(méi)有業(yè)務(wù)意義了。
salary、companyType、Field、conmpanySize都存在一小部分的缺失,不影響實(shí)際分析。
檢查數(shù)據(jù)是否有臟數(shù)據(jù):臟數(shù)據(jù)包括亂碼,錯(cuò)位,重復(fù)值,未匹配數(shù)據(jù),加密數(shù)據(jù)等。能影響到分析的都算臟數(shù)據(jù),沒(méi)有一致化也可以算。
數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu):就是將特殊結(jié)構(gòu)的數(shù)據(jù)進(jìn)行轉(zhuǎn)換和規(guī)整。
我們首先把 city、salary、info拆開(kāi)。
先將salary拆成***薪水和***薪水。比較麻煩的是薪水的表示方式有“XX元/天”,“X-X萬(wàn)/年”,“X-X千/月”,“X-X萬(wàn)/月”,還有空白項(xiàng)。
以天結(jié)算的可能是兼職,數(shù)量很少直接刪除。
空白項(xiàng)是因?yàn)閸徫绘溄邮枪局黜?yè),而不是前程無(wú)憂的職位詳情頁(yè),所以沒(méi)有爬取到??瞻醉?xiàng)大概占總量的2%,缺失值可以以業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測(cè)填充、可以同一指標(biāo)的計(jì)算結(jié)果(均值、中位數(shù)、眾數(shù)等)填充、也可以用回歸、貝葉斯形式化方法的基于推理的工具或決策樹(shù)歸納確定。這里簡(jiǎn)單采用均值填充。
現(xiàn)在只剩“X-X萬(wàn)/年”,“X-X千/月”,“X-X萬(wàn)/月”三種類型,我打算統(tǒng)一以“X-X千/月”表示。
先用篩選中的“文本篩選”選出所有以“萬(wàn)/年”表示薪資的項(xiàng):
使用分列,以 ‘ - ’ 為分隔符號(hào)把salary分為兩列,再對(duì)***薪水列使用LEFT和FIND結(jié)合,截取單位前的數(shù)字:
換算一下單位,取小數(shù)點(diǎn)后一位,“X-X萬(wàn)/年”就轉(zhuǎn)變?yōu)?ldquo;X-X千/月”了。
然后篩選出“X-X萬(wàn)/月”的項(xiàng),同樣分列---> 截取***薪數(shù)字--->換算單位:
***篩選出“X-X千/月”的項(xiàng),分列---> 截取***薪數(shù)字,但不用換算單位了。***得到的bottom和top列是公式,用復(fù)制-->粘貼為“值”,將公式轉(zhuǎn)化為數(shù)值。
出現(xiàn)了文本與數(shù)字交替的情況,
給每個(gè)單元格做一次數(shù)字運(yùn)算,全部轉(zhuǎn)換為數(shù)字。***得到統(tǒng)一單位和格式的***薪水和***薪水。
我們簡(jiǎn)單取***薪和***薪的平均數(shù)作為該崗位薪資。這是數(shù)據(jù)來(lái)源的缺陷,因?yàn)槲覀儾⒉荒苤缿?yīng)聘者實(shí)際能拿多少,這是薪水計(jì)算的誤差。
剛才說(shuō)用均值填充缺失值,均值計(jì)算為9.3,對(duì)avgsalary為0的項(xiàng)進(jìn)行填充。薪資項(xiàng)的處理就完成了。
然后是info項(xiàng),info項(xiàng)的格式類似
以 ‘ | ’ 為分隔符分列,但有的單位在此處填寫(xiě)了學(xué)歷要求,有的單位沒(méi)有,而是把學(xué)歷要求寫(xiě)在JD中。導(dǎo)致education項(xiàng)中有一部分的數(shù)據(jù)錯(cuò)位為招聘人數(shù)。
我把薪資小于5千/月的填充為大專要求,小于15千/月的填充為本科要求,大于15千/月的填充為碩士要求,不過(guò)這樣誤差應(yīng)該會(huì)非常大!
然后是city列,用數(shù)據(jù)透視表統(tǒng)計(jì)各城市出現(xiàn)的次數(shù),降序。將小于10個(gè)招聘崗位的城市統(tǒng)一歸入“其他城市”標(biāo)簽。
數(shù)據(jù)是否一致化:一致化指的是數(shù)據(jù)是否有統(tǒng)一的標(biāo)準(zhǔn)或命名。我們看一下表格中的positionName,非常不一致。
我們需要將數(shù)據(jù)分析強(qiáng)相關(guān)的職位挑選出來(lái),不然會(huì)影響分析結(jié)果。
用關(guān)鍵詞查找的思路,找出包含有數(shù)據(jù)分析、分析師、數(shù)據(jù)運(yùn)營(yíng)等關(guān)鍵詞的崗位,排除掉“品牌專員”、“人力資源總監(jiān)”、“會(huì)計(jì)”等非純數(shù)據(jù)分析的崗位。用FIND函數(shù)和IF函數(shù)結(jié)合,1為包含,0不包含。將1過(guò)濾出來(lái),這就是需要分析的最終數(shù)據(jù)。
以下是排除掉的崗位,約160個(gè),占總崗位數(shù)的6.8%。
04 分析過(guò)程
因?yàn)橹饕獢?shù)據(jù)均是文本格式,所以偏向匯總統(tǒng)計(jì)的計(jì)算。如果數(shù)值型的數(shù)據(jù)比較多,就會(huì)涉及到統(tǒng)計(jì)、比例等概念。如果有時(shí)間類數(shù)據(jù),那么還會(huì)有趨勢(shì)、變化的概念。
整體分析使用數(shù)據(jù)透視表完成,先利用數(shù)據(jù)透視表獲得匯總型統(tǒng)計(jì)。
1)工作經(jīng)驗(yàn)vs崗位數(shù)量
廣州和上海的數(shù)據(jù)分析崗位遠(yuǎn)多于其他城市。3年以下時(shí)間段的缺口更大。無(wú)工作經(jīng)驗(yàn)的應(yīng)屆畢業(yè)生似乎比1年以下經(jīng)驗(yàn)的更吃香。但因?yàn)楹芏喙緦?duì)學(xué)歷的要求寫(xiě)在詳細(xì)的崗位描述中,而不是直接選擇的。所以很多顯示為無(wú)工作經(jīng)驗(yàn)的崗位,其實(shí)在崗位描述中是對(duì)工作年限進(jìn)行了要求的,所以這里的統(tǒng)計(jì)很不準(zhǔn)確。
2)企業(yè)規(guī)模vs崗位數(shù)量
看起來(lái)50-150人和150-500人的中小型公司需要的數(shù)據(jù)分析師更多。
但這樣的分析并不準(zhǔn)確。因?yàn)檫@只是一個(gè)匯總數(shù)據(jù),而不是比例數(shù)據(jù)。如果北京的互聯(lián)網(wǎng)公司特別多,那么即使有1000多個(gè)崗位發(fā)布也不算缺口大,如果南京的互聯(lián)網(wǎng)公司少,即使只招聘30個(gè),也是充滿需求的。
還有一種情況是企業(yè)剛好招聘滿數(shù)據(jù)分析師,就不發(fā)布崗位了,數(shù)據(jù)包含的只是正在招聘數(shù)據(jù)分析師的企業(yè),這些都是限制分析的因素。
3)工作經(jīng)驗(yàn)vs薪資水平
排除不準(zhǔn)確的無(wú)工作經(jīng)驗(yàn)項(xiàng),薪水確實(shí)是和工作年限成正比的。
北京、上海、深圳的平均薪資***,超過(guò)10千/月。崗位需求***的廣州平均薪資僅為8.57千/月。
崗位需求量很低的南昌和珠海,因?yàn)橛袀€(gè)別高薪崗位,所以拉高了平均薪資。
4)使用公司領(lǐng)域標(biāo)簽生成詞云圖,可以看到對(duì)數(shù)據(jù)分析崗位需求最多的是電子商務(wù)和互聯(lián)網(wǎng)類型的企業(yè)。
有各種各樣的傳統(tǒng)行業(yè),如“服裝”“皮革”“紡織”等對(duì)數(shù)據(jù)分析師也有需求。
5)“五險(xiǎn)一金”“獎(jiǎng)金”“補(bǔ)貼”是公司提到最多的福利。
需要明確:
1、***的分析,是拿數(shù)據(jù)分析師們的在職數(shù)據(jù),而不是企業(yè)招聘數(shù)據(jù)。
2、承認(rèn)招聘數(shù)據(jù)的非客觀性,招聘要求與對(duì)數(shù)據(jù)分析師的實(shí)際要求是有差異的。