轉(zhuǎn)崗大數(shù)據(jù)了,先用數(shù)據(jù)看看行情
數(shù)據(jù)來源:以某直聘平臺為數(shù)據(jù)來源,以“大數(shù)據(jù)”為關(guān)鍵詞,設(shè)置搜索條件為:杭州市規(guī)模在10000人以上的上市公司。由于平臺限制僅可顯示10頁,每頁30條招聘信息,除去個別無效記錄,最終獲取有效數(shù)據(jù)大概在280條招聘記錄。當然,由于這里僅獲取到了10頁數(shù)據(jù)而并非海量數(shù)據(jù),所以樣本排序先后將對數(shù)據(jù)真實分布有一定影響。
分析目標:為了從多角度描述大數(shù)據(jù)崗位就業(yè)現(xiàn)狀,擬從以下幾個方面著手分析:
- 大數(shù)據(jù)崗位畫像,包括崗位類型分布,公司分布、區(qū)域分布、招聘學(xué)歷要求、工作經(jīng)驗要求、薪資分布
- 主要技術(shù)棧,主要是利用招聘崗位標簽信息,分析大數(shù)據(jù)崗位招聘技能需求,并對頭部企業(yè)進行細分
- 影響薪資因素,包括分析各區(qū)域、各公司、各崗位類型以及各技能對應(yīng)的薪資分布情況
- 薪酬福利情況,簡單分析大數(shù)據(jù)崗位整體福利詞云
注:因樣本數(shù)據(jù)隨機性以及分析結(jié)果主觀性,本文所屬觀點結(jié)論僅供參考!
01 數(shù)據(jù)獲取及清洗
Garbage in,garbage out!
選取某直聘平臺,按照目標崗位設(shè)置搜索條件,可以直接訪問10頁數(shù)據(jù),以此為目標,分別爬取各招聘記錄的如下信息,且各字段信息直接從查詢首頁即可完整獲取,無需分別訪問各崗位詳情頁:
- 崗位title
- 地理區(qū)域
- 薪酬范圍
- 經(jīng)驗要求
- 學(xué)歷要求
- 招聘公司
- 崗位標簽信息
- 崗位福利描述
招聘信息搜索結(jié)果
這里直接爬取的字段相對較為整齊,多數(shù)字段均無需清洗處理,但為了后續(xù)分析需要,這里做以下4步處理:
- 過濾實習(xí)生招聘記錄,即通過薪酬范圍字段按天計算的記錄,抓取記錄中共2條;
- 將招聘公司統(tǒng)一為集團公司名稱,主要是阿里巴巴包括“阿里巴巴集團”、“阿里云”以及“阿里健康”等不同描述;網(wǎng)易包括“網(wǎng)易游戲”和“網(wǎng)易杭州”等子公司名稱;??低暟?ldquo;杭州海康威視”和“??低曃錆h研發(fā)中心”兩個別稱。處理過程中統(tǒng)一將這些同一公司的不同名稱描述進行統(tǒng)一;
- 薪酬提取,不失一般性,將給定薪酬范圍上下限間的1/3分位數(shù)作為崗位薪酬,例如標定20-35K的薪酬范圍,最終按25K參與分析,實現(xiàn)薪酬字段的標簽向數(shù)值轉(zhuǎn)換;
- 崗位類型劃分:主要依據(jù)崗位title關(guān)鍵詞情況,區(qū)分開發(fā)(關(guān)鍵詞:開發(fā)、研發(fā))、算法(關(guān)鍵詞:算法、挖掘、分析)、架構(gòu)師(關(guān)鍵詞:架構(gòu))、產(chǎn)品(關(guān)鍵詞:產(chǎn)品)以及其他,共5種崗位類型。這一定程度上也涵蓋了大數(shù)據(jù)相關(guān)崗位的不同類別。
處理后的數(shù)據(jù)樣例如下:
02 大數(shù)據(jù)崗位畫像
畫像的本質(zhì)的在于降維描述!
分別從6個維度描述杭州人員規(guī)模在萬人以上的上市公司招聘大數(shù)據(jù)相關(guān)崗位的招聘現(xiàn)狀,其中薪資采用直方圖刻畫,區(qū)域和學(xué)歷信息采用餅圖描述,而崗位類型、招聘公司TOP5以及經(jīng)驗要求則采用橫向直方圖描述。結(jié)果如下所示:
從中可以得出以下基本結(jié)論:
- 大數(shù)據(jù)崗位中,絕大部分崗位仍然是研發(fā)崗位,常規(guī)的研發(fā)崗位包括測試、前后端、數(shù)據(jù)倉庫管理等等;而算法、產(chǎn)品和架構(gòu)則更傾向于開發(fā)崗位基礎(chǔ)之上的屬性,各崗位之間形成完整的數(shù)據(jù)采集、存儲、治理直至創(chuàng)造價值的完整閉環(huán);
- 杭州市招聘大數(shù)據(jù)崗位的萬人以上上市公司中,主要集中在濱江區(qū)(以網(wǎng)易、??低?、浙江大華和吉利集團為代表)、西湖區(qū)和余杭區(qū)(均以阿里巴巴為代表);
- 阿里巴巴以接近50%的比例毫無懸念的成為大數(shù)據(jù)崗位招聘龍頭企業(yè),這既與其本身的人員規(guī)模體量直接相關(guān),也與其業(yè)務(wù)生態(tài)圈有密切聯(lián)系,當然還可能是由于其運營得力,使得崗位搜索排名較為靠前;
- 大數(shù)據(jù)崗位的就業(yè)門檻要求并不高,絕大部分仍然是只要本科學(xué)歷即可;但對工作經(jīng)驗往往有一定要求,尤其是要求具有3-5年以及5-10年工作經(jīng)驗的大數(shù)據(jù)崗位居多;
- 薪資情況,整體位于20-40K之間,頂薪接近60K,也有10K以下低薪崗位;平均值28.3K,中位數(shù)27K。后續(xù)將對影響薪資因素重點分析。
03 崗位技術(shù)棧
大數(shù)據(jù)技術(shù)的核心是存儲和計算!
為了了解大數(shù)據(jù)崗位從業(yè)技能要求,對崗位招聘的標簽信息進行統(tǒng)計分析,得到全樣本崗位標簽TOP10如下,易見以下結(jié)論:大數(shù)據(jù)50%以上崗位都要求掌握數(shù)倉技能(數(shù)據(jù)存儲);大數(shù)據(jù)的核心語言是Java(當然這與阿里主用Java有一定關(guān)系,而抓取樣本中阿里的招聘記錄占大多數(shù));大數(shù)據(jù)相關(guān)的核心環(huán)節(jié)是ETL(抽取Extract、轉(zhuǎn)換Transform、加載Load);大數(shù)據(jù)的核心技術(shù)棧仍然離不開Hadoop生態(tài)圈。
具體到幾個頭部公司,分別對其招聘崗位技能標簽進行分析,結(jié)果如下:
對比分析各公司大數(shù)據(jù)崗位的TOP5技能標簽,一定程度上可以管窺各企業(yè)的大數(shù)據(jù)技術(shù)棧信息,例如阿里巴巴和??低暩⒅財?shù)據(jù)分析與挖掘;浙江大華除了Java之外還較多的運用Python以及Spark;而無一例外的,Java都入選了各大公司的技術(shù)棧。
04 打工人的命根——薪資
不以薪資衡量崗位價值就是不講武德。
接下來分析打工人最為關(guān)心的因素:大數(shù)據(jù)崗位薪資情況。分別從公司、崗位類型、學(xué)歷、工作經(jīng)驗以及技能標簽等5個維度,分別描繪崗位薪酬分布情況,結(jié)果如下圖所示。
透過圖表,值得關(guān)注的幾個細節(jié)是:
- 公司層面,阿里和網(wǎng)易整體薪酬更高,不僅在于更具吸引力的平均薪酬,更在于具有更高的薪資天花板;
- 崗位屬性方面,研發(fā)崗和架構(gòu)師則略勝一籌,近年火熱的算法崗(挖掘)則反而不夠突出,這可能與數(shù)據(jù)量不足有一定關(guān)系;
- 學(xué)歷層面,不同學(xué)歷間薪酬差距不大,但這并不等價于高學(xué)歷無用論,只能歸因于工作經(jīng)驗的重要性;因為通過工作經(jīng)驗來看,明顯工作年限要求更長的崗位具有更高的薪酬區(qū)間(經(jīng)驗不限例外,因為這里的經(jīng)驗不限通常并不意味著真的經(jīng)驗不限,更不等價于零經(jīng)驗)
- 技能標簽方面,整體來看差距不大,畢竟大廠的大數(shù)據(jù)崗位通常不會僅要求掌握相對單一或孤立的技術(shù)棧,而更多的是綜合能力和技術(shù)體系。
05 崗位福利
最后,以一張崗位福利詞云結(jié)束本篇分析,主要是依托jieba分詞和wordcloud庫,對崗位福利描述繪制詞云,得到如下結(jié)果:
基本都是互聯(lián)網(wǎng)公司的常規(guī)福利,只能說除了股票期權(quán)真的是毫無吸引力……