自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用Python爬取前程無憂網(wǎng)大數(shù)據(jù)崗位信息并分析!找到最合適你的

大數(shù)據(jù) 后端
近期秋招進(jìn)入高峰期,28號學(xué)校有一個秋招大型招聘會,本來想在網(wǎng)上爬一下自己專業(yè)的招聘崗位,結(jié)果檢索結(jié)果寥寥無幾(攤手),于是我就無奈的爬取并分析了一波我準(zhǔn)備轉(zhuǎn)行的大數(shù)據(jù)行業(yè)的就業(yè)行情。

近期秋招進(jìn)入高峰期,28號學(xué)校有一個秋招大型招聘會,本來想在網(wǎng)上爬一下自己專業(yè)的招聘崗位,結(jié)果檢索結(jié)果寥寥無幾(攤手),于是我就無奈的爬取并分析了一波我準(zhǔn)備轉(zhuǎn)行的大數(shù)據(jù)行業(yè)的就業(yè)行情。

爬蟲的基本思路

  1. 在前程無憂官網(wǎng)檢索“大數(shù)據(jù)”的結(jié)果中,每條檢索結(jié)果詳情對應(yīng)的URL存在a標(biāo)簽的href屬性中,通過組合選擇器可以找到每條檢索結(jié)果詳情的URL。
  2. 前程無憂的招聘崗位信息數(shù)據(jù)固定的放在HTML的各個標(biāo)簽內(nèi),通過id選擇器、標(biāo)簽選擇器和組合選擇器可以諸如公司名、崗位名稱和薪資等11個字段的數(shù)據(jù)。
  3. 基于上述1和2,可以通過解析檢索“大數(shù)據(jù)”得到的URL得到其HTML,再從此HTML中的具體位置的a標(biāo)簽得到每個崗位的詳情對應(yīng)的URL;然后解析每個崗位的詳情對應(yīng)的URL得到其HTML,再從結(jié)果HTML的具體位置找到每個崗位的詳情。具體位置怎么確定呢?通過組合選擇器!

前程無憂爬蟲具體代碼

直接貼代碼容易破壞我的排版,具體代碼見:https://github.com/cugwhzenith/SpiderOf51job.git,其中SpiderOf51job.py就是爬蟲代碼,關(guān)鍵點的操作見注釋。其他的代碼是對爬蟲代碼的處理。

爬蟲結(jié)果

爬蟲結(jié)果我是以csv的格式存儲的,看起來不太直觀,所以我打算用wordcloud和直方圖來可視化爬蟲的結(jié)果。 

用Python爬取前程無憂網(wǎng)大數(shù)據(jù)崗位信息并分析!找到最合適你的
爬蟲結(jié)果處理

一般來說,應(yīng)聘者對一個工作的地點、工作名稱、薪資和需要的技術(shù)最為關(guān)心,剛好上述爬蟲的結(jié)果包含了這四個字段。

1、薪資結(jié)果的處理。在爬蟲結(jié)果中,薪資在第二列,一般是諸如“1-2萬/月”、“20萬/年”和“500/天”的結(jié)果,先判斷每個結(jié)果的最后一個字符是“年”、“月”和“天”的哪一個,確定處理的邏輯之后,再用re.sub函數(shù)將除了數(shù)字之外的字符替換為空格,最后對結(jié)果求均值就到了了每個結(jié)果的均值。具體處理見wordcloudPlotSalary.py 。

用Python爬取前程無憂網(wǎng)大數(shù)據(jù)崗位信息并分析!找到最合適你的

2、需要的技術(shù)的處理??紤]到大數(shù)據(jù)要使用的技術(shù)絕大多數(shù)由外國人開發(fā),如實我把大數(shù)據(jù)要使用的技術(shù)這一字段的中文全部替換為空格,然后用jieba剔除掉一些無意義的助詞,就得到了大數(shù)據(jù)要使用的技術(shù)的詞云圖。具體代碼見wordcloudPlotJobinfo.py 。

用Python爬取前程無憂網(wǎng)大數(shù)據(jù)崗位信息并分析!找到最合適你的

3、工作地點和職位名稱的處理和上述2類似參見wordcloudPlotPlace.py和wordcloudPlotName.py,此處不再贅余,直接放結(jié)果。

工作地點詞云: 

用Python爬取前程無憂網(wǎng)大數(shù)據(jù)崗位信息并分析!找到最合適你的

職位名稱詞云: 

用Python爬取前程無憂網(wǎng)大數(shù)據(jù)崗位信息并分析!找到最合適你的

總結(jié)

  1. 前程無憂上大數(shù)據(jù)相關(guān)崗位出現(xiàn)頻率最高的是:大數(shù)據(jù)開發(fā)工程師
  2. 開出的平均工資:18K/月
  3. 大數(shù)據(jù)就業(yè)崗位最多的城市是:上海、廣州和深圳、
  4. 大數(shù)據(jù)工作最吃香的技能是:Hadoop、SQL和Python 

 

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2015-08-27 13:24:59

招聘

2021-06-04 12:56:22

數(shù)據(jù)分析崗位

2018-02-25 10:37:26

語言數(shù)據(jù)分析工具

2016-01-18 09:26:24

2015-09-07 13:17:44

企業(yè)設(shè)備大數(shù)據(jù)

2019-04-26 13:13:47

Excel數(shù)據(jù)分析招聘信息

2019-01-02 12:23:30

Python金融數(shù)據(jù)爬取

2018-09-18 11:16:11

MapReduceXML大數(shù)據(jù)

2020-04-29 11:26:54

Python數(shù)據(jù)消費券

2022-09-14 08:58:24

python高德API

2020-05-08 15:20:40

PaaSKubernetes平臺

2018-07-19 15:35:29

大數(shù)據(jù)薪資互聯(lián)網(wǎng)

2009-01-12 17:28:10

服務(wù)器虛擬化VMware

2021-05-10 06:48:11

Python騰訊招聘

2018-06-19 10:38:42

數(shù)據(jù)中心遷移時機

2017-03-20 16:00:20

深度學(xué)習(xí)GPU

2023-07-26 07:00:56

Intel內(nèi)存

2021-11-03 09:49:25

Python可視化數(shù)據(jù)

2017-07-12 10:58:31

醫(yī)療大數(shù)據(jù)電子化服務(wù)
點贊
收藏

51CTO技術(shù)棧公眾號