自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

大數(shù)據(jù) 數(shù)據(jù)分析
使用 Java+Elasticsearch+Kibana 爬取了知乎 60 萬用戶數(shù)據(jù),做了簡單的可視化分析。

使用 Java+Elasticsearch+Kibana 爬取了知乎 60 萬用戶數(shù)據(jù),做了簡單的可視化分析。

項(xiàng)目源碼 GitHub – webporter

動(dòng)機(jī)

在知乎上看到有個(gè)叫 @路人甲 的大神每隔一段時(shí)間就爬爬豆瓣/B站等等網(wǎng)站,做了很多有意思的分析,加上之前因?yàn)閷?shí)驗(yàn)室項(xiàng)目接觸過 Nutch,淺嘗輒止了,所以一直想好好玩玩爬蟲。

網(wǎng)上 Python 的爬蟲教程很多,而自己的主語言是 Java,本著宣傳 Java,以練促學(xué)的目的,我使用 Java 爬取了知乎 60 萬用戶信息,主要想看看知乎上妹子多不多啊/是不是都是基佬啊,標(biāo)配常青藤/年薪百萬是不是真的啊,等等。

思路

為了保證數(shù)據(jù)的質(zhì)量,避免爬到一些僵尸號(hào)什么的,我選擇爬取關(guān)注列表而非粉絲列表。我隨機(jī)挑選了一位粉絲過千的優(yōu)秀回答者作為起始,爬取他的關(guān)注列表,再對(duì)列表中的每個(gè)人爬取其關(guān)注列表,以此類推……

下載了大概 7 個(gè)小時(shí),爬了 40 多萬用戶的關(guān)注列表,拿到了 10G 的數(shù)據(jù),如圖所示:

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

理論上有 800 多萬用戶,可惜有很多重復(fù)的,去重后將數(shù)據(jù)導(dǎo)入 Elasticsearch,得到 60+ 萬用戶數(shù)據(jù):

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

數(shù)據(jù)驗(yàn)證

接下來簡單看看下載下來的數(shù)據(jù)靠不靠譜,隨手在知乎和我的 Kibana 分別搜了下輪子哥 @vczh

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

可以看到,連同名的都搜出來是一樣的,數(shù)據(jù)沒啥問題。

關(guān)心的數(shù)據(jù)

然后使用 Elastichearch 的聚合查詢配合 Kibana 對(duì)數(shù)據(jù)進(jìn)行可視化展示,我主要分析了下面幾個(gè)問題:

  1. 性別分布
  2. 粉絲最多的用戶top10
  3. 員工最多的公司top10
  4. 校友最多的學(xué)校top10
  5. 人數(shù)最多的地方top10
  6. top10行業(yè)分布
  7. top10職業(yè)分布

圖中涉及性別的, 1 表示男,0 表示女,-1 表示不男不女

性別分布

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

可以看到知乎男性人數(shù)過半了,比女性和未知性別加起來都多。

粉絲最多的用戶top10

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

粉絲數(shù)前 10 的依次是 @張佳瑋,@李開復(fù),@黃繼新,@周源,@yolfilm,@張亮,@張小北,@李淼,@葛巾,@采銅。最多的 120 萬粉絲,第十也過 60 萬了。不過前十里好幾個(gè)都是知乎員工,有黑幕的嫌疑吧?

員工最多的公司top10

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

可以看到 BAT 全部上榜了(亂入了一個(gè)學(xué)生什么鬼?),僅接著是網(wǎng)易,華為,谷歌,微軟,美團(tuán)。都是牛逼哄哄的互聯(lián)網(wǎng)相關(guān)企業(yè),看來國企和實(shí)體企業(yè)比較低調(diào),不在知乎填公司信息啊。

另外華為的男女比簡直不能看啊,妹子那么少,想去華為的單身狗們需要好好考慮一下了。

校友最多的學(xué)校top10

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

差強(qiáng)人意,校友人數(shù)排名前十的全特么是 985 啊,清北復(fù)交浙全部上榜,儼然中國大學(xué)排行榜??磥碇鯓?biāo)配不是常青藤,而是 985 嘛。另外可以看到,我科(倒數(shù)第三個(gè))的男女比在這幾個(gè)里面確實(shí)感人,難怪我現(xiàn)在還單身…

人數(shù)最多的地方top10

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

北京獨(dú)領(lǐng)風(fēng)騷,上海緊隨其后。另外知乎居然把深圳和廣州根據(jù)有沒有“市”標(biāo)記為了兩個(gè)城市,簡直坑爹,我也懶得二次處理了。綜合來看,北上廣深杭,主要集中在這五個(gè)城市,基本也是我國互聯(lián)網(wǎng)企業(yè)分布最多的幾個(gè)城市。

top10行業(yè)分布

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

可以看到,互聯(lián)網(wǎng)和計(jì)算機(jī)軟件兩個(gè)加起來就占了半數(shù)以上,要是算上電子商務(wù)和電子游戲等基本是程序員的天下了,所以知乎上程序員偏多,IT 從業(yè)者占主流啊。

另外互聯(lián)網(wǎng)的男女比大概 2:1 的樣子吧,法律,信息傳媒和創(chuàng)意藝術(shù)的男女比比較均衡,大概五五開。

top10職業(yè)分布

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析

將近四分之一是產(chǎn)品經(jīng)理,創(chuàng)始人和 CEO 也不少,比工程師還多,學(xué)生也占一定比例。另外除了運(yùn)營和編輯的男女比差不多,其它都是男多女少啊。

結(jié)語

從這 60 萬用戶數(shù)據(jù)可以看出,知乎的主要群體是程序員和學(xué)生,平均學(xué)歷 985 不是黑,是真的!雖然知乎用戶遠(yuǎn)不止 60 萬,這些數(shù)據(jù)分析出來的結(jié)果可能有些偏差,但應(yīng)該也能說明一些問題吧。

***按照國際慣例,附上源碼,GitHub – webporter

責(zé)任編輯:未麗燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2015-07-22 10:45:02

QQ數(shù)據(jù)大數(shù)據(jù)分析數(shù)據(jù)泄露

2016-01-22 12:20:11

PHP數(shù)據(jù)爬取分析

2017-05-24 15:07:19

Python爬蟲爬取

2015-10-29 13:22:09

php數(shù)據(jù)分析爬蟲

2021-06-04 12:56:22

數(shù)據(jù)分析崗位

2023-05-30 20:19:20

2023-01-31 17:07:06

2021-04-15 07:53:15

ParkMobile數(shù)據(jù)泄露網(wǎng)絡(luò)犯罪

2024-12-30 13:05:22

2017-11-27 09:06:16

程序員大數(shù)據(jù)多線程爬蟲

2018-03-22 17:24:05

2014-05-29 09:13:15

2020-06-05 14:07:20

可視化數(shù)據(jù)Python

2020-07-29 15:09:56

Dave數(shù)據(jù)泄露數(shù)據(jù)庫泄露

2023-06-13 15:55:54

2021-04-02 11:09:35

MobiKwik 移動(dòng)支付數(shù)據(jù)泄露

2017-11-10 14:12:35

2019-11-08 09:47:16

知乎Python數(shù)據(jù)

2013-05-20 09:41:04

雅虎信息泄露

2022-10-09 10:20:53

信息泄露黑客
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)