爬取知乎60萬用戶信息之后的數(shù)據(jù)分析
使用 Java+Elasticsearch+Kibana 爬取了知乎 60 萬用戶數(shù)據(jù),做了簡單的可視化分析。
項(xiàng)目源碼 GitHub – webporter
動(dòng)機(jī)
在知乎上看到有個(gè)叫 @路人甲 的大神每隔一段時(shí)間就爬爬豆瓣/B站等等網(wǎng)站,做了很多有意思的分析,加上之前因?yàn)閷?shí)驗(yàn)室項(xiàng)目接觸過 Nutch,淺嘗輒止了,所以一直想好好玩玩爬蟲。
網(wǎng)上 Python 的爬蟲教程很多,而自己的主語言是 Java,本著宣傳 Java,以練促學(xué)的目的,我使用 Java 爬取了知乎 60 萬用戶信息,主要想看看知乎上妹子多不多啊/是不是都是基佬啊,標(biāo)配常青藤/年薪百萬是不是真的啊,等等。
思路
為了保證數(shù)據(jù)的質(zhì)量,避免爬到一些僵尸號(hào)什么的,我選擇爬取關(guān)注列表而非粉絲列表。我隨機(jī)挑選了一位粉絲過千的優(yōu)秀回答者作為起始,爬取他的關(guān)注列表,再對(duì)列表中的每個(gè)人爬取其關(guān)注列表,以此類推……
下載了大概 7 個(gè)小時(shí),爬了 40 多萬用戶的關(guān)注列表,拿到了 10G 的數(shù)據(jù),如圖所示:
理論上有 800 多萬用戶,可惜有很多重復(fù)的,去重后將數(shù)據(jù)導(dǎo)入 Elasticsearch,得到 60+ 萬用戶數(shù)據(jù):
數(shù)據(jù)驗(yàn)證
接下來簡單看看下載下來的數(shù)據(jù)靠不靠譜,隨手在知乎和我的 Kibana 分別搜了下輪子哥 @vczh
可以看到,連同名的都搜出來是一樣的,數(shù)據(jù)沒啥問題。
關(guān)心的數(shù)據(jù)
然后使用 Elastichearch 的聚合查詢配合 Kibana 對(duì)數(shù)據(jù)進(jìn)行可視化展示,我主要分析了下面幾個(gè)問題:
- 性別分布
- 粉絲最多的用戶top10
- 員工最多的公司top10
- 校友最多的學(xué)校top10
- 人數(shù)最多的地方top10
- top10行業(yè)分布
- top10職業(yè)分布
圖中涉及性別的, 1 表示男,0 表示女,-1 表示不男不女
性別分布
可以看到知乎男性人數(shù)過半了,比女性和未知性別加起來都多。
粉絲最多的用戶top10
粉絲數(shù)前 10 的依次是 @張佳瑋,@李開復(fù),@黃繼新,@周源,@yolfilm,@張亮,@張小北,@李淼,@葛巾,@采銅。最多的 120 萬粉絲,第十也過 60 萬了。不過前十里好幾個(gè)都是知乎員工,有黑幕的嫌疑吧?
員工最多的公司top10
可以看到 BAT 全部上榜了(亂入了一個(gè)學(xué)生什么鬼?),僅接著是網(wǎng)易,華為,谷歌,微軟,美團(tuán)。都是牛逼哄哄的互聯(lián)網(wǎng)相關(guān)企業(yè),看來國企和實(shí)體企業(yè)比較低調(diào),不在知乎填公司信息啊。
另外華為的男女比簡直不能看啊,妹子那么少,想去華為的單身狗們需要好好考慮一下了。
校友最多的學(xué)校top10
差強(qiáng)人意,校友人數(shù)排名前十的全特么是 985 啊,清北復(fù)交浙全部上榜,儼然中國大學(xué)排行榜??磥碇鯓?biāo)配不是常青藤,而是 985 嘛。另外可以看到,我科(倒數(shù)第三個(gè))的男女比在這幾個(gè)里面確實(shí)感人,難怪我現(xiàn)在還單身…
人數(shù)最多的地方top10
北京獨(dú)領(lǐng)風(fēng)騷,上海緊隨其后。另外知乎居然把深圳和廣州根據(jù)有沒有“市”標(biāo)記為了兩個(gè)城市,簡直坑爹,我也懶得二次處理了。綜合來看,北上廣深杭,主要集中在這五個(gè)城市,基本也是我國互聯(lián)網(wǎng)企業(yè)分布最多的幾個(gè)城市。
top10行業(yè)分布
可以看到,互聯(lián)網(wǎng)和計(jì)算機(jī)軟件兩個(gè)加起來就占了半數(shù)以上,要是算上電子商務(wù)和電子游戲等基本是程序員的天下了,所以知乎上程序員偏多,IT 從業(yè)者占主流啊。
另外互聯(lián)網(wǎng)的男女比大概 2:1 的樣子吧,法律,信息傳媒和創(chuàng)意藝術(shù)的男女比比較均衡,大概五五開。
top10職業(yè)分布
將近四分之一是產(chǎn)品經(jīng)理,創(chuàng)始人和 CEO 也不少,比工程師還多,學(xué)生也占一定比例。另外除了運(yùn)營和編輯的男女比差不多,其它都是男多女少啊。
結(jié)語
從這 60 萬用戶數(shù)據(jù)可以看出,知乎的主要群體是程序員和學(xué)生,平均學(xué)歷 985 不是黑,是真的!雖然知乎用戶遠(yuǎn)不止 60 萬,這些數(shù)據(jù)分析出來的結(jié)果可能有些偏差,但應(yīng)該也能說明一些問題吧。
***按照國際慣例,附上源碼,GitHub – webporter