自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

大數(shù)據(jù) 數(shù)據(jù)分析 后端
一次完整的python分析+可視化展示,是什么樣的?比如我想知道知乎用戶的學(xué)歷,是否都是985呢?我還想知道知乎最受關(guān)注的話題都是些什么?高端人士都喜歡看什么書(shū)呢?“人在XX,剛下飛機(jī)?”這句話出現(xiàn)的頻率有多高呢?

一次完整的python分析+可視化展示,是什么樣的?

比如我想知道知乎用戶的學(xué)歷,是否都是985呢?我還想知道知乎最受關(guān)注的話題都是些什么?高端人士都喜歡看什么書(shū)呢?“人在XX,剛下飛機(jī)?”這句話出現(xiàn)的頻率有多高呢?

最快的方法是用python爬蟲(chóng)然后加BI可視化分析!python爬蟲(chóng)僅需幾步就可以完成:

  • 找到網(wǎng)頁(yè)URL,查看HTML代碼
  • 在HTML代碼中找到你要提取的數(shù)據(jù)
  • 寫(xiě)python進(jìn)行網(wǎng)頁(yè)請(qǐng)求和解析
  • 存儲(chǔ)數(shù)據(jù),Excel導(dǎo)出

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

于是我使用10000秒的時(shí)間寫(xiě)了5000行代碼,爬取了知乎下5646個(gè)話題與回答,10W+用戶,和我預(yù)想的結(jié)果完全不一樣。

我們先放一部分代碼,完整的可以到文末看評(píng)論~

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

最后爬取了大概快60W的數(shù)據(jù),我們接下來(lái)要對(duì)它進(jìn)行數(shù)字可視化的分析。

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事
  • 我們想通過(guò)數(shù)據(jù)知道什么?
  • 知乎人均985嗎?
  • 知乎最受關(guān)注的話題是哪些?這些話題的關(guān)系圖譜是怎么樣的?
  • 知乎大佬最推薦的書(shū)是哪些?
  • 知乎的娛樂(lè)欄目最受關(guān)注的都是哪些?

在分析之前,我們得挑選一個(gè)數(shù)據(jù)可視化工具,有人會(huì)問(wèn):為什么不用python呢?因?yàn)閜ython處理數(shù)據(jù)或許很不錯(cuò),但其實(shí)它并不簡(jiǎn)單,分析起來(lái)是很困難的,SQL語(yǔ)句、Pandas和Matplotlib這些十分繁瑣,一般人也不會(huì)。

所以我想到既然有現(xiàn)成數(shù)據(jù)的話,那選擇一個(gè)可以直接連接數(shù)據(jù)源的工具就更好了,我想到了BI里的佼佼者FineBI,輕便敏捷的數(shù)據(jù)分析能力,瀏覽器里就可以直接操作,而且對(duì)于大數(shù)據(jù)量可以及時(shí)響應(yīng),直接拖拽即可生成可視化。

雖然主打的是企業(yè)級(jí)的數(shù)據(jù)分析工具,但是個(gè)人也是可以用的,而且是free的,功能并不會(huì)減少,可謂良心。很多企業(yè)依然有各種各樣的數(shù)據(jù)問(wèn)題:IT-業(yè)務(wù)溝通困難,領(lǐng)導(dǎo)決策缺乏數(shù)據(jù)支撐....

FineBI從IT、業(yè)務(wù)、管理層三個(gè)方面去解決問(wèn)題:

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

通過(guò)自助數(shù)據(jù)集功能,普通業(yè)務(wù)人員就能對(duì)數(shù)據(jù)做篩選、切割、排序、匯總等,自助靈活地達(dá)成期望的數(shù)據(jù)結(jié)果。

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

BI工具就介紹到這里,接下來(lái)我們看知乎的可視化分析,以下都是由FineBI所作。

1、知乎是否人均985?

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

一看這個(gè)學(xué)校,我自卑了!!!果真人均985,211,怪不得知乎上很多回答都顯得很有哲理的樣子,果然,學(xué)歷越高的人見(jiàn)識(shí)越多,看來(lái)好好學(xué)習(xí)真的很重要。不過(guò),我說(shuō)知乎的學(xué)歷比虎撲高沒(méi)有人反對(duì)吧。

 

[[329102]]

當(dāng)然,這些數(shù)據(jù)的前提都是基于你自己填寫(xiě)的是準(zhǔn)確的,大專給自己填哈佛我也沒(méi)辦法...

2、知乎最受關(guān)注的話題是哪些?

大佬們上知乎,都會(huì)去瀏覽什么問(wèn)題呢?就拿數(shù)據(jù)領(lǐng)域來(lái)說(shuō),這兩份關(guān)系圖可以說(shuō)是最全的了,如果你想從0-1進(jìn)入數(shù)據(jù)行業(yè),這是一個(gè)很好的基礎(chǔ)學(xué)習(xí)方向。

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

3、知乎大佬最推薦的書(shū)是哪些?

讀萬(wàn)卷書(shū),行萬(wàn)里路,沒(méi)點(diǎn)知識(shí)怎么好意思刷知乎呢?

我把所有關(guān)于文學(xué)書(shū)籍推薦的問(wèn)題都爬了一遍,統(tǒng)計(jì)下來(lái)就是這10本書(shū)排名前列,很遺憾,我只看過(guò)1本...

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

4、在娛樂(lè)類目上,知乎的人都喜歡關(guān)注什么呢?

 

5000行python代碼+可視化60W數(shù)據(jù),告訴你知乎用戶不為人知的事

其實(shí)和微博一樣,知乎也算是一個(gè)獲取知識(shí)的平臺(tái),而且現(xiàn)在越來(lái)越多的人都把知乎當(dāng)作微博來(lái)看,評(píng)論區(qū)的智商會(huì)高很多(我沒(méi)有別的意思)。

一直流傳著一句話:微博前腳火什么,知乎后腳扒什么...真實(shí)!

總結(jié)

知乎的分析就到這里了,你可以看見(jiàn)python+finebi真的就是非常棒的組合,無(wú)論是數(shù)據(jù)處理,還是數(shù)據(jù)展示,想要分析什么,簡(jiǎn)直就是手到擒來(lái)!

最后,以上的分析如果有不足的地方,歡迎告訴我!

責(zé)任編輯:未麗燕 來(lái)源: 今日頭條
相關(guān)推薦

2010-08-05 11:14:12

Flex優(yōu)勢(shì)

2020-02-20 12:02:32

Python數(shù)據(jù)函數(shù)

2010-09-03 08:52:38

CSS

2015-02-27 10:17:00

微信支付寶紅包

2011-04-29 10:47:18

虛擬化

2013-08-09 09:27:08

vCentervSphere

2010-04-19 16:09:22

Oracle控制文件

2021-11-09 07:34:34

Python函數(shù)代碼

2011-11-15 10:25:56

IBMWindows

2011-11-08 13:41:27

蘋(píng)果siri人工智能數(shù)據(jù)中心

2014-08-18 10:44:31

斯諾登

2024-05-17 13:08:46

Python代碼

2012-10-11 10:05:41

數(shù)據(jù)中心數(shù)據(jù)中心發(fā)展模塊化

2010-09-06 14:19:54

CSS

2011-11-14 10:06:16

IBM大型機(jī)支持Windows系統(tǒng)POWER7

2011-10-19 16:19:27

iOS 5蘋(píng)果

2012-11-30 14:13:01

2021-02-05 09:58:52

程序員Windows系統(tǒng)

2017-03-28 08:40:14

2025-02-25 13:00:00

JavaScript開(kāi)發(fā)前端
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)