自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

開發(fā) 后端 數(shù)據(jù)分析
簡書上有哪些優(yōu)質(zhì)用戶?有多少大V粉絲數(shù)上萬,獲贊數(shù)上萬?哪些文章的閱讀數(shù)最高?熱門專欄里又有哪些是最受用戶歡迎的呢?

上次做了一個(gè)知乎的用戶學(xué)校分析,到底知乎用戶是不是人均985呢?引起了很大的討論。

其實(shí),國內(nèi)的UGC平臺(tái),知乎是領(lǐng)軍人物,但是又因?yàn)樗軞g迎,導(dǎo)致很多其他綜合性平臺(tái)都被忽略了。那么其他平臺(tái)都有哪些呢?

就拿簡書來說吧,這是一個(gè)和知乎差不多的綜合性平臺(tái),但因?yàn)闆]有“人在美國,剛下飛機(jī)”的這種梗,于是就被人們慢慢遺忘.....

簡書上有哪些優(yōu)質(zhì)用戶?有多少大V粉絲數(shù)上萬,獲贊數(shù)上萬?哪些文章的閱讀數(shù)最高?熱門專欄里又有哪些是最受用戶歡迎的呢?

一、獲取數(shù)據(jù)

不得不說,數(shù)據(jù)肯定得是用Python來爬,找到我們想爬取的數(shù)據(jù),簡潔代碼直接走天下~

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

具體的代碼就在文末給大家奉上。

由于簡書官方對(duì)數(shù)據(jù)有所保護(hù)和限制,僅能獲取單個(gè)用戶的900名關(guān)注者(粉絲亦然),以及前1900篇左右的文章。在通過2-3層數(shù)據(jù)爬取后,共獲得261277條用戶信息,具體數(shù)據(jù)有:用戶名、主頁url、是否為簽約作者、粉絲數(shù)、獲贊數(shù)、關(guān)注數(shù)、文章數(shù)、總字?jǐn)?shù)等等。

同時(shí),但根據(jù)這1916篇文章獲贊數(shù)降序可知,排名第一的文章,獲贊數(shù)為:17076;排名最后的為488。由此可見,簡書上最熱門的文章可能都已經(jīng)獲取到了(其實(shí)并沒有)。

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

二、BI分析

一般來說,用Python取好數(shù)之后,就是數(shù)據(jù)可視化了。

說到數(shù)據(jù)可視化,可謂是百花齊放,一時(shí)之間前端界出現(xiàn)了琳瑯滿目的第三方庫: Highcharts , Echarts , Chart.js , D3.js 等。但是,萬變不離其宗:需要不錯(cuò)的代碼知識(shí),而且這些產(chǎn)品其實(shí)并不是真正的開源。

那對(duì)于我們這種不會(huì)代碼的小白有什么方法呢?

這就是我今天要說的BI了,也叫商業(yè)智能。百度搜索BI,就感覺內(nèi)容鋪天滿地而來,讓人摸不著頭腦。其實(shí)BI真正做的好的少之又少,但國內(nèi)和國外還是有一些優(yōu)秀產(chǎn)品的。

國外代表是Tableau,157億美金被收購,足以說明它的強(qiáng)大,但是對(duì)于國內(nèi)來說,它不適用:

  • 基于數(shù)據(jù)查詢的工具,實(shí)時(shí)數(shù)據(jù)分析功能還很欠缺
  • 價(jià)格很貴(土豪繞道),都是代理商所以售后服務(wù)非常差
  • 本身沒有后端數(shù)據(jù)倉庫,宣稱自己是內(nèi)存BI,實(shí)際用起來對(duì)硬件要求極高,對(duì)于超千萬條的數(shù)據(jù)分析,必須借助于其他ETL工具處理好數(shù)據(jù)再進(jìn)行前端分析
  • 無法支持中國式復(fù)雜表樣

所以我選擇了國內(nèi)的BI產(chǎn)品FineBI,一款企業(yè)級(jí)的數(shù)據(jù)分析軟件,最重要的是它個(gè)人版免費(fèi)(文末有鏈接):

 

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

FineBI做的數(shù)據(jù)可視化

 

  • 自動(dòng)建模,建模簡單,模型靈活性很強(qiáng)
  • 豐富的可視化和前端分析操作,能可視化地進(jìn)行數(shù)據(jù)鉆取,數(shù)據(jù)切片和數(shù)據(jù)旋轉(zhuǎn)等多維分析操作
  • 內(nèi)置ETL,實(shí)時(shí)數(shù)據(jù)分析,同時(shí)對(duì)大數(shù)據(jù)能夠做到飛速處理

三、數(shù)據(jù)可視化

上面說了,F(xiàn)ineBI雖然是企業(yè)級(jí)的數(shù)據(jù)分析軟件,但是對(duì)于個(gè)人來說是免費(fèi)的。同時(shí),F(xiàn)ineBI支持多種形式的數(shù)據(jù)源,不同連接模式,處理數(shù)據(jù)完全無壓力。

我下好并激活之后,將Python爬出來的數(shù)據(jù)插入FineBI中,就開始了愉快的分析。

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

1、簽約作者分析

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

既然作為自媒體平臺(tái),那么里面寫字人的目的就是成為簽約作者。在這26w+較優(yōu)質(zhì)用戶里,共有126人的主頁上明確地掛有“簽約作者”的標(biāo)簽。

這個(gè)比例可以說是很少了,也可以從側(cè)面說明簡書對(duì)于作者的要求有多嚴(yán)格。

單人貢獻(xiàn)5篇及以上熱門文章的,共有69名作者,也說明寫作不容易。

2、用戶粉絲情況

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

這是一個(gè)類金字塔的分析圖,這26w+用戶里:粉絲數(shù)大于10w+的有5人,均是萬中挑一的人物;其他各梯度人數(shù)看圖即可,不再贅述。值得一提的是粉絲數(shù)10-100區(qū)間的人數(shù)占比最大,為40.38%,而非0粉或1粉的用戶,這進(jìn)一步說明了本次本次爬取的數(shù)據(jù)較為優(yōu)質(zhì)。

3、熱門文章24小時(shí)分析

11點(diǎn)鐘文章最多,覺得蠻奇怪的,作為一只喜歡在晚上發(fā)布文章的小透明,原本覺得晚上才是創(chuàng)作的大好時(shí)光啊,11點(diǎn)鐘已經(jīng)屬于飯點(diǎn),難道是上午潛心創(chuàng)作,一天之計(jì)在于晨,將當(dāng)天的寫作任務(wù)早早的完成,一身輕松?再是24小時(shí)都有人發(fā)布文章并成為熱點(diǎn),

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

4、閱讀數(shù)、喜歡數(shù)與評(píng)論數(shù)

簡書不如知乎?Python爬30W數(shù)據(jù),BI可視化分析后,告訴你答案

一篇文章的熱門程度,直觀地體現(xiàn)在喜歡數(shù)和評(píng)論數(shù)里,從圖上來看也確實(shí)是這樣。

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2019-12-19 14:29:51

Python數(shù)據(jù)分析可視化

2022-06-15 08:25:07

Python天氣數(shù)據(jù)可視化分析

2019-01-16 18:34:37

Python 開發(fā)數(shù)據(jù)

2021-06-04 12:56:22

數(shù)據(jù)分析崗位

2020-06-05 14:07:20

可視化數(shù)據(jù)Python

2023-07-26 12:38:42

PyGWalker數(shù)據(jù)類型

2016-11-25 11:16:22

阿里支付寶數(shù)據(jù)分析

2021-11-29 13:29:06

Basemap可視化分析

2018-01-03 17:22:22

DataHunter數(shù)據(jù)可視化分析

2018-11-14 10:15:58

開源技術(shù) 數(shù)據(jù)

2020-09-27 14:56:33

工具數(shù)據(jù)可視化技術(shù)

2020-09-09 12:15:50

大數(shù)據(jù)互聯(lián)網(wǎng)可視化

2018-01-25 14:34:18

大數(shù)據(jù)可視化工具

2021-05-06 09:57:18

Python 開發(fā)編程語言

2016-12-22 17:01:11

2017-10-19 21:56:55

數(shù)據(jù)可視化大數(shù)據(jù)數(shù)據(jù)

2021-06-30 23:38:56

Python微信好友

2022-09-06 08:01:23

數(shù)據(jù)采集數(shù)據(jù)可視化加密

2024-07-31 11:48:07

2016-11-28 15:03:06

Python數(shù)據(jù)可視化網(wǎng)絡(luò)分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)