自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

新聞 前端
我們平時(shí)在用Python爬取網(wǎng)頁(yè)上的數(shù)據(jù)時(shí),對(duì)爬取到到的數(shù)據(jù)做數(shù)據(jù)分析展現(xiàn)有很多種方式,比如可以通過(guò)echart圖表接口、python提供的第三方庫(kù),甚至還可以用matlab工具來(lái)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和圖表可視化展現(xiàn)。

 我們平時(shí)在用Python爬取網(wǎng)頁(yè)上的數(shù)據(jù)時(shí),對(duì)爬取到到的數(shù)據(jù)做數(shù)據(jù)分析展現(xiàn)有很多種方式,比如可以通過(guò)echart圖表接口、python提供的第三方庫(kù),甚至還可以用matlab工具來(lái)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和圖表可視化展現(xiàn)。

可無(wú)論是以上哪一種方式,都需要通過(guò)代碼來(lái)調(diào)用Python爬好的數(shù)據(jù)來(lái)進(jìn)行畫(huà)圖,圖表樣式屬性設(shè)置等方面還是比較繁瑣的。

同樣的問(wèn)題,有一次小編領(lǐng)導(dǎo)要求我做一份有關(guān)于南京房?jī)r(jià)的數(shù)據(jù)匯報(bào),需要做到報(bào)表里面。數(shù)據(jù)是沒(méi)有的,自然而然想到用Python爬,爬好后直接做數(shù)據(jù)圖表粘貼到報(bào)表中。但后來(lái)發(fā)現(xiàn)方法太土,匯報(bào)時(shí)不好做動(dòng)態(tài)的數(shù)據(jù)展現(xiàn)(影響小編?kù)偶佳b逼)。于是乎就想辦法,將爬取到的數(shù)據(jù)導(dǎo)入到報(bào)表或者BI系統(tǒng)里面,利用BI本身的一些分析功能,聯(lián)動(dòng)著其他數(shù)據(jù)做展現(xiàn)。于是就有了本篇“Python爬數(shù)據(jù),F(xiàn)ineBI畫(huà)圖”的文章。

關(guān)于FineBI

這是一個(gè)可視化的自助式BI工具,整個(gè)操作就是導(dǎo)數(shù)據(jù)/連數(shù)據(jù)庫(kù)——處理數(shù)據(jù)(可視化ETL)選擇圖表——拖數(shù)據(jù)字段——可視化展現(xiàn)&美化,操作簡(jiǎn)單上手快。小編只是用了其可視化的一隅功能,多數(shù)情況下,這個(gè)工具都是拿來(lái)做可視化報(bào)表,對(duì)接企業(yè)大數(shù)據(jù)平臺(tái),做企業(yè)數(shù)據(jù)運(yùn)營(yíng)分析用。

原理介紹

廢話(huà)不多說(shuō),直接貼出操作。

因?yàn)橄肟纯茨暇┓績(jī)r(jià)數(shù)據(jù),但是網(wǎng)站上的很多數(shù)據(jù)都是以HTM5的形式進(jìn)行呈現(xiàn)的,所以考慮通過(guò)Python來(lái)進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)抓取和入庫(kù),數(shù)據(jù)分析方面通過(guò)FineBI工具直接連接數(shù)據(jù)庫(kù),分析和可視化呈現(xiàn)。

整體的思路:

數(shù)據(jù)層方面先通過(guò)Python抓取到WEB端的網(wǎng)頁(yè)數(shù)據(jù),之后對(duì)爬取到數(shù)據(jù)進(jìn)行解析再而存儲(chǔ)到MYSQL數(shù)據(jù)入庫(kù);

最后應(yīng)用層的數(shù)據(jù)處理、數(shù)據(jù)計(jì)算統(tǒng)計(jì)、圖表可視化呈現(xiàn)等工作全都交由FineBI工具來(lái)做。

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

操作步驟

1.引入相關(guān)python庫(kù)包

首先新建python工程,引入本次爬取網(wǎng)頁(yè)數(shù)據(jù)和寫(xiě)入MySQL數(shù)據(jù)庫(kù)所需要的requests、pymysql、bs4這三個(gè)包:

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

2.獲取網(wǎng)頁(yè)數(shù)據(jù)

然后如下圖所示,通過(guò)編寫(xiě)Python代碼獲取到某一個(gè)房產(chǎn)網(wǎng)頁(yè)的南京售房平臺(tái)的網(wǎng)頁(yè)信息:

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

3.HTML標(biāo)簽解析

接著再對(duì)DIV樣式下的HTML數(shù)據(jù)包進(jìn)行逐一解析,獲取到想要的房源名稱(chēng)、地址、小區(qū)、戶(hù)型、面積、總價(jià)、單價(jià)、區(qū)域等數(shù)據(jù):

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

其中對(duì)應(yīng)網(wǎng)頁(yè)的標(biāo)簽樣式可以通過(guò)瀏覽器的F12開(kāi)發(fā)選項(xiàng)進(jìn)行快速獲取,如下圖所示的定位房源信息截圖,我們只需要右鍵瀏覽器在所需要獲取標(biāo)簽樣式名稱(chēng)的地方點(diǎn)擊檢查元素即可(房源名稱(chēng)的標(biāo)簽即位house-title的title元素)。

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

4.MySQL數(shù)據(jù)回寫(xiě)

解析好數(shù)據(jù)之后,再將解析好的數(shù)據(jù)寫(xiě)入到MySQL數(shù)據(jù)庫(kù)中:

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

循環(huán)遍歷該平臺(tái)在南京最近七天的網(wǎng)頁(yè)售房信息數(shù)據(jù),頁(yè)面17頁(yè),共計(jì)377條數(shù)據(jù):

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

5.安裝FineBI&&驗(yàn)證數(shù)據(jù)入庫(kù)

通過(guò)FineBI官網(wǎng)下載并按照引導(dǎo)安裝好軟件:

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

直接通過(guò)FineBI提供的數(shù)據(jù)配置端的功能,添加SQL數(shù)據(jù)集(或者直接添加表也行),查看和驗(yàn)證剛剛爬取并且入庫(kù)的數(shù)據(jù)是否已經(jīng)真正成功入庫(kù)到MySQL中了。

如下圖所示,Python果然不辱使命,我要的該平臺(tái)的七天南京的房?jī)r(jià)售房數(shù)據(jù)都已經(jīng)成功寫(xiě)入到了我的MySQL數(shù)據(jù)庫(kù)中了。

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

6.FineBI可視化制作&成果展示

然后思考需要分析展現(xiàn)哪些內(nèi)容,比如“南京各小區(qū)房?jī)r(jià)分布”、“房型價(jià)格分析”、“各區(qū)域房?jī)r(jià)分析”.....通過(guò)FineBI制作圖表展現(xiàn)。

下面這個(gè)動(dòng)圖展示了一個(gè)圖表的制作,其他都類(lèi)似的,可參考。不懂可參見(jiàn)FineBI官網(wǎng)的幫助文檔。

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

花了十分鐘,就將我想要看的南京售房信息(房源面積均價(jià)、套房總均價(jià)、小區(qū)房?jī)r(jià)四象限分布圖、區(qū)域房?jī)r(jià)分析、房型價(jià)格分析)以可視化的形式呈現(xiàn)出來(lái)了。

最后就是本次成果展示啦,也曬出來(lái)跟大家分享下,如下所示:

黑科技!當(dāng)會(huì)爬蟲(chóng)的Python遇上會(huì)畫(huà)圖的FineBI……

1.目前南京房源均價(jià)為3.78萬(wàn)每平方米,總均價(jià)為401.38萬(wàn),總體上還是比較高的。

2.建鄴區(qū)房?jī)r(jià)最高,果然房?jī)r(jià)還是緊跟國(guó)家政策啊,建鄴目前城區(qū)開(kāi)發(fā)建設(shè)政府的扶持力度在南京都是走在前面的。鼓樓、玄武、秦淮分別排在二、三、四的位置,雨花臺(tái)和江寧房?jī)r(jià)相對(duì)較低,綜合市區(qū)位置來(lái)看,還是秦淮區(qū)性?xún)r(jià)比最高啊 。

3.房型方面,6室3廳的豪華大宅總均價(jià)接近一千萬(wàn),比如紫檀雅居、碧水灣別墅、濱江奧城聽(tīng)雨苑這一類(lèi)土豪小區(qū),多集中在建鄴和鼓樓區(qū)域;一室一廳的房子均價(jià)大概在150萬(wàn)的樣子,比如托樂(lè)嘉單身公寓、經(jīng)緯城市花園等小區(qū),適合單身貴族或者情侶小夫婦居住,南京各個(gè)大區(qū)都有;比較主流的三室一廳房?jī)r(jià)在300萬(wàn)左右,比如喬虹苑小區(qū)、良辰美景家園、白云園,多集中在秦淮和鼓樓區(qū)域。

后記

Python完成對(duì)網(wǎng)頁(yè)數(shù)據(jù)的抓取和解析存儲(chǔ)之后,配合FineBI強(qiáng)大的數(shù)據(jù)可視化呈現(xiàn)能力則圓滿(mǎn)地完成了本次對(duì)南京售房數(shù)據(jù)的統(tǒng)計(jì)和分析需求,絕對(duì)推薦!

責(zé)任編輯:張燕妮 來(lái)源: 頭條科技
相關(guān)推薦

2016-10-21 09:45:20

RustFedoraJava

2020-08-17 17:16:21

5G網(wǎng)絡(luò)技術(shù)

2017-03-03 13:30:08

IT服務(wù)管理ITSMIBM

2022-08-29 20:13:28

物聯(lián)網(wǎng)IPV6

2018-11-12 13:27:12

教育區(qū)塊鏈學(xué)習(xí)

2013-05-22 09:33:09

交互設(shè)計(jì)設(shè)計(jì)時(shí)間

2016-10-21 15:57:39

Rust編輯語(yǔ)言Fedora

2022-02-24 16:15:16

OpenHarmon鴻蒙OpenEuler

2016-11-04 21:46:38

云存儲(chǔ)

2018-08-07 09:38:06

2017-06-28 11:34:55

銳捷 醫(yī)療 物聯(lián)網(wǎng)

2015-01-07 15:49:21

大數(shù)據(jù)SSD

2017-08-18 14:47:31

DDD微服務(wù)架構(gòu)

2021-03-11 14:28:07

云計(jì)算云原生邊緣計(jì)算

2012-09-26 09:45:19

大數(shù)據(jù)在線(xiàn)旅游

2016-05-24 17:03:48

2017-05-16 14:38:25

2018-04-04 12:34:44

云計(jì)算區(qū)塊鏈融合
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)