自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)分析實(shí)戰(zhàn):使用Python分析新型冠狀病毒的發(fā)展趨勢(shì)

開(kāi)發(fā) 后端 大數(shù)據(jù)
這次疫情的情況大家也都了解了,各地也都延遲開(kāi)學(xué)或者延遲開(kāi)工,對(duì)于我們來(lái)說(shuō),正好是一次深入學(xué)習(xí)的機(jī)會(huì)。今天,我就帶領(lǐng)大家分析一下新型冠狀病毒的爆發(fā)趨勢(shì),也借此作為一次數(shù)據(jù)分析課程的實(shí)戰(zhàn)案例,從 數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)可視化再到產(chǎn)出數(shù)據(jù)結(jié)論,完整的走一遍數(shù)據(jù)分析流程。

這次疫情的情況大家也都了解了,各地也都延遲開(kāi)學(xué)或者延遲開(kāi)工,對(duì)于我們來(lái)說(shuō),正好是一次深入學(xué)習(xí)的機(jī)會(huì)。今天,我就帶領(lǐng)大家分析一下新型冠狀病毒的爆發(fā)趨勢(shì),也借此作為一次數(shù)據(jù)分析課程的實(shí)戰(zhàn)案例,從 數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)可視化再到產(chǎn)出數(shù)據(jù)結(jié)論,完整的走一遍數(shù)據(jù)分析流程。

這次使用的數(shù)據(jù)是霍普金斯大學(xué)收集的世界范圍內(nèi)的病毒爆發(fā)數(shù)據(jù)。

導(dǎo)入所需的包和數(shù)據(jù)

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

數(shù)據(jù)清洗

第一:刪除不需要的數(shù)據(jù)列

從數(shù)據(jù)中我們可以看出,第一列相當(dāng)于編號(hào),第五列是數(shù)據(jù)更新的最后時(shí)間,這兩列對(duì)我們的分析來(lái)說(shuō)沒(méi)有實(shí)際意義,所以先把這兩列進(jìn)行刪除操作:

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

第二:對(duì)數(shù)據(jù)集中的空值進(jìn)行處理

先來(lái)看一下數(shù)據(jù)的整體情況:

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

我們發(fā)現(xiàn),只有省份這一個(gè)字段是有空值的,那我們?cè)賮?lái)看一下具體的空值有哪些:

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

經(jīng)過(guò)篩選發(fā)現(xiàn),空缺的都是一些國(guó)外的省份,這是由于數(shù)據(jù)收集過(guò)程中產(chǎn)生的,并且我們無(wú)從推斷到底是什么,所以,這里的空值我們選擇不處理。

第三:刪除重復(fù)數(shù)據(jù)

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

通過(guò)使用dumplicate方法,我們發(fā)現(xiàn)這個(gè)人工整理的數(shù)據(jù)集不存在重復(fù)情況,所以也不需要進(jìn)行去重操作。

數(shù)據(jù)洞察

我們首先來(lái)看一下,截止到數(shù)據(jù)完成時(shí)間,世界上總共有多少國(guó)家已經(jīng)「淪陷」了:

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

通過(guò)統(tǒng)計(jì)發(fā)現(xiàn),總共只有32個(gè)國(guó)家已經(jīng)有了確診患者,但是,細(xì)心的同學(xué)可能會(huì)發(fā)現(xiàn),國(guó)家列表當(dāng)中有「China」和「Mainland China」,第二個(gè)表示的是「中國(guó)大陸」,其實(shí)也是中國(guó),所以我們應(yīng)該把「Mainland China」也改為「China」統(tǒng)一口徑,在實(shí)際工作過(guò)程中,跨部門(mén)的數(shù)據(jù)經(jīng)常會(huì)出現(xiàn)這種情況,所以,處理這種數(shù)據(jù)噪音也是數(shù)據(jù)分析師的日常工作之一。

接著,我們看一下時(shí)間字段,時(shí)間字段的處理也是數(shù)據(jù)分析過(guò)程中不可或缺的一個(gè)步驟:

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

這里的時(shí)間,都是精確到「小時(shí)」的,為了便于統(tǒng)計(jì),我們把它改成精確到「日」:

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

接下來(lái),我們以國(guó)家作為維度,來(lái)統(tǒng)計(jì)一下每個(gè)國(guó)家的確診人數(shù):

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

排名第一的肯定是中國(guó),排名靠前的基本都是中國(guó)臨近的亞洲國(guó)家,歐美國(guó)家當(dāng)中,排名第一的是德國(guó),如果是真正工作過(guò)程中,德國(guó)這一點(diǎn)就是「異常點(diǎn)」,肯定要深入挖掘,在這里我們只是做一個(gè)示例。

之后我們以時(shí)間作為維度,分析一下每天的感染人群數(shù)量的變化:

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

從這里可以看到,14天之內(nèi)感染人數(shù)就從555人增長(zhǎng)到24503個(gè)人,增長(zhǎng)速度還是很快的,那我們接著也要具體分析一下,每天新增的確診人數(shù)有多少人,這里我們需要用到diff( )方法:

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

數(shù)據(jù)可視化

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

首先來(lái)看每天的確診人數(shù),基本上是指數(shù)增長(zhǎng)的一個(gè)走勢(shì),符合傳染病的爆發(fā)規(guī)律,我們要做的就是根據(jù)之后的數(shù)據(jù),洞察拐點(diǎn)的到來(lái)。

 

數(shù)據(jù)分析實(shí)戰(zhàn):使用python分析新型冠狀病毒的發(fā)展趨勢(shì)

接著,我們看一下,每天的「死亡人數(shù)」和「治愈人數(shù)」的走勢(shì),從這個(gè)數(shù)據(jù)上來(lái)看,治愈人數(shù)的增長(zhǎng)趨勢(shì)已經(jīng)超過(guò)的死亡人數(shù),所以,從「最好」和「最壞」兩個(gè)方面來(lái)說(shuō)的話,總體趨勢(shì)還是向好發(fā)展,大家也不必過(guò)于擔(dān)心。

總結(jié)

以上分析只是拋磚引玉,使用一部分?jǐn)?shù)據(jù)來(lái)引導(dǎo)大家參與到數(shù)據(jù)分析的實(shí)戰(zhàn)流程當(dāng)中,歡迎大家在留言區(qū)一起討論學(xué)習(xí)。

責(zé)任編輯:未麗燕 來(lái)源: 今日頭條
相關(guān)推薦

2020-06-08 10:17:37

數(shù)據(jù)分析冠狀病毒機(jī)器學(xué)習(xí)

2020-02-06 12:37:59

新型冠狀病毒勒索病毒病毒

2021-04-25 15:19:19

數(shù)據(jù)分析商業(yè)智能大數(shù)據(jù)

2020-03-27 09:49:50

數(shù)據(jù)中心運(yùn)營(yíng)商新型冠狀病毒

2020-03-27 09:10:49

新型冠狀病毒遠(yuǎn)程網(wǎng)絡(luò)

2020-04-29 11:32:31

NEC

2020-07-07 10:00:00

技術(shù)

2020-02-14 10:20:41

物聯(lián)網(wǎng)傳染病數(shù)據(jù)

2023-10-10 12:34:06

SQL分析職業(yè)

2020-01-30 14:55:15

肺炎疫情數(shù)據(jù)

2009-09-24 10:25:30

Hibernate發(fā)展

2020-03-09 21:02:26

疫情NAND閃存存儲(chǔ)

2020-03-03 09:34:22

聯(lián)想

2019-02-19 10:50:51

Java開(kāi)發(fā)代碼

2020-02-28 09:17:16

冠狀病毒移動(dòng)安全病毒

2020-03-20 20:24:52

人工智能AI新型疫情

2019-12-16 13:49:45

智慧城市物聯(lián)網(wǎng)基礎(chǔ)設(shè)施

2010-09-13 10:30:49

反病毒

2012-04-11 09:41:40

2020-08-24 15:32:01

數(shù)據(jù)分析解構(gòu)優(yōu)化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)