自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用Python進(jìn)行數(shù)據(jù)清洗方式,這幾種都很常見(jiàn)!

開(kāi)發(fā) 后端 大數(shù)據(jù)
在數(shù)據(jù)分析中,數(shù)據(jù)清洗是一個(gè)必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大,致使數(shù)據(jù)不可避免的出現(xiàn)重復(fù)、缺失、格式錯(cuò)誤等異常數(shù)據(jù),如果忽視這些異常數(shù)據(jù),可能導(dǎo)致分析結(jié)果的準(zhǔn)確性。

 [[413543]]

大家好~我是小刀!

在數(shù)據(jù)分析中,數(shù)據(jù)清洗是一個(gè)必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大,致使數(shù)據(jù)不可避免的出現(xiàn)重復(fù)、缺失、格式錯(cuò)誤等異常數(shù)據(jù),如果忽視這些異常數(shù)據(jù),可能導(dǎo)致分析結(jié)果的準(zhǔn)確性。

用以下數(shù)據(jù)為例,進(jìn)行講解數(shù)據(jù)清洗常用方式:

下面的操作只做示例,具體數(shù)據(jù)的清洗方式要根據(jù)數(shù)據(jù)特性進(jìn)行選擇!

重復(fù)值處理

重復(fù)值處理,一般采用直接刪除重復(fù)值的方式。在pandas中,可以用duplicated函數(shù)進(jìn)行查看和drop_duplicates函數(shù)刪除重復(fù)數(shù)據(jù)。

如下所示,可以通過(guò)duplicated函數(shù)查看重復(fù)的數(shù)據(jù):

需要?jiǎng)h除重復(fù)值時(shí),可直接用drop_duplicates函數(shù)完成:

缺失值處理

缺失值與重復(fù)值一樣,都是數(shù)據(jù)中比較常見(jiàn)的問(wèn)題,必須進(jìn)行處理才能進(jìn)行下一步分析,保證分析的準(zhǔn)確性。缺失值在數(shù)據(jù)中一般用NaN表示,在處理缺失值時(shí),一般采用刪除和填補(bǔ)方式進(jìn)行處理。但在實(shí)際中,缺失值的處理是一件非常困難的事情,刪除和填補(bǔ)方式都無(wú)法解決,最后只能留著。

在pandas中,其有多種方式查看和處理缺失值的方法。

查看缺失值

最為基礎(chǔ)的可以通過(guò)isnull和notnul,或者info函數(shù)來(lái)實(shí)現(xiàn)。

用info函數(shù)可以很清楚的知道每一列的缺失值情況,進(jìn)而做出判斷處理:

isnull函數(shù)為判斷序列元素是否為缺失,notnul函數(shù)判斷序列元素是否不為缺失,二者在本質(zhì)上是一樣的。而二者在數(shù)據(jù)量龐大時(shí),效果很差。所以一般不會(huì)單獨(dú)使用,而是配合其它方法進(jìn)行使用。

查看某列缺失值所在的行:

isnull函數(shù)配合sum函數(shù)計(jì)算每列缺失值的個(gè)數(shù):

在多數(shù)查看缺失值中,經(jīng)常會(huì)采用計(jì)算缺失值在列中占比的方式,判斷缺失對(duì)數(shù)據(jù)具有多大的影響,從而選擇是刪除數(shù)據(jù)還是填補(bǔ)數(shù)據(jù)。計(jì)算占比可使用以下方式:

  1. df.apply(lambda x: x.isnull().sum()/x.size) 

x.size為各個(gè)數(shù)據(jù)列總行數(shù):

缺失值刪除

刪除缺失值的情形,一般是在不會(huì)影響分析結(jié)果、造成的影響無(wú)傷大雅,或者難以填補(bǔ)的時(shí)候采用。

在pandas中,可以直接用dropna函數(shù)進(jìn)行刪除所有含有缺失值的行,或者選擇性刪除含有缺失值到的行:

缺失值填補(bǔ)

在無(wú)法直接刪除缺失值時(shí),或者包含缺失值的行具有很多而無(wú)法選擇性刪除時(shí),填補(bǔ)是最佳的選擇,但填補(bǔ)的方式要根據(jù)數(shù)據(jù)來(lái)選擇,否則填補(bǔ)的數(shù)據(jù)依然會(huì)影響分析的準(zhǔn)確性。

在pandas中,可以使用fillna函數(shù)完成對(duì)缺失值的填補(bǔ),例如對(duì)表中的體重列進(jìn)行填補(bǔ),填補(bǔ)方法為中位數(shù):

或者用平均值填補(bǔ):

也可以用pandas中的ffill函數(shù)對(duì)缺失值進(jìn)行前向填補(bǔ),但在前向填補(bǔ)時(shí)需要注意各個(gè)列數(shù)據(jù)的情況:

但可以看到,體重列的第一行未填補(bǔ)完成,而pandas中提供了bfill函數(shù)進(jìn)行后向填補(bǔ):

數(shù)據(jù)類(lèi)型轉(zhuǎn)換

數(shù)據(jù)類(lèi)型關(guān)乎后面的數(shù)據(jù)處理和數(shù)據(jù)可視化,不同的數(shù)據(jù)類(lèi)型處理和進(jìn)行可視化的用法都不一樣,因此,事先把數(shù)據(jù)的類(lèi)型轉(zhuǎn)換好,利于后面的相關(guān)步驟。

在pandas中,可以用info和dtypes方法進(jìn)行查看數(shù)據(jù)類(lèi)型:

常用的數(shù)據(jù)類(lèi)型包括str(字符型)、float(浮點(diǎn)型)和int(整型)。當(dāng)某列數(shù)據(jù)的類(lèi)型出現(xiàn)錯(cuò)誤時(shí),可通過(guò)astype函數(shù)進(jìn)行強(qiáng)制轉(zhuǎn)換數(shù)據(jù)類(lèi)型。例如下面通過(guò)astype函數(shù)對(duì)數(shù)值型列轉(zhuǎn)換為字符型:

文本處理

在數(shù)據(jù)中,文本在某種程度上可以說(shuō)是最‘臟’的數(shù)據(jù),不管在錄入的數(shù)據(jù),還是爬取的數(shù)據(jù),總會(huì)出現(xiàn)各種各樣的‘臟’數(shù)據(jù),處理難度非常高。在處理中,主要是切分字符串、值替換。

pandas提供了df.str.split.str()方法對(duì)字符串的切割,以下通過(guò)此方法獲得地級(jí)市名稱(chēng):

對(duì)于一些多數(shù)詞,可以通過(guò)df.str.replace()方法進(jìn)行增加、替換或者刪除:

以上就是本文的全部?jī)?nèi)容了,如果你喜歡或者對(duì)你有幫助,請(qǐng)給我點(diǎn)個(gè)贊吧! 

 

責(zé)任編輯:龐桂玉 來(lái)源: Python與Excel之交
相關(guān)推薦

2023-05-05 19:16:22

Python數(shù)據(jù)清洗

2022-03-28 14:08:02

Python數(shù)據(jù)清洗數(shù)據(jù)集

2023-05-05 19:29:41

2025-04-07 00:30:00

DeepSeek大數(shù)據(jù)數(shù)字化

2024-10-28 12:57:36

Pandas數(shù)據(jù)清洗

2024-12-19 15:00:00

數(shù)據(jù)清洗Python

2023-09-26 01:03:36

Pandas數(shù)據(jù)數(shù)據(jù)集

2019-12-17 08:45:30

ifelseJava

2021-10-13 07:23:03

數(shù)據(jù)同步倉(cāng)庫(kù)

2018-04-03 12:07:53

數(shù)據(jù)清洗PandasNumpy

2010-03-31 16:28:11

Oracle數(shù)據(jù)庫(kù)

2021-12-27 09:50:03

JavaScript開(kāi)發(fā)數(shù)據(jù)分組

2022-11-02 14:45:24

Python數(shù)據(jù)分析工具

2015-09-23 09:24:56

spark數(shù)據(jù)分析

2010-03-29 18:31:09

Nginx配置

2018-02-25 10:37:26

語(yǔ)言數(shù)據(jù)分析工具

2025-02-10 10:29:32

2019-01-15 14:21:13

Python數(shù)據(jù)分析數(shù)據(jù)

2019-02-26 14:39:20

Windows后門(mén)漏洞

2022-09-20 14:11:37

JVM調(diào)優(yōu)命令
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)