自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

用Python進(jìn)行數(shù)據(jù)清洗方式，這幾種都很常見(jiàn)！

作者：佚名 2021-07-27 15:40:39

開(kāi)發(fā) 后端大數(shù)據(jù)

在數(shù)據(jù)分析中，數(shù)據(jù)清洗是一個(gè)必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大，致使數(shù)據(jù)不可避免的出現(xiàn)重復(fù)、缺失、格式錯(cuò)誤等異常數(shù)據(jù)，如果忽視這些異常數(shù)據(jù)，可能導(dǎo)致分析結(jié)果的準(zhǔn)確性。

大家好~我是小刀！

在數(shù)據(jù)分析中，數(shù)據(jù)清洗是一個(gè)必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大，致使數(shù)據(jù)不可避免的出現(xiàn)重復(fù)、缺失、格式錯(cuò)誤等異常數(shù)據(jù)，如果忽視這些異常數(shù)據(jù)，可能導(dǎo)致分析結(jié)果的準(zhǔn)確性。

用以下數(shù)據(jù)為例，進(jìn)行講解數(shù)據(jù)清洗常用方式：

下面的操作只做示例，具體數(shù)據(jù)的清洗方式要根據(jù)數(shù)據(jù)特性進(jìn)行選擇！

重復(fù)值處理

重復(fù)值處理，一般采用直接刪除重復(fù)值的方式。在pandas中，可以用duplicated函數(shù)進(jìn)行查看和drop_duplicates函數(shù)刪除重復(fù)數(shù)據(jù)。

如下所示，可以通過(guò)duplicated函數(shù)查看重復(fù)的數(shù)據(jù):

需要?jiǎng)h除重復(fù)值時(shí)，可直接用drop_duplicates函數(shù)完成：

缺失值處理

缺失值與重復(fù)值一樣，都是數(shù)據(jù)中比較常見(jiàn)的問(wèn)題，必須進(jìn)行處理才能進(jìn)行下一步分析，保證分析的準(zhǔn)確性。缺失值在數(shù)據(jù)中一般用NaN表示，在處理缺失值時(shí)，一般采用刪除和填補(bǔ)方式進(jìn)行處理。但在實(shí)際中，缺失值的處理是一件非常困難的事情，刪除和填補(bǔ)方式都無(wú)法解決，最后只能留著。

在pandas中，其有多種方式查看和處理缺失值的方法。

查看缺失值

最為基礎(chǔ)的可以通過(guò)isnull和notnul，或者info函數(shù)來(lái)實(shí)現(xiàn)。

用info函數(shù)可以很清楚的知道每一列的缺失值情況，進(jìn)而做出判斷處理：

isnull函數(shù)為判斷序列元素是否為缺失，notnul函數(shù)判斷序列元素是否不為缺失，二者在本質(zhì)上是一樣的。而二者在數(shù)據(jù)量龐大時(shí)，效果很差。所以一般不會(huì)單獨(dú)使用，而是配合其它方法進(jìn)行使用。

查看某列缺失值所在的行：

isnull函數(shù)配合sum函數(shù)計(jì)算每列缺失值的個(gè)數(shù)：

在多數(shù)查看缺失值中，經(jīng)常會(huì)采用計(jì)算缺失值在列中占比的方式，判斷缺失對(duì)數(shù)據(jù)具有多大的影響，從而選擇是刪除數(shù)據(jù)還是填補(bǔ)數(shù)據(jù)。計(jì)算占比可使用以下方式：

df.apply(lambda x: x.isnull().sum()/x.size)

x.size為各個(gè)數(shù)據(jù)列總行數(shù)：

缺失值刪除

刪除缺失值的情形，一般是在不會(huì)影響分析結(jié)果、造成的影響無(wú)傷大雅，或者難以填補(bǔ)的時(shí)候采用。

在pandas中，可以直接用dropna函數(shù)進(jìn)行刪除所有含有缺失值的行，或者選擇性刪除含有缺失值到的行：

缺失值填補(bǔ)

在無(wú)法直接刪除缺失值時(shí)，或者包含缺失值的行具有很多而無(wú)法選擇性刪除時(shí)，填補(bǔ)是最佳的選擇，但填補(bǔ)的方式要根據(jù)數(shù)據(jù)來(lái)選擇，否則填補(bǔ)的數(shù)據(jù)依然會(huì)影響分析的準(zhǔn)確性。

在pandas中，可以使用fillna函數(shù)完成對(duì)缺失值的填補(bǔ)，例如對(duì)表中的體重列進(jìn)行填補(bǔ)，填補(bǔ)方法為中位數(shù)：

或者用平均值填補(bǔ)：

也可以用pandas中的ffill函數(shù)對(duì)缺失值進(jìn)行前向填補(bǔ)，但在前向填補(bǔ)時(shí)需要注意各個(gè)列數(shù)據(jù)的情況：

但可以看到，體重列的第一行未填補(bǔ)完成，而pandas中提供了bfill函數(shù)進(jìn)行后向填補(bǔ)：

數(shù)據(jù)類(lèi)型轉(zhuǎn)換

數(shù)據(jù)類(lèi)型關(guān)乎后面的數(shù)據(jù)處理和數(shù)據(jù)可視化，不同的數(shù)據(jù)類(lèi)型處理和進(jìn)行可視化的用法都不一樣，因此，事先把數(shù)據(jù)的類(lèi)型轉(zhuǎn)換好，利于后面的相關(guān)步驟。

在pandas中，可以用info和dtypes方法進(jìn)行查看數(shù)據(jù)類(lèi)型:

常用的數(shù)據(jù)類(lèi)型包括str（字符型）、float（浮點(diǎn)型）和int（整型）。當(dāng)某列數(shù)據(jù)的類(lèi)型出現(xiàn)錯(cuò)誤時(shí)，可通過(guò)astype函數(shù)進(jìn)行強(qiáng)制轉(zhuǎn)換數(shù)據(jù)類(lèi)型。例如下面通過(guò)astype函數(shù)對(duì)數(shù)值型列轉(zhuǎn)換為字符型：

文本處理

在數(shù)據(jù)中，文本在某種程度上可以說(shuō)是最‘臟’的數(shù)據(jù)，不管在錄入的數(shù)據(jù)，還是爬取的數(shù)據(jù)，總會(huì)出現(xiàn)各種各樣的‘臟’數(shù)據(jù)，處理難度非常高。在處理中，主要是切分字符串、值替換。

pandas提供了df.str.split.str()方法對(duì)字符串的切割，以下通過(guò)此方法獲得地級(jí)市名稱(chēng)：

對(duì)于一些多數(shù)詞，可以通過(guò)df.str.replace()方法進(jìn)行增加、替換或者刪除：

以上就是本文的全部?jī)?nèi)容了，如果你喜歡或者對(duì)你有幫助，請(qǐng)給我點(diǎn)個(gè)贊吧！

責(zé)任編輯：龐桂玉來(lái)源： Python與Excel之交

Python 數(shù)據(jù)清洗函數(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<u id="wb4be"></u>

<ruby id="wb4be"></ruby><sub id="wb4be"><i id="wb4be"></i></sub>

^{<blockquote id="wb4be"><rt id="wb4be"></rt></blockquote>}