自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用Pandas進(jìn)行數(shù)據(jù)清理的入門示例

大數(shù)據(jù) 數(shù)據(jù)分析
數(shù)據(jù)清理是數(shù)據(jù)分析過程中的關(guān)鍵步驟,它涉及識(shí)別缺失值、重復(fù)行、異常值和不正確的數(shù)據(jù)類型。獲得干凈可靠的數(shù)據(jù)對(duì)于準(zhǔn)確的分析和建模非常重要。

數(shù)據(jù)清理是數(shù)據(jù)分析過程中的關(guān)鍵步驟,它涉及識(shí)別缺失值、重復(fù)行、異常值和不正確的數(shù)據(jù)類型。獲得干凈可靠的數(shù)據(jù)對(duì)于準(zhǔn)確的分析和建模非常重要。

本文將介紹以下6個(gè)經(jīng)常使用的數(shù)據(jù)清理操作:

檢查缺失值、檢查重復(fù)行、處理離群值、檢查所有列的數(shù)據(jù)類型、刪除不必要的列、數(shù)據(jù)不一致處理

第一步,讓我們導(dǎo)入庫和數(shù)據(jù)集。

 # Import libraries
 import pandas as pd
 
 # Read data from a CSV file
 df = pd.read_csv('filename.csv')

檢查缺失值

isnull()方法可以用于查看數(shù)據(jù)框或列中的缺失值。

# Check for missing values in the dataframe
 df.isnull()
 
 # Check the number of missing values in the dataframe
 df.isnull().sum().sort_values(ascending=False)

 # Check for missing values in the 'Customer Zipcode' column
 df['Customer Zipcode'].isnull().sum()
 
 # Check what percentage of the data frame these 3 missing values ??represent
 print(f"3 missing values represents {(df['Customer Zipcode'].isnull().sum() / df.shape[0] * 100).round(4)}% of the rows in our DataFrame.")

Zipcode列中有3個(gè)缺失值:

dropna()可以刪除包含至少一個(gè)缺失值的任何行或列。

 # Drop all the rows where at least one element is missing
 df = df.dropna()    
 # or df.dropna(axis=0) **(axis=0 for rows and axis=1 for columns)
 
 # Note: inplace=True modifies the DataFrame rather than creating a new one
 df.dropna(inplace=True)
 
 # Drop all the columns where at least one element is missing
 df.dropna(axis=1, inplace=True)
 
 # Drop rows with missing values in specific columns
 df.dropna(subset = ['Additional Order items', 'Customer Zipcode'], inplace=True)

fillna()也可以用更合適的值替換缺失的值,例如平均值、中位數(shù)或自定義值。

 # Fill missing values in the dataset with a specific value
 df = df.fillna(0)
 
 # Replace missing values in the dataset with median
 df = df.fillna(df.median())
 
 # Replace missing values in Order Quantity column with the mean of Order Quantities
 df['Order Quantity'].fillna(df["Order Quantity"].mean, inplace=True)

檢查重復(fù)行

duplicate()方法可以查看重復(fù)的行。

# Check duplicate rows
 df.duplicated()
 
 # Check the number of duplicate rows
 df.duplicated().sum()

drop_duplates()可以使用這個(gè)方法刪除重復(fù)的行。

# Drop duplicate rows (but only keep the first row)
 df = df.drop_duplicates(keep='first') #keep='first' / keep='last' / keep=False
 
 # Note: inplace=True modifies the DataFrame rather than creating a new one
 df.drop_duplicates(keep='first', inplace=True)

處理離群值

異常值是可以顯著影響分析的極端值。可以通過刪除它們或?qū)⑺鼈冝D(zhuǎn)換為更合適的值來處理它們。

describe()的maximum和mean之類的信息可以幫助我們查找離群值。

# Get a statistics summary of the dataset
 df["Product Price"].describe()

max”值:1999。其他數(shù)值都不接近1999年,而平均值是146,所以可以確定1999是一個(gè)離群值,需要處理

或者還可以繪制直方圖查看數(shù)據(jù)的分布。

 plt.figure(figsize=(8, 6))
 df["Product Price"].hist(bins=100)

在直方圖中,可以看到大部分的價(jià)格數(shù)據(jù)都在0到500之間。

箱線圖在檢測(cè)異常值時(shí)也很有用。

plt.figure(figsize=(6, 4)) 
df.boxplot(column=['Product Price'])

可以看到價(jià)格列有多個(gè)離群值數(shù)據(jù)點(diǎn)。(高于400的值)

檢查列的數(shù)據(jù)類型

info()可以查看數(shù)據(jù)集中列的數(shù)據(jù)類型。

# Provide a summary of dataset 
df.info()

to_datetime()方法將列轉(zhuǎn)換為日期時(shí)間數(shù)據(jù)類型。

 # Convert data type of Order Date column to date
 df["Order Date"] = pd.to_datetime(df["Order Date"])

to_numeric()可以將列轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)類型(例如,整數(shù)或浮點(diǎn)數(shù))。

 # Convert data type of Order Quantity column to numeric data type
 df["Order Quantity"] = pd.to_numeric(df["Order Quantity"])

to_timedelta()方法將列轉(zhuǎn)換為timedelta數(shù)據(jù)類型,如果值表示持續(xù)時(shí)間,可以使用這個(gè)函數(shù)

 # Convert data type of Duration column to timedelta type
 df["Duration "] = pd.to_timedelta(df["Duration"])

刪除不必要的列

drop()方法用于從數(shù)據(jù)框中刪除指定的行或列。

 # Drop Order Region column
 # (axis=0 for rows and axis=1 for columns)
 df = df.drop('Order Region', axis=1)
 
 # Drop Order Region column without having to reassign df (using inplace=True)
 df.drop('Order Region', axis=1, inplace=True)
 
 # Drop by column number instead of by column label
 df = df.drop(df.columns[[0, 1, 3]], axis=1) # df.columns is zero-based

數(shù)據(jù)不一致處理

數(shù)據(jù)不一致可能是由于格式或單位不同造成的。Pandas提供字符串方法來處理不一致的數(shù)據(jù)。

str.lower() & str.upper()這兩個(gè)函數(shù)用于將字符串中的所有字符轉(zhuǎn)換為小寫或大寫。它有助于標(biāo)準(zhǔn)化DataFrame列中字符串的情況。

# Rename column names to lowercase
 df.columns = df.columns.str.lower()

# Rename values in Customer Fname column to uppercase
 df["Customer Fname"] = df["Customer Fname"].str.upper()

str.strip()函數(shù)用于刪除字符串值開頭或結(jié)尾可能出現(xiàn)的任何額外空格。

# In Customer Segment column, convert names to lowercase and remove leading/trailing spaces
 df['Customer Segment'] = df['Customer Segment'].str.lower().str.strip()

replace()函數(shù)用于用新值替換DataFrame列中的特定值。

# Replace values in dataset
 df = df.replace({"CA": "California", "TX": "Texas"})

# Replace values in a spesific column
 df["Customer Country"] = df["Customer Country"].replace({"United States": "USA", "Puerto Rico": "PR"})

mapping()可以創(chuàng)建一個(gè)字典,將不一致的值映射到標(biāo)準(zhǔn)化的對(duì)應(yīng)值。然后將此字典與replace()函數(shù)一起使用以執(zhí)行替換。

 # Replace specific values using mapping
 mapping = {'CA': 'California', 'TX': 'Texas'}
 df['Customer State'] = df['Customer State'].replace(mapping)

rename()函數(shù)用于重命名DataFrame的列或索引標(biāo)簽。

# Rename some columns
 df.rename(columns={'Customer City': 'Customer_City', 'Customer Fname' : 'Customer_Fname'}, inplace=True)
 # Rename some columns
 new_names = {'Customer Fname':'Customer_Firstname', 'Customer Fname':'Customer_Fname'}
 df.rename(columns=new_names, inplace=True)
 df.head()

總結(jié)

Python pandas包含了豐富的函數(shù)和方法集來處理丟失的數(shù)據(jù),刪除重復(fù)的數(shù)據(jù),并有效地執(zhí)行其他數(shù)據(jù)清理操作。

使用pandas功能,數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師可以簡化數(shù)據(jù)清理工作流程,并確保數(shù)據(jù)集的質(zhì)量和完整性。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2023-02-15 08:24:12

數(shù)據(jù)分析數(shù)據(jù)可視化

2024-10-28 12:57:36

Pandas數(shù)據(jù)清洗

2023-09-26 01:03:36

Pandas數(shù)據(jù)數(shù)據(jù)集

2018-04-03 12:07:53

數(shù)據(jù)清洗PandasNumpy

2020-06-05 14:29:07

PythonPandas數(shù)據(jù)分析

2017-10-31 11:55:46

sklearn數(shù)據(jù)挖掘自動(dòng)化

2022-08-02 09:32:47

pandas移動(dòng)計(jì)算

2020-12-14 13:24:17

PandasSQL數(shù)據(jù)集

2017-02-16 08:41:09

數(shù)據(jù)Vlookup匹配

2022-11-02 14:45:24

Python數(shù)據(jù)分析工具

2009-03-16 10:29:45

數(shù)據(jù)挖掘過濾器Access

2009-09-08 16:50:12

使用LINQ進(jìn)行數(shù)據(jù)轉(zhuǎn)

2019-09-30 10:12:21

機(jī)器學(xué)習(xí)數(shù)據(jù)映射

2022-03-28 14:08:02

Python數(shù)據(jù)清洗數(shù)據(jù)集

2021-03-11 10:48:33

機(jī)器學(xué)習(xí)數(shù)據(jù)清理

2020-08-14 10:45:26

Pandas可視化數(shù)據(jù)預(yù)處理

2022-04-08 11:25:58

數(shù)據(jù)庫操作AbilityData

2021-12-27 09:50:03

JavaScript開發(fā)數(shù)據(jù)分組

2009-07-16 14:46:48

jdbc statem

2022-01-26 09:00:00

數(shù)據(jù)庫SnowparkSQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)