數(shù)據(jù)預(yù)處理的10個小技能,附Pandas實現(xiàn)
數(shù)據(jù)預(yù)處理常用的處理步驟,包括找出異常值、處理缺失值、過濾不合適值、去掉重復(fù)行、分箱、分組、排名、category轉(zhuǎn)數(shù)值等,下面使用 pandas 解決這些最常見的預(yù)處理任務(wù)。
找出異常值常用兩種方法:
- 標(biāo)準(zhǔn)差法:異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
- 分位數(shù)法:小于 1/4分位數(shù)減去 1/4和3/4分位數(shù)差的1.5倍,大于3/4減去 1/4和3/4分位數(shù)差的1.5倍,都為異常值
技能1 :標(biāo)準(zhǔn)差法
- import pandas as pd
- df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})
- # 異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
- meangrade = df['a'].mean()
- stdgrade = df['a'].std()
- toprange = meangrade + stdgrade * 1.96
- botrange = meangrade - stdgrade * 1.96
- # 過濾區(qū)間外的值
- copydf = df
- copydfcopydf = copydf.drop(copydf[copydf['a']
- > toprange].index)
- copydfcopydf = copydf.drop(copydf[copydf['a']
- < botrange].index)
- copydf
技能2:分位數(shù)法
- q1 = df['a'].quantile(.25)
- q3 = df['a'].quantile(.75)
- iqr = q3-q1
- toprange = q3 + iqr * 1.5
- botrange = q1 - iqr * 1.5
- copydf = df
- copydfcopydf = copydf.drop(copydf[copydf['a']
- > toprange].index)
- copydfcopydf = copydf.drop(copydf[copydf['a']
- < botrange].index)
- copydf
技能3:處理空值
np.nan 是 pandas 中常見空值,使用 dropna 過濾空值,axis 0 表示按照行,1 表示按列,how 默認為 any ,意思是只要有一個 nan 就過濾某行或某列,all 所有都為 nan
- # axis 0 表示按照行,all 此行所有值都為 nan
- df.dropna(axis=0, how='all')
技能4:充填空值
空值一般使用某個統(tǒng)計值填充,如平均數(shù)、眾數(shù)、中位數(shù)等,使用函數(shù) fillna:
- # 使用a列平均數(shù)填充列的空值,inplace true表示就地填充
- df["a"].fillna(df["a"].mean(), inplace=True)
技能5:修復(fù)不合適值
假如某門課最高分100,如果出現(xiàn) -2, 120 這樣的值,顯然不合理,使用布爾類型的Series對象修改數(shù)值:
- df.loc[(df['a'] < -2,'a')] = 0
- df.loc[(df['a'] >= 100,'a')] = 100
技能6:過濾重復(fù)值
過濾某列重復(fù)值,使用 drop_duplicated 方法,第一個參數(shù)為列名,keep關(guān)鍵字等于last:最后一次出現(xiàn)此值行:
- df.drop_duplicates(['Names'], keep='last')
技能7:apply 元素級:去掉特殊字符
某列單元格含有特殊字符,如標(biāo)點符號,使用元素級操作方法 apply 干掉它們:
- import string
- exclude = set(string.punctuation)
- def remove_punctuation(x):
- x = ''.join(ch for ch in x if ch not in exclude)
- return x
- # 原df
- Out[26]:
- a b
- 0 c,d edc.rc
- 1 3 3
- 2 d ef 4
- # 過濾a列標(biāo)點
- In [27]: dfdf.a = df.a.apply(remove_punctuation)
- In [28]: df
- Out[28]:
- a b
- 0 cd edc.rc
- 1 3 3
- 2 d ef 4
技能8:cut 數(shù)據(jù)分箱
將百分制分數(shù)轉(zhuǎn)為A,B,C,D四個等級,bins 被分為 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:
- # 生成20個[0,100]的隨機整數(shù)
- In [30]: a = np.random.randint(1,100,20)
- In [31]: a
- Out[31]:
- array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31, 5, 46, 98,99, 60, 43])
- # cut分箱
- In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])
- Out[33]:
- [D, D, D, B, D, ..., D, A, A, D, D]
- Length: 20
- Categories (4, object): [D < C < B < A]
技能9:rank 排名
rank 方法,生成數(shù)值排名,ascending 為False,分值越大,排名越靠前:
- In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))
- In [53]: df['a'].rank(ascending=False)
- Out[53]:
- 0 4.0
- 1 2.0
- 2 1.0
- 3 3.0
- 4 5.0
技能10:category列轉(zhuǎn)數(shù)值
某列取值只可能為有限個枚舉值,往往需要轉(zhuǎn)為數(shù)值,使用get_dummies,或自己定義函數(shù):
- pd.get_dummies(df['a'])
自定義函數(shù),結(jié)合 apply:
- def c2n(x):
- if x=='A':
- return 95
- if x=='B':
- return 80
- df['a'].apply(c2n)
以上結(jié)合數(shù)據(jù)預(yù)處理的十個小任務(wù),分別找到對應(yīng)pandas中的實現(xiàn)。