自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="lrvms"></sub>

<legend id="lrvms"><track id="lrvms"></track></legend>

<strong id="lrvms"><button id="lrvms"><span id="lrvms"></span></button></strong>

<sub id="lrvms"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)預(yù)處理的10個小技能，附Pandas實現(xiàn)

作者： zhenguo 2020-12-14 14:16:34

大數(shù)據(jù)

數(shù)據(jù)預(yù)處理常用的處理步驟，包括找出異常值、處理缺失值、過濾不合適值、去掉重復(fù)行、分箱、分組、排名、category轉(zhuǎn)數(shù)值等，下面使用 pandas 解決這些最常見的預(yù)處理任務(wù)。

數(shù)據(jù)預(yù)處理常用的處理步驟，包括找出異常值、處理缺失值、過濾不合適值、去掉重復(fù)行、分箱、分組、排名、category轉(zhuǎn)數(shù)值等，下面使用 pandas 解決這些最常見的預(yù)處理任務(wù)。

找出異常值常用兩種方法：

標(biāo)準(zhǔn)差法：異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
分位數(shù)法：小于 1/4分位數(shù)減去 1/4和3/4分位數(shù)差的1.5倍，大于3/4減去 1/4和3/4分位數(shù)差的1.5倍，都為異常值

技能1 ：標(biāo)準(zhǔn)差法

import pandas as pd 
 
df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]}) 
 
# 異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值 
meangrade = df['a'].mean() 
stdgrade = df['a'].std() 
toprange = meangrade + stdgrade * 1.96 
botrange = meangrade - stdgrade * 1.96 
 
# 過濾區(qū)間外的值 
copydf = df 
copydfcopydf = copydf.drop(copydf[copydf['a'] 
        > toprange].index) 
copydfcopydf = copydf.drop(copydf[copydf['a'] 
        < botrange].index) 
copydf

技能2：分位數(shù)法

q1 = df['a'].quantile(.25) 
q3 = df['a'].quantile(.75) 
iqr = q3-q1 
toprange = q3 + iqr * 1.5 
botrange = q1 - iqr * 1.5 
 
copydf = df 
copydfcopydf = copydf.drop(copydf[copydf['a'] 
        > toprange].index) 
copydfcopydf = copydf.drop(copydf[copydf['a'] 
        < botrange].index) 
copydf

技能3：處理空值

np.nan 是 pandas 中常見空值，使用 dropna 過濾空值，axis 0 表示按照行，1 表示按列，how 默認為 any ，意思是只要有一個 nan 就過濾某行或某列，all 所有都為 nan

# axis 0 表示按照行，all 此行所有值都為 nan 
df.dropna(axis=0, how='all')

技能4：充填空值

空值一般使用某個統(tǒng)計值填充，如平均數(shù)、眾數(shù)、中位數(shù)等，使用函數(shù) fillna：

# 使用a列平均數(shù)填充列的空值，inplace true表示就地填充 
df["a"].fillna(df["a"].mean(), inplace=True)

技能5：修復(fù)不合適值

假如某門課最高分100，如果出現(xiàn) -2， 120 這樣的值，顯然不合理，使用布爾類型的Series對象修改數(shù)值：

df.loc[(df['a'] < -2,'a')] = 0 
df.loc[(df['a'] >= 100,'a')] = 100

技能6：過濾重復(fù)值

過濾某列重復(fù)值，使用 drop_duplicated 方法，第一個參數(shù)為列名，keep關(guān)鍵字等于last：最后一次出現(xiàn)此值行：

df.drop_duplicates(['Names'], keep='last')

技能7：apply 元素級：去掉特殊字符

某列單元格含有特殊字符，如標(biāo)點符號，使用元素級操作方法 apply 干掉它們：

import string 
exclude = set(string.punctuation) 
 
def remove_punctuation(x): 
    x = ''.join(ch for ch in x if ch not in exclude) 
    return x 
# 原df 
Out[26]:  
      a       b 
0   c,d  edc.rc 
1     3       3 
2  d ef       4 
 
# 過濾a列標(biāo)點 
In [27]: dfdf.a = df.a.apply(remove_punctuation)  
In [28]: df                 
Out[28]:  
      a       b 
0    cd  edc.rc 
1     3       3 
2  d ef       4

技能8：cut 數(shù)據(jù)分箱

將百分制分數(shù)轉(zhuǎn)為A,B,C,D四個等級，bins 被分為 [0,60,75,90,100]，labels 等于['D', 'C', 'B', 'A']：

# 生成20個[0,100]的隨機整數(shù) 
In [30]: a = np.random.randint(1,100,20)                    
In [31]: a                                     
Out[31]:  
array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43]) 
 
# cut分箱 
In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])              
Out[33]:  
[D, D, D, B, D, ..., D, A, A, D, D] 
Length: 20 
Categories (4, object): [D < C < B < A]

技能9：rank 排名

rank 方法，生成數(shù)值排名，ascending 為False，分值越大，排名越靠前：

In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))  
In [53]: df['a'].rank(ascending=False)                    
Out[53]:  
0    4.0 
1    2.0 
2    1.0 
3    3.0 
4    5.0

技能10：category列轉(zhuǎn)數(shù)值

某列取值只可能為有限個枚舉值，往往需要轉(zhuǎn)為數(shù)值，使用get_dummies，或自己定義函數(shù)：

pd.get_dummies(df['a'])

自定義函數(shù)，結(jié)合 apply:

def c2n(x): 
    if x=='A': 
        return 95 
    if x=='B': 
        return 80 
 
df['a'].apply(c2n)

以上結(jié)合數(shù)據(jù)預(yù)處理的十個小任務(wù)，分別找到對應(yīng)pandas中的實現(xiàn)。

責(zé)任編輯：趙寧寧來源： Python與算法社區(qū)

Pandas 數(shù)據(jù)預(yù)處理

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營