Pandas循環(huán)提速7萬(wàn)多倍！Python數(shù)據(jù)分析哪種更快？

作者：乾明 2019-09-02 15:12:46

新聞大數(shù)據(jù)

用Python和Pandas進(jìn)行數(shù)據(jù)分析，很快就會(huì)用到循環(huán)。但在這其中，就算是較小的DataFrame，使用標(biāo)準(zhǔn)循環(huán)也比較耗時(shí)。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

用Python和Pandas進(jìn)行數(shù)據(jù)分析，很快就會(huì)用到循環(huán)。

但在這其中，就算是較小的DataFrame，使用標(biāo)準(zhǔn)循環(huán)也比較耗時(shí)。

遇到較大的DataFrame時(shí)，需要的時(shí)間會(huì)更長(zhǎng)，會(huì)讓人更加頭疼。

現(xiàn)在，有人忍不了了。他是一位來(lái)自德國(guó)的數(shù)據(jù)分析師，名叫Benedikt Droste。

他說(shuō)，當(dāng)自己花了大半個(gè)小時(shí)等待代碼執(zhí)行的時(shí)候，決定尋找速度更快的替代方案。

在給出的替代方案中，使用Numpy向量化，與使用標(biāo)準(zhǔn)循環(huán)相比，速度提升了71803倍。

Pandas循環(huán)提速7萬(wàn)多倍！Python數(shù)據(jù)分析攻略

他是怎么實(shí)現(xiàn)的？我們一起來(lái)看看~

標(biāo)準(zhǔn)循環(huán)處理3年足球賽數(shù)據(jù)：20.7秒

DataFrame是具有行和列的Pandas對(duì)象。如果使用循環(huán)，需要遍歷整個(gè)對(duì)象。

Python不能利用任何內(nèi)置函數(shù)，而且速度很慢。在Benedikt Droste的提供的示例中，是一個(gè)包含65列和1140行的Dataframe，包含了2016-2019賽季的足球賽結(jié)果。

需要解決的問(wèn)題是：創(chuàng)建一個(gè)新的列，用于指示某個(gè)特定的隊(duì)是否打了平局?？梢赃@樣開(kāi)始：

def soc_loop(leaguedf,TEAM,): 
 leaguedf['Draws'] = 99999 
 for row in range(0, len(leaguedf)): 
 if ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')) | \ 
 ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')): 
 leaguedf['Draws'].iloc[row] = 'Draw' 
 elif ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')) | \ 
 ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')): 
 leaguedf['Draws'].iloc[row] = 'No_Draw' 
 else: 
 leaguedf['Draws'].iloc[row] = 'No_Game'

在這個(gè)案例中是阿森納，在實(shí)現(xiàn)目標(biāo)之前要確認(rèn)阿森納參加了哪些場(chǎng)比賽，是主隊(duì)還是客隊(duì)。但使用標(biāo)準(zhǔn)循環(huán)非常慢，執(zhí)行時(shí)間為20.7秒。

那么，怎么才能更有效率？

Pandas 內(nèi)置函數(shù): iterrows ()ー快321倍

在第一個(gè)示例中，循環(huán)遍歷了整個(gè)DataFrame。iterrows()為每一行返回一個(gè)Series，它以索引對(duì)的形式遍歷DataFrame，以Series的形式遍歷感興趣的列。這使得它比標(biāo)準(zhǔn)循環(huán)更快：

def soc_iter(TEAM,home,away,ftr): 
 #team, row['HomeTeam'], row['AwayTeam'], row['FTR'] 
 if [((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D'))]: 
 result = 'Draw' 
 elif [((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D'))]: 
 result = 'No_Draw' 
 else: 
 result = 'No_Game' 
 return result

代碼運(yùn)行時(shí)間為68毫秒，比標(biāo)準(zhǔn)循環(huán)快321倍。但是，許多人建議不要使用它，因?yàn)槿匀挥懈斓倪x項(xiàng)，而且iterrows()不能跨行保存dtype。

這意味著，如果你在DataFrame dtypes上使用iterrows()，可以更改它，但這會(huì)導(dǎo)致很多問(wèn)題。

一定要保存dtypes的話，你還可以使用itertuples()。這里我們不詳細(xì)討論，你可以在這里找到官方文件：

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.itertuples.html

apply ()方法ー快811倍

apply 本身并不快，但與DataFrame結(jié)合使用時(shí)，它具有優(yōu)勢(shì)。這取決于 apply 表達(dá)式的內(nèi)容。如果可以在 Cython 空間中執(zhí)行，那么apply要快得多，這里的示例就是這種情況。

大家可以在Lambda函數(shù)中使用apply。所要做的就是指定這個(gè)軸。在本文的示例中，想要執(zhí)行按列操作，要使用 axis 1：

這段代碼甚至比之前的方法更快，完成時(shí)間為27毫秒。

Pandas向量化—快9280倍

此外，也可以利用向量化的優(yōu)點(diǎn)來(lái)創(chuàng)建非?？斓拇a。

重點(diǎn)是避免像之前的示例中的Python級(jí)循環(huán)，并使用優(yōu)化后的C語(yǔ)言代碼，這將更有效地使用內(nèi)存。只需要稍微修改一下函數(shù)：

def soc_iter(TEAM,home,away,ftr): 
 df['Draws'] = 'No_Game' 
 df.loc[((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D')), 'Draws'] = 'Draw' 
 df.loc[((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D')), 'Draws'] = 'No_Draw'