自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

懶人秘籍：教你如何避免編寫pandas代碼

作者：讀芯術(shù) 2020-01-03 08:34:18

開發(fā) 前端開發(fā)工具

在本文中，筆者首先展示了一個(gè)“如何避免”的例子，然后展示了一個(gè)正確的“如何使用”pandas來計(jì)算統(tǒng)計(jì)數(shù)據(jù)的方法。改進(jìn)后，代碼更簡潔、易讀，執(zhí)行更快。

Pandas在數(shù)據(jù)科學(xué)領(lǐng)域無需介紹，它提供高性能，易于使用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。但是，在處理過多的數(shù)據(jù)時(shí)，單核上的Pandas就顯得心有余而力不足了，大家不得不求助于不同的分布式系統(tǒng)來提高性能。然而，提高性能的權(quán)衡常常伴隨著陡峭的學(xué)習(xí)曲線。

而大家都在盡可能地避免這種懸崖峭壁，結(jié)果可想而知，都轉(zhuǎn)向了如何避免編寫pandas代碼。

在過去4年里，筆者一直使用pandas作為數(shù)據(jù)分析的主要工具。必須承認(rèn)，“如何避免編寫pandas代碼”的大部分內(nèi)容來自于使用pandas編程的起步階段。在進(jìn)行代碼審閱時(shí)，筆者仍然看到許多經(jīng)驗(yàn)豐富的程序員在看一些熱門“如何避免使用”的帖子。

在本文中，筆者首先展示了一個(gè)“如何避免”的例子，然后展示了一個(gè)正確的“如何使用”pandas來計(jì)算統(tǒng)計(jì)數(shù)據(jù)的方法。改進(jìn)后，代碼更簡潔、易讀，執(zhí)行更快。報(bào)告時(shí)間的格式為： 831 ms ± 25.7 ms per loop，即平均831毫秒，標(biāo)準(zhǔn)偏差為25.7毫秒。每個(gè)代碼示例執(zhí)行多次，以計(jì)算準(zhǔn)確的執(zhí)行時(shí)間。

和往常一樣，可以下載 JupyterNotebook并在電腦上試運(yùn)行。

開始pandas游戲之旅，請(qǐng)閱讀如下資源：

5個(gè)鮮為人知的pandas技巧
使用pandas進(jìn)行探索性數(shù)據(jù)分析

來源：Pexels

設(shè)置

from platform importpython_versionimport numpy as np 
import pandas as pdnp.random.seed(42) # set the seed tomake examples repeatable

樣本數(shù)據(jù)集

樣本數(shù)據(jù)集包含各個(gè)城市的預(yù)訂信息，是隨機(jī)的，唯一目的是展示樣本。

數(shù)據(jù)集有三列：

id表示唯一的標(biāo)識(shí)
city表示預(yù)定的城市信息
booked perc表示特定時(shí)間預(yù)定的百分比

數(shù)據(jù)集有一萬條，這使速度改進(jìn)更加明顯。注意，如果代碼以正確的pandas方式編寫，pandas可以利用DataFrames計(jì)算數(shù)百萬(甚至數(shù)十億)行的統(tǒng)計(jì)數(shù)據(jù)。

size = 10000cities =["paris", "barcelona", "berlin", "newyork"]df = pd.DataFrame( 
    {"city": np.random.choice(cities,sizesize=size), "booked_perc": np.random.rand(size)} 
) 
df["id"] = df.index.map(str) +"-" + df.city 
dfdf = df[["id", "city", "booked_perc"]] 
df.head()

1. 如何避免對(duì)數(shù)據(jù)求和

[[311699]]

翻滾的熊貓/Reddit

來自Java世界的靈感，把“多行for循環(huán)”應(yīng)用到了Python。

計(jì)算booked perc列的總和，把百分比加起來毫無意義，但無論如何，一起來試試吧，實(shí)踐出真知。

%%timeitsuma = 0 
for _, row in df.iterrows(): 
    suma += row.booked_perc766ms ± 20.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

更符合Python風(fēng)格的方式來對(duì)列求和如下：

%%timeitsum(booked_perc forbooked_perc in df.booked_perc)989 µs ± 18.5 µs per loop (mean ±std. dev. of 7 runs, 1000 loops each)%%timeitdf.booked_perc.sum()92µs ± 2.21 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

正如預(yù)期的那樣，第一個(gè)示例是最慢的——對(duì)一萬項(xiàng)求和幾乎需要1秒。第二個(gè)例子的速度之快令人驚訝。

正確的方法是使用pandas對(duì)數(shù)據(jù)進(jìn)行求和(或?qū)α惺褂萌魏纹渌僮?，這是第三個(gè)示例——也是最快的!

2. 如何避免過濾數(shù)據(jù)

[[311700]]

玩耍的熊貓/Giphy

盡管在使用pandas之前，筆者已經(jīng)很熟悉numpy，并使用for循環(huán)來過濾數(shù)據(jù)。求和時(shí)，還是可以觀察到性能上的差異。

%%timeitsuma = 0 
for _, row in df.iterrows(): 
    if row.booked_perc <=0.5: 
        suma += row.booked_perc831ms ± 25.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)%%timeitdf[df.booked_perc<= 0.5].booked_perc.sum()724 µs ± 18.8 µs per loop(mean ± std. dev. of 7 runs, 1000 loops each)

正如預(yù)期的一樣，第二個(gè)例子比第一個(gè)例子快很多

如果加入更多的過濾器呢?只需把它們添加到括號(hào)里：

%%timeitdf[(df.booked_perc <=0.5) & (df.city == 'new york')].booked_perc.sum()1.55ms ± 10.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

3. 如何避免訪問以前的值

[[311701]]

翻滾的熊貓/Giphy

你可能會(huì)說：好吧，但是如果需要訪問先前某一列的值呢，還是需要一個(gè)for循環(huán)。你錯(cuò)了!

分別使用和不使用for循環(huán)來計(jì)算一行到另一行百分?jǐn)?shù)的改變

%%timeitfor i inrange(1, len(df)): 
    df.loc[i,"perc_change"] =  (df.loc[i].booked_perc- df.loc[i - 1].booked_perc) / df.loc[i- 1].booked_perc7.02 s ± 24.4 ms per loop (mean ± std. dev. of 7runs, 1 loop each)%%timeitdf["perc_change"] = df.booked_perc.pct_change()586µs ± 17.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

同樣，第二個(gè)例子比第一個(gè)使用for循環(huán)的例子快得多。

pandas有許多函數(shù)可以根據(jù)以前的值計(jì)算統(tǒng)計(jì)數(shù)據(jù)(例如shift函數(shù)對(duì)值進(jìn)行移位)。這些函數(shù)接受periods參數(shù)，可以在計(jì)算中包含以前值的數(shù)量。

4. 如何避免使用復(fù)雜的函數(shù)

[[311702]]

來源：墜落的熊貓(國家地理)Giphy

有時(shí)需要在DataFrame中使用復(fù)雜函數(shù)(有多個(gè)變量的函數(shù))。讓我們將從紐約的booking_perc兩兩相乘，其他設(shè)置為0并且把這列命名為sales_factor。

筆者首先想到的是使用iterrows的for循環(huán)。

%%timeitfor i, row in df.iterrows(): 
    if row.city =='new york': 
        df.loc[i, 'sales_factor'] =row.booked_perc * 2 
    else: 
        df.loc[i, 'sales_factor'] =03.58 s ± 48.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

一個(gè)更好的辦法是直接在DataFrame上使用函數(shù)。

%%timeitdef calculate_sales_factor(row): 
    if row.city =='new york': 
        return row.booked_perc* 2 
    return 0df['sales_factor'] =df.apply(calculate_sales_factor, axis=1)165 ms ± 2.48 ms per loop(mean ± std. dev. of 7 runs, 10 loops each)

最快的方法是使用pandas過濾器直接計(jì)算函數(shù)值。

%%timeit df.loc[df.city== 'new york', 'sales_factor'] = df[df.city == 'newyork'].booked_perc * 2 
df.sales_factor.fillna(0, inplace=True)3.03 ms ± 85.5 µsper loop (mean ± std. dev. of 7 runs, 100 loops each)

可以看到從第一個(gè)例子到最后一個(gè)的加速過程。

當(dāng)解決有3個(gè)及3個(gè)以上變量的函數(shù)時(shí)，可以把它分解為多個(gè)pandas表達(dá)式。這比運(yùn)用函數(shù)更快。

Eg: f(x, a, b) = (a + b) * x 
df['a_plus_b'] = df['a'] +df['b'] 
df['f'] = df['a_plus_b'] * df['x']

5. 如何避免對(duì)數(shù)據(jù)進(jìn)行分組

[[311703]]

蹭癢熊貓/Giphy

現(xiàn)在可以看到，在開始使用pandas之前，筆者更多依賴于for循環(huán)。至于對(duì)數(shù)據(jù)進(jìn)行分組，如果充分發(fā)揮pandas的優(yōu)勢，可以減少代碼行數(shù)。

要計(jì)算如下數(shù)據(jù)：

一個(gè)城市的平均sales factor
一個(gè)城市的首次預(yù)定id

%%timeit avg_by_city = {} 
count_by_city = {} 
first_booking_by_city = {}for i, row in df.iterrows(): 
    city = row.city 
    if city in avg_by_city: 
        avg_by_city[city] += row.sales_factor 
        count_by_city[city] += 1 
    else: 
        avg_by_city[city] = row.sales_factor 
        count_by_city[city] = 1 
        first_booking_by_city[city] =row['id']for city, _ in avg_by_city.items(): 
    avg_by_city[city] /=count_by_city[city]878 ms ± 21.4 ms per loop (mean ± std. dev. of 7 runs, 1 loopeach)

Pandas有分組操作所以不必在DataFrame上進(jìn)行迭代，pandas的分組操作和SQL的GROUP BY語句一樣的。

%%timeitdf.groupby('city').sales_factor.mean() 
df.groupby('city').sales_factor.count() 
df.groupby('city').id.first()3.05 ms ± 65.3 µs per loop(mean ± std. dev. of 7 runs, 100 loops each)%%timeitdf.groupby("city").agg({"sales_factor":["mean", "count"], "id": "first"})4.5ms ± 131 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

驚奇的是，第三個(gè)例子不是最快的，但比第二個(gè)例子更簡潔。筆者建議，如果需要加速的代碼，請(qǐng)用第二種方法。

[[311704]]

快樂的熊貓/Giphy

最后，小芯的建議是:如果需要使用pandas編寫for循環(huán)，那一定存在一種更好的編寫方式。

會(huì)存在一些計(jì)算量很大的函數(shù)，即使上述的優(yōu)化方法也會(huì)無效。那么我們就需要使用最后手段：Cython和Numba。

大家一起來試試這些方法吧，一定會(huì)有意想不到的收獲~

責(zé)任編輯：趙寧寧來源：讀芯術(shù)

pandas 代碼開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="le5ec"><i id="le5ec"></i></blockquote>

<cite id="le5ec"><nav id="le5ec"></nav></cite>

<blockquote id="le5ec"><p id="le5ec"></p></blockquote>

<cite id="le5ec"></cite>

<legend id="le5ec"><abbr id="le5ec"></abbr></legend>