自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何使Pandas來加速你的代碼?

開發(fā) 后端 大數(shù)據(jù)
Pandas是為一次性處理整個(gè)行或列的矢量化操作而設(shè)計(jì)的—循環(huán)遍歷每個(gè)單元格、行或列并不是這個(gè)庫的設(shè)計(jì)用途。因此,在使用Pandas時(shí),你應(yīng)該考慮到矩陣操作是高度并行化的。

 Pandas對(duì)數(shù)據(jù)科學(xué)界來說是一份天賜的禮物。問任何一個(gè)數(shù)據(jù)科學(xué)家,他們喜歡如何使用Python處理他們的數(shù)據(jù)集,他們無疑會(huì)談到Pandas。

[[279448]]

Pandas是一個(gè)偉大的編程庫的縮影:簡單、直觀、功能廣泛。

然而,對(duì)數(shù)據(jù)科學(xué)家的一項(xiàng)常規(guī)任務(wù),使用Pandas進(jìn)行數(shù)千甚至數(shù)百萬次的計(jì)算,仍然是一個(gè)挑戰(zhàn)。你不能只是將數(shù)據(jù)放入,編寫Python for循環(huán),然后期望在合理的時(shí)間內(nèi)處理數(shù)據(jù)。

Pandas是為一次性處理整個(gè)行或列的矢量化操作而設(shè)計(jì)的—循環(huán)遍歷每個(gè)單元格、行或列并不是這個(gè)庫的設(shè)計(jì)用途。因此,在使用Pandas時(shí),你應(yīng)該考慮到矩陣操作是高度并行化的。

本指南將教你如何使用Pandas的方式,它被設(shè)計(jì)用來使用矩陣運(yùn)算。在此過程中,我將向你展示一些實(shí)用的節(jié)省時(shí)間的技巧和技巧,它們將使你的Pandas代碼運(yùn)行得比那些可怕的Python for循環(huán)快得多!

設(shè)置

在本教程中,我們將使用經(jīng)典的鳶尾花數(shù)據(jù)集。我們通過使用seaborn加載數(shù)據(jù)集并打印出前5行來開始。


現(xiàn)在讓我們建立一個(gè)基線,用Python for循環(huán)來測(cè)量我們的速度。我們將通過循環(huán)遍歷每一行來設(shè)置要在數(shù)據(jù)集上執(zhí)行的計(jì)算,然后測(cè)量整個(gè)操作的速度。這將為我們提供一個(gè)基準(zhǔn),看看我們的新優(yōu)化能在多大程度上幫助我們加速。

如何使用pandas來加速你的代碼?

在上面的代碼中,我們創(chuàng)建了一個(gè)基本函數(shù),它使用If-Else語句根據(jù)花瓣的長度選擇花的類。我們編寫了一個(gè)for循環(huán),通過循環(huán)dataframe對(duì)每一行使用這個(gè)函數(shù),然后測(cè)量循環(huán)的總運(yùn)行時(shí)間。

在我的i7-8700k計(jì)算機(jī)上,循環(huán)運(yùn)行5次平均需要0.01345秒。

使用.iterrows()來實(shí)現(xiàn)循環(huán)

我們可以立即做的最簡單但非常有價(jià)值的加速是使用Pandas的內(nèi)置 .iterrows()函數(shù)。

在上一節(jié)中編寫for循環(huán)時(shí),我們使用了 range()函數(shù)。然而,當(dāng)我們?cè)赑ython中對(duì)大范圍的值進(jìn)行循環(huán)時(shí),生成器往往要快得多。在本文中(https://towardsdatascience.com/5-advancedfeaturesof-python-and-how-use-them-73bffa373c84),你可以閱讀更多關(guān)于生成器如何工作的信息,并加快運(yùn)行速度。

Pandas中的 .iterrows()函數(shù)在內(nèi)部實(shí)現(xiàn)了一個(gè)生成器函數(shù),它將在每次迭代中“生成”一行數(shù)據(jù)。更準(zhǔn)確地說, .iterrows()為DataFrame中的每一行生成(index, Series) 的對(duì)(元組)。這實(shí)際上與在原始Python中使用類似于 enumerate()的東西是一樣的,但是運(yùn)行速度要快得多。

下面我們修改了代碼,使用 .iterrows()替常規(guī)的for循環(huán)。在我上一節(jié)測(cè)試所用的同一臺(tái)機(jī)器上,平均運(yùn)行時(shí)間為0.005892秒—提高了2.28倍!

如何使用pandas來加速你的代碼?

使用.apply()完全丟掉循環(huán)

.iterrows()函數(shù)極大地提高了速度,但還遠(yuǎn)遠(yuǎn)不夠。請(qǐng)始終記住,當(dāng)使用為向量操作設(shè)計(jì)的庫時(shí),可能有一種方法可以在完全沒有for循環(huán)的情況下很高效地完成任務(wù)。

提供這種功能的Pandas函數(shù)是 .apply()函數(shù)。我們的函數(shù) .apply()接受另一個(gè)函數(shù)作為它的輸入,并沿著DataFrame的軸(行、列等)應(yīng)用它。在傳遞函數(shù)的這種情況下,lambda通??梢苑奖愕貙⑺袃?nèi)容打包在一起。

在下面的代碼中,我們已經(jīng)完全用 .apply()和lambda函數(shù)替換了for循環(huán)來封裝我們想要的計(jì)算。在我的機(jī)器上,這段代碼的平均運(yùn)行時(shí)間是0.0020897秒—比原來的for循環(huán)快6.44倍。

如何使用pandas來加速你的代碼?

.apply()之所以要快得多,是因?yàn)樗趦?nèi)部嘗試遍歷Cython迭代器。如果你的函數(shù)恰好為Cython進(jìn)行了很好的優(yōu)化, .apply()將使你的速度更快。額外的好處是,使用內(nèi)置函數(shù)可以生成更干凈、更可讀的代碼。

最后是使用cut

前面我提到過,如果你正在使用一個(gè)為向量化操作設(shè)計(jì)的庫,那么你應(yīng)該始終尋找一種不使用for循環(huán)進(jìn)行任何計(jì)算的方法。

類似地,許多以這種方式設(shè)計(jì)的庫,包括Pandas,都具有方便的內(nèi)置函數(shù),可以執(zhí)行你正在尋找的精確計(jì)算—但是速度更快。

Pandas的 .cut()函數(shù)接受一組 bins為輸入,其中定義每個(gè)If-Else的范圍,以及一組 labels作為輸入,其中定義為每個(gè)范圍返回哪個(gè)值。然后,它執(zhí)行與我們用 compute_class()函數(shù)手動(dòng)編寫的操作完全相同的操作。

查看下面的代碼,看看 .cut()是如何工作的。我們又一次得到了更干凈、更可讀的代碼。最后, .cut()函數(shù)平均運(yùn)行0.001423秒—比原來的for循環(huán)快了9.39倍!

如何使用pandas來加速你的代碼?

 

 

責(zé)任編輯:華軒 來源: AI公園
相關(guān)推薦

2017-02-14 08:33:48

CPULinux內(nèi)核

2013-10-30 09:37:19

LinuxLinux命令

2013-03-25 09:41:20

PythonCython

2021-08-12 08:00:00

Pandas數(shù)據(jù)分析SQL

2020-07-23 14:15:42

Cython的Python代碼

2019-12-25 14:08:50

Pandas數(shù)據(jù)計(jì)算

2022-09-20 10:50:34

PandasNumPy

2017-04-13 11:20:56

機(jī)器學(xué)習(xí)代碼

2016-10-12 13:37:09

LombokIDEidea

2020-05-21 08:53:12

Python技術(shù)代碼

2024-01-19 13:45:00

Pandas代碼深度學(xué)習(xí)

2010-05-20 09:07:30

jQuery

2021-08-25 23:03:58

區(qū)塊鏈數(shù)據(jù)安全

2018-02-26 15:14:25

Linuxlftp下載加速器

2020-09-02 14:00:05

Python代碼腳本

2021-01-01 14:36:03

Python開發(fā)語言

2021-06-09 08:00:00

Python編程語言開發(fā)

2020-01-03 08:34:18

pandas代碼開發(fā)

2012-06-18 15:18:32

JS

2021-11-17 21:58:02

Python編程語言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)