自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="rame6"><progress id="rame6"></progress></pre>

<cite id="rame6"></cite>

<legend id="rame6"><track id="rame6"><menuitem id="rame6"></menuitem></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Pandas字符串操作的各種方法速度測(cè)試

作者：Dr. Mandar Karhade 2023-08-25 16:37:08

開發(fā) 測(cè)試

由于LLM的發(fā)展，很多的數(shù)據(jù)集都是以DF的形式發(fā)布的，所以通過Pandas操作字符串的要求變得越來越高了，所以本文將對(duì)字符串操作方法進(jìn)行基準(zhǔn)測(cè)試，看看它們是如何影響pandas的性能的。因?yàn)橐坏㏄andas在處理數(shù)據(jù)時(shí)超過一定限制，它們的行為就會(huì)很奇怪。

由于LLM的發(fā)展，很多的數(shù)據(jù)集都是以DF的形式發(fā)布的，所以通過Pandas操作字符串的要求變得越來越高了，所以本文將對(duì)字符串操作方法進(jìn)行基準(zhǔn)測(cè)試，看看它們是如何影響pandas的性能的。因?yàn)橐坏㏄andas在處理數(shù)據(jù)時(shí)超過一定限制，它們的行為就會(huì)很奇怪。

我們用Faker創(chuàng)建了一個(gè)100,000行的測(cè)試數(shù)據(jù)。

測(cè)試方法

安裝：

!pip install faker

生成測(cè)試數(shù)據(jù)的方法很簡(jiǎn)答：

import pandas as pd
 import numpy as np
 
 def gen_data(x):
  from faker import Faker
  fake = Faker()
  outdata = {}
  for i in range(0,x):
    outdata[i] = fake.profile()
  return pd.DataFrame(outdata).T
 
 n= 100000
 basedata = gen_data(n)

然后把Google Colab將輸出存儲(chǔ)在Google drive中

from google.colab import drive
 drive.mount('/content/drive')

創(chuàng)建了非常簡(jiǎn)單的函數(shù)來測(cè)試連接兩個(gè)字符串的各種方法。

def process(a,b):
  return ''.join([a,b])
 
 def process(a,b):
  return a+b
 
 def process(a,b):
  return f"{a}"
 
 def process(a,b):
  return f"{a}"*100

創(chuàng)建一個(gè)空DF，編寫一個(gè)函數(shù)將輸出%%timeit作為一行添加到數(shù)據(jù)框中

# add a row to the dataframe using %%timeit output
 def add_to_df(n, m, x, outputdf):
  outputdf.loc[len(outputdf.index)] = [m, n, x]
 
 # output frame
 outputdf = pd.DataFrame(columns=['method', 'n', 'timing'])
 outputdf

然后就是運(yùn)行上面的每個(gè)函數(shù)并將數(shù)據(jù)導(dǎo)出到pandas的代碼。

# get a sample of data
 n = 10000
 suffix = 'fstring_100x'
 data = basedata.copy().sample(n).reset_index()

記錄運(yùn)行時(shí)間

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row in range(len(data)):
  data.at[row ,'newcol'] = process(data.at[row, 'job'], data.at[row, 'company'])
 
 # 451 ms ± 34 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
 # <TimeitResult : 451 ms ± 34 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)>

完整的函數(shù)調(diào)用

m = "Iterating over the rows"
 add_to_df(n = n, m = m, x = vars(_), outputdf = outputdf)

試驗(yàn)

上面是代碼，下面開始用上面的代碼進(jìn)行試驗(yàn)：

Iterrows (pandas原生函數(shù))每行相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row, item in data.iterrows():
  data.at[row ,'newcol'] = process(item['job'], item['company'])

Itertuples(由于不可變而更安全)每行相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row, job, company in data[['job','company']].itertuples():
  data.at[row ,'newcol'] = process(job, company)

使用pandas原生函數(shù)作為字符串相加

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.job + data.company

使用原生函數(shù)pandas. series .add

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.job.add(data.company)

使用dataframe.apply

%%timeit -r 7 -n 1 -o
 data['newcol'] = data.apply(lambda row: process(row['job'],row['company']), axis=1)

使用List Map

%%timeit -r 7 -n 1 -o
 data['newcol'] = list(map(process, data.job, data.company))

Pandas矢量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = process(data.job, data.company)

numpy數(shù)組矢量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = process(data.job.to_numpy(), data.company.to_numpy())

顯式在numpy數(shù)組上使用numpy向量化

%%timeit -r 7 -n 1 -o
 data['newcol'] = np.vectorize(process)(data.job.to_numpy(), data.company.to_numpy())

優(yōu)化后的列表推導(dǎo)式

%%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 data['newcol'] =[process(i,j) for i,j in list(zip(data.job, data.company)) ]

最后是結(jié)果的輸出：

outputdf.to_csv(f"./drive/MyDrive/{n}_{suffix}.csv")

結(jié)果

結(jié)果如下所示。我用了上面3種不同函數(shù)測(cè)試了結(jié)果。

原生的字符串加法C = a+b

從1000行擴(kuò)展到100,000行所需的時(shí)間;

可視化對(duì)比：

所有矢量化方法都非?？欤襭andas標(biāo)準(zhǔn)的str.add對(duì)numpy數(shù)組也進(jìn)行了矢量化。能夠看到Pandas的原生方法一般都是線性的。List-map似乎以N的平方根的速度增長(zhǎng)

使用fstring: c = f " {a} "

使用fstring，結(jié)果很有趣，有的結(jié)果無法解釋。

時(shí)間

可視化

從時(shí)間上看，長(zhǎng)度超過10,000的DF時(shí)，向量化是正確執(zhí)行的

下圖是第三個(gè)函數(shù)，就是*100，這更能說明問題，向量化操作的基本上時(shí)間沒有變化

總結(jié)

通過上面的測(cè)試，我們可以總結(jié)一下結(jié)果：

1、還是老生常談的問題，不要使用iterrows()， itertuples()，盡量不要使用DataFrame.apply()，因?yàn)閹讉€(gè)函數(shù)還是循環(huán)遍歷的。

2、矢量化操作在字符串操作中也是可以使用的，但是為了安全起見，使用Numpy數(shù)組。

3、列表推導(dǎo)式就像它的名字一樣，它還是一個(gè)list

4、還有一些奇怪的無法解釋的問題，但是大部分的情況都是可以解釋的

責(zé)任編輯：華軒來源： DeepHub IMBA

Pandas 測(cè)試

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)