自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

python中使用矢量化替換循環(huán)

作者：夢(mèng)回丶故里 2023-01-06 23:21:45

開(kāi)發(fā) 前端

矢量化是在數(shù)據(jù)集上實(shí)現(xiàn) (NumPy) 數(shù)組操作的技術(shù)。在后臺(tái)，它將操作一次性應(yīng)用于數(shù)組或系列的所有元素（不同于一次操作一行的“for”循環(huán)）。

所有編程語(yǔ)言都離不開(kāi)循環(huán)。因此，默認(rèn)情況下，只要有重復(fù)操作，我們就會(huì)開(kāi)始執(zhí)行循環(huán)。但是當(dāng)我們處理大量迭代（數(shù)百萬(wàn)/十億行）時(shí)，使用循環(huán)是一種犯罪。您可能會(huì)被困幾個(gè)小時(shí)，后來(lái)才意識(shí)到它行不通。這就是在 python 中實(shí)現(xiàn)矢量化變得非常關(guān)鍵的地方。

什么是矢量化？

矢量化是在數(shù)據(jù)集上實(shí)現(xiàn) (NumPy) 數(shù)組操作的技術(shù)。在后臺(tái)，它將操作一次性應(yīng)用于數(shù)組或系列的所有元素（不同于一次操作一行的“for”循環(huán)）。

接下來(lái)我們使用一些用例來(lái)演示什么是矢量化。

求數(shù)字之和

##使用循環(huán)
import time 
start = time.time()

 
# iterative sum
total = 0
# iterating through 1.5 Million numbers
for item in range(0, 1500000):
    total = total + item


print('sum is:' + str(total))
end = time.time()

print(end - start)

#1124999250000
#0.14 Seconds

## 使用矢量化
import numpy as np

start = time.time()

# vectorized sum - using numpy for vectorization
# np.arange create the sequence of numbers from 0 to 1499999
print(np.sum(np.arange(1500000)))

end = time.time()

print(end - start)


##1124999250000
##0.008 Seconds

與使用范圍函數(shù)的迭代相比，矢量化的執(zhí)行時(shí)間減少了約 18 倍。在使用 Pandas DataFrame 時(shí)，這種差異將變得更加顯著。

數(shù)學(xué)運(yùn)算

在數(shù)據(jù)科學(xué)中，在使用 Pandas DataFrame 時(shí)，開(kāi)發(fā)人員使用循環(huán)通過(guò)數(shù)學(xué)運(yùn)算創(chuàng)建新的派生列。

在下面的示例中，我們可以看到對(duì)于此類用例，用矢量化替換循環(huán)是多么容易。

DataFrame 是行和列形式的表格數(shù)據(jù)。

我們創(chuàng)建一個(gè)具有 500 萬(wàn)行和 4 列的 pandas DataFrame，其中填充了 0 到 50 之間的隨機(jī)值。

import numpy as np 
import pandas as pd 
df = pd.DataFrame(np.random.randint( 0 , 50 , size=( 5000000 , 4 )), columns=( 'a' , 'b' , 'c' , 'd ' )) 
df.shape 
# (5000000, 5)
 df.head()

創(chuàng)建一個(gè)新列“ratio”來(lái)查找列“d”和“c”的比率。

## 循環(huán)遍歷
import time 
start = time.time() 

# 使用 iterrows 遍歷 DataFrame 
for idx, row in df.iterrows(): 
    # 創(chuàng)建一個(gè)新列
    df.at[idx, 'ratio' ] = 100 * (row[ "d" ] / row[ "c" ])   
end = time.time() 
print (end - start) 
### 109 秒

## 使用矢量化
start = time.time() 
df[ "ratio" ] = 100 * (df[ "d" ] / df[ "c" ]) 

end = time.time() 
print (end - start) 
### 0.12 秒

我們可以看到 DataFrame 的顯著改進(jìn)，與Python 中的循環(huán)相比，矢量化操作所花費(fèi)的時(shí)間幾乎快 1000 倍。

If-else 語(yǔ)句

我們實(shí)現(xiàn)了很多需要我們使用“If-else”類型邏輯的操作。我們可以輕松地將這些邏輯替換為 python 中的矢量化操作。

讓我們看下面的例子來(lái)更好地理解它（我們將使用我們?cè)谟美?2 中創(chuàng)建的 DataFrame）：

想象一下，我們要根據(jù)現(xiàn)有列“a”上的某些條件創(chuàng)建一個(gè)新列“e”

## 使用循環(huán)
import time 
start = time.time() 

# 使用 iterrows 遍歷 DataFrame 
for idx, row in df.iterrows(): 
    if row.a == 0 : 
        df.at[idx, 'e' ] = row.d     
    elif ( row.a <= 25 ) & (row.a > 0 ): 
        df.at[idx, 'e' ] = (row.b)-(row.c)     
    else : 
        df.at[idx, 'e' ] = row.b + row.c 

end = time.time() 

print (end - start) 
### 耗時(shí)：166 秒

## 矢量化
start = time.time() 
df[ 'e' ] = df[ 'b' ] + df[ 'c' ] 
df.loc[df[ 'a' ] <= 25 , 'e' ] = df [ 'b' ] -df[ 'c' ] 
df.loc[df[ 'a' ]== 0 , 'e' ] = df[ 'd' ]end = time.time()
打?。ńY(jié)束 - 開(kāi)始）
## 0.29007707595825195 秒

與使用 if-else 語(yǔ)句的 python 循環(huán)相比，向量化操作所花費(fèi)的時(shí)間快 600 倍。

解決機(jī)器學(xué)習(xí)/深度學(xué)習(xí)網(wǎng)絡(luò)

深度學(xué)習(xí)要求我們解決多個(gè)復(fù)雜的方程式，而且需要解決數(shù)百萬(wàn)和數(shù)十億行的問(wèn)題。在 Python 中運(yùn)行循環(huán)來(lái)求解這些方程式非常慢，矢量化是最佳解決方案。

例如，計(jì)算以下多元線性回歸方程中數(shù)百萬(wàn)行的 y 值：

我們可以用矢量化代替循環(huán)。

m1、m2、m3……的值是通過(guò)使用與 x1、x2、x3……對(duì)應(yīng)的數(shù)百萬(wàn)個(gè)值求解上述等式來(lái)確定的

import numpy as np 
# 設(shè)置 m 的初始值
m = np.random.rand( 1 , 5 ) 

# 500 萬(wàn)行的輸入值
x = np.random.rand( 5000000 , 5 )

## 使用循環(huán)
import numpy as np
m = np.random.rand(1,5)
x = np.random.rand(5000000,5)

total = 0
tic = time.process_time()

for i in range(0,5000000):
    total = 0
    for j in range(0,5):
        total = total + x[i][j]*m[0][j] 
        
    zer[i] = total 

toc = time.process_time()
print ("Computation time = "+ str ((toc - tic)) + "seconds" ) 

####計(jì)算時(shí)間 = 27.02 秒

## 矢量化
tic = time.process_time() 

#dot product
np.dot(x,mT) 

toc = time.process_time() 
print ( "計(jì)算時(shí)間 = " + str ((toc - tic)) + "seconds" ) 

####計(jì)算時(shí)間 = 0.107 秒

np.dot 在后端實(shí)現(xiàn)向量化矩陣乘法。與 Python 中的循環(huán)相比，它快 165 倍。

結(jié)論

python 中的矢量化速度非?？欤瑹o(wú)論何時(shí)我們處理非常大的數(shù)據(jù)集，都應(yīng)該優(yōu)先于循環(huán)。

隨著時(shí)間的推移開(kāi)始實(shí)施它，您將習(xí)慣于按照代碼的矢量化思路進(jìn)行思考。

責(zé)任編輯：武曉燕來(lái)源：程序那些事兒

python中替換循環(huán)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)