自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="ipm6m"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

向量化操作簡介和Pandas、Numpy示例

作者：佚名 2023-10-15 17:07:35

開發(fā) 前端

Pandas是一種流行的用于數(shù)據(jù)操作的Python庫，它提供了一種稱為“向量化”的強大技術(shù)可以有效地將操作應(yīng)用于整個列或數(shù)據(jù)系列，從而消除了顯式循環(huán)的需要。在本文中，我們將探討什么是向量化，以及它如何簡化數(shù)據(jù)分析任務(wù)。

Pandas是一種流行的用于數(shù)據(jù)操作的Python庫，它提供了一種稱為“向量化”的強大技術(shù)可以有效地將操作應(yīng)用于整個列或數(shù)據(jù)系列，從而消除了顯式循環(huán)的需要。在本文中，我們將探討什么是向量化，以及它如何簡化數(shù)據(jù)分析任務(wù)。

什么是向量化?

向量化是將操作應(yīng)用于整個數(shù)組或數(shù)據(jù)系列的過程，而不是逐個遍歷每個元素。在Pandas中可以對整個列或Series執(zhí)行操作，而無需編寫顯式循環(huán)。這種高效的方法利用了底層優(yōu)化的庫，使您的代碼更快、更簡潔。

向量化操作示例

1、基本算術(shù)運算

一個具有兩列的DataFrame， ' a '和' B '，我們希望以元素方式添加這兩列，并將結(jié)果存儲在新列' C '中。通過向量化，你可以在一行代碼中實現(xiàn)這一點:

import pandas as pd
 
 data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
 df = pd.DataFrame(data)
 # Using vectorization to add columns 'A' and 'B'
 df['C'] = df['A'] + df['B']
 print(df['C'])
 
 Output:
 0   5
 1   7
 2   9

在本例中，加法運算df['A'] + df['B']同時應(yīng)用于整個列'A'和'B'，結(jié)果存儲在列'C'中。

2、apply

向量化還允許對列應(yīng)用自定義函數(shù)。假設(shè)你想計算一列中每個元素的平方:

import pandas as pd
 
 data = {'A': [1, 2, 3]}
 df = pd.DataFrame(data)
 # Define a custom function
 def square(x):
    return x ** 2
 
 # Applying the 'square' function to the 'A' column
 df['A_squared'] = df['A'].apply(square)
 print(df['A_squared'])
 
 Output:
 0   1
 1   4
 2   9

使用.apply()將平方函數(shù)應(yīng)用于整個'A'列。不需要顯式循環(huán)。

3、條件操作

也將矢量化用于條件操作，比如基于列a中的條件創(chuàng)建一個新的列D:

import pandas as pd
 
 data = {'A': [1, 2, 3]}
 df = pd.DataFrame(data)
 
 # Creating a new column 'D' based on a condition in column 'A'
 df['D'] = df['A'].apply(lambda x: 'Even' if x % 2 == 0 else 'Odd')
 
 print(df)
 
 Output:
    A     D
 0 1   Odd
 1 2 Even
 2 3   Odd

使用lambda函數(shù)來檢查' a '中的每個元素是偶數(shù)還是奇數(shù)，并將結(jié)果分配給' D '列。

向量化的好處

在Pandas中向量化提供了幾個好處:

效率:操作針對性能進行了優(yōu)化，并且比傳統(tǒng)的基于循環(huán)的操作快得多，特別是在大型數(shù)據(jù)集上。
清晰度:與顯式循環(huán)的代碼相比，代碼通常更簡潔，更容易閱讀。
易用性:您可以使用一行代碼將操作應(yīng)用于整個行或列，降低了腳本的復(fù)雜性。
兼容性:Pandas與其他數(shù)據(jù)科學(xué)庫(如NumPy和scikit-learn)無縫集成，可以在數(shù)據(jù)分析和機器學(xué)習(xí)項目中有效地使用向量化數(shù)據(jù)。

向量化提高代碼的速度

向量化是一種強大的編程技術(shù)，可以加快代碼的執(zhí)行速度。這種方法利用底層優(yōu)化的硬件指令和庫，使計算更快、更高效。讓我們以Python和NumPy為例，探索向量化如何加快代碼的速度。

傳統(tǒng)的基于循環(huán)的處理

在許多編程場景中，可能需要對數(shù)據(jù)元素集合執(zhí)行相同的操作，例如逐個添加兩個數(shù)組或?qū)?shù)組的每個元素應(yīng)用數(shù)學(xué)函數(shù)。一般都會使用循環(huán)一次迭代一個元素并執(zhí)行操作。

下面是一個沒有向量化的Python示例:

list1 = [1, 2, 3, 4, 5]
 list2 = [6, 7, 8, 9, 10]
 result = []
 
 for i in range(len(list1)):
    result.append(list1[i] + list2[i])
 print(result)
 
 Output:
 [7, 9, 11, 13, 15]

雖然此代碼可以工作，但它在循環(huán)中單獨處理每個元素，這對于大型數(shù)據(jù)集來說可能很慢。

使用NumPy進行向量化操作

NumPy是一個流行的Python庫，提供對向量化操作的支持。它利用了優(yōu)化的C和Fortran庫，使其在數(shù)值計算方面比純Python循環(huán)快得多。

下面是使用NumPy的相同加法操作:

array1 = np.array([1, 2, 3, 4, 5])
 array2 = np.array([6, 7, 8, 9, 10])
 result = array1 + array2
 print(result)
 
 Output:
 [ 7 9 11 13 15]

NumPy可以一次對整個數(shù)組執(zhí)行操作，并且更有效地處理底層細節(jié)。

效率比較

比較一下使用NumPy和Python中傳統(tǒng)的基于循環(huán)的方法執(zhí)行元素加法所花費的時間。我們將使用timeit模塊來度量這兩個方法的執(zhí)行時間。下面是比較的代碼:

import numpy as np
 import timeit
 
 # Create two NumPy arrays and two lists for the comparison
 array1 = np.random.randint(1, 100, size=1000000)
 array2 = np.random.randint(1, 100, size=1000000)
 list1 = list(array1)
 list2 = list(array2)
 
 # Vectorized processing with NumPy
 def numpy_vectorized():
    result = array1 + array2
 
 # Traditional loop-based processing
 def loop_based():
    result = []
    for i in range(len(list1)):
        result.append(list1[i] + list2[i])
 
 # Measure execution time for NumPy vectorized approach
 numpy_time = timeit.timeit(numpy_vectorized, number=100)
 
 # Measure execution time for traditional loop-based approach
 loop_time = timeit.timeit(loop_based, number=100)
 
 print(f"NumPy Vectorized Approach: {numpy_time:.5f} seconds")
 print(f"Traditional Loop-Based Approach: {loop_time:.5f} seconds")
 
 
 Output:
 NumPy Vectorized Approach: 0.30273 seconds
 Traditional Loop-Based Approach: 17.91837 seconds

可以看到NumPy向量化方法對于大數(shù)據(jù)集的速度要快得多，因為它的矢量化操作是經(jīng)過優(yōu)化的。

向量化加速代碼的原理

向量化為加快代碼速度提供了幾個優(yōu)勢:

減少循環(huán)開銷:在傳統(tǒng)循環(huán)中，存在與管理循環(huán)索引和檢查循環(huán)條件相關(guān)的開銷。通過向量化，可以消除這些開銷，因為這些操作應(yīng)用于整個數(shù)組。

優(yōu)化的低級指令:像NumPy這樣的庫使用優(yōu)化的低級指令(例如，現(xiàn)代cpu上的SIMD指令)來對數(shù)組執(zhí)行操作，充分利用硬件功能。這可以顯著提高速度。

并行性:一些向量化操作可以并行化，這意味著現(xiàn)代處理器可以同時執(zhí)行多個操作。這種并行性進一步加快了計算速度。

總結(jié)

Pandas和NumPy等庫中的向量化是一種強大的技術(shù)，可以提高Python中數(shù)據(jù)操作任務(wù)的效率?？梢砸愿叨葍?yōu)化的方式對整個列或數(shù)據(jù)集合執(zhí)行操作，從而生成更快、更簡潔的代碼。所以無論是在處理基本算術(shù)、自定義函數(shù)還是條件操作，利用向量化都可以極大地改進數(shù)據(jù)分析工作流。

責任編輯：華軒來源： DeepHub IMBA

Pandas Python庫

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<sub id="vhrky"></sub>}

<sub id="vhrky"><p id="vhrky"><li id="vhrky"></li></p></sub>