速度起飛!替代 pandas 的八個(gè)神庫(kù)
大家好,
之前介紹過(guò)不少關(guān)于pandas性能加速的技巧,但這些技巧再厲害,整體運(yùn)行速度方面也會(huì)遇到瓶頸。
本篇介紹 8 個(gè)可以替代pandas的庫(kù),在加速技巧之上,再次打開(kāi)速度瓶頸,大大提升數(shù)據(jù)處理的效率。
1. Dask
Dask在大于內(nèi)存的數(shù)據(jù)集上提供多核和分布式并行執(zhí)行。
在Dask中,一個(gè)DataFrame是一個(gè)大型且并行的DataFrame,由許多較小的 pandas DataFrames組成,沿索引拆分。
這些 pandas DataFrames 可以存在于單個(gè)機(jī)器上的磁盤中計(jì)算遠(yuǎn)超于內(nèi)存的計(jì)算,或者存在集群中的很多不同機(jī)器上完成。一個(gè) Dask DataFrame 操作會(huì)觸發(fā)所有 Pandas DataFrames 的操作。
Dask-ML支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等,對(duì)于常用的數(shù)據(jù)處理、建模分析是完全夠用的。
# 安裝dask
pip install dask
# 導(dǎo)入dask dataframe
import dask.dataframe as dd
原理、使用可參考這篇:??安利一個(gè)Python大數(shù)據(jù)分析神器Dask??!
2. Modin
Modin是一個(gè)多進(jìn)程的Dataframe庫(kù),可以加速Pandas的工作流程。多進(jìn)程意味著,如果在多核的計(jì)算機(jī)上查詢速度就會(huì)成倍的提升。
Modin具有與pandas相同的API,使用上只需在import導(dǎo)入時(shí)修改一下,其余操作一模一樣。
# 導(dǎo)入 modin pandas
import modin.pandas as pd
原理、安裝、使用可參考這篇:??pandas慢怎么辦?來(lái)試試Modin???
3. Data Table
Datatable是一個(gè)用于處理表格數(shù)據(jù)的 Python 庫(kù)。
與pandas的使用上很類似,但更側(cè)重于速度和大數(shù)據(jù)的支持。在單節(jié)點(diǎn)的機(jī)器上,無(wú)論是讀取數(shù)據(jù),還是數(shù)據(jù)轉(zhuǎn)換等操作,速度均遠(yuǎn)勝于pandas。
如果不是分布式而是單節(jié)點(diǎn)處理數(shù)據(jù),遇到內(nèi)存不夠或者速度慢,也不妨試試這個(gè)庫(kù)。
- 使用文檔:https://datatable.readthedocs.io/en/latest/start/quick-start.html
4. Polars
Polars是使用 Apache Arrow Columnar Format 作為內(nèi)存模型在 Rust 中實(shí)現(xiàn)的速度極快的 DataFrames 庫(kù)。
# 安裝 polars
pip install polars
# 導(dǎo)入 polars
import polars as pl
- 使用文檔:https://pola-rs.github.io/polars-book/user-guide/index.html
5. Vaex
Vaex 也是一個(gè)開(kāi)源的 DataFrame,它采用內(nèi)存映射、高效的核外算法和延遲計(jì)算等技術(shù)。
對(duì)于大數(shù)據(jù)集而言,只要磁盤空間可以裝下數(shù)據(jù)集,使用Vaex就可以對(duì)其進(jìn)行分析,解決內(nèi)存不足的問(wèn)題。
它的各種功能函數(shù)也都封裝為類 Pandas 的 API,幾乎沒(méi)有學(xué)習(xí)成本。
可參考這篇文章:??0.052 秒打開(kāi) 100GB 數(shù)據(jù),這個(gè)Python開(kāi)源庫(kù)火爆了??!
6. Pyspark
Pyspark 是 Apache Spark 的 Python API,通過(guò)分布式計(jì)算處理大型數(shù)據(jù)集。
# 安裝
pip install pyspark
# 導(dǎo)入
from pyspark.sql import SparkSession, functions as f
spark = SparkSession.builder.appName("SimpleApp").getOrCreate()
df = spark.read.option('header', True).csv('../input/yellow-new-yo
由于spark在速度上較hadoop更有優(yōu)勢(shì),現(xiàn)在很多企業(yè)的大數(shù)據(jù)架構(gòu)都會(huì)選擇使用spark。
7. Koalas
Koalas 是在 Apache Spark 之上實(shí)現(xiàn) 的pandas DataFrame API,讓數(shù)據(jù)分析更高效。
由于 Koalas 是在 Apache Spark 之上運(yùn)行的,因此還必須安裝 Spark。
# 安裝
pip install pyspark
pip install koalas
# 導(dǎo)入
import databricks.koalas as ks
from pyspark.sql import SparkSession
- 使用文檔:https://koalas.readthedocs.io/en/latest/index.html
8. cuDF
cuDF 是一個(gè) Python GPU DataFrame 庫(kù),基于 Apache Arrow 列式內(nèi)存格式構(gòu)建,用于數(shù)據(jù)操作。
cuDF 提供類 pandas 的 API,因此數(shù)據(jù)分析師也是無(wú)需了解 CUDA 編程細(xì)節(jié)的。
import cudf, io, requests
from io import StringIO
url = "https://github.com/plotly/datasets/raw/master/tips.csv"
content = requests.get(url).content.decode('utf-8')
tips_df = cudf.read_csv(StringIO(content))
tips_df['tip_percentage'] = tips_df['tip'] / tips_df['total_bill'] * 100
print(tips_df.groupby('size').tip_percentage.mean())
- 使用文檔:https://github.com/rapidsai/cudf
本篇介紹的 8 個(gè)Python庫(kù)原理不同,使用環(huán)境也有差異,大家可以根據(jù)自己的需求進(jìn)行嘗試。
但這些庫(kù)基本上都提供了類pandas的API,因此在使用上沒(méi)有什么學(xué)習(xí)成本,只要配置好環(huán)境就可以上手操作了。