四個解決特定的任務(wù)的Pandas高效代碼
在本文中,我將分享4個在一行代碼中完成的Pandas操作。這些操作可以有效地解決特定的任務(wù),并以一種好的方式給出結(jié)果。
從列表中創(chuàng)建字典
我有一份商品清單,我想看看它們的分布情況。更具體地說:希望得到唯一值以及它們在列表中出現(xiàn)的次數(shù)。
Python字典是以這種格式存儲數(shù)據(jù)的好方法。鍵將是字典,值是出現(xiàn)的次數(shù)。
這里可以使用value_counts和to_dict函數(shù),這項任務(wù)可以在一行代碼中完成。
這里有一個簡單的例子來說明這種情況:
import pandas as pd
grades = ["A", "A", "B", "B", "A", "C", "A", "B", "C", "A"]
pd.Series(grades).value_counts().to_dict()
# output
{'A': 5, 'B': 3, 'C': 2}
將列表轉(zhuǎn)換為Pandas Series,這是Pandas的一維數(shù)據(jù)結(jié)構(gòu),然后應(yīng)用value_counts函數(shù)來獲得在Series中出現(xiàn)頻率的唯一值,最后將輸出轉(zhuǎn)換為字典。這個操作非常高效且易于理解。
從JSON文件創(chuàng)建DataFrame
JSON是一種常用的存儲和傳遞數(shù)據(jù)的文件格式。
當(dāng)我們清理、處理或分析數(shù)據(jù)時,我們通常更喜歡使用表格格式(或類似表格的數(shù)據(jù))。由于json_normalize函數(shù),我們可以通過一個操作從json格式的對象創(chuàng)建Pandas DataFrame。
假設(shè)數(shù)據(jù)存儲在一個名為data的JSON文件中。一般情況我們都是這樣讀取:
import json
with open("data.json") as f:
data = json.load(f)
data
# output
{'data': [{'id': 101,
'category': {'level_1': 'code design', 'level_2': 'method design'},
'priority': 9},
{'id': 102,
'category': {'level_1': 'error handling', 'level_2': 'exception logging'},
'priority': 8}]}
如果我們將這個變量傳遞給DataFrame構(gòu)造函數(shù),它將創(chuàng)建如下的DataFrame,這絕對不是一個可用的格式:
df = pd.DataFrame(data)
但是如果我們使用json_normalize函數(shù)將得到一個整潔的DataFrame格式:
df = pd.json_normalize(data, "data")
Explode函數(shù)
如果有一個與特定記錄匹配的項列表。需要重新格式化它,為該列表中的每個項目提供單獨(dú)的行。
這是一個經(jīng)典的行分割成列的問題。有許多的不同的方法來解決這個任務(wù)。其中最簡單的一個(可能是最簡單的)是Explode函數(shù)。
我們以這個df為例
使用explosion函數(shù)并指定列名:
df_new = df.explode(column="data").reset_index(drop=True)
reset_index會為DataFrame分配一個新的整數(shù)索引。
combine_first函數(shù)
combine_first函數(shù)用于合并兩個具有相同索引的數(shù)據(jù)結(jié)構(gòu)。
它最主要的用途是用一個對象的非缺失值填充另一個對象的缺失值。這個函數(shù)通常在處理缺失數(shù)據(jù)時很有用。在這方面,它的作用與SQL中的COALESCE函數(shù)相同。
df = pd.DataFrame(
{
"A": [None, 0, 12, 5, None],
"B": [3, 4, 1, None, 11]
}
)
我們需要a列中的數(shù)據(jù)。如果有一行缺少值(即NaN),用B列中同一行的值填充它。
df["A"].combine_first(df["B"])
# output
0 3.0
1 0.0
2 12.0
3 5.0
4 11.0
Name: A, dtype: float64
可以看到的列A的第一行和最后一行取自列B。
如果我們想要使用3列,我們可以鏈接combine_first函數(shù)。下面的代碼行首先檢查列a。如果有一個缺失的值,它從列B中獲取它。如果列B中對應(yīng)的行也是NaN,那么它從列C中獲取值。
df["A"].combine_first(df["B"]).combine_first(df["C"])
我們還可以在DataFrame級別使用combine_first函數(shù)。在這種情況下,所有缺失的值都從第二個DataFrame的相應(yīng)值(即同一行,同列)中填充。
df1 = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}, index=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame({'A': [10, np.nan, 30, 40], 'B': [50, 60, np.nan, 80]}, index=['a', 'b', 'c', 'd'])
result_df = df1.combine_first(df2)
在合并的過程中,df1 中的非缺失值填充了 df2 中對應(yīng)位置的缺失值。這有助于處理兩個數(shù)據(jù)集合并時的缺失值情況。
Merged DataFrame:
A B
a 1.0 5.0
b 2.0 60.0
c 30.0 7.0
d 4.0 8.0
總結(jié)
從計算簡單的統(tǒng)計數(shù)據(jù)到高度復(fù)雜的數(shù)據(jù)清理過程,Pandas都可以快速解決任務(wù)。上面的代碼可能不會經(jīng)常使用,但是當(dāng)你需要處理這種任務(wù)時,它們是非常好的解決辦法。