如何在Pandas中實現(xiàn)類似于SQL查詢的數(shù)據(jù)操作?
介紹
SQL 的神奇之處在于其易于學(xué)習(xí),而它之所以如此容易學(xué)習(xí)的原因主要是代碼語法非常直觀。
但是,與SQL相比,Pandas 就不那么直觀了,尤其是在我們先用的是SQL,再轉(zhuǎn)向 Pandas 時,這種感覺尤為強烈。
那么,我們是不是應(yīng)該思考在 SQL 中進(jìn)行的數(shù)據(jù)操作,能不能在 Pandas 實現(xiàn)?
基于以上目標(biāo),本文可以作為一個在Pandas中編寫SQL查詢的指南。
目錄
- 選擇行
- 組合表格
- 篩選表
- 排序值
- 聚合函數(shù)
1. 選擇行
SELECT * FROM
如果要選擇整個表,只需調(diào)用表的名稱:
- # SQL
- SELECT * FROM table_df
- # Pandas
- table_df
SELECT a, b FROM
如果要從表中選擇特定列,請在雙括號中列出要的列:
- # SQL
- SELECT column_a, column_b FROM table_df
- # Pandas
- table_df[['column_a', 'column_b']]
SELECT DISTINCT
只需使用 .drop\u duplicates()即可獲得不同的值:
- # SQL
- SELECT DISTINCT column_a FROM table_df
- # Pandas
- table_df['column_a'].drop_duplicates()
SELECT a as b
如果要重命名列,請使用 .rename():
- # SQL
- SELECT column_a as Apple, column_b as Banana FROM table_df
- # Pandas
- table_df[['column_a', 'column_b']].rename(columns={'column_a':
- 'Apple', 'column_b':'Banana'})
SELECT CASE WHEN
對于"SELECT CASE WHEN"的等效項,可以使用 np.select(), 其中首先指定每個選項的選擇和值。
- # SQL
- SELECT CASE WHEN column_a > 30 THEN "Large"
- WHEN column_a <= 30 THEN "Small"
- END AS Size
- FROM table_df
- # Pandas
- conditions = [table_df['column_a']>30, table_df['column_b']<=30]
- choices = ['Large', 'Small']
- table_df['Size'] = np.select(conditions, choices)
2. 組合表格
INNER/LEFT/RIGHT JOIN
只需使用 .merge()來連接表,就可以使用“how”參數(shù)指定它是 LEFT、RIGHT、 INNER 或者 OUTER聯(lián)接。
- # SQL
- SELECT * FROM table_1 t1
- LEFT JOIN table_2 t1 on t1.lkey = t2.rkey
- # Pandas
- table_1.merge(table_2, left_on='lkey', right_on='rkey', how='left')
UNION ALL
只需使用 pd.concat():
- # SQL
- SELECT * FROM table_1
- UNION ALL
- SELECT * FROM table_2
- # Pandas
- final_table = pd.concat([table_1, table_2])
3. 篩選表
SELECT WHERE
在篩選數(shù)據(jù)幀時,與在 SQL 中使用 WHERE 子句的方式相同時,只需在方括號中定義條件:
- # SQL
- SELECT * FROM table_df WHERE column_a = 1
- # Pandas
- table_df[table_df['column_a'] == 1]
SELECT column_a WHERE column_b
如果要從表中選擇某個列并篩選其他列,請按照以下格式操作:
- # SQL
- SELECT column_a FROM table_df WHERE column_b = 1
- # Pandas
- table_df[table_df['column_b']==1]['column_a']
SELECT WHERE AND
如果要按多個條件進(jìn)行篩選,只需將每個條件換在括號中,并使用"&"分隔每個條件。
- # SQL
- SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2
- # Pandas
- table_df[(table_df['column_a']==1) & (table_df['column_b']==2)]
SELECT WHERE LIKE
SQL 中的 LIKE 等效項是 .str.contains()。如果要應(yīng)用大小寫不敏感,只需在參數(shù)中添加 case=False。
- # SQL
- SELECT * FROM table_df WHERE column_a LIKE '%ball%'
- # Pandas
- table_df[table_df['column_a'].str.contains('ball')]
SELECT WHERE column IN()
SQL 中 IN() 的等效項為 .isin()。
- # SQL
- SELECT * FROM table_df WHERE column_a IN('Canada', 'USA')
- # Pandas
- table_df[table_df['column_a'].isin(['Canada', 'USA'])]
4.排序值
ORDER BY one column
在SQL中,ORDER BY 的等同于 .sort_values()。使用 'ascending' 參數(shù)指定是按升序還是降序?qū)χ蹬判?,默認(rèn)值與 SQL 一樣升序。
- # SQL
- SELECT * FROM table_df ORDER BY column_a DESC
- # Pandas
- table_df.sort_values('column_a', ascending=False)
ORDER BY multiple columns
如果要按多個列排序,可以列出括號中的列,并在括號中的 “ascending” 參數(shù)中指定排序方向。請確保遵循列出的列的相應(yīng)順序。
- # SQL
- SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC
- # Pandas
- table_df.sort_values(['column_a', 'column_b'], ascending=[False, True])
5.聚合函數(shù)
COUNT DISTINCT
聚合函數(shù)有一個通用模式。
要復(fù)制 COUNT DISTINCT,只需使用 .groupby()和.nunique()。
- # SQL
- SELECT column_a, COUNT DISTINCT(ID)
- FROM table_df
- GROUP BY column_a
- # Pandas
- table_df.groupby('column_a')['ID'].nunique()
SUM
- # SQL
- SELECT column_a, SUM(revenue)
- FROM table_df
- GROUP BY column_a
- # Pandas
- table_df.groupby(['column_a', 'revenue']).sum()
AVG
- # SQL
- SELECT column_a, AVG(revenue)
- FROM table_df
- GROUP BY column_a
- # Pandas
- table_df.groupby('column_a')['revenue'].mean()
總結(jié)
Pandas無疑是一個強大的Python數(shù)據(jù)分析庫,但是它也不是無所不能,對于某些操作并不具體和方便。
以上的操作可以幫助大家更好地在Pandas中實現(xiàn)一些SQL查詢的實用操作,大家趕緊玩起來~