自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何在Pandas中實現(xiàn)類似于SQL查詢的數(shù)據(jù)操作?

數(shù)據(jù)庫 SQL Server
SQL 的神奇之處在于其易于學(xué)習(xí),而它之所以如此容易學(xué)習(xí)的原因主要是代碼語法非常直觀。

 介紹

SQL 的神奇之處在于其易于學(xué)習(xí),而它之所以如此容易學(xué)習(xí)的原因主要是代碼語法非常直觀。

[[353102]]

 

但是,與SQL相比,Pandas 就不那么直觀了,尤其是在我們先用的是SQL,再轉(zhuǎn)向 Pandas 時,這種感覺尤為強烈。

那么,我們是不是應(yīng)該思考在 SQL 中進(jìn)行的數(shù)據(jù)操作,能不能在 Pandas 實現(xiàn)?

基于以上目標(biāo),本文可以作為一個在Pandas中編寫SQL查詢的指南。

 

目錄

  • 選擇行
  • 組合表格
  • 篩選表
  • 排序值
  • 聚合函數(shù)

1. 選擇行

SELECT * FROM

如果要選擇整個表,只需調(diào)用表的名稱:

  1. # SQL 
  2. SELECT * FROM table_df 
  3.  
  4. # Pandas 
  5. table_df 

SELECT a, b FROM

如果要從表中選擇特定列,請在雙括號中列出要的列:

 

  1. # SQL 
  2. SELECT column_a, column_b FROM table_df 
  3.  
  4. # Pandas 
  5. table_df[['column_a''column_b']] 

 

SELECT DISTINCT

只需使用 .drop\u duplicates()即可獲得不同的值:

 

  1. # SQL 
  2. SELECT DISTINCT column_a FROM table_df 
  3.  
  4. # Pandas 
  5. table_df['column_a'].drop_duplicates() 

 

SELECT a as b

如果要重命名列,請使用 .rename():

 

  1. # SQL 
  2. SELECT column_a as Apple, column_b as Banana FROM table_df 
  3.  
  4. # Pandas 
  5. table_df[['column_a''column_b']].rename(columns={'column_a'
  6. 'Apple''column_b':'Banana'}) 

 

SELECT CASE WHEN

對于"SELECT CASE WHEN"的等效項,可以使用 np.select(), 其中首先指定每個選項的選擇和值。

 

  1. # SQL 
  2. SELECT CASE WHEN column_a > 30 THEN "Large" 
  3.             WHEN column_a <= 30 THEN "Small" 
  4.             END AS Size 
  5. FROM table_df 
  6.  
  7. # Pandas 
  8. conditions = [table_df['column_a']>30, table_df['column_b']<=30] 
  9. choices = ['Large''Small'
  10. table_df['Size'] = np.select(conditions, choices) 

2. 組合表格

INNER/LEFT/RIGHT JOIN

 

只需使用 .merge()來連接表,就可以使用“how”參數(shù)指定它是 LEFT、RIGHT、 INNER 或者 OUTER聯(lián)接。

 

  1. # SQL 
  2. SELECT * FROM table_1 t1 
  3.          LEFT JOIN table_2 t1 on t1.lkey = t2.rkey  
  4.  
  5. # Pandas 
  6. table_1.merge(table_2, left_on='lkey', right_on='rkey', how='left'

 

UNION ALL

只需使用 pd.concat():

 

  1. # SQL 
  2. SELECT * FROM table_1 
  3. UNION ALL 
  4. SELECT * FROM table_2 
  5.  
  6. # Pandas 
  7. final_table = pd.concat([table_1, table_2])  

3. 篩選表

SELECT WHERE

在篩選數(shù)據(jù)幀時,與在 SQL 中使用 WHERE 子句的方式相同時,只需在方括號中定義條件:

 

  1. # SQL 
  2. SELECT * FROM table_df WHERE column_a = 1 
  3.  
  4. # Pandas 
  5. table_df[table_df['column_a'] == 1] 

 

SELECT column_a WHERE column_b

如果要從表中選擇某個列并篩選其他列,請按照以下格式操作:

 

  1. # SQL 
  2. SELECT column_a FROM table_df WHERE column_b = 1 
  3.  
  4. # Pandas 
  5. table_df[table_df['column_b']==1]['column_a'

 

SELECT WHERE AND

如果要按多個條件進(jìn)行篩選,只需將每個條件換在括號中,并使用"&"分隔每個條件。

 

  1. # SQL 
  2. SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2 
  3.  
  4. # Pandas 
  5. table_df[(table_df['column_a']==1) & (table_df['column_b']==2)] 

 

SELECT WHERE LIKE

SQL 中的 LIKE 等效項是 .str.contains()。如果要應(yīng)用大小寫不敏感,只需在參數(shù)中添加 case=False。

 

  1. # SQL 
  2. SELECT * FROM table_df WHERE column_a LIKE '%ball%' 
  3.  
  4. # Pandas 
  5. table_df[table_df['column_a'].str.contains('ball')] 

 

SELECT WHERE column IN()

SQL 中 IN() 的等效項為 .isin()。

 

  1. # SQL 
  2. SELECT * FROM table_df WHERE column_a IN('Canada''USA'
  3.  
  4. # Pandas 
  5. table_df[table_df['column_a'].isin(['Canada''USA'])] 

 

4.排序值

ORDER BY one column

在SQL中,ORDER BY 的等同于 .sort_values()。使用 'ascending' 參數(shù)指定是按升序還是降序?qū)χ蹬判?,默認(rèn)值與 SQL 一樣升序。

 

  1. # SQL 
  2. SELECT * FROM table_df ORDER BY column_a DESC 
  3.  
  4. # Pandas 
  5. table_df.sort_values('column_a', ascending=False

 

ORDER BY multiple columns

如果要按多個列排序,可以列出括號中的列,并在括號中的 “ascending” 參數(shù)中指定排序方向。請確保遵循列出的列的相應(yīng)順序。

  1. # SQL 
  2. SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC 
  3.  
  4. # Pandas 
  5. table_df.sort_values(['column_a''column_b'], ascending=[FalseTrue]) 

5.聚合函數(shù)

COUNT DISTINCT

聚合函數(shù)有一個通用模式。

要復(fù)制 COUNT DISTINCT,只需使用 .groupby()和.nunique()。

 

  1. # SQL 
  2. SELECT column_a, COUNT DISTINCT(ID)  
  3. FROM table_df 
  4. GROUP BY column_a 
  5.  
  6. # Pandas 
  7. table_df.groupby('column_a')['ID'].nunique() 

 

SUM

 

  1. # SQL 
  2. SELECT column_a, SUM(revenue)  
  3. FROM table_df 
  4. GROUP BY column_a  
  5.  
  6. # Pandas 
  7. table_df.groupby(['column_a''revenue']).sum() 

 

AVG

 

  1. # SQL 
  2. SELECT column_a, AVG(revenue)  
  3. FROM table_df 
  4. GROUP BY column_a 
  5.  
  6. # Pandas 
  7. table_df.groupby('column_a')['revenue'].mean() 

 

總結(jié)

Pandas無疑是一個強大的Python數(shù)據(jù)分析庫,但是它也不是無所不能,對于某些操作并不具體和方便。

以上的操作可以幫助大家更好地在Pandas中實現(xiàn)一些SQL查詢的實用操作,大家趕緊玩起來~

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2017-09-01 15:42:00

MySQLOracledblink功能

2020-08-17 14:56:02

PythonSQL

2010-01-27 10:09:14

2012-05-22 09:21:10

數(shù)據(jù)中心PUEFacebook數(shù)據(jù)中

2012-05-21 14:36:18

Facebook開源

2018-12-25 16:30:15

SQL Server高效分頁數(shù)據(jù)庫

2015-03-10 14:41:56

AppStudio

2021-04-09 23:00:12

SQL數(shù)據(jù)庫Pandas

2023-10-29 15:14:22

人工智能鴿子

2021-08-12 08:00:00

Pandas數(shù)據(jù)分析SQL

2021-06-08 09:18:54

SQLPandas數(shù)據(jù)透視表

2024-02-20 09:54:20

MySQL數(shù)據(jù)庫

2021-06-10 14:14:50

Windows命名微軟

2010-02-03 09:15:09

Linux XDMCP

2015-01-21 15:50:55

Android源碼全國城市列表

2024-11-26 08:00:00

SQLPandasPandaSQL

2022-07-12 07:33:47

ES類似連表查詢

2020-06-02 14:08:55

Python的數(shù)據(jù)操作

2022-06-22 09:56:19

PythonMySQL數(shù)據(jù)庫

2021-03-10 09:12:22

SysMonTaskWindowsLinux
點贊
收藏

51CTO技術(shù)棧公眾號