自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何查詢你的Pandas數(shù)據(jù)幀?

譯文
數(shù)據(jù)庫(kù) 后端
無(wú)論您從數(shù)據(jù)工程師/數(shù)據(jù)分析師轉(zhuǎn)型而來(lái),還是想成為更高效的數(shù)據(jù)科學(xué)家,查詢數(shù)據(jù)幀都是返回所需特定行的一種很有用的方法。值得一提的是,pandas有一個(gè)特定的查詢函數(shù),名為query。

 [[416996]]

【51CTO.com快譯】引言

無(wú)論您從數(shù)據(jù)工程師/數(shù)據(jù)分析師轉(zhuǎn)型而來(lái),還是想成為更高效的數(shù)據(jù)科學(xué)家,查詢數(shù)據(jù)幀都是返回所需特定行的一種很有用的方法。值得一提的是,pandas有一個(gè)特定的查詢函數(shù),名為query。不過(guò),我將討論您可以模擬查詢、過(guò)濾和合并數(shù)據(jù)的其他方式。我們將介紹您對(duì)數(shù)據(jù)提出的常見(jiàn)場(chǎng)景或問(wèn)題,將使用Python而不是SQL來(lái)完成。在下面,我將概述使用Python編程語(yǔ)言針對(duì)Pandas數(shù)據(jù)幀查詢行的幾個(gè)簡(jiǎn)單方法。

多個(gè)條件

圖1. 示例數(shù)據(jù)

作為數(shù)據(jù)科學(xué)家或數(shù)據(jù)分析師,我們希望返回?cái)?shù)據(jù)的特定行。其中一個(gè)場(chǎng)景是您希望在同一行代碼中運(yùn)用多個(gè)條件。為了展示例子,我創(chuàng)建了名和姓的幾個(gè)虛假的示例數(shù)據(jù),以及他們各自的性別和生日。該數(shù)據(jù)顯示在上面的屏幕截圖中。

示例多個(gè)條件本質(zhì)上將回答一個(gè)特定的問(wèn)題,就像您使用SQL時(shí)一樣。問(wèn)題是,我們的數(shù)據(jù)中有多少比例的數(shù)據(jù)是男性或出生于2010年至2021年之間的人。

下面是將解決這個(gè)問(wèn)題的代碼(有幾種方法可以回答這個(gè)問(wèn)題,但這是我的具體方法):

  1. print(“Percent of data who are Males OR were born between 2010 and 2021:”, 
  2.  100*round(df[(df[‘Gender’] == ‘M’) | (df[‘Birthdate’] >= ‘2010–01–01’) &  
  3.  (df[‘Birthdate’] <= ‘2021–01–01’)][‘Gender’].count()/df.shape 
  4.  [0],4), “%”) 

為了更好地直觀顯示該代碼,我還包含了上面相同代碼的屏幕截圖以及輸出/結(jié)果。您還可以運(yùn)用這些條件來(lái)返回實(shí)際行,而不是從總行中獲取一小部分或百分比的行。

圖2. 條件代碼

這是我們執(zhí)行的命令的順序:

  • 返回帶有男性性別的行
  • 包括OR函數(shù) |
  • 返回出生日期> 2010和2021的行
  • 將所有這些組合起來(lái),然后除以總行數(shù)

如您所見(jiàn),該代碼與您在SQL中看到的相似。我個(gè)人認(rèn)為在pandas中更容易,因?yàn)樗梢詼p少代碼,同時(shí)還可以在一個(gè)簡(jiǎn)單的地方直觀地看到所有代碼,無(wú)需上下滾動(dòng)(但這種格式只是本人青睞的)。

按多個(gè)特定列合并

圖3. 合并數(shù)據(jù)幀結(jié)果

我們可能已經(jīng)在其他教程中看到了如何將數(shù)據(jù)幀合并在一起,所以我想添加一種我還沒(méi)有真正見(jiàn)過(guò)的一種獨(dú)特方法,即按多個(gè)特定列合并。在這種情況下,我們想要加入兩個(gè)數(shù)據(jù)幀,其中兩個(gè)字段在它們之間共享。不難看出:如果有更多列,這種方法可能更有用。

我們有第一個(gè)數(shù)據(jù)幀df,然后我們按第二個(gè)數(shù)據(jù)幀df2合并列。這是實(shí)現(xiàn)我們預(yù)期結(jié)果的代碼:

  1. merged_df = df.merge(df2, how=’inner’,  
  2.  left_on=cols,  
  3.  right_on=cols 
  4.  ) 

為了更好地直觀顯示這種合并和代碼,我給出了下面的屏幕截圖。您會(huì)在下面看到第二個(gè)數(shù)據(jù)幀的樣子,包括名和姓,就像它們?cè)诘谝粋€(gè)數(shù)據(jù)幀中一樣,但有一個(gè)新的列:Numeric。然后,我們有想要合并的特定列,同時(shí)返回列Gender、Birthdate和新的Numeric列。列其實(shí)是諸多列的列表,名為 cols。

圖4. 合并數(shù)據(jù)幀

如您所見(jiàn),這種合并數(shù)據(jù)幀的方式是一種獲得可從SQL查詢獲得的同樣結(jié)果的簡(jiǎn)單方法。

結(jié)語(yǔ)

在本教程中,我們看到您將在SQL中執(zhí)行的兩個(gè)常見(jiàn)問(wèn)題或查詢,但最終使用Python中的Pandas數(shù)據(jù)幀來(lái)執(zhí)行它們。

總而言之,以下是我們所處理的兩個(gè)場(chǎng)景:

  • 從多個(gè)條件返回總數(shù)據(jù)集的百分比的行
  • 按多個(gè)特定列合并,以返回帶有新列的最終數(shù)據(jù)幀。

原文標(biāo)題:How to Query Your Pandas Dataframe,作者:Matthew Przybyla

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2023-05-30 08:00:00

PandasQuestDBPython

2019-10-17 09:57:08

Python設(shè)計(jì)電腦

2019-08-27 17:32:10

數(shù)據(jù)處理PandasPython

2020-11-19 15:26:36

SQLPandas代碼

2020-06-24 11:59:31

PythonPandas數(shù)據(jù)處理

2023-08-30 09:16:38

PandasPython

2023-10-18 18:31:04

SQL查詢數(shù)據(jù)

2023-04-20 16:48:22

PandasPolarsPython

2020-06-02 14:08:55

Python的數(shù)據(jù)操作

2024-10-28 12:57:36

Pandas數(shù)據(jù)清洗

2024-11-26 08:00:00

SQLPandasPandaSQL

2021-10-12 05:00:27

PandasSQL查詢

2022-08-26 09:38:39

Pandas數(shù)據(jù)查詢

2024-05-20 09:31:53

PandasPython大數(shù)據(jù)集

2023-11-27 13:58:00

數(shù)據(jù)預(yù)處理數(shù)據(jù)標(biāo)準(zhǔn)化

2017-09-01 09:52:20

PythonPandas數(shù)據(jù)分析

2010-09-06 09:31:12

PPP數(shù)據(jù)幀

2020-08-17 14:56:02

PythonSQL

2021-04-09 23:00:12

SQL數(shù)據(jù)庫(kù)Pandas

2020-02-24 13:06:55

Python數(shù)據(jù)幀開(kāi)發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)