整理了十個經(jīng)典的Pandas數(shù)據(jù)查詢案例！

2022-08-26 09:38:39

在本文中整理了10個示例，掌握著10個實(shí)例你就可以輕松的使用query函數(shù)來解決任何查詢的問題。

大家好，我是豆芽

Pandas的query函數(shù)為我們提供了一種編寫查詢過濾條件更簡單的方法，特別是在的查詢條件很多的時候。

首先，將數(shù)據(jù)集導(dǎo)入Pandas

import pandas as pd
df = pd.read_csv("Dummy_Sales_Data_v1.csv")
df.head()

output

它是一個簡單的9999 x 12數(shù)據(jù)集，是使用Faker創(chuàng)建的，我在最后也會提供本文的所有源代碼。

在開始之前，先快速回顧一下Pandas中的查詢函數(shù)query。查詢函數(shù)用于根據(jù)指定的表達(dá)式提取記錄，并返回一個新的DataFrame。表達(dá)式是用字符串形式表示的條件或條件的組合。

PANDAS中的DATAFRAME（.loc和.iloc）屬性用于根據(jù)行和列標(biāo)簽和索引提取數(shù)據(jù)集的子集。因此，它并不具備查詢的靈活性。而括號符號[]可以靈活地基于條件過濾數(shù)據(jù)幀，但是如果條件很多的話編寫代碼是繁瑣且容易出錯的。

Pandas的query()函數(shù)可以靈活地根據(jù)一個或多個條件提取子集，這些條件被寫成表達(dá)式并且不需要考慮括號的嵌套。

在后端Pandas使用eval()函數(shù)對該表達(dá)式進(jìn)行解析和求值，并返回表達(dá)式被求值為TRUE的數(shù)據(jù)子集或記錄。所以要過濾Pandas中的DataFrame，需要做的就是在查詢函數(shù)中指定條件即可。

使用單一條件進(jìn)行過濾

在單個條件下進(jìn)行過濾時，在Query（）函數(shù)中表達(dá)式僅包含一個條件。返回的輸出將包含該表達(dá)式評估為真的所有行。

示例1

提取數(shù)量為95的所有行，因此邏輯形式中的條件可以寫為

Quantity == 95

需要將條件寫成字符串，即將其包裝在雙引號“”中。query函數(shù)的代碼如下

df.query("Quantity == 95")

output

看起來很簡單。它返回了數(shù)量為95的所有行。如果用一般查詢的方式可以寫成：

df [df [“Quantity”] == 95]

但是，如果想在同一列中再包含一個條件怎么辦？

它在括號符號中又增加了一對方括號，如果是3個條件或者更多條件呢？那么他就變得難以管理。這就是query函數(shù)的優(yōu)勢了。

在多個條件過濾

一個或多個條件下過濾，query()的語法都保持不變

但是需要指定兩個或多個條件進(jìn)行過濾的方式

and：回在滿足兩個條件的所有記錄
or：返回滿足任意條件的所有記錄

示例2

查詢數(shù)量為95＆單位價格為182 ，這里包含單價的列被稱為UnitPrice（USD），因此，條件是

Quantity == 95
UnitPrice(USD) == 182

那么代碼就是：

df.query("Quantity == 95 and UnitPrice(USD) == 182")

這個查詢會報(bào)錯：

但是為什么報(bào)錯？

這是因?yàn)閝uery()函數(shù)對列名有一些限制。列名稱UnitPrice（USD）是無效的。我們要使用反引號把列名包含起來。

df.query("Quantity == 95 and `UnitPrice(USD)` == 182")

output

當(dāng)兩個條件滿足時，只有3個記錄。

或者我們直接將列名改成合理的格式：

df.rename(columns={'UnitPrice(USD)':'UnitPrice',
                 'Shipping_Cost(USD)':'Shipping_Cost',
                 'Delivery_Time(Days)':'Delivery_Time'},
       inplace=True)

這里就不需要使用反引號了:

df.query("Quantity == 95 and UnitPrice == 182")

示例3

我們現(xiàn)在只需要滿足一個條件：

df.query("Quantity == 95 or UnitPrice == 182")

output

它返回滿足兩個條件中的任意一個條件的所有列。

我們也可以使用|替代or關(guān)鍵字。

示例4

假設(shè)想獲得數(shù)量不等于95的所有行。最簡單的答案是在條件之前使用not關(guān)鍵字或否定操作符?

df.query("not(Quantity == 95)")

output

結(jié)果它包含數(shù)量不是95的所有行。

其實(shí)這里的條件不一定必須是相等運(yùn)算符，可以從==，!=，>，<，≥，≤中選擇，例如：

df.query("Quantity != 95")

文本過濾

對于文本列過濾時，條件是列名與字符串進(jìn)行比較。

請query()表達(dá)式已經(jīng)是字符串。那么如何在另一個字符串中寫一個字符串？將文本值包裝在單個引號“”中，就可以了。

示例5

想獲得即狀態(tài)“未發(fā)貨”所有記錄，可以在query()表達(dá)式中寫成如下的形式：

df.query("Status == 'Not Shipped'")

output

它返回所有記錄，其中狀態(tài)列包含值-“未發(fā)貨”。

與數(shù)值的類似可以在同一列或不同列上使用多個條件，并且可以是數(shù)值和非數(shù)值列上條件的組合。

除此以外， Pandas中的query()方法還可以在查詢表達(dá)式中使用數(shù)學(xué)計(jì)算。

查詢中的簡單數(shù)學(xué)計(jì)算

數(shù)學(xué)操作可以是列中的加，減，乘，除，甚至是列中值或者平方等，如下所示：

示例6

df.query("Shipping_Cost*2 < 50")

雖然這個二次方的操作沒有任何的實(shí)際意義，但是我們的示例返回了所有達(dá)到要求的行。

我們還可以在一個或多個列上包含一些復(fù)雜的計(jì)算。

示例7

我們隨便寫一個比較復(fù)雜的公式：

df.query("Quantity**2 + Shipping_Cost**2 < 500")

output

如果使用最原始的[]的形式，這個公式的查詢基本上沒法完成，但是使用query()函數(shù)則變?yōu)楹唵蔚亩唷?br>

除了數(shù)學(xué)操作，還在查詢表達(dá)式中使用內(nèi)置函數(shù)。

查詢中的內(nèi)置函數(shù)

Python內(nèi)置函數(shù)，例如sort()，abs()，factorial()，exp()等，也可以在查詢表達(dá)式中使用。

示例8

查找單位價格平方根的超過15的行：

df.query("sqrt(UnitPrice) > 15")

output

query()函數(shù)還可以在同一查詢表達(dá)式將函數(shù)和數(shù)學(xué)運(yùn)算整合使用

示例9

df.query("sqrt(UnitPrice) < Shipping_Cost/2")

output

到目前為止，所有查詢示例都是關(guān)于數(shù)值和文本列的。但是，query()的還不僅限于這些數(shù)據(jù)類型，對于日期時間值query()函數(shù)也可以非常靈活的過濾。

日期時間列過濾

使用query()函數(shù)在日期時間值上進(jìn)行查詢的唯一要求是，包含這些值的列應(yīng)為數(shù)據(jù)類型dateTime64 [ns]

在示例數(shù)據(jù)中，OrderDate列是日期時間，但是我們的df其解析為字符串，所以我們需要先進(jìn)行轉(zhuǎn)換：

df["OrderDate"] = pd.to_datetime(df["OrderDate"], format="%Y-%m-%d")

為了提取有關(guān)日期的有用信息并在query()需要使用dt提取器，dt是一種訪問對象，用于提取日期時間，例如DateTime系列的屬性。

示例10

獲得八月份的所有記錄

df.query("OrderDate.dt.month == 8")

output

所有記錄都是八月份的。OrderDate.dt.month顯示了如何使用dt訪問者僅提取整個日期值的月份值。

如果提取2021年8月訂購日為15或以上的所有訂單，可以寫成這樣

df.query("OrderDate.dt.month == 8 and OrderDate.dt.year == 2021 and OrderDate.dt.day >=15")

output

dt很好用并且可以在同一列上結(jié)合了多個條件，但表達(dá)式似乎太長了。所以可以通過編寫更非常簡單的表達(dá)式來過濾：

df.query("OrderDate >= '2021-08-15' and OrderDate <= '2021-08-31'")

我們直接傳遞一個符合日期格式的字符串，它會自動的轉(zhuǎn)換并且比較：

將上面的所有內(nèi)容整合：

df.query("OrderDate >= '2021-08-15' and OrderDate <= '2021-08-31' and Status =
= 'Delivered'")

output

查詢表達(dá)式包含了日期時間和文本列條件，它返回了符合查詢表達(dá)式的所有記錄

替換

上面的查詢中都會生成一個新的df。這是因?yàn)椋簈uery()的第二個參數(shù)(inplace)默認(rèn)false。

與一般的Pandas提供的函數(shù)一樣，inplace的默認(rèn)值都是false，查詢不會修改原始數(shù)據(jù)集。如果我們想覆蓋原始df時，需要將inplace=true。但是一定要小心使用inplace=true，因?yàn)樗鼤采w原始的數(shù)據(jù)。

總結(jié)

我希望在閱讀本文后，您可以更頻繁，流利地使用Pandas中的query()函數(shù)，因?yàn)樗梢苑奖阋赃^濾數(shù)據(jù)集。這些查詢的函數(shù)我每天都會或多或少的使用。

責(zé)任編輯：龐桂玉來源：數(shù)據(jù)查詢

Pandas 數(shù)據(jù)查詢

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

整理了十個經(jīng)典的Pandas數(shù)據(jù)查詢案例！

使用單一條件進(jìn)行過濾

示例1

在多個條件過濾

示例2

示例3

示例4

文本過濾

示例5

查詢中的簡單數(shù)學(xué)計(jì)算

示例6

示例7

查詢中的內(nèi)置函數(shù)

示例8

示例9

日期時間列過濾

示例10

替換

總結(jié)