自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

聊一下關(guān)于去重計數(shù)的多種實現(xiàn)方式

作者：卡門的兒子 2021-06-06 12:59:14

開發(fā) 后端

這是一個關(guān)于 pandas 從基礎(chǔ)到進階的練習(xí)題系列，來源于 github 上的 guipsamora/pandas_exercises 。這個項目從基礎(chǔ)到進階，可以檢驗?zāi)阌卸嗝戳私?pandas。

本文轉(zhuǎn)載自微信公眾號「數(shù)據(jù)大宇宙」，作者卡門的兒子。轉(zhuǎn)載本文請聯(lián)系數(shù)據(jù)大宇宙公眾號。

這是一個關(guān)于 pandas 從基礎(chǔ)到進階的練習(xí)題系列，來源于 github 上的 guipsamora/pandas_exercises 。這個項目從基礎(chǔ)到進階，可以檢驗?zāi)阌卸嗝戳私?pandas。

我會挑選一些題目，并且提供比原題庫更多的解決方法以及更詳盡的解析。

如下數(shù)據(jù)：

數(shù)據(jù)描述：

此數(shù)據(jù)是訂單明細表。一個訂單會包含很多明細項，表中每個樣本(每一行)表示一個明細項
order_id 列存在重復(fù)
quantity 是明細項數(shù)量

需求：數(shù)據(jù)中共有多少個訂單?

下面是答案了

方式1

因為 order_id 列是存在重復(fù)的，那么一種比較直觀的方式就是去重+計數(shù)：

len(df.order_id.drop_duplicates()) 
1834

Series.drop_duplicates() 返回的仍然是一個 Series
len 函數(shù)可以計算 Series 值數(shù)量

但是你可能不知道的是，這個方式是不準確的!

方式2

之所以說上一種方式是不準確，是因為沒有考慮到空值的問題。

len 函數(shù)不會忽略空值(nan) ，因此如果列中有空值，那么就比正確結(jié)果數(shù)量多。

正確的做法是：

len(df.order_id.drop_duplicates().dropna())

使用 Series.dropna() 方法可以去掉 nan 值

提示：

即使列中有多個 nan ，經(jīng)過去重后只會保留一個 nan 值

方式3

實際上，pandas 本身有提供一個忽略 nan 的計數(shù)方法：

df.order_id.drop_duplicates().count()

點評：

這種方式個人認為最合適

方式4

pandas 為列(Series)提供了一個快速匯總計數(shù)方法：

df.order_id.value_counts()

Series.value_counts() 相當(dāng)于根據(jù) order id 分組，統(tǒng)計數(shù)量。并且排除 nan

這相當(dāng)于實現(xiàn)了去重，因此：

df.order_id.value_counts().count()

點評：

這是原項目的解法，不太直觀，不推薦使用
我本人經(jīng)常把 value_counts 方法中s的位置搞錯

不過我自制了一個方法查詢器，這樣子不至于記錯方法：

責(zé)任編輯：武曉燕來源：數(shù)據(jù)大宇宙

實現(xiàn)方式計數(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="wqw0n"><p id="wqw0n"></p></sub>

<u id="wqw0n"></u>

<tt id="wqw0n"><mark id="wqw0n"></mark></tt>