自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<wbr id="8whvf"><var id="8whvf"><th id="8whvf"></th></var></wbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Python處理大數(shù)據(jù)的2個(gè)神奇操作

作者：Hely 2019-10-15 15:15:31

開(kāi)發(fā) 后端大數(shù)據(jù)

Python有個(gè)處理大數(shù)據(jù)的庫(kù)，結(jié)合x(chóng)lrd庫(kù)，在做一些大數(shù)據(jù)的處理統(tǒng)計(jì)工作的時(shí)候很好用，譬如做性能測(cè)試，你的結(jié)果數(shù)據(jù)如何統(tǒng)計(jì)，python有個(gè)庫(kù)pandas，這個(gè)就很擅長(zhǎng)做這個(gè)工作，這里就講2個(gè)pandas的騷操作。

Python有個(gè)處理大數(shù)據(jù)的庫(kù)，結(jié)合x(chóng)lrd庫(kù)，在做一些大數(shù)據(jù)的處理統(tǒng)計(jì)工作的時(shí)候很好用，譬如做性能測(cè)試，你的結(jié)果數(shù)據(jù)如何統(tǒng)計(jì)，python有個(gè)庫(kù)pandas，這個(gè)就很擅長(zhǎng)做這個(gè)工作，這里就講2個(gè)pandas的騷操作。 pandas中g(shù)roupby、Grouper和agg函數(shù)的使用。這2個(gè)函數(shù)作用類(lèi)似，都是對(duì)數(shù)據(jù)集中的一類(lèi)屬性進(jìn)行聚合操作，比如統(tǒng)計(jì)一個(gè)用戶在每個(gè)月內(nèi)的全部花銷(xiāo)，統(tǒng)計(jì)某個(gè)屬性的最大、最小、累和、平均等數(shù)值。

Python處理大數(shù)據(jù)的2個(gè)神奇操作

統(tǒng)計(jì)“ext price”這個(gè)屬性在每個(gè)月的累和(sum)值

import pandas as pd 
import collections 
df = pd.read_excel("D:/Download/chrome/sample-salesv3.xlsx") 
#print (df.head(10)) 
df["date"] = pd.to_datetime(df["date"]) 
# print (df.head(10)) 
df1 = df.set_index("date").resample("M")['ext price'].sum() 
# print(df1.head())

Python處理大數(shù)據(jù)的2個(gè)神奇操作

統(tǒng)計(jì)每個(gè)用戶每個(gè)月"ext price"這個(gè)屬性的sum值，利用Grouper

df2 = df.groupby(["name",pd.Grouper(key = "date",freq="M")])["ext price"] 
print(df2.head(10))

Python處理大數(shù)據(jù)的2個(gè)神奇操作

Agg

agg函數(shù)，它提供基于列的聚合操作。而groupby可以看做是基于行，或者說(shuō)index的聚合操作。

從實(shí)現(xiàn)上看，groupby返回的是一個(gè)DataFrameGroupBy結(jié)構(gòu)，這個(gè)結(jié)構(gòu)必須調(diào)用聚合函數(shù)(如sum)之后，才會(huì)得到結(jié)構(gòu)為Series的數(shù)據(jù)結(jié)果。

而agg是DataFrame的直接方法，返回的也是一個(gè)DataFrame。當(dāng)然，很多功能用sum、mean等等也可以實(shí)現(xiàn)。但是agg更加簡(jiǎn)潔, 而且傳給它的函數(shù)可以是字符串，也可以自定義，參數(shù)是column對(duì)應(yīng)的子DataFrame

獲取"ext price","quantity","unit price"3列的各自的累計(jì)值和均值

df3 = df[["ext price","quantity","unit price"]].agg(["sum","mean"]) 
print(df3.head())

Python處理大數(shù)據(jù)的2個(gè)神奇操作

可以針對(duì)不同的列使用不同的聚合函數(shù)

df4 = df.agg({"ext price":["sum","mean"],"quantity":["sum","mean"],"unit price":["mean"]}) 
print(df4.head())

Python處理大數(shù)據(jù)的2個(gè)神奇操作

也可以自定義函數(shù)，比如，統(tǒng)計(jì)sku中，購(gòu)買(mǎi)次數(shù)最多的產(chǎn)品編號(hào)，通過(guò)lambda表達(dá)式來(lái)做。

#統(tǒng)計(jì)sku中，購(gòu)買(mǎi)次數(shù)最多的產(chǎn)品編號(hào) 
get_max = lambda x:x.value_counts(dropna=False).index[0] 
get_max.__name__ = "most frequent" 
df5 = df.agg({"ext price":["sum","mean"], 
 "quantity":["sum","mean"], 
 "unit price":["mean"], 
 "sku":[get_max] 
 }) 
print(df5)

Python處理大數(shù)據(jù)的2個(gè)神奇操作

如果希望輸出的列按照某個(gè)順序排列，可以使用collections的OrderedDict

agg_dict = { 
 "ext price":["sum","mean"], 
 "quantity":["sum","mean"], 
 "unit price":["mean"], 
 "sku":[get_max] 
} 
#按照列名的長(zhǎng)度排序。OrderedDict的順序是跟插入順序一致的 
df6 = df.agg(collections.OrderedDict(sorted(agg_dict.items(),key=lambda x:len(x[0])))) 
print(df6)

Python處理大數(shù)據(jù)的2個(gè)神奇操作

源數(shù)據(jù)的鏈接：https://github.com/chris1610/pbpython/tree/master/data

責(zé)任編輯：未麗燕來(lái)源：今日頭條

Python 大數(shù)據(jù)函數(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tr id="zch6k"><strike id="zch6k"></strike></tr>