自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你的工資是怎樣被平均的?終于有人把平均數(shù)、中位數(shù)和眾數(shù)講明白了

大數(shù)據(jù) 數(shù)據(jù)分析
我們?cè)跀?shù)據(jù)處理時(shí),要小心各種陷阱!人們習(xí)慣使用統(tǒng)計(jì)數(shù)據(jù)來(lái)簡(jiǎn)化事物描述,但錯(cuò)誤的統(tǒng)計(jì)方法不僅不能反映事實(shí),還會(huì)讓數(shù)據(jù)變得毫無(wú)意義。

有人曾統(tǒng)計(jì)了某家互聯(lián)網(wǎng)公司的季度財(cái)報(bào)。結(jié)果顯示,該公司員工平均月薪是其他同行的3~4倍。消息一出,立即引起人們熱議。雖然后來(lái)這家公司出來(lái)辟謠,表明公開(kāi)的酬金成本包括員工培訓(xùn)、福利開(kāi)支、繳納稅金、商業(yè)保險(xiǎn)、年終獎(jiǎng),但這并沒(méi)能讓大眾信服。人們關(guān)心的問(wèn)題是:統(tǒng)計(jì)平均工資的方法是否合理?

如果把一個(gè)普通員工和世界首富的工資放在一塊取平均值,那么可以想象,普通人的工資幾乎可以忽略不計(jì)。在一個(gè)企業(yè)中,20%的人占據(jù)了80%的工資總額。高收入的人比例偏少,但對(duì)平均工資的影響很大。

平均工資僅僅是經(jīng)濟(jì)領(lǐng)域的一個(gè)例子。生活中,我們會(huì)接觸到各式各樣的數(shù)據(jù),它們以不同的形態(tài)展現(xiàn)。在處理一組數(shù)據(jù)時(shí),平均值可以很好地代表這組數(shù)據(jù)的平均水平,但由于削峰填谷,它也勢(shì)必會(huì)損失一部分信息,只能反映總體特征的一個(gè)方面。

想要掌握數(shù)據(jù)的全貌,就要了解數(shù)據(jù)的屬性和性質(zhì)。對(duì)于一組數(shù)據(jù),我們首先要知道大部分?jǐn)?shù)值落在哪里?也就是說(shuō),我們通常選擇數(shù)據(jù)的“中間位置”,即反映數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量,來(lái)表示數(shù)據(jù)的中心。這里的度量方法有平均數(shù)、中位數(shù)、眾數(shù)等。

01 平均數(shù)

平均數(shù)也叫平均值、均值,是統(tǒng)計(jì)學(xué)中最基本、最常用的一種定義一組數(shù)據(jù)特征的指標(biāo),用來(lái)描述數(shù)據(jù)的平均水平。計(jì)算平均數(shù)可以把所有數(shù)據(jù)相加再除以數(shù)據(jù)個(gè)數(shù),比如{1,2,3,4,5}的平均數(shù)就是3。

盡管平均數(shù)是描述數(shù)據(jù)集最有用的一個(gè)統(tǒng)計(jì)量,但是它并非總是度量數(shù)據(jù)中心的最佳方法。最主要問(wèn)題是平均數(shù)對(duì)極端值(比如離群點(diǎn))很敏感,會(huì)被少數(shù)很低或很高的數(shù)值明顯影響。為了抵消這種影響,可以使用截尾均值,即丟棄一部分高低極端值后計(jì)算均值。比如跳水比賽,就采用去掉最高分和最低分的截尾均值計(jì)分法。

02 中位數(shù)

中位數(shù)是將數(shù)據(jù)按大小順序排列后處在中間位置的數(shù),描述數(shù)據(jù)的中等水平。如果有奇數(shù)個(gè)數(shù),則中位數(shù)是中間值;如果是偶數(shù)個(gè)數(shù),則中位數(shù)一般取兩個(gè)最中間值的平均值。它適用于對(duì)傾斜(非對(duì)稱(chēng))數(shù)據(jù)的度量。

03 眾數(shù)

眾數(shù)是集合中出現(xiàn)頻率最高的數(shù)值,描述數(shù)據(jù)的一般水平。眾數(shù)的個(gè)數(shù)不一定是唯一的。一組數(shù)據(jù)中,可能會(huì)存在多個(gè)眾數(shù),也可能不存在眾數(shù)。眾數(shù)不僅適用于數(shù)值型的數(shù)據(jù),對(duì)于非數(shù)值型的數(shù)據(jù)也同樣適用。例如,{蘋(píng)果,蘋(píng)果,蘋(píng)果,香蕉,梨,梨}這組數(shù)據(jù)中,沒(méi)有均值和中位數(shù),但是存在眾數(shù)—蘋(píng)果。

04 眾數(shù)、中位數(shù)、均值的關(guān)系

如果一組數(shù)據(jù)的平均值、中位數(shù)、眾數(shù)是同一個(gè)數(shù),則說(shuō)明它的數(shù)據(jù)分布是對(duì)稱(chēng)的。但這種情況不常見(jiàn),更多情況下,數(shù)據(jù)是正傾斜負(fù)傾斜,如圖2-1所示。

▲圖2-1 眾數(shù)、中位數(shù)、均值的關(guān)系

收入數(shù)據(jù)就是典型的偏斜數(shù)據(jù),大多數(shù)人是工薪階層或退休老人,只有少數(shù)幾個(gè)億萬(wàn)富翁。收入數(shù)據(jù)如圖2-1中的正傾斜數(shù)據(jù),大多數(shù)人的收入集中在左側(cè),右側(cè)有一條長(zhǎng)長(zhǎng)的尾巴,表示少數(shù)人的收入。這種分布不適合用平均數(shù)來(lái)描述。因?yàn)?/span>平均數(shù)對(duì)極端數(shù)據(jù)非常敏感,一兩個(gè)億萬(wàn)富翁,會(huì)拉高整個(gè)人群的收入水平線,使得收入均值比人們認(rèn)知中的平均收入高出很多。

平均工資消除了大量低收入人群和少數(shù)巨額收入人群之間的差異。但如果換成眾數(shù)也不合適,因?yàn)榈褪杖肴巳赫剂斯べY比例的大多數(shù)區(qū)間。統(tǒng)計(jì)工資時(shí)的合理選擇是統(tǒng)計(jì)中位數(shù),它揭示了一半人和另一半人收入的分界線。

當(dāng)然,并不是說(shuō)中位數(shù)就是一個(gè)比平均數(shù)更好的統(tǒng)計(jì)量,只是它更適合工資統(tǒng)計(jì)。

引入統(tǒng)計(jì)量的意義就在于簡(jiǎn)化。比如老師告訴你說(shuō),孩子考試的排名處于班級(jí)里面的后10%,你就應(yīng)該意識(shí)到他的學(xué)習(xí)成績(jī)不太好,學(xué)習(xí)上要加把勁。在這個(gè)過(guò)程中,你不需要知道任何關(guān)于考試本身的內(nèi)容,或孩子在考試中到底答對(duì)了多少題。一個(gè)排名數(shù)字,就能讓你了解孩子的學(xué)習(xí)水平。

不過(guò)也正是由于統(tǒng)計(jì)量的簡(jiǎn)化,它不可避免地會(huì)丟失一些信息,其優(yōu)點(diǎn)也是缺點(diǎn)。許多現(xiàn)象是無(wú)法只用一個(gè)數(shù)字來(lái)解釋的。如果單憑一個(gè)統(tǒng)計(jì)量描述對(duì)象具有局限性,我們就應(yīng)該嘗試獲得更多的數(shù)據(jù),以及更多的細(xì)節(jié)。

關(guān)于作者:徐晟,某商業(yè)銀行IT技術(shù)主管,畢業(yè)于上海交通大學(xué),從事IT技術(shù)領(lǐng)域工作十余年,對(duì)科技發(fā)展、人工智能有自己獨(dú)到的見(jiàn)解,專(zhuān)注于智能運(yùn)維(AIOps)、數(shù)據(jù)可視化、容量管理等方面工作。

本文摘編自大話機(jī)器智能:一書(shū)看透AI的底層運(yùn)行邏輯》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111696193)

責(zé)任編輯:龐桂玉 來(lái)源: 大數(shù)據(jù)DT
相關(guān)推薦

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2022-03-27 20:32:28

Knative容器事件模型

2021-10-09 00:02:04

DevOps敏捷開(kāi)發(fā)

2022-05-01 22:09:27

數(shù)據(jù)模型大數(shù)據(jù)

2021-10-12 18:31:40

流量運(yùn)營(yíng)前端

2021-03-25 11:24:25

爬蟲(chóng)技術(shù)開(kāi)發(fā)

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2021-10-17 20:38:30

微服務(wù)內(nèi)存組件

2020-11-03 07:04:39

云計(jì)算公有云私有云

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融

2021-03-03 21:31:24

量化投資利潤(rùn)

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2022-07-31 20:29:28

日志系統(tǒng)測(cè)

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2021-09-10 18:23:14

Hadoop

2022-08-15 20:49:16

知識(shí)圖譜網(wǎng)絡(luò)大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)