自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學中的三大統(tǒng)計悖論

大數(shù)據(jù) 數(shù)據(jù)分析
觀察到令人驚訝的現(xiàn)象,例如在匯總數(shù)據(jù)中完全還原的子組趨勢,的確不罕見。在本文中,我們研究了數(shù)據(jù)科學中遇到的三種最常見的統(tǒng)計悖論。

在任何數(shù)據(jù)科學應用中,觀察偏差和亞組差異很容易產(chǎn)生統(tǒng)計悖論。因此,忽略這些因素會完全破壞我們的分析結論。

觀察到令人驚訝的現(xiàn)象,例如在匯總數(shù)據(jù)中完全還原的子組趨勢,的確不罕見。在本文中,我們研究了數(shù)據(jù)科學中遇到的三種最常見的統(tǒng)計悖論。

[[383952]]

1. 伯克森悖論

第一個引人注目的例子是觀察到的COVID-19嚴重程度與吸煙之間的負相關性(例如,參見Wenzel 2020年的歐盟委員會審查)。吸煙是呼吸系統(tǒng)疾病的眾所周知的危險因素,那么我們?nèi)绾谓忉屵@種矛盾呢?

最近在《自然》雜志上發(fā)表的2020年格里菲斯(Griffith 2020)的工作表明,這可能是Collider Bias(也稱為Berkson悖論)的例子。為了理解這一悖論,讓我們考慮以下圖形模型,其中包括第三個隨機變量:“正在住院”。

第三個變量“正在住院”是前兩個變量的對撞者。這意味著吸煙和嚴重COVID-19都會增加在醫(yī)院生病的機會。當我們以對撞機為條件時,即當我們僅觀察住院患者的數(shù)據(jù)而不考慮整個人口時,伯克森悖論恰好出現(xiàn)。

讓我們考慮以下示例數(shù)據(jù)集。在左圖中,我們觀察到了整個人群,而在右圖中,我們僅考慮了一部分住院患者(即,我們以對撞機變量為條件)。

在左圖中,我們可以觀察到COVID-19嚴重程度與吸煙之間的正相關關系,因為我們知道吸煙是呼吸系統(tǒng)疾病的危險因素,因此我們可以預期。

但是在正確的數(shù)字上(我們只考慮住院患者),我們看到了相反的趨勢!要理解這一點,請考慮以下幾點。

  • 嚴重程度較高的COVID-19會增加住院的機會。特別是,如果嚴重程度大于1,則需要住院治療。
  • 每天抽幾支煙是多種疾病(心臟病,癌癥,糖尿病)的主要危險因素,由于某種原因,這些疾病增加了住院的機會。
  • 因此,如果住院患者的COVID-19嚴重程度較低,則他們吸煙的機會更高!實際上,他們必須患有與COVID-19不同的某種疾病(例如心臟病,癌癥,糖尿病)以證明其住院治療的合理性,而這種疾病很可能是由吸煙引起的。

這個例子與伯克森1946年的原始工作非常相似,作者發(fā)現(xiàn)醫(yī)院患者的膽囊炎和糖尿病之間存在負相關關系,盡管糖尿病是膽囊炎的危險因素。

2. 潛在變量

潛在變量的存在還可能在兩個變量之間產(chǎn)生明顯相反的相關性。盡管伯克森的悖論是由于對撞機變量的條件而出現(xiàn)的(因此應避免使用),但可以通過對潛變量的條件來解決另一種悖論。

例如,讓我們考慮一下?lián)錅缁馂牡南绬T人數(shù)與火災中受傷人數(shù)之間的關系。我們希望擁有更多的消防員會改善結果(在某種程度上,請參見布魯克斯定律),但是在匯總數(shù)據(jù)中卻發(fā)現(xiàn)存在正相關關系:部署的消防員越多,受傷人數(shù)越多!

為了理解這種矛盾,讓我們考慮以下圖形模型。關鍵是再次考慮第三個隨機變量:“火災嚴重性”。

該第三潛在變量與其他兩個正相關。確實,更嚴重的火災往往會造成更多的傷害,同時又需要更多的消防員被撲滅。

讓我們考慮以下示例數(shù)據(jù)集。在左圖中,我們匯總了來自各種火災的觀測值,而在右圖中,我們僅考慮了與三個固定程度的火災嚴重性相對應的觀測值(即,我們將觀測值設置為潛變量)。

在右圖中,我們根據(jù)火勢的嚴重程度對觀測值進行了條件調(diào)整,可以看到我們期望的負相關。

  • 對于給定的嚴重程度的火災,我們確實可以觀察到,消防員部署的越多,受傷的人就越少。
  • 如果我們著眼于嚴重程度較高的火災,即使部署的消防員人數(shù)和受傷人數(shù)都較高,我們也會觀察到相同的趨勢。

3. 辛普森悖論

當在子組中始終觀察到趨勢時出現(xiàn)辛普森悖論,這是一個令人驚訝的現(xiàn)象,但是如果合并子組,則趨勢會反轉。它通常與數(shù)據(jù)子組中的類不平衡有關。

這個悖論的一個臭名昭著的發(fā)生是在比克爾(Bickel)1975年進行的,當時對加利福尼亞大學的錄取率進行了分析,以發(fā)現(xiàn)性別歧視的證據(jù),并揭示了兩個明顯矛盾的事實。

  • 一方面,他觀察到每個部門的女性申請人的錄取率均高于男性申請人。
  • 另一方面,總數(shù)表明,女性申請人的錄取率低于男性申請人。

為了了解如何做到這一點,讓我們考慮以下兩個A部門和B部門的數(shù)據(jù)集。

  • 在100名男性申請人中:接受了A部門申請的80名和68名(85%),而接受B部門申請的20名和12名(60%)被接受。
  • 在100名女性申請人中:接受了A部門申請的30名和28名(93%),而接受B部門申請的70名和46名(66%)被接受。

悖論由以下不等式表示。

現(xiàn)在,我們可以了解我們看似矛盾的觀察的起源了。關鍵是在兩個部門中,每個部門的申請者的性別存在嚴重的失衡(部門A:80–30,部門B:20–70)。確實,大多數(shù)女學生申請了競爭更激烈的B部門(錄取率較低),而大多數(shù)男學生則申請了競爭較弱的A部門(錄取率較高)。這導致了我們的矛盾觀察。

結論

潛在變量,對撞機變量和類不平衡會在許多數(shù)據(jù)科學應用程序中輕易產(chǎn)生統(tǒng)計悖論。因此,必須特別注意這些關鍵點,以正確得出趨勢并分析結果。

原文鏈接:https://towardsdatascience.com/top-3-statistical-paradoxes-in-data-science-e2dc37535d99

 

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2020-10-31 22:04:39

統(tǒng)計和數(shù)據(jù)科學數(shù)據(jù)科學家

2024-11-22 14:26:00

2017-12-13 10:08:26

大數(shù)據(jù)圖數(shù)據(jù)推理數(shù)據(jù)科學

2018-09-18 23:25:49

Python數(shù)據(jù)科學

2021-07-08 15:45:08

統(tǒng)計學AI深度學習

2019-08-19 09:31:47

數(shù)據(jù)機器學習統(tǒng)計學習

2018-11-19 06:00:32

數(shù)據(jù)科學家數(shù)據(jù)科學

2018-06-05 11:30:22

數(shù)據(jù)科學機器學習統(tǒng)計學

2019-08-27 09:34:29

數(shù)據(jù)科學統(tǒng)計機器學習

2021-01-29 14:38:36

數(shù)據(jù)科學數(shù)據(jù)科學家統(tǒng)計學

2012-01-16 09:17:38

華為華為手機

2022-04-28 10:29:38

數(shù)據(jù)數(shù)據(jù)收集

2013-05-13 13:31:28

2017-11-21 14:42:30

數(shù)據(jù)科學統(tǒng)計學習機器學習

2019-02-14 14:47:39

大數(shù)據(jù)數(shù)據(jù)科學家企業(yè)

2018-05-25 10:42:36

數(shù)據(jù)中心功率密度

2017-08-21 15:35:57

大數(shù)據(jù)云計算UE

2014-06-26 09:41:13

數(shù)據(jù)分析

2018-10-28 18:30:51

數(shù)據(jù)科學數(shù)據(jù)項目管理

2019-09-09 15:28:04

數(shù)據(jù)科學帕累托法則工具
點贊
收藏

51CTO技術棧公眾號