數(shù)據(jù)科學中的三大統(tǒng)計悖論
在任何數(shù)據(jù)科學應用中,觀察偏差和亞組差異很容易產(chǎn)生統(tǒng)計悖論。因此,忽略這些因素會完全破壞我們的分析結論。
觀察到令人驚訝的現(xiàn)象,例如在匯總數(shù)據(jù)中完全還原的子組趨勢,的確不罕見。在本文中,我們研究了數(shù)據(jù)科學中遇到的三種最常見的統(tǒng)計悖論。
1. 伯克森悖論
第一個引人注目的例子是觀察到的COVID-19嚴重程度與吸煙之間的負相關性(例如,參見Wenzel 2020年的歐盟委員會審查)。吸煙是呼吸系統(tǒng)疾病的眾所周知的危險因素,那么我們?nèi)绾谓忉屵@種矛盾呢?
最近在《自然》雜志上發(fā)表的2020年格里菲斯(Griffith 2020)的工作表明,這可能是Collider Bias(也稱為Berkson悖論)的例子。為了理解這一悖論,讓我們考慮以下圖形模型,其中包括第三個隨機變量:“正在住院”。
第三個變量“正在住院”是前兩個變量的對撞者。這意味著吸煙和嚴重COVID-19都會增加在醫(yī)院生病的機會。當我們以對撞機為條件時,即當我們僅觀察住院患者的數(shù)據(jù)而不考慮整個人口時,伯克森悖論恰好出現(xiàn)。
讓我們考慮以下示例數(shù)據(jù)集。在左圖中,我們觀察到了整個人群,而在右圖中,我們僅考慮了一部分住院患者(即,我們以對撞機變量為條件)。
在左圖中,我們可以觀察到COVID-19嚴重程度與吸煙之間的正相關關系,因為我們知道吸煙是呼吸系統(tǒng)疾病的危險因素,因此我們可以預期。
但是在正確的數(shù)字上(我們只考慮住院患者),我們看到了相反的趨勢!要理解這一點,請考慮以下幾點。
- 嚴重程度較高的COVID-19會增加住院的機會。特別是,如果嚴重程度大于1,則需要住院治療。
- 每天抽幾支煙是多種疾病(心臟病,癌癥,糖尿病)的主要危險因素,由于某種原因,這些疾病增加了住院的機會。
- 因此,如果住院患者的COVID-19嚴重程度較低,則他們吸煙的機會更高!實際上,他們必須患有與COVID-19不同的某種疾病(例如心臟病,癌癥,糖尿病)以證明其住院治療的合理性,而這種疾病很可能是由吸煙引起的。
這個例子與伯克森1946年的原始工作非常相似,作者發(fā)現(xiàn)醫(yī)院患者的膽囊炎和糖尿病之間存在負相關關系,盡管糖尿病是膽囊炎的危險因素。
2. 潛在變量
潛在變量的存在還可能在兩個變量之間產(chǎn)生明顯相反的相關性。盡管伯克森的悖論是由于對撞機變量的條件而出現(xiàn)的(因此應避免使用),但可以通過對潛變量的條件來解決另一種悖論。
例如,讓我們考慮一下?lián)錅缁馂牡南绬T人數(shù)與火災中受傷人數(shù)之間的關系。我們希望擁有更多的消防員會改善結果(在某種程度上,請參見布魯克斯定律),但是在匯總數(shù)據(jù)中卻發(fā)現(xiàn)存在正相關關系:部署的消防員越多,受傷人數(shù)越多!
為了理解這種矛盾,讓我們考慮以下圖形模型。關鍵是再次考慮第三個隨機變量:“火災嚴重性”。
該第三潛在變量與其他兩個正相關。確實,更嚴重的火災往往會造成更多的傷害,同時又需要更多的消防員被撲滅。
讓我們考慮以下示例數(shù)據(jù)集。在左圖中,我們匯總了來自各種火災的觀測值,而在右圖中,我們僅考慮了與三個固定程度的火災嚴重性相對應的觀測值(即,我們將觀測值設置為潛變量)。
在右圖中,我們根據(jù)火勢的嚴重程度對觀測值進行了條件調(diào)整,可以看到我們期望的負相關。
- 對于給定的嚴重程度的火災,我們確實可以觀察到,消防員部署的越多,受傷的人就越少。
- 如果我們著眼于嚴重程度較高的火災,即使部署的消防員人數(shù)和受傷人數(shù)都較高,我們也會觀察到相同的趨勢。
3. 辛普森悖論
當在子組中始終觀察到趨勢時出現(xiàn)辛普森悖論,這是一個令人驚訝的現(xiàn)象,但是如果合并子組,則趨勢會反轉。它通常與數(shù)據(jù)子組中的類不平衡有關。
這個悖論的一個臭名昭著的發(fā)生是在比克爾(Bickel)1975年進行的,當時對加利福尼亞大學的錄取率進行了分析,以發(fā)現(xiàn)性別歧視的證據(jù),并揭示了兩個明顯矛盾的事實。
- 一方面,他觀察到每個部門的女性申請人的錄取率均高于男性申請人。
- 另一方面,總數(shù)表明,女性申請人的錄取率低于男性申請人。
為了了解如何做到這一點,讓我們考慮以下兩個A部門和B部門的數(shù)據(jù)集。
- 在100名男性申請人中:接受了A部門申請的80名和68名(85%),而接受B部門申請的20名和12名(60%)被接受。
- 在100名女性申請人中:接受了A部門申請的30名和28名(93%),而接受B部門申請的70名和46名(66%)被接受。
悖論由以下不等式表示。
現(xiàn)在,我們可以了解我們看似矛盾的觀察的起源了。關鍵是在兩個部門中,每個部門的申請者的性別存在嚴重的失衡(部門A:80–30,部門B:20–70)。確實,大多數(shù)女學生申請了競爭更激烈的B部門(錄取率較低),而大多數(shù)男學生則申請了競爭較弱的A部門(錄取率較高)。這導致了我們的矛盾觀察。
結論
潛在變量,對撞機變量和類不平衡會在許多數(shù)據(jù)科學應用程序中輕易產(chǎn)生統(tǒng)計悖論。因此,必須特別注意這些關鍵點,以正確得出趨勢并分析結果。
原文鏈接:https://towardsdatascience.com/top-3-statistical-paradoxes-in-data-science-e2dc37535d99