數(shù)據(jù)科學家應(yīng)該避免的5種統(tǒng)計陷阱(附鏈接)
作者:Matthew Mayo
編譯:馮羽、陳雨琳
這篇文章講了五種統(tǒng)計謬誤,也可以稱為數(shù)據(jù)陷阱,數(shù)據(jù)科學家應(yīng)該重視并絕對避免它們。謬誤就是我們所說的錯誤推理的結(jié)果。統(tǒng)計謬誤是統(tǒng)計誤用的一種形式,其統(tǒng)計推理能力極差;或許你擁有的數(shù)據(jù)正確,但無論你的意圖多么純粹,你所使用的方法和解釋都不正確。因此,你基于這些錯誤舉動做出的任何決定都必然是錯誤的。
有無數(shù)種基于數(shù)據(jù)進行錯誤推理的方法,其中某些方法比其他方法錯得更加明顯。由于人們一直犯這類錯誤,許多統(tǒng)計謬論已經(jīng)被識別并被解釋。好消息是,一旦識別并研究了它們,我們就可以避免它們。讓我們看看其中一些相對更常見的謬誤,看看如何避免它們。
當誤用統(tǒng)計是無意的,這個過程類似于認知偏見,維基百科將其定義為“以特定方式進行思考的傾向,可能導致系統(tǒng)性地偏離理性或良好判斷標準”。前者建立在數(shù)據(jù)之上不正確的推理和對數(shù)據(jù)進行顯式和主動的分析,而后者則更隱式和被動地達到了類似的結(jié)果。但是,這并不是絕對的,因為這兩種現(xiàn)象之間肯定存在重疊。最終結(jié)果是相同的:錯誤。
這里有五個統(tǒng)計謬誤,或者稱之為陷阱,數(shù)據(jù)科學家應(yīng)該重視并絕對避免它們。做不到這一點對數(shù)據(jù)結(jié)果和數(shù)據(jù)科學家的信譽的打擊都是災(zāi)難性的。
挑選櫻桃
為了說明統(tǒng)計謬誤多么明顯和簡單,讓我們從每個人都應(yīng)該知道的經(jīng)典謬論開始:挑選櫻桃。我們可以將其歸類為其他容易識別的謬誤,例如“賭徒謬誤”“虛假因果關(guān)系”“偏見抽樣”“過度概括”等等。
挑選櫻桃的想法很簡單,你之前肯定已經(jīng)做過這樣的事情:有意選擇那些有助于支持你的假設(shè)的數(shù)據(jù)點,而犧牲其他不支持你的假設(shè)或積極反對你的假設(shè)的數(shù)據(jù)點。你聽過政客講話嗎?那么你一定會聽到“挑選櫻桃”。另外,如果你是一個活生生的呼吸的人類,那么在生命中的某個時刻你已經(jīng)選擇了挑選櫻桃的數(shù)據(jù)。你知道你有這么做過。它往往很誘人,是一種很容易獲得的成果,可以在辯論中贏得或混淆對手,或者以反對的觀點為代價來幫助推動議程。
為什么不好?因為這是不誠實的,這就是原因。如果數(shù)據(jù)是事實,并且使用統(tǒng)計工具分析數(shù)據(jù)將有助于發(fā)掘事實,那么“挑選櫻桃”就是尋求事實的對立面。不要這樣做。
麥克納馬拉謬誤
麥克納馬拉謬誤以美國前國防部部長羅伯特·麥克納馬拉的名字命名,在越南戰(zhàn)爭期間,他的有關(guān)決定基于那些很容易獲得的定量度量,而忽略其他定量度量。這導致他將個體計數(shù)(容易獲得的指標)作為成功的唯一指標,而以其他所有定量指標為代價。
不用花很多腦力,你就會發(fā)現(xiàn),簡單的個體計數(shù)很可能使你在評估戰(zhàn)場表現(xiàn)時誤入歧途。舉一個簡單的例子,也許敵人正以不成比例的戰(zhàn)斗人員進入你的領(lǐng)土,并控制領(lǐng)土,但陣亡人數(shù)比己方略多。另外,也許敵人比例囚禁你的戰(zhàn)士的比例高于你殺死敵人的比例,等等。
增加統(tǒng)計盲點并把所有信任放在一個簡單的度量上,不足以全面了解越南正在發(fā)生的事情,也無法全面了解你所做的事情。
眼鏡蛇效應(yīng)
眼鏡蛇效應(yīng)被認為是一個問題解決方案的意外后果,但這反而使問題變得更糟。該名稱來自在英國殖民統(tǒng)治下發(fā)生在印度的這一現(xiàn)象的特定實例,其中包括,你肯定猜到了,眼鏡蛇。
維基百科頁面上有一些眼鏡蛇效應(yīng)的例子,我最喜歡的是在1980年代末嘗試減少墨西哥城污染物的例子。政府打算根據(jù)車牌的最后一位數(shù)字,將特定周內(nèi)可行駛的車輛數(shù)量限制為20%,以減少車輛的排放。為了規(guī)避這項政策,該市居民購買了其他帶有不同車牌的車輛,以期在禁止其主要車輛使用之日起能夠駕駛其他允許的駕駛車輛。這導致相對便宜的汽車泛濫成災(zāi),最終使污染問題惡化。
鑒于意外后果的性質(zhì)是潛在的,并且很難預測,因此這比挑選櫻桃要難應(yīng)對得多。團隊采用數(shù)據(jù)科學方法,以及更多人員帶來額外思考過程,是對抗眼鏡蛇效應(yīng)的好方法。
辛普森悖論
這種悖論以英國統(tǒng)計學家愛德華·辛普森命名(盡管先前已被其他人識別),是指觀察到數(shù)據(jù)集子集中的某些趨勢,但這些趨勢隨著子集的合并就消失了。從這個意義上講,可以將其視為無意中的挑選櫻桃。棒球的例子可以幫助說明這種悖論。
如果我們比較兩位職業(yè)球手在他們整個職業(yè)生涯的平均擊球率,你可能會發(fā)現(xiàn)在某些年份子集,球員A的擊球平均值高于球員B,甚至可能更高。但是,完全有可能的是,在整個職業(yè)生涯查看擊球平均數(shù),球員B實際上比球員A擁有更高的擊球平均數(shù),甚至可能更高。
如果你提前知道這一點,并有選擇地選擇了X,Y和Z年份作為A是更好球員的證據(jù),那就是挑選櫻桃。如果你不了解聚合統(tǒng)計信息,但偶然碰到了那些孤立的年份,并把它們作為整個職業(yè)生涯的代表,但是(希望)在查看了全部統(tǒng)計信息后發(fā)現(xiàn)了另外的情況,那將是辛普森悖論的一個例子。
兩種情況都導致錯誤的結(jié)果,其中一種是導致錯誤理解的更無辜的方式。不過,這仍然是錯誤的,應(yīng)該加以防范。全面的統(tǒng)計分析應(yīng)成為數(shù)據(jù)科學家的工作方案的一部分,并且是確保你不屈服于這種現(xiàn)象的一種有效方法。
數(shù)據(jù)疏浚
數(shù)據(jù)疏浚還有其他更加不好的名字,例如 p-hacking,它是“誤用數(shù)據(jù)分析以查找數(shù)據(jù)中具有統(tǒng)計學意義的模式,而這些模式實際上沒有任何真實潛在影響。” 這相當于對數(shù)據(jù)進行廣泛的統(tǒng)計測試,并從重大結(jié)果中挑選櫻桃,以提高敘事效果(真正的挑選櫻桃?)。雖然統(tǒng)計分析應(yīng)該從假設(shè)轉(zhuǎn)移到檢驗,但數(shù)據(jù)疏浚利用統(tǒng)計檢驗的結(jié)果強制獲得一個一致的假設(shè)。這相當于“我認為是這樣,現(xiàn)在我將測試我是否正確”與“讓我們看看數(shù)據(jù)可以通過測試說出什么,然后提出一個有助于支持這個結(jié)果的想法”之差。
但是為什么這樣做是錯的呢?為什么我們要首先形成假設(shè)然后進行檢驗,而不是僅僅讓數(shù)據(jù)決定我們從未想到要尋找的發(fā)現(xiàn)呢?有了足夠的數(shù)據(jù)和足夠的變量,我們就可以測試相關(guān)性,不需要很長時間我們就可以發(fā)現(xiàn)足夠多的顯著的個體組合。如果我們忽略所有反事實證據(jù),而將注意力集中在這些一致的測試結(jié)果上,那么似乎那里確實有東西,而實際上卻沒有。它們只是偶然出現(xiàn)的結(jié)果。抓住機會并證明機會的合理性顯然不是科學應(yīng)有的意義。
原文鏈接:
https://www.kdnuggets.com/2019/10/statistical-traps-data-scientists-avoid.html
【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】