如何用簡單的統(tǒng)計(jì)學(xué)問題“戲弄”聰明的數(shù)據(jù)科學(xué)家
“概率是生命的向?qū)А?rdquo;——列納德·蒙洛迪諾, 《醉漢的腳步:隨機(jī)性如何支配我們的生活》
首先,確保你想戲弄的人真的聰明。
其次,提的問題需直觀易懂。
事實(shí)上,在互聯(lián)網(wǎng)領(lǐng)域,仍存爭議的嚴(yán)謹(jǐn)話題所剩無幾(因?yàn)橛泄雀韬途S基百科)。
但今天筆者要討論的是過去幾年在互聯(lián)網(wǎng)上引起激烈討論的話題??茖W(xué)專家和數(shù)據(jù)科學(xué)家在這一問題上各有看法。
事不宜遲,現(xiàn)在開始吧。
先來看問題
列納德·蒙洛迪諾是一名物理學(xué)家,他與斯蒂芬·霍金合著了《宏偉設(shè)計(jì)》一書。他的著作《醉漢的腳步:隨機(jī)性如何只陪我們的生活》還談到了隨機(jī)性,以及導(dǎo)致人們誤解隨機(jī)事件和隨機(jī)過程的認(rèn)知偏見。
在介紹“樣本空間”概念的章節(jié)中,蒙洛迪諾使用了以下示例:
問題A:兒子還是女兒
我的朋友尼克有兩個(gè)孩子,他告訴你他至少有一個(gè)女兒,那么另一個(gè)孩子是女孩的概率是多少? 這似乎是一個(gè)簡單的問題,直接的回答是:已知其中一個(gè)是女孩,所以另一個(gè)孩子是女孩的幾率應(yīng)該是50%,對嗎?
不對。
根據(jù)樣本空間理論,可以如下列出所有可能的樣本組合:
表中顯示,答案是1/3,即,33.3%。
蒙洛迪諾指出,這個(gè)問題令人困惑的部分是題目內(nèi)容,如果題中指定第一個(gè)孩子為女孩,那么第二個(gè)孩子為女孩的概率是50%。
辯論
然而,另一位有識之士不同意蒙洛迪諾的理論。 加里·史密斯(Gary Smith)是波莫納學(xué)院(Pomona College)的經(jīng)濟(jì)學(xué)教授。他在耶魯大學(xué)獲得經(jīng)濟(jì)學(xué)博士學(xué)位,后被聘為助理教授。 他在《基本統(tǒng)計(jì)、回歸和計(jì)量經(jīng)濟(jì)學(xué)》一書中引用了上述蒙洛迪諾采用的例子,認(rèn)為這是對現(xiàn)實(shí)世界的典型誤解,并從另一角度提出了問題。
問題B:另一個(gè)孩子
你看到我的朋友尼克和他的女兒在街上散步。尼克告訴你他家里還有一個(gè)孩子,那么,另一個(gè)孩子是女孩的概率有多大?
這個(gè)問題看起來和蒙洛迪諾提出的問題十分相似,但加里卻給出了完全不同的答案與解析。
首先,他指出蒙洛迪諾“33.3%”的答案是錯(cuò)誤的,然后他通過下表中的推算給出了自己的正確答案。
男孩用B表示,因此BB表示第一個(gè)孩子是男孩,同理,第二個(gè)孩子也是男孩。
女孩用G表示,BG表示第一個(gè)孩子是男孩,第二個(gè)是女孩。
該表顯示了400個(gè)家庭平均分配了4種孩子類型,即,每種類型為100。根據(jù)加里所證,可以得出以下推論:
已知事實(shí)
- 在100例的BB中,尼克應(yīng)該總是和男孩散步。
- 在100例的GG中,尼克應(yīng)該總是和女孩散步。
- 如果尼克有兒有女,則合理的假設(shè)是,他和男孩或女孩一起散步的概率是相同的。
分析
- 觀察表格的第一行。當(dāng)尼克和一個(gè)女孩散步時(shí),其中有100例(GG)表明另一位不在場的孩子也是女孩,而其他50+50例(BG&GB)則表明缺席的孩子是男孩。
- 當(dāng)尼克和一個(gè)男孩散步時(shí),也可以做出同樣的推論,因此,比較BB與BG+GB(100 vs 50+50),也可以得出同樣的結(jié)論
結(jié)論
不管現(xiàn)在和尼克散步的是男孩還是女孩,另一個(gè)孩子是“男孩或女孩”概率保持不變(它們是自變量)因此答案是1/2,而不是1/3。
當(dāng)然,還有一個(gè)更為直觀的解釋:你看到一個(gè)女孩,這是一個(gè)獨(dú)立的事件,對其他孩子的性別沒有影響。
如果你現(xiàn)在還沒有絲毫的困惑,那么你可能對這個(gè)問題還只停留在表面理解上(也可能你是個(gè)真正的天才,那便來看看下面的解釋是否與你的思維過程相同)
深入探討這個(gè)問題…
那么,加里和蒙洛迪諾,誰對誰錯(cuò)?
實(shí)際上,他們都是對的,因?yàn)樗麄冊噲D解決的是兩個(gè)不同的問題。再看看以上的問題。
- A:我的朋友尼克有兩個(gè)孩子,他告訴你他至少有一個(gè)女兒,那么另一個(gè)孩子是女孩的概率是多少?
- B:你看到我的朋友尼克和他的女兒在街上散步。尼克告訴你他家里還有一個(gè)孩子,那么,另一個(gè)孩子是女孩的概率有多大?
兩個(gè)問題有什么不同嗎,“看見一個(gè)孩子是女孩”和“一個(gè)孩子是女孩”一樣嗎?
你認(rèn)為呢?現(xiàn)在就是把聰明人弄糊涂的時(shí)候了。經(jīng)濟(jì)學(xué)教授加里混淆了以上兩者的區(qū)別。
貝葉斯方程是解釋這個(gè)問題最簡單、最優(yōu)雅的方法,盡管如此,筆者還是想從另一角度(使用全概率定律)來看待該問題。
“至少有一個(gè)女兒”和“看到一個(gè)女孩”不是一回事。這是關(guān)鍵。
這兩個(gè)前提在時(shí)間和空間維度上的差異可以表示為“全局關(guān)系vs.局部關(guān)系”。
1. 空間維度上的“全球關(guān)系 VS 社會(huì)關(guān)系”
“至少有一個(gè)女兒”并不代表你能看到那個(gè)女孩
如上圖所示,“至少有一個(gè)女兒”包含了“看到一個(gè)女孩”,而“看到一個(gè)女孩”所傳遞的信息更具概率描述。
2. 時(shí)間維度上的“全球關(guān)系 VS 本地關(guān)系”
“至少有一個(gè)女兒”是鳥瞰的統(tǒng)計(jì)結(jié)果角度。
“看見一個(gè)女孩”是人類觀察的角度。
下面是更直觀的描述,
統(tǒng)計(jì)是對樣本空間的總體描述。觀察是對平行空間中一種可能組合(所有可能發(fā)生的事情)的實(shí)際描述。 在理解了這兩個(gè)問題之間的根本區(qū)別之后,可以得出結(jié)論:
- “至少有一個(gè)女兒”是樣本空間中的一個(gè)概率問題。因此答案是1/3;
- “看見一個(gè)女孩”是根據(jù)目前的觀察作出的未知推斷,這是一個(gè)貝葉斯統(tǒng)計(jì)計(jì)算。
因此,“看到一個(gè)女孩,問另一個(gè)孩子是女孩的概率”就等于“有兩個(gè)孩子,你看到其中一個(gè)是女孩,那么這個(gè)家庭有兩個(gè)女兒的概率是多少?” “猜性別”的話題到此結(jié)束。 筆者想總結(jié)的是,即使是系統(tǒng)1(快速直觀的本能,以及由‘或快或慢思考’產(chǎn)生的情感大腦)也沒有很好的概率直覺。但是,我們總是可以通過增強(qiáng)對概率因果關(guān)系的認(rèn)識,來提高自己解釋周圍環(huán)境中的動(dòng)態(tài)和不確定性的能力。
總結(jié)
如何通過概率建立主觀假設(shè)與客觀結(jié)果之間的聯(lián)系?
為什么對真實(shí)世界的觀察會(huì)影響事件的偶然性概率? 將要發(fā)生的事情和已經(jīng)發(fā)生的事情有什么根本的區(qū)別?
最后,如想找到一種回答這些問題的方法,或者想戲弄你的智能數(shù)據(jù)科學(xué)家朋友,可閱讀以下書籍:
- The Drunkard’s Walk: How Randomness Rules Our Lives
- EssentialStatistics, Regression, and Econometrics
- The Book of Why: The New Science of Cause and Effect