面試必備:數(shù)據(jù)科學家必須掌握的3個統(tǒng)計學概念
從某些角度上來講,如今的數(shù)據(jù)科學家基本上等于現(xiàn)代統(tǒng)計學家。在數(shù)據(jù)科學面試中,我們也少不了要面對統(tǒng)計學相關(guān)的知識。
以下是數(shù)據(jù)科學相關(guān)面試中最頻繁出現(xiàn)的三種統(tǒng)計學問題,它們是許多數(shù)據(jù)科學應用程序的基本構(gòu)建模塊。還有一些非常重要的統(tǒng)計學概念本文沒有提到,比如中心極限定理,但是在提及概率分布時它仍然是不可或缺。
接下來就開始吧!
1. 貝葉斯定理/條件概率
你需要理解貝葉斯定理和條件概率,因為最流行的機器學習算法之一——樸素貝葉斯算法就是建立在這兩個概念上的。此外,如果你研究的是在線機器學習,你很可能會需要使用貝葉斯算法。
貝葉斯定理/條件概率
問題示例:你即將登上飛往西雅圖的飛機,想知道是否應該帶把傘。你隨機打電話給3個住在那里的朋友,分別問他們西雅圖是否在下雨。每一個朋友都有2/3的機會告訴你真相,1/3的機會說謊來攪亂你。結(jié)果3個朋友都告訴你“是的,西雅圖在下雨”。那么西雅圖下雨的概率是多少?
貝葉斯定理
條件概率
答:可以看出這個問題與貝葉斯理論有關(guān),因為最后一個陳述基本遵循了這個結(jié)構(gòu),即“如果B為真,A為真的概率是多少?”因此,我們需要知道西雅圖某一天下雨的概率。假設(shè)這個概率是25%。
- P(A) =下雨的概率= 25%
- P(B) =三個朋友都說下雨的概率
- P(A |B)是“假設(shè)朋友說下雨,那么真實下雨”的概率
- P(B|A) 是“假設(shè)真的在下雨,那么3個朋友都說在下雨”的概率= (2/3)3 = 8/27
步驟一:求解P(B)
- P(A|B) = P(B|A) * P(A) / P(B),可以寫作——P(B) = P(B|A) * P(A) + P(B|非 A) * P(非 A)
- P(B) = (2/3)3 * 0.25 + (1/3)3 * 0.75 = 0.25*8/27 + 0.75*1/27
步驟二:求解P(A|B)
- P(A|B) = 0.25 * (8/27) / ( 0.25*8/27 + 0.75*1/27)
- P(A|B) = 8 / (8 + 3) = 8/11
因此,如果三個朋友都說下雨了,那么下雨的概率是8/11。
2. 計算應用
如果你正在從事網(wǎng)絡(luò)安全、模式分析、運籌學等工作,那么組合和排列是極其重要的。讓我們再回顧一下它們的概念:
排列
定義:n個元素的排列是指將這n個元素按照一定的順序排列。排列n個元素有n的階乘種方法。注意,順序很重要!
一次取r的n個事物的排列數(shù)被定義為可以從n個不同元素中提取的r元組的數(shù)目,它等于以下等式:
例題:一個6位數(shù)的車牌有多少種排列方式?
答案
組合
定義:在順序無關(guān)緊要的n個對象中選擇r的方法數(shù)。
一次取r的n個事物的組合數(shù)定義為一個有n個元素的集合中有r個元素的子集的個數(shù),等于:
例題:從52張牌中抽出6張牌的方法有多少種?
答案
這些都是非常簡單的問題,而你真實遇到的可能會比這復雜得多,但萬變不離其宗,所以你要充分理解上面的例子。
3. 概率分布/置信區(qū)間
我們很容易在概率分布中感到迷茫,因為概率分布形式實在太多了。如果必須選擇五個主要的分布來介紹,它們會是:
- 正態(tài)分布
- 泊松分布
- 二項分布
- 指數(shù)分布
- ·均勻分布
問題:蘇格蘭去年的兇殺率從前年的115人下降到99人。這些報道的變化真的值得注意嗎?
答:這是一個泊松分布問題,平均值=λ=方差,這也意味著標準差=平均值的平方根。
- 95%置信區(qū)間意味著z值為1.96。
- 一個標準差=√115 = 10.724
因此,置信區(qū)間=115+/-21.45=[93.55,136.45]。由于99在這個置信區(qū)間內(nèi),我們可以假設(shè)這種變化不是很值得注意。
文中給出的例子看起來都不難,但生動地表達了這些包羅萬象的概念的核心內(nèi)容,希望能幫助你對這三個重要概念有基本理解。
本文轉(zhuǎn)載自微信公眾號「讀芯術(shù)」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系讀芯術(shù)公眾號。