每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念
統(tǒng)計和數(shù)據(jù)科學(xué)的重要支柱
任何數(shù)據(jù)科學(xué)家都可以從數(shù)據(jù)集中收集信息-任何優(yōu)秀的數(shù)據(jù)科學(xué)家都將知道,扎實的統(tǒng)計基礎(chǔ)可以收集有用和可靠的信息。 沒有它,就不可能進(jìn)行高質(zhì)量的數(shù)據(jù)科學(xué)。
> Photo by Tachina Lee on Unsplash
但是統(tǒng)計是一個巨大的領(lǐng)域! 我從哪說起呢?
以下是每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的前五個統(tǒng)計概念:描述性統(tǒng)計,概率分布,降維,過采樣和欠采樣以及貝葉斯統(tǒng)計。
讓我們從最簡單的一個開始。
1. 描述性統(tǒng)計
您正坐在數(shù)據(jù)集的前面。 您如何對自己所擁有的東西有一個高層次的描述? 描述性統(tǒng)計就是答案。 您可能已經(jīng)聽說過其中的一些:平均值,中位數(shù),眾數(shù),方差,標(biāo)準(zhǔn)差…
這些將快速識別您的數(shù)據(jù)集的關(guān)鍵特征,并在您執(zhí)行任務(wù)時通知您的方法。 讓我們來看看一些最常見的描述性統(tǒng)計數(shù)據(jù)。
意思
平均值(也稱為"期望值"或"平均值")是值的總和除以值的數(shù)量。 采取以下示例集:

平均值計算如下:
中位數(shù)
以升序(或降序)列出您的值。 中位數(shù)是將數(shù)據(jù)分成兩半的點。 如果有兩個中間數(shù)字,則中位數(shù)是這些數(shù)字的平均值。 在我們的示例中:
中位數(shù)為4.5。
模式
模式是數(shù)據(jù)集中最頻繁的值。 在我們的示例中,模式為3。
方差
方差衡量數(shù)據(jù)集相對于均值的分布。 要計算方差,請從每個值中減去平均值。 平方每個差異。 最后,計算這些結(jié)果數(shù)字的平均值。 在我們的示例中:

標(biāo)準(zhǔn)偏差
標(biāo)準(zhǔn)差用于衡量總體價差,并通過求出方差的平方根來計算。 在我們的示例中:
其他描述性統(tǒng)計數(shù)據(jù)包括偏度,峰度和四分位數(shù)。
2. 概率分布
概率分布是一種函數(shù),它給出實驗每個可能結(jié)果的出現(xiàn)概率。 如果您要繪制鐘形曲線,那您就走對了。 乍一看,它顯示了如何分散隨機(jī)變量的值。 隨機(jī)變量及其分布可以是離散的也可以是連續(xù)的。
離散的
約翰是一名棒球運(yùn)動員,每次向他投球時,都有50%的隨機(jī)擊球機(jī)會。 讓我們向約翰投三個球,看看他有多少次擊球。 以下是所有可能結(jié)果的列表:

令X為我們的隨機(jī)變量,即約翰在三音高實驗中被擊中的次數(shù)。 約翰獲得n次點擊的概率由P(X = n)表示。 因此,X可以為0、1、2或3。如果上述所有八個結(jié)果均具有相同的可能性,則我們有:
用f代替P,我們就有了概率函數(shù)! 讓我們來畫一下。
從圖中可以看出,John獲得1或2次命中比獲得0或3次命中的可能性更大,因為對于那些X值,該圖更高。常見的離散分布包括伯努利,二項式和 泊松
連續(xù)
連續(xù)情況自然而然地來自離散情況。 除了計算命中率外,我們的隨機(jī)變量可能是棒球播出的時間。 我們可以將值設(shè)置為3.45秒或6.98457秒,而不僅僅是一秒,兩秒或三秒。
我們正在談?wù)摕o限多種可能性。 連續(xù)變量的其他示例是高度,時間和溫度。 常見的連續(xù)分布包括正態(tài),指數(shù)和卡方。
3. 降維
如果輸入變量太多或數(shù)據(jù)計算笨拙,則可以轉(zhuǎn)向降維。 這是將高維數(shù)據(jù)投影到低維空間的過程,但是請務(wù)必注意不要丟失原始數(shù)據(jù)集的重要特征。
例如,假設(shè)您正在嘗試確定哪些因素可以最好地預(yù)測您最喜歡的籃球隊今晚能否贏得比賽。 您可能會收集數(shù)據(jù),例如他們的獲勝百分比,他們在踢球,在哪里踢球,他們的前鋒是誰,他吃晚餐的時間以及教練穿什么顏色的鞋子。
您可能會懷疑其中某些功能比其他功能與獲勝的相關(guān)性更高。 降維可以使我們放心地刪除不會對預(yù)測做出有意義貢獻(xiàn)的信息,同時保留具有最大預(yù)測價值的特征。
主成分分析(PCA)是一種流行的方法,它通過夸大稱為主成分的要素的新組合的方差來工作。 這些新組合是原始數(shù)據(jù)點到新空間(仍是相同維度)的投影,其中會顯示變化。
通常的想法是,在這些新組件中,變化最小的組件可以最安全地刪除。 刪除單個組件將使原始尺寸減小一倍,刪除兩個組件將使尺寸減小兩個,依此類推。
4. 欠采樣和過采樣
收集的一組觀測值稱為"樣本",而收集觀測值的方式稱為"采樣"。 在需要平等代表少數(shù)派和多數(shù)派的分類情況下,欠采樣或過采樣可能會有用。 對多數(shù)類別進(jìn)行欠采樣或?qū)ι贁?shù)類別進(jìn)行過度采樣可以幫助均衡不平衡的數(shù)據(jù)集。
隨機(jī)過采樣(或者,隨機(jī)欠采樣)涉及在少數(shù)類中隨機(jī)選擇和復(fù)制觀測值(或在多數(shù)類中隨機(jī)選擇和刪除觀測值)。
這很容易實現(xiàn),但是您應(yīng)謹(jǐn)慎行事:對采樣重復(fù)的觀測值進(jìn)行過采樣加權(quán),如果不加偏見,可能會嚴(yán)重影響結(jié)果。 同樣,采樣不足會帶來刪除關(guān)鍵觀測值的風(fēng)險。
少數(shù)群體過采樣的一種方法是合成少數(shù)群體過采樣技術(shù)(SMOTE)。 這通過創(chuàng)建現(xiàn)有觀測值的新組合來創(chuàng)建(綜合)少數(shù)群體觀測值。 對于少數(shù)群體類別中的每個觀察,SMOTE會計算其k個最近的鄰居; 也就是說,它找到最類似于該觀測值的k個少數(shù)群體觀測值。
通過將觀察結(jié)果視為向量,它可以通過用0到1之間的隨機(jī)數(shù)對k個最近鄰居中的任何一個加權(quán),并將其添加到原始向量中來創(chuàng)建隨機(jī)線性組合。
多數(shù)類樣本不足的一種方法是使用聚類質(zhì)心。 從理論上講,與SMOTE相似,它用k個最近鄰居簇的質(zhì)心替換向量組。
5. 貝葉斯統(tǒng)計
在統(tǒng)計推斷方面,主要有兩種思想流派:??徒y(tǒng)計和貝葉斯統(tǒng)計。 頻繁的統(tǒng)計數(shù)據(jù)使我們能夠進(jìn)行有意義的工作,但是在某些情況下,它的工作還不夠。 當(dāng)您有理由相信您的數(shù)據(jù)可能無法很好地表示您希望將來觀察到的數(shù)據(jù)時,貝葉斯統(tǒng)計量會很好。
這使您可以將自己的知識整合到計算中,而不僅僅是依靠樣本。 它還可以讓您在收到新數(shù)據(jù)后更新對未來的看法。
來看一個例子:A隊和B隊互相比賽10次,A隊贏得9次。 如果今晚兩隊互相比賽,我問你認(rèn)為誰會贏,你可能會說A隊! 如果我還告訴您B隊賄賂了今晚的裁判怎么辦? 好吧,那您可能會猜猜B隊會贏。
貝葉斯統(tǒng)計允許您將這些額外的信息納入您的計算中,而??徒y(tǒng)計則僅關(guān)注10個獲勝百分比中的9個。
貝葉斯定理是關(guān)鍵:

給定E的H的條件概率,記為P(H | E),表示當(dāng)E也出現(xiàn)(或已經(jīng)發(fā)生)時H發(fā)生的概率。 在我們的示例中,H是B隊獲勝的假設(shè),E是我為您提供的有關(guān)B隊賄賂裁判的證據(jù)。
P(H)是??透怕剩瑸?0%。 P(E | H)是在B隊獲勝的情況下我對您所說的關(guān)于賄賂的信息屬實的概率。 (如果B隊今晚獲勝,您會相信我說的話嗎?)
最后,P(E)是B隊實際上賄賂裁判的概率。 我是值得信賴的信息來源嗎? 您會發(fā)現(xiàn),這種方法不僅包含了兩支球隊之前10場比賽的結(jié)果,而且還包含更多信息。
就是今天。 讓我們在下一節(jié)中總結(jié)一下。
你走之前
學(xué)習(xí)這5個概念并不能使您掌握統(tǒng)計學(xué)或數(shù)據(jù)科學(xué)知識,但是如果您不了解數(shù)據(jù)科學(xué)項目的基本流程,那么這是一個很好的起點。