自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)之基石:數(shù)據(jù)科學(xué)家應(yīng)該掌握的10個(gè)統(tǒng)計(jì)學(xué)概念

大數(shù)據(jù)
數(shù)據(jù)科學(xué)是一個(gè)跨學(xué)科領(lǐng)域,其基石之一是統(tǒng)計(jì)學(xué)。如果沒(méi)有足夠的統(tǒng)計(jì)知識(shí),就很難理解或解釋數(shù)據(jù)。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。

數(shù)據(jù)科學(xué)是一個(gè)跨學(xué)科領(lǐng)域,其基石之一是統(tǒng)計(jì)學(xué)。如果沒(méi)有足夠的統(tǒng)計(jì)知識(shí),就很難理解或解釋數(shù)據(jù)。

統(tǒng)計(jì)學(xué)幫助解釋數(shù)據(jù)。我們使用統(tǒng)計(jì)學(xué)方法,根據(jù)從某個(gè)總體中抽取的樣本,推斷出該總體的結(jié)果。此外,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)也有很多交叉。要成為一名數(shù)據(jù)科學(xué)家,就需要學(xué)習(xí)統(tǒng)計(jì)學(xué)及其概念。本文將具體解釋10個(gè)基本的統(tǒng)計(jì)概念。

[[379339]]

1. 總體與樣本

總體是一個(gè)群體中的所有元素。例如,美國(guó)的大學(xué)生是包括美國(guó)所有大學(xué)生的總體。在歐洲25歲的人是一個(gè)總體,該總體包括所有符合該描述的人。

由于我們不能收集一個(gè)總體的所有數(shù)據(jù),因此對(duì)總體進(jìn)行分析有時(shí)是不可行或不可能的,因此,可以借助樣本進(jìn)行分析。樣本是總體的一個(gè)子集。例如,1000名美國(guó)大學(xué)生是“美國(guó)大學(xué)生”總體的一個(gè)子集。

2. 正態(tài)分布

概率分布是表示事件或?qū)嶒?yàn)結(jié)果概率的函數(shù)??紤]數(shù)據(jù)幀中的一個(gè)特性(即列)。這個(gè)特征是一個(gè)變量,它的概率分布函數(shù)顯示了可以取值的區(qū)間。

概率分布函數(shù)在預(yù)測(cè)分析或機(jī)器學(xué)習(xí)中非常有用。我們可以根據(jù)某個(gè)總體樣本的概率分布函數(shù)來(lái)預(yù)測(cè)該總體。

正態(tài)(高斯)分布是一個(gè)概率分布函數(shù),看起來(lái)像一個(gè)鐘型。下圖顯示了典型正態(tài)分布曲線的形狀。

曲線的峰值表示變量最可能采用的值。離峰值越遠(yuǎn),取該值的概率就越小。

3.量度集中趨勢(shì)

中心趨勢(shì)是概率分布的中心值(或典型值)。最常用的中心趨勢(shì)度量是平均數(shù)、中位數(shù)和眾數(shù)。

· 平均數(shù)是一列數(shù)值的平均值。

· 中位數(shù)是按升序或降序排序時(shí)中間的值。

· 眾數(shù)是最常出現(xiàn)的值。

4.方差與標(biāo)準(zhǔn)差

方差是值之間變化的度量。它的計(jì)算方法是求每個(gè)值和平均值的平方差,然后將這些平方差相加,最后將總和除以樣本數(shù)。

標(biāo)準(zhǔn)差是衡量數(shù)值分布的一種方法,它是方差的平方根。

5. 協(xié)方差和相關(guān)性

協(xié)方差是一種定量方法,它表示兩個(gè)變量的變化在多大程度上相互匹配。更具體地說(shuō),協(xié)方差以其平均值(或預(yù)期值)來(lái)比較兩個(gè)變量的偏差。

下圖顯示了隨機(jī)變量X和Y的一些值。橙色點(diǎn)表示這些變量的平均值。這些值的變化與變量的平均值類(lèi)似。因此,X和Y之間存在正值協(xié)方差。

兩個(gè)隨機(jī)變量的協(xié)方差公式:

其中E是期望值,µ是平均值。

相關(guān)性是通過(guò)每個(gè)變量的標(biāo)準(zhǔn)差對(duì)協(xié)方差進(jìn)行正態(tài)化。

其中σ是標(biāo)準(zhǔn)偏差。

這種正態(tài)化消除了單位,相關(guān)值始終在0和1之間。請(qǐng)注意,這是絕對(duì)值。如果兩個(gè)變量之間存在負(fù)相關(guān)性,則相關(guān)性介于-1和0之間。如果比較三個(gè)或更多變量之間的關(guān)系,最好使用相關(guān)性,因?yàn)橹档姆秶騿挝豢赡軙?huì)導(dǎo)致其假設(shè)錯(cuò)誤。

6.中心極限定理

隨機(jī)變量的分布在社會(huì)科學(xué)的許多領(lǐng)域都鮮為人知,因此正態(tài)分布得以廣泛應(yīng)用。

中心極限定理(CLT)解釋了為什么正態(tài)分布可以用來(lái)證明這種極限情況。根據(jù)中心極限定理,當(dāng)我們從一個(gè)分布中抽取更多樣本時(shí),無(wú)論總體分布如何,樣本平均值都將趨向于正態(tài)分布。

思考這樣一個(gè)案例:我們需要了解一個(gè)國(guó)家所有20歲人群的身高分布。收集這些數(shù)據(jù)幾乎是不可能,也不實(shí)際的。所以,我們?cè)谌珖?guó)范圍內(nèi)抽取了20歲的人群樣本,計(jì)算樣本中人群的平均身高。中心極限定理指出,當(dāng)我們從人群中抽取樣本越多時(shí),樣本分布將越接近正態(tài)分布。

為什么正態(tài)分布如此重要?正態(tài)分布是用均值和標(biāo)準(zhǔn)差來(lái)描述的,可以很容易地計(jì)算出來(lái)。如果知道正態(tài)分布的平均值和標(biāo)準(zhǔn)差,就可以計(jì)算出幾乎所有關(guān)于它的信息。

7.P值

P值是衡量隨機(jī)變量取值可能性的量。假設(shè)有一個(gè)隨機(jī)變量A和x值,x的p值是A取x值時(shí)的概率,或者是取任何其他值時(shí),有相同或更少機(jī)會(huì)被觀察到的值的概率。

下圖顯示了A的概率分布,很容易就觀察到10左右的值。隨著值的增大或減小,概率降低。

有另一個(gè)隨機(jī)變量B,而且想看B是否大于A。從B中獲得的平均樣本均值為12.5。12.5的p值位于下圖中的綠色區(qū)域。綠色區(qū)域表示獲得12.5或更大極值的概率(在本例中高于12.5)。

假設(shè)p值是0.11,怎么解釋呢?p值為0.11意味著我們對(duì)結(jié)果有89%的把握。換言之,該結(jié)果受隨機(jī)事件影響的可能性有11%。類(lèi)似地,p值為0.05意味著結(jié)果受到隨機(jī)事件影響的可能性為5%。

如果隨機(jī)變量B的樣本均值的平均值為15,這是一個(gè)更極端的值,p值將低于0.11。

8.期望值和隨機(jī)變量

隨機(jī)變量的期望值是該變量所有可能值的加權(quán)平均值。這里的權(quán)重是指隨機(jī)變量取特定值的概率。對(duì)于離散和連續(xù)隨機(jī)變量,期望值的計(jì)算是不同的。

· 離散隨機(jī)變量取有限多或可數(shù)無(wú)限多的值。一年中的雨天數(shù)是一個(gè)離散的隨機(jī)變量。

· 連續(xù)隨機(jī)變量取不可數(shù)的無(wú)窮多個(gè)值。例如,從家到辦公室的時(shí)間是一個(gè)連續(xù)的隨機(jī)變量。根據(jù)你測(cè)量它的方式(分、秒、納秒等等),它需要無(wú)數(shù)個(gè)值。

離散隨機(jī)變量期望值的公式為:

連續(xù)隨機(jī)變量的期望值用相同的邏輯計(jì)算,但方法不同。因?yàn)檫B續(xù)的隨機(jī)變量可以取不可數(shù)的無(wú)窮多個(gè)值,所以我們不能談?wù)撊√囟ㄖ档淖兞?。我們更關(guān)注其有價(jià)值的范圍。

為了計(jì)算值范圍的概率,使用概率密度函數(shù)(PDF)。PDF是一個(gè)函數(shù),指定隨機(jī)變量在特定范圍內(nèi)取值的概率。

9. 條件概率

概率單純是指事件發(fā)生的可能性,永遠(yuǎn)取0到1(包括0和1)之間的值。事件A的概率表示為p(A),并有期望結(jié)果的數(shù)量除以所有結(jié)果的數(shù)量來(lái)計(jì)算。例如,當(dāng)擲骰子時(shí),得到小于3的數(shù)字的概率是2/6。期望結(jié)果數(shù)為2(1和2);總結(jié)果數(shù)為6。

條件概率是假設(shè)與事件A有關(guān)的另一個(gè)事件已經(jīng)發(fā)生時(shí),事件A發(fā)生的可能性。

如下所示,假設(shè)有兩個(gè)盒子,盒子里放著6個(gè)藍(lán)色的球和4個(gè)黃色的球。我讓你隨便挑一個(gè)球。得到藍(lán)球的概率是6/10=0,6。如果我讓你從A盒中挑一個(gè)球結(jié)果會(huì)怎樣?

選擇藍(lán)色球的概率明顯降低。這里的條件是從A盒中取球,與之前事件(挑選一個(gè)藍(lán)色的球)發(fā)生的概率相比,發(fā)生了明顯改變。給定事件B已經(jīng)發(fā)生的事件A的概率表示為p(A | B)。

10. 貝葉斯定理

根據(jù)貝葉斯定理,在給定事件B已經(jīng)發(fā)生的條件下,A發(fā)生的概率以及給定事件A已經(jīng)發(fā)生的條件下,事件B發(fā)生的概率可以用事件A和事件B的概率來(lái)計(jì)算。

這就是所謂的普遍存在的貝葉斯統(tǒng)計(jì)定理。在貝葉斯統(tǒng)計(jì)定理中,事件或假設(shè)事件發(fā)生的概率可以作為證據(jù)發(fā)揮作用。因此,先驗(yàn)概率和后驗(yàn)概率因證據(jù)而異。

樸素貝葉斯算法是結(jié)合貝葉斯定理和一些樸素假設(shè)構(gòu)造的。樸素貝葉斯算法假設(shè)特征是相互獨(dú)立的,特征之間沒(méi)有相關(guān)性。

當(dāng)然,關(guān)于統(tǒng)計(jì)學(xué)還有很多東西要學(xué)。從基礎(chǔ)知識(shí)開(kāi)始,你可以穩(wěn)步地深入到高級(jí)主題。

 

責(zé)任編輯:趙寧寧 來(lái)源: 今日頭條
相關(guān)推薦

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計(jì)學(xué)面試

2019-07-03 15:21:47

數(shù)據(jù)科學(xué)統(tǒng)計(jì)數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2017-04-12 09:34:30

數(shù)據(jù)科學(xué)家統(tǒng)計(jì)學(xué)家好習(xí)慣

2017-11-21 14:42:30

數(shù)據(jù)科學(xué)統(tǒng)計(jì)學(xué)習(xí)機(jī)器學(xué)習(xí)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2019-12-03 09:11:57

數(shù)據(jù)科學(xué)編程算法

2018-10-31 11:00:06

數(shù)據(jù)科學(xué)統(tǒng)計(jì)貝葉斯

2019-08-19 09:31:47

數(shù)據(jù)機(jī)器學(xué)習(xí)統(tǒng)計(jì)學(xué)習(xí)

2016-05-11 10:36:16

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)大數(shù)據(jù)

2019-12-13 07:58:34

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計(jì)

2019-11-26 11:19:40

統(tǒng)計(jì)數(shù)據(jù)互聯(lián)網(wǎng)

2017-01-23 16:00:25

數(shù)據(jù)科學(xué)家大數(shù)據(jù)數(shù)學(xué)家

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-01-25 14:19:32

深度學(xué)習(xí)數(shù)據(jù)科學(xué)遷移學(xué)習(xí)

2019-11-29 18:03:27

數(shù)學(xué)R語(yǔ)言算法

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2020-09-29 17:15:41

數(shù)據(jù)科學(xué)技術(shù)

2016-09-22 14:28:33

數(shù)據(jù)科學(xué)家算法

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)