自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

大數(shù)據(jù)
以下是每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的前五個統(tǒng)計概念:描述性統(tǒng)計,概率分布,降維,過采樣和欠采樣以及貝葉斯統(tǒng)計。

統(tǒng)計和數(shù)據(jù)科學(xué)的重要支柱

任何數(shù)據(jù)科學(xué)家都可以從數(shù)據(jù)集中收集信息-任何優(yōu)秀的數(shù)據(jù)科學(xué)家都將知道,扎實的統(tǒng)計基礎(chǔ)可以收集有用和可靠的信息。 沒有它,就不可能進(jìn)行高質(zhì)量的數(shù)據(jù)科學(xué)。

[[349640]]

> Photo by Tachina Lee on Unsplash

但是統(tǒng)計是一個巨大的領(lǐng)域! 我從哪說起呢?

以下是每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的前五個統(tǒng)計概念:描述性統(tǒng)計,概率分布,降維,過采樣和欠采樣以及貝葉斯統(tǒng)計。

讓我們從最簡單的一個開始。

1. 描述性統(tǒng)計

您正坐在數(shù)據(jù)集的前面。 您如何對自己所擁有的東西有一個高層次的描述? 描述性統(tǒng)計就是答案。 您可能已經(jīng)聽說過其中的一些:平均值,中位數(shù),眾數(shù),方差,標(biāo)準(zhǔn)差…

這些將快速識別您的數(shù)據(jù)集的關(guān)鍵特征,并在您執(zhí)行任務(wù)時通知您的方法。 讓我們來看看一些最常見的描述性統(tǒng)計數(shù)據(jù)。

意思

平均值(也稱為"期望值"或"平均值")是值的總和除以值的數(shù)量。 采取以下示例集:

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

平均值計算如下:

中位數(shù)

以升序(或降序)列出您的值。 中位數(shù)是將數(shù)據(jù)分成兩半的點。 如果有兩個中間數(shù)字,則中位數(shù)是這些數(shù)字的平均值。 在我們的示例中:

中位數(shù)為4.5。

模式

模式是數(shù)據(jù)集中最頻繁的值。 在我們的示例中,模式為3。

方差

方差衡量數(shù)據(jù)集相對于均值的分布。 要計算方差,請從每個值中減去平均值。 平方每個差異。 最后,計算這些結(jié)果數(shù)字的平均值。 在我們的示例中:

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

標(biāo)準(zhǔn)偏差

標(biāo)準(zhǔn)差用于衡量總體價差,并通過求出方差的平方根來計算。 在我們的示例中:

其他描述性統(tǒng)計數(shù)據(jù)包括偏度,峰度和四分位數(shù)。

2. 概率分布

概率分布是一種函數(shù),它給出實驗每個可能結(jié)果的出現(xiàn)概率。 如果您要繪制鐘形曲線,那您就走對了。 乍一看,它顯示了如何分散隨機(jī)變量的值。 隨機(jī)變量及其分布可以是離散的也可以是連續(xù)的。

離散的

約翰是一名棒球運(yùn)動員,每次向他投球時,都有50%的隨機(jī)擊球機(jī)會。 讓我們向約翰投三個球,看看他有多少次擊球。 以下是所有可能結(jié)果的列表:

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

令X為我們的隨機(jī)變量,即約翰在三音高實驗中被擊中的次數(shù)。 約翰獲得n次點擊的概率由P(X = n)表示。 因此,X可以為0、1、2或3。如果上述所有八個結(jié)果均具有相同的可能性,則我們有:

用f代替P,我們就有了概率函數(shù)! 讓我們來畫一下。

從圖中可以看出,John獲得1或2次命中比獲得0或3次命中的可能性更大,因為對于那些X值,該圖更高。常見的離散分布包括伯努利,二項式和 泊松

連續(xù)

連續(xù)情況自然而然地來自離散情況。 除了計算命中率外,我們的隨機(jī)變量可能是棒球播出的時間。 我們可以將值設(shè)置為3.45秒或6.98457秒,而不僅僅是一秒,兩秒或三秒。

我們正在談?wù)摕o限多種可能性。 連續(xù)變量的其他示例是高度,時間和溫度。 常見的連續(xù)分布包括正態(tài),指數(shù)和卡方。

3. 降維

如果輸入變量太多或數(shù)據(jù)計算笨拙,則可以轉(zhuǎn)向降維。 這是將高維數(shù)據(jù)投影到低維空間的過程,但是請務(wù)必注意不要丟失原始數(shù)據(jù)集的重要特征。

例如,假設(shè)您正在嘗試確定哪些因素可以最好地預(yù)測您最喜歡的籃球隊今晚能否贏得比賽。 您可能會收集數(shù)據(jù),例如他們的獲勝百分比,他們在踢球,在哪里踢球,他們的前鋒是誰,他吃晚餐的時間以及教練穿什么顏色的鞋子。

您可能會懷疑其中某些功能比其他功能與獲勝的相關(guān)性更高。 降維可以使我們放心地刪除不會對預(yù)測做出有意義貢獻(xiàn)的信息,同時保留具有最大預(yù)測價值的特征。

主成分分析(PCA)是一種流行的方法,它通過夸大稱為主成分的要素的新組合的方差來工作。 這些新組合是原始數(shù)據(jù)點到新空間(仍是相同維度)的投影,其中會顯示變化。

通常的想法是,在這些新組件中,變化最小的組件可以最安全地刪除。 刪除單個組件將使原始尺寸減小一倍,刪除兩個組件將使尺寸減小兩個,依此類推。

4. 欠采樣和過采樣

收集的一組觀測值稱為"樣本",而收集觀測值的方式稱為"采樣"。 在需要平等代表少數(shù)派和多數(shù)派的分類情況下,欠采樣或過采樣可能會有用。 對多數(shù)類別進(jìn)行欠采樣或?qū)ι贁?shù)類別進(jìn)行過度采樣可以幫助均衡不平衡的數(shù)據(jù)集。

隨機(jī)過采樣(或者,隨機(jī)欠采樣)涉及在少數(shù)類中隨機(jī)選擇和復(fù)制觀測值(或在多數(shù)類中隨機(jī)選擇和刪除觀測值)。

這很容易實現(xiàn),但是您應(yīng)謹(jǐn)慎行事:對采樣重復(fù)的觀測值進(jìn)行過采樣加權(quán),如果不加偏見,可能會嚴(yán)重影響結(jié)果。 同樣,采樣不足會帶來刪除關(guān)鍵觀測值的風(fēng)險。

少數(shù)群體過采樣的一種方法是合成少數(shù)群體過采樣技術(shù)(SMOTE)。 這通過創(chuàng)建現(xiàn)有觀測值的新組合來創(chuàng)建(綜合)少數(shù)群體觀測值。 對于少數(shù)群體類別中的每個觀察,SMOTE會計算其k個最近的鄰居; 也就是說,它找到最類似于該觀測值的k個少數(shù)群體觀測值。

通過將觀察結(jié)果視為向量,它可以通過用0到1之間的隨機(jī)數(shù)對k個最近鄰居中的任何一個加權(quán),并將其添加到原始向量中來創(chuàng)建隨機(jī)線性組合。

多數(shù)類樣本不足的一種方法是使用聚類質(zhì)心。 從理論上講,與SMOTE相似,它用k個最近鄰居簇的質(zhì)心替換向量組。

5. 貝葉斯統(tǒng)計

在統(tǒng)計推斷方面,主要有兩種思想流派:??徒y(tǒng)計和貝葉斯統(tǒng)計。 頻繁的統(tǒng)計數(shù)據(jù)使我們能夠進(jìn)行有意義的工作,但是在某些情況下,它的工作還不夠。 當(dāng)您有理由相信您的數(shù)據(jù)可能無法很好地表示您希望將來觀察到的數(shù)據(jù)時,貝葉斯統(tǒng)計量會很好。

這使您可以將自己的知識整合到計算中,而不僅僅是依靠樣本。 它還可以讓您在收到新數(shù)據(jù)后更新對未來的看法。

來看一個例子:A隊和B隊互相比賽10次,A隊贏得9次。 如果今晚兩隊互相比賽,我問你認(rèn)為誰會贏,你可能會說A隊! 如果我還告訴您B隊賄賂了今晚的裁判怎么辦? 好吧,那您可能會猜猜B隊會贏。

貝葉斯統(tǒng)計允許您將這些額外的信息納入您的計算中,而??徒y(tǒng)計則僅關(guān)注10個獲勝百分比中的9個。

貝葉斯定理是關(guān)鍵:

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

給定E的H的條件概率,記為P(H | E),表示當(dāng)E也出現(xiàn)(或已經(jīng)發(fā)生)時H發(fā)生的概率。 在我們的示例中,H是B隊獲勝的假設(shè),E是我為您提供的有關(guān)B隊賄賂裁判的證據(jù)。

P(H)是??透怕剩瑸?0%。 P(E | H)是在B隊獲勝的情況下我對您所說的關(guān)于賄賂的信息屬實的概率。 (如果B隊今晚獲勝,您會相信我說的話嗎?)

最后,P(E)是B隊實際上賄賂裁判的概率。 我是值得信賴的信息來源嗎? 您會發(fā)現(xiàn),這種方法不僅包含了兩支球隊之前10場比賽的結(jié)果,而且還包含更多信息。

就是今天。 讓我們在下一節(jié)中總結(jié)一下。

你走之前

學(xué)習(xí)這5個概念并不能使您掌握統(tǒng)計學(xué)或數(shù)據(jù)科學(xué)知識,但是如果您不了解數(shù)據(jù)科學(xué)項目的基本流程,那么這是一個很好的起點。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2020-09-29 17:15:41

數(shù)據(jù)科學(xué)技術(shù)

2022-09-07 23:54:17

機(jī)器學(xué)習(xí)無監(jiān)督學(xué)習(xí)算法

2018-10-31 11:00:06

數(shù)據(jù)科學(xué)統(tǒng)計貝葉斯

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計學(xué)面試

2021-02-27 09:28:09

數(shù)據(jù)科學(xué)數(shù)據(jù)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2021-03-17 08:27:23

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2019-07-30 12:05:20

數(shù)據(jù)科學(xué)采樣算法

2020-06-28 07:46:34

MLDB數(shù)據(jù)庫機(jī)器學(xué)習(xí)

2021-01-29 14:38:36

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計學(xué)

2020-08-23 12:26:59

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)認(rèn)證數(shù)據(jù)科學(xué)

2018-11-19 06:00:32

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2020-06-17 07:00:00

Java數(shù)據(jù)科學(xué)家

2019-07-03 15:21:47

數(shù)據(jù)科學(xué)統(tǒng)計數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2019-12-13 07:58:34

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計

2020-08-03 10:37:01

Python編程語言工具

2018-03-01 14:30:22

數(shù)據(jù)科學(xué)概率分布

2020-06-16 13:32:02

數(shù)據(jù)科學(xué)家大數(shù)據(jù)系統(tǒng)

2020-11-02 13:44:35

算法數(shù)據(jù)科學(xué)Python

2020-08-03 12:47:58

DevOps數(shù)據(jù)科學(xué)家代碼
點贊
收藏

51CTO技術(shù)棧公眾號