自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="udvf2"></ruby>

<kbd id="udvf2"><font id="udvf2"></font></kbd>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

作者：聞數(shù)起舞 2020-10-31 22:04:39

大數(shù)據(jù)

以下是每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的前五個統(tǒng)計概念：描述性統(tǒng)計，概率分布，降維，過采樣和欠采樣以及貝葉斯統(tǒng)計。

統(tǒng)計和數(shù)據(jù)科學(xué)的重要支柱

任何數(shù)據(jù)科學(xué)家都可以從數(shù)據(jù)集中收集信息-任何優(yōu)秀的數(shù)據(jù)科學(xué)家都將知道，扎實的統(tǒng)計基礎(chǔ)可以收集有用和可靠的信息。沒有它，就不可能進(jìn)行高質(zhì)量的數(shù)據(jù)科學(xué)。

> Photo by Tachina Lee on Unsplash

但是統(tǒng)計是一個巨大的領(lǐng)域! 我從哪說起呢?

以下是每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的前五個統(tǒng)計概念：描述性統(tǒng)計，概率分布，降維，過采樣和欠采樣以及貝葉斯統(tǒng)計。

讓我們從最簡單的一個開始。

1. 描述性統(tǒng)計

您正坐在數(shù)據(jù)集的前面。您如何對自己所擁有的東西有一個高層次的描述? 描述性統(tǒng)計就是答案。您可能已經(jīng)聽說過其中的一些：平均值，中位數(shù)，眾數(shù)，方差，標(biāo)準(zhǔn)差…

這些將快速識別您的數(shù)據(jù)集的關(guān)鍵特征，并在您執(zhí)行任務(wù)時通知您的方法。讓我們來看看一些最常見的描述性統(tǒng)計數(shù)據(jù)。

意思

平均值(也稱為"期望值"或"平均值")是值的總和除以值的數(shù)量。采取以下示例集：

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

平均值計算如下：

中位數(shù)

以升序(或降序)列出您的值。中位數(shù)是將數(shù)據(jù)分成兩半的點。如果有兩個中間數(shù)字，則中位數(shù)是這些數(shù)字的平均值。在我們的示例中：

中位數(shù)為4.5。

模式

模式是數(shù)據(jù)集中最頻繁的值。在我們的示例中，模式為3。

方差

方差衡量數(shù)據(jù)集相對于均值的分布。要計算方差，請從每個值中減去平均值。平方每個差異。最后，計算這些結(jié)果數(shù)字的平均值。在我們的示例中：

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

標(biāo)準(zhǔn)偏差

標(biāo)準(zhǔn)差用于衡量總體價差，并通過求出方差的平方根來計算。在我們的示例中：

其他描述性統(tǒng)計數(shù)據(jù)包括偏度，峰度和四分位數(shù)。

2. 概率分布

概率分布是一種函數(shù)，它給出實驗每個可能結(jié)果的出現(xiàn)概率。如果您要繪制鐘形曲線，那您就走對了。乍一看，它顯示了如何分散隨機(jī)變量的值。隨機(jī)變量及其分布可以是離散的也可以是連續(xù)的。

離散的

約翰是一名棒球運(yùn)動員，每次向他投球時，都有50%的隨機(jī)擊球機(jī)會。讓我們向約翰投三個球，看看他有多少次擊球。以下是所有可能結(jié)果的列表：

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

令X為我們的隨機(jī)變量，即約翰在三音高實驗中被擊中的次數(shù)。約翰獲得n次點擊的概率由P(X = n)表示。因此，X可以為0、1、2或3。如果上述所有八個結(jié)果均具有相同的可能性，則我們有：

用f代替P，我們就有了概率函數(shù)! 讓我們來畫一下。

從圖中可以看出，John獲得1或2次命中比獲得0或3次命中的可能性更大，因為對于那些X值，該圖更高。常見的離散分布包括伯努利，二項式和泊松

連續(xù)

連續(xù)情況自然而然地來自離散情況。除了計算命中率外，我們的隨機(jī)變量可能是棒球播出的時間。我們可以將值設(shè)置為3.45秒或6.98457秒，而不僅僅是一秒，兩秒或三秒。

我們正在談?wù)摕o限多種可能性。連續(xù)變量的其他示例是高度，時間和溫度。常見的連續(xù)分布包括正態(tài)，指數(shù)和卡方。

3. 降維

如果輸入變量太多或數(shù)據(jù)計算笨拙，則可以轉(zhuǎn)向降維。這是將高維數(shù)據(jù)投影到低維空間的過程，但是請務(wù)必注意不要丟失原始數(shù)據(jù)集的重要特征。

例如，假設(shè)您正在嘗試確定哪些因素可以最好地預(yù)測您最喜歡的籃球隊今晚能否贏得比賽。您可能會收集數(shù)據(jù)，例如他們的獲勝百分比，他們在踢球，在哪里踢球，他們的前鋒是誰，他吃晚餐的時間以及教練穿什么顏色的鞋子。

您可能會懷疑其中某些功能比其他功能與獲勝的相關(guān)性更高。降維可以使我們放心地刪除不會對預(yù)測做出有意義貢獻(xiàn)的信息，同時保留具有最大預(yù)測價值的特征。

主成分分析(PCA)是一種流行的方法，它通過夸大稱為主成分的要素的新組合的方差來工作。這些新組合是原始數(shù)據(jù)點到新空間(仍是相同維度)的投影，其中會顯示變化。

通常的想法是，在這些新組件中，變化最小的組件可以最安全地刪除。刪除單個組件將使原始尺寸減小一倍，刪除兩個組件將使尺寸減小兩個，依此類推。

4. 欠采樣和過采樣

收集的一組觀測值稱為"樣本"，而收集觀測值的方式稱為"采樣"。在需要平等代表少數(shù)派和多數(shù)派的分類情況下，欠采樣或過采樣可能會有用。對多數(shù)類別進(jìn)行欠采樣或?qū)ι贁?shù)類別進(jìn)行過度采樣可以幫助均衡不平衡的數(shù)據(jù)集。

隨機(jī)過采樣(或者，隨機(jī)欠采樣)涉及在少數(shù)類中隨機(jī)選擇和復(fù)制觀測值(或在多數(shù)類中隨機(jī)選擇和刪除觀測值)。

這很容易實現(xiàn)，但是您應(yīng)謹(jǐn)慎行事：對采樣重復(fù)的觀測值進(jìn)行過采樣加權(quán)，如果不加偏見，可能會嚴(yán)重影響結(jié)果。同樣，采樣不足會帶來刪除關(guān)鍵觀測值的風(fēng)險。

少數(shù)群體過采樣的一種方法是合成少數(shù)群體過采樣技術(shù)(SMOTE)。這通過創(chuàng)建現(xiàn)有觀測值的新組合來創(chuàng)建(綜合)少數(shù)群體觀測值。對于少數(shù)群體類別中的每個觀察，SMOTE會計算其k個最近的鄰居; 也就是說，它找到最類似于該觀測值的k個少數(shù)群體觀測值。

通過將觀察結(jié)果視為向量，它可以通過用0到1之間的隨機(jī)數(shù)對k個最近鄰居中的任何一個加權(quán)，并將其添加到原始向量中來創(chuàng)建隨機(jī)線性組合。

多數(shù)類樣本不足的一種方法是使用聚類質(zhì)心。從理論上講，與SMOTE相似，它用k個最近鄰居簇的質(zhì)心替換向量組。

5. 貝葉斯統(tǒng)計

在統(tǒng)計推斷方面，主要有兩種思想流派：?？徒y(tǒng)計和貝葉斯統(tǒng)計。頻繁的統(tǒng)計數(shù)據(jù)使我們能夠進(jìn)行有意義的工作，但是在某些情況下，它的工作還不夠。當(dāng)您有理由相信您的數(shù)據(jù)可能無法很好地表示您希望將來觀察到的數(shù)據(jù)時，貝葉斯統(tǒng)計量會很好。

這使您可以將自己的知識整合到計算中，而不僅僅是依靠樣本。它還可以讓您在收到新數(shù)據(jù)后更新對未來的看法。

來看一個例子：A隊和B隊互相比賽10次，A隊贏得9次。如果今晚兩隊互相比賽，我問你認(rèn)為誰會贏，你可能會說A隊! 如果我還告訴您B隊賄賂了今晚的裁判怎么辦? 好吧，那您可能會猜猜B隊會贏。

貝葉斯統(tǒng)計允許您將這些額外的信息納入您的計算中，而?？徒y(tǒng)計則僅關(guān)注10個獲勝百分比中的9個。

貝葉斯定理是關(guān)鍵：

每個數(shù)據(jù)科學(xué)家都必須了解的5大統(tǒng)計概念

給定E的H的條件概率，記為P(H | E)，表示當(dāng)E也出現(xiàn)(或已經(jīng)發(fā)生)時H發(fā)生的概率。在我們的示例中，H是B隊獲勝的假設(shè)，E是我為您提供的有關(guān)B隊賄賂裁判的證據(jù)。

P(H)是?？透怕剩瑸?0%。 P(E | H)是在B隊獲勝的情況下我對您所說的關(guān)于賄賂的信息屬實的概率。 (如果B隊今晚獲勝，您會相信我說的話嗎?)

最后，P(E)是B隊實際上賄賂裁判的概率。我是值得信賴的信息來源嗎? 您會發(fā)現(xiàn)，這種方法不僅包含了兩支球隊之前10場比賽的結(jié)果，而且還包含更多信息。

就是今天。讓我們在下一節(jié)中總結(jié)一下。

你走之前

學(xué)習(xí)這5個概念并不能使您掌握統(tǒng)計學(xué)或數(shù)據(jù)科學(xué)知識，但是如果您不了解數(shù)據(jù)科學(xué)項目的基本流程，那么這是一個很好的起點。

責(zé)任編輯：趙寧寧來源：今日頭條

統(tǒng)計和數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="wkqq2"><rp id="wkqq2"><form id="wkqq2"></form></rp></cite>

<blockquote id="wkqq2"><sup id="wkqq2"></sup></blockquote>