自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)江湖之多元劍法 --主成分分析

大數(shù)據(jù)
我們這里只會講到問題的理解和結(jié)果的解讀層面,想進一步知道具體的模型設(shè)定、數(shù)學(xué)表達、方法推導(dǎo)、軟件實現(xiàn)的技術(shù)黨同學(xué),請移步到書店找一本多元統(tǒng)計的教材來啃一啃,或者來修一學(xué)期媛子的多元統(tǒng)計課程哈。

[[174092]]

招式一:主成分分析

大家好,我是媛子。相信大家從狗熊會的精品案例中啊已經(jīng)體會到熊大老師的“數(shù)據(jù)江湖:回歸五式”的神通廣大了,那有的朋友就問了說,除了回歸,我還能干嘛呢?其實啊在統(tǒng)計里面,還有一個很好很強大的體系,叫做多元統(tǒng)計分析。所以呢媛子準(zhǔn)備來跟大家系統(tǒng)地扒一扒,數(shù)據(jù)江湖之多元劍法。

我們這里只會講到問題的理解和結(jié)果的解讀層面,想進一步知道具體的模型設(shè)定、數(shù)學(xué)表達、方法推導(dǎo)、軟件實現(xiàn)的技術(shù)黨同學(xué),請移步到書店找一本多元統(tǒng)計的教材來啃一啃,或者來修一學(xué)期媛子的多元統(tǒng)計課程哈。因為啊其實媛子在教課中發(fā)現(xiàn),在一切交給電腦的今天呢,對于一種已經(jīng)成型的方法,“怎么用”通常不是問題,用個軟件點點點或者編幾行程序就呼呼呼地跑出結(jié)果了,大家的問題一般都出在“什么時候用”和“用完了,然后呢?” 所以我們這個系列主要就集中在討論這兩件事情上面。

那寫下多元劍法第一招的靈感來自于下面這些我們第二期熊學(xué)院的熊孩子微信群里面的對話:

所以我們今天就不妨就著熊小姐的這個各科成績的例子,先來捋一捋“主成分分析”到底是個什么鬼。至于它跟因子分析的差別,要先搞清楚因子分析又到底是個什么鬼才能討論,所以且聽媛子下回分解這個差別的部分。

在開始之前呢,媛子還是要再強調(diào)一下熊大老師一直在強調(diào)的,做統(tǒng)計分析之前呢,一定一定要先清楚你的業(yè)務(wù)目的!業(yè)務(wù)目的!業(yè)務(wù)目的!重要的事情說三遍!

[[174093]]

1

假設(shè)你現(xiàn)在是一名班主任,對著以下這種我們從小恨到大的成績單發(fā)呆。

那作為班主任,針對這種成績單的業(yè)務(wù)目的,就是怎么樣科學(xué)地利用以上這些各科的成績的信息來區(qū)分你班上學(xué)生的表現(xiàn)。當(dāng)然呢你的視力和耐心足夠好的話,你可以一科一科的成績單單獨去比對,但這實在是使出洪荒之力也然并卵呀。

[[174094]]

那通常我們怎么做呢?求平均,也就是把各科成績加起來除以科目總數(shù),或者說求總分也是等價的。沒錯,這是一個比較合理的方法。但是媛子給你打個比方,如果有一個很奇葩的班級培養(yǎng)出一堆很奇葩的學(xué)生,他們的平均分都一樣,只是有的偏科嚴(yán)重,有的發(fā)展比較均衡,那這個班的學(xué)生單靠平均分就區(qū)分不開了對吧?

所以呢如果你是一名班主任,想通過成績區(qū)分一下你班上學(xué)生的表現(xiàn)的話,可能針對你這個班級啊,會有比平均分更好的指標(biāo),或者會有不止平均分這一個指標(biāo)在等著你哦。

這個就是主成分分析(Principal Component Analysis, PCA)在做的事情:找到原始變量的線性組合,也就是所謂的主成分,使得組合后得到變量的方差最大化。被媛子繞暈了是嗎?翻譯成人話就是:找到最科學(xué)的一種或幾種綜合成績的計算方式,使得這樣計算出來的綜合得分能夠最大程度地區(qū)分這一撥學(xué)生。這里呢有幾個注意的點:

1

我們所用的計算成績組合的方法都是線性的,什么叫線性?就是說不會出現(xiàn)像語文成績的平方、或者數(shù)學(xué)成績的倒數(shù)這些幺蛾子。其實呢本質(zhì)上我們還是在做一種各科成績的平均,但這是加權(quán)平均,并且允許有些權(quán)重可以是負數(shù)。從這些權(quán)重中我們可以看出哪些學(xué)科對于區(qū)分這一撥學(xué)生的影響比較大,并且是怎么影響的。

2

我們可能用不止一個指標(biāo)去刻畫學(xué)生的表現(xiàn)。而這些指標(biāo)呢會根據(jù)重要程度來排序,這個重要程度具體來講就是區(qū)分學(xué)生的能力。后面在結(jié)果得解讀的時候我們會進一步說明。

3

在整個過程中,我們只有一堆地位一樣的變量,沒有所謂的自變量和因變量,所以呢主成分分析不屬于回歸分析的范疇。

好了,那大家應(yīng)該已經(jīng)清楚主成分分析用來干嘛的了,或者說我們什么時候該用主成分分析。接下來就是噼里啪啦一頓編程實現(xiàn),得到了幾個你要的綜合得分,也就是主成分(Principal Components),那么下一步就是,怎樣解讀這些指標(biāo)呢?這就又回到了業(yè)務(wù)層面。我們需要做的是,結(jié)合業(yè)務(wù)知識,盡情地開腦洞。然后再看看我們的這些解讀啊跟常識現(xiàn)象是否相符,還有沒有什么新的發(fā)現(xiàn)。

這里呢我們假設(shè)最后我們通過軟件得到了如下的兩個指標(biāo),也就是主成分,也就是綜合得分的計算方式,來刻畫這個班的學(xué)生成績:

那現(xiàn)在問題來了,怎么理解這兩個指標(biāo)呢?

指標(biāo)2很好理解,基本就是我們通常見到的求平均,前面的系數(shù)呢只有輕微的不同,所以它可以用來刻畫學(xué)生各科成績的均衡表現(xiàn)。那么指標(biāo)1呢?指標(biāo)1里面呢,所有偏文科類課程成績的系數(shù)為正,偏理科的系數(shù)為負,而系數(shù)值的大小差不多。這樣算出來的是什么?基本上可以理解成是學(xué)生文科成績平均分減去理科成績平均分,也就是說,指標(biāo)1刻畫的是學(xué)生文理科成績的差別,或者說是學(xué)生的偏科情況。

[[174095]]

好,我們知道了這兩個指標(biāo)大體上是什么意思,那它們能用來做什么呢?媛子總結(jié)了一下,它們可以用來做以下的三件事情:

1

它可以降低整個數(shù)據(jù)集的復(fù)雜程度,給你省事兒啊??慈鄬W(xué)生的六科成績多費眼費時間呀,現(xiàn)在只給你了兩個指標(biāo),而且我告訴你不怎么丟失重要的信息就能夠達到你的業(yè)務(wù)目的,那你這個班主任何樂而不為呀?這就是用主成分分析做降維的基本思想。那至于為什么只有兩個指標(biāo)就夠了,而不是三個四個或者只有一個呢?是因為啊針對這組數(shù)據(jù),通過計算,這兩個指標(biāo)區(qū)分學(xué)生的能力(也就是說刻畫數(shù)據(jù)差異性的能力)已經(jīng)占到了原來六門課能夠做到的80%了,我們就覺得足夠滿意了。當(dāng)然,隔壁老王班也許需要一個或者三個指標(biāo),誰知道呢對吧。

[[174096]]

2

我們可以用他們考量每一位學(xué)生的表現(xiàn)。我們傳統(tǒng)的成績單是給每一個學(xué)生簡單粗暴地給一個平均分或者總分。這就是上面的指標(biāo)2。它的得分越高,說明該學(xué)生的均衡表現(xiàn)越好。那現(xiàn)在的成績單上又多了一項得分可正可負的指標(biāo)1。如果該學(xué)生該指標(biāo)的得分是個很大的正數(shù)說明什么?說明他文科比理科好得多,嚴(yán)重偏文科。反之,如果他的指標(biāo)1是一個絕對值很大的負數(shù),說明他嚴(yán)重偏理科。所以呢指標(biāo)1就是學(xué)生的偏科表現(xiàn),絕對值越大,偏科越嚴(yán)重。那你可能會問了,那如果指標(biāo)1得分接近于0呢?那就說明他文理科成績差不多唄,可能是個全面發(fā)展的學(xué)神或者學(xué)霸,當(dāng)然呢也可能是每一科都差得非常均勻的學(xué)酥或?qū)W渣。

所以通過看以上的兩個綜合指標(biāo),我們可以找出一些典型的學(xué)生,比如說指標(biāo)1很高,指標(biāo)2也很高,這就說明該學(xué)生是個文科學(xué)神級人物;那如果指標(biāo)1很高但指標(biāo)2卻很低,這就說明該學(xué)生偏科文科太嚴(yán)重,理科拖后腿,拉低平均成績啊;那如果指標(biāo)1(絕對值)很低,指標(biāo)2很高呢?就說明這是一個兩手抓,兩手都要硬的好寶寶對吧?以此類推。

3

我們可以用它們來刻畫班級整體的表現(xiàn)。我們之前提到過,這些指標(biāo)是按照能夠反映這撥學(xué)生差異性的能力來排序的。那么通過這兩個指標(biāo),就可以知道這個班成績的主要特征。這里指標(biāo)1排在前面,說明它比指標(biāo)2,也就是簡單地求平均更能刻畫這撥學(xué)生成績的差異性。也就是說,這是一個偏科比較嚴(yán)重的班級,有的學(xué)生文科比理科好很多,有的學(xué)生反之。而且呢通過學(xué)生的指標(biāo)1得分還能看出到底有多少學(xué)生文科比較好,到底有多少學(xué)生理科比較有優(yōu)勢。當(dāng)然辣也許換一個班,這些綜合指標(biāo)的構(gòu)造就完全不同了,沒準(zhǔn)兒隔壁老王班上的學(xué)生成績的差異完全由這個數(shù)學(xué)成績主導(dǎo)呢。

好了,我們來總結(jié)一下今天的內(nèi)容:當(dāng)我們有很多個變量,又想找一種或幾種綜合指標(biāo)去很好地刻畫數(shù)據(jù)的差異性的時候,主成分分析就該出馬了。那這些綜合指標(biāo)怎么構(gòu)造呢?是通過原來變量的加權(quán)平均,或者說線性組合來構(gòu)造的。得到這些指標(biāo)后,它們有什么用呢?我們可以在不丟失重要信息的前提下盡量地簡化數(shù)據(jù)集,還可以從一種全面綜合的視角來審視整個數(shù)據(jù)集,或者說我們可以去考量每一個個體的表現(xiàn)。

當(dāng)然,不光對班主任有用,主成分分析在其他的各個領(lǐng)域也都有著非常直觀的應(yīng)用。比如說對工業(yè)界的各個行業(yè)的各種經(jīng)濟效益指標(biāo)進行綜合評價啦,比如說根據(jù)人們身體的某些測量變量(像身高啊體重啊三圍啊還有各種其他的什么圍啊之類的)得出一些刻畫人身材的綜合指標(biāo),等等等等。

好的,那這次主成分分析的招式就跟大家拆到這兒。下次呢媛子會針對同樣的數(shù)據(jù),但是從不同的業(yè)務(wù)目的出發(fā),再跟大家來捋一捋因子分析這把刷子。感謝大家的閱讀或者收聽,我們下次見咯。

責(zé)任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2022-04-09 09:21:19

人工智能機器學(xué)習(xí)PCA算法

2014-07-03 10:05:15

機器學(xué)習(xí)

2014-07-14 09:41:04

機器學(xué)習(xí)

2018-04-04 15:55:56

數(shù)據(jù)科學(xué)數(shù)據(jù)從業(yè)者機器學(xué)習(xí)

2017-07-06 08:36:10

特征向量矩陣PCA

2017-06-01 16:25:36

數(shù)據(jù)挖掘算法

2013-04-10 10:31:21

R語言

2017-09-11 09:20:14

機器學(xué)習(xí)無監(jiān)督學(xué)習(xí)聚類

2016-08-02 22:06:23

2013-06-21 10:16:44

2024-06-24 21:18:48

2017-01-23 13:34:44

2017-12-14 17:36:21

開發(fā)者故事

2010-10-26 10:35:05

職場

2021-06-29 07:47:23

多線程協(xié)作數(shù)據(jù)

2022-04-29 10:06:20

SCA風(fēng)險漏洞

2014-11-26 16:33:46

聚合數(shù)據(jù)

2014-11-27 10:29:43

大數(shù)據(jù)

2020-08-25 18:10:22

Python代碼線性回歸

2017-05-25 10:11:46

數(shù)據(jù)庫令牌節(jié)點
點贊
收藏

51CTO技術(shù)棧公眾號