【Kaggle入門級(jí)競賽top5%排名經(jīng)驗(yàn)分享】— 分析篇
Kaggle作為公認(rèn)的數(shù)據(jù)挖掘競賽平臺(tái),有很多公開的優(yōu)秀項(xiàng)目,而其中作為初學(xué)者入門的一個(gè)好的項(xiàng)目就是:泰坦尼克號(hào)生還者預(yù)測(cè)。
可能這個(gè)項(xiàng)目好多朋友也聽說過,可能很多朋友也做過。但是項(xiàng)目完成后,是否有很好的反思總結(jié)呢?很多朋友只是潦草的敷衍過去了,知道大概的套路了就沒再去看。其實(shí),一個(gè)再簡單的項(xiàng)目,如果把它做好也能有巨大的收獲。
博主開始做的時(shí)候,也是經(jīng)過反復(fù)琢磨和嘗試,并從最初的20%到***的2%,期間學(xué)習(xí)了很多,不得不說這個(gè)項(xiàng)目讓我很好的了解了數(shù)據(jù)挖掘。
本篇,博主將會(huì)從零開始介紹這個(gè)項(xiàng)目,教你如何一步一步的把這個(gè)項(xiàng)目做好。由于大部分星球的朋友們已經(jīng)完成了分析部分的實(shí)戰(zhàn)練習(xí),因此將這部分內(nèi)容拿出來進(jìn)行簡單的分享。
首先對(duì)這個(gè)項(xiàng)目進(jìn)行一下介紹。

萬變不離其宗,拿到數(shù)據(jù)首先粗率的觀察。
將訓(xùn)練集和測(cè)試集進(jìn)行合并,以便后續(xù)數(shù)據(jù)內(nèi)容變換的統(tǒng)一處理。


合并后一共1309條數(shù)據(jù),并可以看到:age,cabin,embarked,F(xiàn)are四個(gè)特征有缺失值,其中cabin缺失比較嚴(yán)重。

異常值初始觀察(主要觀察一下***與最小值):
- Fare:船票價(jià)格平均值33.2,中位數(shù)14,平均值比中位數(shù)大很多,說明該特征分布是嚴(yán)重的右偏,又看到***值512,所以512很可能是隱患的異常值。
- Age:最小值為0.17,***值為80,0.17是大概剛出生一個(gè)半月的意思,而80年齡有些過大,需要進(jìn)一步排查。
- SibSp與Parch:Sibsp***為8,可能是異常,但又看到Parch***值為9。這兩個(gè)特征同時(shí)出現(xiàn)大的數(shù)值,***放映是這個(gè)數(shù)值是有可能的,我們進(jìn)步一觀察。
結(jié)論:通過以上觀察和分析,我們看到了一些可能的異常值,但是也不敢肯定。這需要我們進(jìn)一步通過可視化來清楚的顯示并結(jié)合對(duì)業(yè)務(wù)的理解來確定。

結(jié)論:
從上面各特征值的類型數(shù)量來看:
- 一些比較少數(shù)量的特征如Pclass,Sex,SibSp,Embarked,Parch等可進(jìn)行可視化分析。
- 剩下特征如Name(每個(gè)人名字都不一樣),或者Ticket和Cabin由于分類太多對(duì)于可視化不是太方便,后續(xù)對(duì)這些特征單獨(dú)分析。
因此,先對(duì)上面5種容易的分類進(jìn)的特征行可視化。

對(duì)于上面的定類和定序數(shù)據(jù)類型,我們分別可以觀察到各特征值的分布情況,以及與目標(biāo)變量之間的聯(lián)系。
- Sex: 對(duì)于女性而言,男性總?cè)藬?shù)雖多,但是獲救率明顯很低(先救婦女!!!);
- Pclass: 社會(huì)等級(jí)為3的總?cè)藬?shù)最多(也就是大多數(shù)人都是普通老百姓),但是獲救率非常低(社會(huì)價(jià)值高的人優(yōu)先留下);
- Embarked: 登陸港口S數(shù)量最多,但是獲救率也是***的,C港口獲救率***;
- SibSp: 兄弟姐妹數(shù)量***為0的人數(shù)最多,但是獲救率***,而為1的獲救率相對(duì)較高,超過50%;
- Parch: 情況基本同SibSp一樣,后續(xù)可以考慮將二者合并;
就以上5個(gè)特征來看,Sex和Pclass兩個(gè)特征是其中非常有影響的兩個(gè)。
以上只是單獨(dú)特征對(duì)是否生還的簡單分析,但實(shí)際上對(duì)目標(biāo)變量的影響是由多個(gè)因素造成的,而不只是單獨(dú)的影響。為此,我們需要知道在某個(gè)特定條件下的特征的影響才更加能幫助我們分析:
- 比如我們想看看Pclass是1的情況下,男性和女性生還概率有何不同;
- 更具體的比如我們想看看Pclass是1且為male的情況下,Embarked特征的影響是什么樣的;
以下是用FaceGrid進(jìn)行的具體分析:

觀察結(jié)果:
- Pclass為1和2的時(shí)候,Q港口數(shù)量幾乎為零,而Pclass3的Q港口人數(shù)甚至比C港口多。這說明社會(huì)等級(jí)與港口有關(guān)聯(lián),根據(jù)社會(huì)等級(jí)與港口的對(duì)應(yīng)關(guān)系可推測(cè)S和C港口為高級(jí)港口,而Q港口為普通港口。
- Pclass為2的港口中,男性與女性在S和C港口的數(shù)量分布呈現(xiàn)相反趨勢(shì),與其他Pclass等級(jí)截然不同,這說明Pclass2可能是社會(huì)中某個(gè)共性群體,這個(gè)群體多為女性,而男性很少。既然多為女性,且女性生還概率還大,可推測(cè)Pclass2的C港口的生還概率也很高。

1. Age分布和特征分析

結(jié)論:
很明顯看到,以上Survived與Not Survived特征分布的主要區(qū)別在0 ~15左右。小于15歲以下的乘客(也就是孩子)獲救率非常高,而大于15歲的乘客分布無明顯區(qū)別。

結(jié)論:
不同Pclass下的年齡分布也不同,三個(gè)分布的中位數(shù)大小按Pclass1 Pclass2 Pclass3排列。這也符合實(shí)際情況,Pclass1的乘客是社會(huì)上的擁有一定財(cái)富和地位的成功人士,年齡比較大,而Pclass3的人數(shù)最多,因?yàn)榇蠖鄶?shù)人還都是普通人(有錢人畢竟少數(shù)),并且這些人多是年輕人,年齡在20-30之間。

結(jié)論:
從散點(diǎn)圖來分析:
- Pclass1和Pclass2的女性幾乎都是Survived的,Pclass3中女性Survived則不是很明顯了;
- Pclass1的男性生還率***,Pclass2和Pclass3的生還率比較低,但是Pclass2中年齡小的乘客幾乎全部生存;
印證了那個(gè)原則:婦女和孩子優(yōu)先營救。



2. Fare分布和特征分析

結(jié)論:
觀察到Pclass1相對(duì)于2和3的Fare比較高,因?yàn)榈匚桓?,?cái)富多。但是Pclass1中有幾個(gè)大于500的異常值存在,看一下這些異常數(shù)據(jù)。

這些異常值中,有兩個(gè)名字一樣的Cardeza,又看到Parch都為1,SibSp都為0,F(xiàn)are,Cabin,Embarked,Ticket都一樣,可推測(cè)二人是夫妻。另外兩個(gè)人的Embarked,Ticket,F(xiàn)are也都一樣,這說明這個(gè)大于500的Fare可能不是異常值。后面我們會(huì)對(duì)這些進(jìn)行特征工程來特殊對(duì)待。


這是上述7個(gè)特征的相互關(guān)聯(lián)圖的匯總,對(duì)角線為特征自身的kde分布。對(duì)于不方便可視化的Name,Cabin,Ticket將在特征工程中進(jìn)一步進(jìn)行處理并挖掘這些數(shù)據(jù)中到底有什么信息是非常有價(jià)值的。