自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【Kaggle入門級(jí)競賽top5%排名經(jīng)驗(yàn)分享】— 分析篇

大數(shù)據(jù) 數(shù)據(jù)分析
本篇,博主將會(huì)從零開始介紹這個(gè)項(xiàng)目,教你如何一步一步的把這個(gè)項(xiàng)目做好。由于大部分星球的朋友們已經(jīng)完成了分析部分的實(shí)戰(zhàn)練習(xí),因此將這部分內(nèi)容拿出來進(jìn)行簡單的分享。

Kaggle作為公認(rèn)的數(shù)據(jù)挖掘競賽平臺(tái),有很多公開的優(yōu)秀項(xiàng)目,而其中作為初學(xué)者入門的一個(gè)好的項(xiàng)目就是:泰坦尼克號(hào)生還者預(yù)測(cè)。

可能這個(gè)項(xiàng)目好多朋友也聽說過,可能很多朋友也做過。但是項(xiàng)目完成后,是否有很好的反思總結(jié)呢?很多朋友只是潦草的敷衍過去了,知道大概的套路了就沒再去看。其實(shí),一個(gè)再簡單的項(xiàng)目,如果把它做好也能有巨大的收獲。

博主開始做的時(shí)候,也是經(jīng)過反復(fù)琢磨和嘗試,并從最初的20%到***的2%,期間學(xué)習(xí)了很多,不得不說這個(gè)項(xiàng)目讓我很好的了解了數(shù)據(jù)挖掘。

本篇,博主將會(huì)從零開始介紹這個(gè)項(xiàng)目,教你如何一步一步的把這個(gè)項(xiàng)目做好。由于大部分星球的朋友們已經(jīng)完成了分析部分的實(shí)戰(zhàn)練習(xí),因此將這部分內(nèi)容拿出來進(jìn)行簡單的分享。

首先對(duì)這個(gè)項(xiàng)目進(jìn)行一下介紹。

 

萬變不離其宗,拿到數(shù)據(jù)首先粗率的觀察。

將訓(xùn)練集和測(cè)試集進(jìn)行合并,以便后續(xù)數(shù)據(jù)內(nèi)容變換的統(tǒng)一處理。

 

 

合并后一共1309條數(shù)據(jù),并可以看到:age,cabin,embarked,F(xiàn)are四個(gè)特征有缺失值,其中cabin缺失比較嚴(yán)重。

 

異常值初始觀察(主要觀察一下***與最小值):

  • Fare:船票價(jià)格平均值33.2,中位數(shù)14,平均值比中位數(shù)大很多,說明該特征分布是嚴(yán)重的右偏,又看到***值512,所以512很可能是隱患的異常值。
  • Age:最小值為0.17,***值為80,0.17是大概剛出生一個(gè)半月的意思,而80年齡有些過大,需要進(jìn)一步排查。
  • SibSp與Parch:Sibsp***為8,可能是異常,但又看到Parch***值為9。這兩個(gè)特征同時(shí)出現(xiàn)大的數(shù)值,***放映是這個(gè)數(shù)值是有可能的,我們進(jìn)步一觀察。

結(jié)論:通過以上觀察和分析,我們看到了一些可能的異常值,但是也不敢肯定。這需要我們進(jìn)一步通過可視化來清楚的顯示并結(jié)合對(duì)業(yè)務(wù)的理解來確定。

 

結(jié)論:

從上面各特征值的類型數(shù)量來看:

  • 一些比較少數(shù)量的特征如Pclass,Sex,SibSp,Embarked,Parch等可進(jìn)行可視化分析。
  • 剩下特征如Name(每個(gè)人名字都不一樣),或者Ticket和Cabin由于分類太多對(duì)于可視化不是太方便,后續(xù)對(duì)這些特征單獨(dú)分析。

因此,先對(duì)上面5種容易的分類進(jìn)的特征行可視化。

 

對(duì)于上面的定類和定序數(shù)據(jù)類型,我們分別可以觀察到各特征值的分布情況,以及與目標(biāo)變量之間的聯(lián)系。

  • Sex: 對(duì)于女性而言,男性總?cè)藬?shù)雖多,但是獲救率明顯很低(先救婦女!!!);
  • Pclass: 社會(huì)等級(jí)為3的總?cè)藬?shù)最多(也就是大多數(shù)人都是普通老百姓),但是獲救率非常低(社會(huì)價(jià)值高的人優(yōu)先留下);
  • Embarked: 登陸港口S數(shù)量最多,但是獲救率也是***的,C港口獲救率***;
  • SibSp: 兄弟姐妹數(shù)量***為0的人數(shù)最多,但是獲救率***,而為1的獲救率相對(duì)較高,超過50%;
  • Parch: 情況基本同SibSp一樣,后續(xù)可以考慮將二者合并;

就以上5個(gè)特征來看,Sex和Pclass兩個(gè)特征是其中非常有影響的兩個(gè)。

以上只是單獨(dú)特征對(duì)是否生還的簡單分析,但實(shí)際上對(duì)目標(biāo)變量的影響是由多個(gè)因素造成的,而不只是單獨(dú)的影響。為此,我們需要知道在某個(gè)特定條件下的特征的影響才更加能幫助我們分析:

  • 比如我們想看看Pclass是1的情況下,男性和女性生還概率有何不同;
  • 更具體的比如我們想看看Pclass是1且為male的情況下,Embarked特征的影響是什么樣的;

以下是用FaceGrid進(jìn)行的具體分析:

 

觀察結(jié)果:

  • Pclass為1和2的時(shí)候,Q港口數(shù)量幾乎為零,而Pclass3的Q港口人數(shù)甚至比C港口多。這說明社會(huì)等級(jí)與港口有關(guān)聯(lián),根據(jù)社會(huì)等級(jí)與港口的對(duì)應(yīng)關(guān)系可推測(cè)S和C港口為高級(jí)港口,而Q港口為普通港口。
  • Pclass為2的港口中,男性與女性在S和C港口的數(shù)量分布呈現(xiàn)相反趨勢(shì),與其他Pclass等級(jí)截然不同,這說明Pclass2可能是社會(huì)中某個(gè)共性群體,這個(gè)群體多為女性,而男性很少。既然多為女性,且女性生還概率還大,可推測(cè)Pclass2的C港口的生還概率也很高。

 

1. Age分布和特征分析

 

結(jié)論:

很明顯看到,以上Survived與Not Survived特征分布的主要區(qū)別在0 ~15左右。小于15歲以下的乘客(也就是孩子)獲救率非常高,而大于15歲的乘客分布無明顯區(qū)別。

 

結(jié)論:

不同Pclass下的年齡分布也不同,三個(gè)分布的中位數(shù)大小按Pclass1 Pclass2 Pclass3排列。這也符合實(shí)際情況,Pclass1的乘客是社會(huì)上的擁有一定財(cái)富和地位的成功人士,年齡比較大,而Pclass3的人數(shù)最多,因?yàn)榇蠖鄶?shù)人還都是普通人(有錢人畢竟少數(shù)),并且這些人多是年輕人,年齡在20-30之間。

 

結(jié)論:

從散點(diǎn)圖來分析:

  • Pclass1和Pclass2的女性幾乎都是Survived的,Pclass3中女性Survived則不是很明顯了;
  • Pclass1的男性生還率***,Pclass2和Pclass3的生還率比較低,但是Pclass2中年齡小的乘客幾乎全部生存;

印證了那個(gè)原則:婦女和孩子優(yōu)先營救。

 

 

 

2. Fare分布和特征分析

 

結(jié)論:

觀察到Pclass1相對(duì)于2和3的Fare比較高,因?yàn)榈匚桓?,?cái)富多。但是Pclass1中有幾個(gè)大于500的異常值存在,看一下這些異常數(shù)據(jù)。

 

這些異常值中,有兩個(gè)名字一樣的Cardeza,又看到Parch都為1,SibSp都為0,F(xiàn)are,Cabin,Embarked,Ticket都一樣,可推測(cè)二人是夫妻。另外兩個(gè)人的Embarked,Ticket,F(xiàn)are也都一樣,這說明這個(gè)大于500的Fare可能不是異常值。后面我們會(huì)對(duì)這些進(jìn)行特征工程來特殊對(duì)待。

 

 

這是上述7個(gè)特征的相互關(guān)聯(lián)圖的匯總,對(duì)角線為特征自身的kde分布。對(duì)于不方便可視化的Name,Cabin,Ticket將在特征工程中進(jìn)一步進(jìn)行處理并挖掘這些數(shù)據(jù)中到底有什么信息是非常有價(jià)值的。

責(zé)任編輯:未麗燕 來源: 千鋒大數(shù)據(jù)開發(fā)學(xué)院
相關(guān)推薦

2017-01-22 21:30:39

大數(shù)據(jù)Kaggle函數(shù)

2013-05-06 09:14:26

BigQuery大數(shù)據(jù)分析大數(shù)據(jù)分析入門

2019-11-05 10:26:49

機(jī)器學(xué)習(xí)情緒分析工具AI

2013-03-20 10:48:45

BYOD移動(dòng)安全

2021-02-08 12:59:12

Git 控制系統(tǒng)

2010-09-13 13:58:17

HTML DOM

2010-06-23 10:55:10

FreeBSD入門級(jí)命

2010-09-08 12:45:16

2010-12-14 09:22:27

HTML 5

2022-02-28 16:50:48

Dell PowerPowerVault

2012-09-26 10:22:09

Windows服務(wù)器管理技巧

2013-02-19 09:51:03

2017-01-23 10:21:01

2020-03-25 11:06:46

無服務(wù)器開源安全工具

2012-05-01 21:10:41

華為

2017-12-06 09:35:14

云計(jì)算信息化

2020-02-22 12:56:01

手機(jī)芯片OPPO華為

2019-11-12 08:11:40

數(shù)據(jù)庫安全漏洞網(wǎng)絡(luò)攻擊

2016-11-11 20:38:39

數(shù)據(jù)分析師大數(shù)據(jù)

2025-04-15 10:20:00

FastAPI角色權(quán)限系統(tǒng)RBAC
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)