掌握這五類(lèi)數(shù)據(jù)科學(xué)項(xiàng)目,找到一份好工作
也許你一直在MOOC平臺(tái)上學(xué)習(xí)數(shù)據(jù)科學(xué),也熟讀了一大堆教科書(shū),但要獲得數(shù)據(jù)科學(xué)相關(guān)的職位,你還需要向雇主展示自己的技能水平。***的方式是作品集,你可以借此向雇主表明你所一直學(xué)習(xí)的技能能夠用于工作中,為公司創(chuàng)造價(jià)值。
要展示自身技能,這5種類(lèi)型的數(shù)據(jù)科學(xué)項(xiàng)目可供參考:
1、數(shù)據(jù)清理
在一個(gè)項(xiàng)目中,數(shù)據(jù)科學(xué)家往往需要花費(fèi)高達(dá)80%的時(shí)間來(lái)清理數(shù)據(jù)。對(duì)于團(tuán)隊(duì)來(lái)說(shuō),這是一個(gè)巨大的痛點(diǎn)。如果你能證明你在清理數(shù)據(jù)方面經(jīng)驗(yàn)豐富,那么你就會(huì)顯得非常有價(jià)值。創(chuàng)建數(shù)據(jù)清理項(xiàng)目,尋找一些臟亂的數(shù)據(jù)集,然后就可以開(kāi)始清理了。
如果你常用Python,Pandas是一個(gè)很好的庫(kù);如果你常用R,可以使用dplyr包。確保展示以下技能:
- 導(dǎo)入數(shù)據(jù)
- 加入多個(gè)數(shù)據(jù)集
- 檢測(cè)缺失值
- 檢測(cè)異常
- 輸入缺失值
- 數(shù)據(jù)質(zhì)量保證
2、探索性數(shù)據(jù)分析
數(shù)據(jù)科學(xué)的另一個(gè)重要方面是探索性數(shù)據(jù)分析(EDA)。這是生成問(wèn)題的過(guò)程,包括使用可視化對(duì)其進(jìn)行調(diào)查。EDA允許分析師從數(shù)據(jù)中得出結(jié)論以推動(dòng)業(yè)務(wù)影響。它可能包括基于客戶群體的有趣洞察,或基于季節(jié)性影響的銷(xiāo)售趨勢(shì)。通常,你可以獲得一些并非出于初始動(dòng)機(jī)的有趣發(fā)現(xiàn)。
用于探索性分析的一些有用的Python庫(kù)是Pandas和Matplotlib。對(duì)于R來(lái)說(shuō),ggplot2包會(huì)很有用。EDA項(xiàng)目應(yīng)該顯示以下技能:
- 能夠?yàn)檎{(diào)查制定相關(guān)問(wèn)題
- 識(shí)別趨勢(shì)
- 識(shí)別變量之間的協(xié)變
- 使用可視化(散點(diǎn)圖,直方圖,框和晶須等)有效地傳達(dá)結(jié)果
3、交互式數(shù)據(jù)可視化
交互式數(shù)據(jù)可視化包括儀表板等工具。這些工具對(duì)數(shù)據(jù)科學(xué)團(tuán)隊(duì)以及更多面向業(yè)務(wù)的最終用戶都很有用。儀表板允許數(shù)據(jù)科學(xué)團(tuán)隊(duì)進(jìn)行協(xié)作,并一起將所獲得的洞察“繪制”出來(lái)。更重要的是,它們?yōu)槊嫦驑I(yè)務(wù)的客戶提供了一種交互式工具——這些人專(zhuān)注于戰(zhàn)略目標(biāo)而非技術(shù)細(xì)節(jié)。通常,數(shù)據(jù)科學(xué)項(xiàng)目的可交付成果將以儀表板的形式出現(xiàn)。

對(duì)于Python用戶,Bokeh和Plotly庫(kù)非常適合創(chuàng)建儀表板。對(duì)于R用戶,RStudio的Shiny軟件包很有必要。你的儀表板項(xiàng)目應(yīng)突出顯示以下重要技能:
- 包括與客戶需求相關(guān)的指標(biāo)
- 創(chuàng)建有用的功能
- 邏輯布局(“F模式”便于掃描)
- 創(chuàng)建***刷新率
- 生成報(bào)告或其他自動(dòng)操作
4、機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)項(xiàng)目是數(shù)據(jù)科學(xué)作品集中的另一個(gè)重要部分。在你啟動(dòng)和開(kāi)始構(gòu)建一個(gè)深度學(xué)習(xí)項(xiàng)目之前,請(qǐng)退后一步。相對(duì)于建立復(fù)雜的機(jī)器學(xué)習(xí)模型,你更應(yīng)該堅(jiān)持基礎(chǔ)。線性回歸和邏輯回歸是很好的開(kāi)始。這些模型更易于解釋并與上層管理者溝通。我還建議***做一些對(duì)業(yè)務(wù)有影響的項(xiàng)目,例如預(yù)測(cè)客戶流失,欺詐檢測(cè)或貸款違約。對(duì)面試官而言,這些比識(shí)別花的類(lèi)型更有吸引力。

如果你是Python用戶,可使用Scikit-learn庫(kù)。對(duì)于R用戶,可使用Caret包。你的機(jī)器學(xué)習(xí)項(xiàng)目應(yīng)該傳達(dá)以下技能:
- 你選擇使用特定機(jī)器學(xué)習(xí)模型的原因
- 將數(shù)據(jù)拆分為訓(xùn)練/測(cè)試集(k倍交叉驗(yàn)證)以避免過(guò)度擬合
- 選擇正確的評(píng)估指標(biāo)(AUC,adj-R ^ 2,混淆矩陣等)
- 特征工程和選擇
- 超參數(shù)調(diào)整
溝通
溝通是數(shù)據(jù)科學(xué)家的一個(gè)重要技能。有效地傳達(dá)結(jié)果是優(yōu)秀數(shù)據(jù)科學(xué)家與一個(gè)合格的數(shù)據(jù)科學(xué)家之間的區(qū)別。無(wú)論你的模型多么花哨,如果你無(wú)法向隊(duì)友或客戶解釋清楚,那么也無(wú)法獲得他們的支持。幻燈片和筆記本電腦都是很好的溝通工具,你還可以將Jupyter Notebook或RMarkdown文件用于項(xiàng)目溝通。

確保了解你的目標(biāo)受眾是誰(shuí)。向高管們展示與向機(jī)器學(xué)習(xí)專(zhuān)家展示非常不同。一定要掌握這些技能:
- 了解你的目標(biāo)受眾
- 提出相關(guān)的可視化
- 請(qǐng)勿過(guò)多地提供幻燈片
- 確保你的演示文稿流暢
- 將結(jié)果與業(yè)務(wù)影響相結(jié)合(降低成本,增加收入)
確保在Jupyter筆記本或RMarkdown文件中記錄你的項(xiàng)目。然后,你可以使用Github Pages將這些markdown 文件免費(fèi)轉(zhuǎn)換為靜態(tài)網(wǎng)站。這是向潛在雇主展示你的作品集的好方法。
保持積極態(tài)度,繼續(xù)開(kāi)發(fā)更多項(xiàng)目,你將在數(shù)據(jù)科學(xué)領(lǐng)域找到一份好工作。工作愉快!