干貨 :5種項目助你找到數(shù)據(jù)科學(xué)工作
或許您已經(jīng)在網(wǎng)上看了許多的MOOC,閱讀了很多工具書,但是您有可能仍然擔(dān)心找不到工作或根本沒有找到工作。在數(shù)據(jù)科學(xué)領(lǐng)域找到合適的工作的確有一定難度。***的向HR展現(xiàn)您能力的方式就是準(zhǔn)備一個文件夾。在文件夾中放入以下五種您做過的數(shù)據(jù)科學(xué)項目。
1、數(shù)據(jù)清洗
通常來講,數(shù)據(jù)科學(xué)家在一個新的項目中預(yù)計會花80%的時間來清洗數(shù)據(jù)。這對于團(tuán)隊來說是一個長而痛苦的過程。如果您能展示您在清洗數(shù)據(jù)上具有豐富的經(jīng)驗,您就會變得很有價值。您可以找一些雜亂無章的數(shù)據(jù)集練習(xí)清理數(shù)據(jù)來增加您的經(jīng)驗。
如果您用的是Python,Pandas是一個很好用的包;如果您用的是R,dplyr包將會是一個不錯的選擇。確保您展示出以下的技能:
- 標(biāo)注重點數(shù)據(jù)
- 連接多個數(shù)據(jù)集
- 檢測缺失數(shù)據(jù)
- 檢測異常值
- 填充缺失數(shù)據(jù)
- 確認(rèn)數(shù)據(jù)質(zhì)量
2、探索性數(shù)據(jù)分析
另一項有關(guān)數(shù)據(jù)科學(xué)的重要內(nèi)容是探索性數(shù)據(jù)分析(EDA)。這是提出問題的過程,需要您用可視化技術(shù)來研究這個數(shù)據(jù)集。EDA使得分析師能夠從數(shù)據(jù)中得出一些能驅(qū)動商業(yè)決策的結(jié)論?;蛟S您能從客戶的數(shù)據(jù)、銷售的趨勢、季節(jié)的影像中得到有趣的結(jié)論。甚至有時候您能有一些和您最初設(shè)想完全不同的發(fā)現(xiàn)。
用于探索性分析的一些有用的Python包是Pandas和Matplotlib。對于R用戶,ggplot2包將很有用。EDA項目應(yīng)該顯示以下技能:
用于探索性分析的一些有用的Python包是Pandas和Matplotlib。對于R用戶,ggplot2包將很有用。EDA項目應(yīng)該顯示以下技能:
- 能夠為調(diào)查制定相關(guān)問題
- 識別趨勢
- 識別變量之間的相關(guān)關(guān)系
- 使用可視化技術(shù)(散點圖,直方圖,箱線圖等)有效地傳達(dá)結(jié)果
3、交互式數(shù)據(jù)可視化
交互式數(shù)據(jù)可視化包括儀表板等工具。這些工具對數(shù)據(jù)科學(xué)團(tuán)隊以及更多面向業(yè)務(wù)的最終用戶都很有用。儀表板允許數(shù)據(jù)科學(xué)團(tuán)隊進(jìn)行協(xié)作,并一起繪制見解。更重要的是,它們?yōu)槊嫦驑I(yè)務(wù)的客戶提供了一種交互式工具。這些人專注于戰(zhàn)略目標(biāo)而非技術(shù)細(xì)節(jié)。通常,數(shù)據(jù)科學(xué)項目的可交付成果將以儀表板的形式出現(xiàn)。

對于Python用戶,Bokeh和Plotly庫非常適合創(chuàng)建儀表板。對于R用戶,請務(wù)必查看RStudio的Shiny軟件包。您的儀表板項目應(yīng)突出顯示以下重要技能:
- 包括與客戶需求相關(guān)的指標(biāo)
- 創(chuàng)建有用的功能
- 邏輯布局(“F模式”便于掃描)
- 創(chuàng)建***刷新率
- 生成報告或其他自動操作
4、機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)項目是數(shù)據(jù)科學(xué)組合的另一個重要部分。在您開始構(gòu)建一些深度學(xué)習(xí)項目之前,請退后一步。我們說的并不是建立復(fù)雜的機(jī)器學(xué)習(xí)模型,而是堅持基礎(chǔ)。線性回歸和邏輯回歸是很好的開始。這些模型更易于解釋和與上層管理層溝通。我還建議關(guān)注一個對業(yè)務(wù)有影響的項目,例如預(yù)測客戶流失,欺詐檢測或貸款違約。這比預(yù)測花型更貼近于工作實際。

如果您是Python用戶,請使用Scikit-learn庫。對于R用戶,請使用Caret包。您的機(jī)器學(xué)習(xí)項目應(yīng)該傳達(dá)以下技能:
- 您選擇使用特定機(jī)器學(xué)習(xí)模型的原因
- 將數(shù)據(jù)拆分為訓(xùn)練/測試集(k倍交叉驗證)以避免過擬合
- 選擇正確的評估指標(biāo)(AUC,adj-R ^ 2,混淆矩陣等)
- 特征值的選擇
- 超參數(shù)調(diào)整
5、溝通能力
溝通是數(shù)據(jù)科學(xué)的一個重要方面。能否有效地傳達(dá)結(jié)果是優(yōu)秀數(shù)據(jù)科學(xué)家與優(yōu)秀科學(xué)家之間的區(qū)別。無論您的模型多么花哨,如果您無法向隊友或客戶解釋,您將無法獲得他們的支持?;脽羝凸P記本電腦都是很好的溝通工具。嘗試將您的一個機(jī)器學(xué)習(xí)項目放入幻燈片格式中。您還可以將Jupyter Notebook或RMarkdown文件用于需要溝通的項目。

確保了解您的目標(biāo)受眾是誰。向高管們展示您的項目和向機(jī)器學(xué)習(xí)專家展示是非常不同的。一定要掌握這些技能:
- 了解您的目標(biāo)受眾
- 使用相關(guān)的可視化技術(shù)
- 請勿過多地提供幻燈片
- 確保您的演示文稿流暢
- 將結(jié)果與業(yè)務(wù)影響相結(jié)合(降低成本,增加收入)
確保在Jupyter筆記本或RMarkdown文件中記錄您的項目。然后,您可以使用Github Pages將這些文件免費(fèi)轉(zhuǎn)換為靜態(tài)網(wǎng)站。這是向潛在雇主展示您的項目的好方法。