如何進階成為一名數(shù)據(jù)科學(xué)家?
數(shù)據(jù)科學(xué)家-21世紀(jì)最性感的工作-可以說是每個數(shù)據(jù)分析師的最終目標(biāo),既然拿到的Stack Overflow調(diào)查問卷中含有數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家的數(shù)據(jù),那本次報告的任務(wù)就是橫向?qū)Ρ纫幌聰?shù)據(jù)分析師與數(shù)據(jù)科學(xué)家,讓大家對自己的未來的技能樹選擇能有多一點的數(shù)據(jù)支持。
假設(shè)問題
- 目前處在或者即將處在數(shù)據(jù)分析師職位的朋友應(yīng)該打磨自己的哪項技能?
- 數(shù)據(jù)分析師為自己未來的數(shù)據(jù)科學(xué)家之路應(yīng)該如何擴充自己的技能樹?
問題解析
本次報告嘗試橫向?qū)Ρ葦?shù)據(jù)分析師與數(shù)據(jù)科學(xué)家,將在兩個職業(yè)的比較中回答假設(shè)問題,這樣做的好處是使兩種職業(yè)更飽滿的展現(xiàn)在讀者面前,因為問題的針對性比較強,對比的過程中也可以很清晰的解答問題,所以本次報告以這樣的形式展現(xiàn)出來
數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家
上圖中的語言與學(xué)歷均以占比從高到低排列
薪資
首先拿到這個數(shù)據(jù),自然要從大家最關(guān)心的工資說起:
首先可以看出來,兩個職業(yè)在接觸編程人員中都有中等的工資水平,數(shù)據(jù)科學(xué)家更是擠進了前十,總的來說是相當(dāng)不錯的薪資水平了
更細致的來看數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家的工資情況,科學(xué)家工資不管是均值還是中位數(shù)都穩(wěn)超分析師,且高工資處分析師的離散程度遠遠大于科學(xué)家,也就是說數(shù)據(jù)科學(xué)家在高工資處的分布集中度更高
性別
對比前一章報告:Stack Overflow 用戶畫像分析(https://github.com/AAAlvin/Project_Folder/blob/數(shù)據(jù)之道%20-%20Stack的用戶畫像分析.md),不難看出,這兩個職業(yè)的女性從業(yè)率都超過了編程行業(yè)的女性(4.8%)均值,且數(shù)據(jù)科學(xué)家甚至達到了兩倍的樣子,可以說是對女性非常友好的編程相關(guān)職業(yè)了,其中的原因有可能是很多專業(yè)是學(xué)習(xí)數(shù)學(xué)或者統(tǒng)計的朋友跨行業(yè)自學(xué)編程來到數(shù)據(jù)行業(yè)
從不同性別的薪資來看,首先對比其他職業(yè)可以看出這兩個行業(yè)男女工資基本上已經(jīng)持平,跟其他行業(yè)中男性比女性工資高很多的情況形成強烈對比;隨后從兩個職業(yè)的對比中可以看出,從數(shù)據(jù)分析師進階到數(shù)據(jù)科學(xué)家,兩個職業(yè)女性的工資上漲幅度遠超男性,女性工資均值和中位數(shù)上漲了50%和70%,而男性上漲只有45%和16%
編程語言
輸出了數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家使用語言蝴蝶圖,將目前比較火的R和Python標(biāo)亮顯示,從中可以得出的東西還是非常多的:
首先看數(shù)據(jù)分析師這邊,基本都是使用SQL和R,其次是使用EXCEL中的VBA,而python使用的情況只有不到6%,這和我現(xiàn)在了解到的數(shù)據(jù)分析師的情況大致相符,基本是多用SQL做數(shù)據(jù)提取工作,小數(shù)據(jù)使用EXCEL,數(shù)據(jù)量比較大的才考慮使用R或python,目前從數(shù)據(jù)看來,使用R的占了比較大的比重
再從數(shù)據(jù)科學(xué)家這邊看,基本上使用python的比例激增到40%,大家應(yīng)當(dāng)熟知Python是機器學(xué)習(xí)的利器,多看中預(yù)測結(jié)果的準(zhǔn)確性,而R多用作統(tǒng)計推斷的語言,所以從語言使用占比來說,在科學(xué)家這邊,機器學(xué)習(xí)一定是一個繞不開的技能,不然Python激增這么多很難有合理的解釋
不難看出的還有一點就是,SQL在科學(xué)家中基本不在使用了,而VBA卻仍有不小的比例,看來簡單的取數(shù)據(jù)的工作要么科學(xué)家已經(jīng)交給分析師來做,或者自己動手使用python爬蟲,而小量的數(shù)據(jù)仍有可能使用VBA進行前期分析
目前來看處在分析師職位的朋友應(yīng)當(dāng)吧更多的精力放在SQL和R上,然后盡力不要丟掉EXCEL,畢竟這個是基礎(chǔ)技能而且還非常耐用,然后在為數(shù)據(jù)科學(xué)家做準(zhǔn)備的時候,Python是一定要深入學(xué)習(xí)的語言,同時深刻了解業(yè)務(wù)和機器學(xué)習(xí),這些應(yīng)該是從該數(shù)據(jù)集中展現(xiàn)出來的方向
學(xué)歷
學(xué)歷柱狀圖最明顯的一點莫過于數(shù)據(jù)科學(xué)家的博士學(xué)位明顯高于數(shù)據(jù)分析師和其他職業(yè),可以說是門檻超高的一個職業(yè)了,大部分的科學(xué)家都接受了相當(dāng)好的教育,本科以上的學(xué)歷高達91%
數(shù)據(jù)分析師的學(xué)歷基本屬于平均偏上的水平,可以看到在碩士學(xué)位處35%的占比也很高的
綜上數(shù)據(jù)分析師的學(xué)歷門檻比較高,而科學(xué)家的門檻更高,分析師準(zhǔn)備轉(zhuǎn)行科學(xué)家的時候,磨練自己技術(shù)的同時還需要加強自己的專業(yè)知識也就是提升學(xué)歷,邊上班研究業(yè)務(wù)知識,邊申請在職研究生或者博士課程也是可以選在的方向
編程時間相關(guān)
從兩個行業(yè)在不同編程年齡的柱狀圖來看,編程時間在6年以下的以數(shù)據(jù)分析師居多,而接觸編程語言超過6年后,當(dāng)熟練掌握了算法和業(yè)務(wù)之后轉(zhuǎn)行科學(xué)家的比例不斷上升,看來6年之內(nèi)分析師們是需要為自己的數(shù)據(jù)科學(xué)家做好技能規(guī)劃
從上班使用電腦時間來看,基本兩者相差不大,都屬于業(yè)界平均水平,只不過在科學(xué)家在5-8小時的時候稍微多一點,超過12小時時候稍微少一點
總結(jié)與結(jié)論
數(shù)據(jù)分析師對自己目前的規(guī)劃與未來的計劃:
- 目前扎實掌握SQL與VBA,掌握業(yè)務(wù)相關(guān)知識與R語言,嘗試對數(shù)據(jù)庫有更多的了解;
- 技能樹深化Python的學(xué)習(xí),機器學(xué)習(xí)或深度學(xué)習(xí)需要提上日程;
- 有條件的情況下嘗試在職研究生,學(xué)習(xí)統(tǒng)計學(xué)知識,掌握更全面、系統(tǒng)的理論知識;