都是數(shù)據(jù)科學(xué)家,為什么TA薪水比你高?
同樣做數(shù)據(jù)科學(xué),為什么有人賺得多,有人賺的少?為了科學(xué)地回答這個(gè)問(wèn)題,Kaggle 進(jìn)行了一項(xiàng)系統(tǒng)的調(diào)查。結(jié)果表明,行業(yè)、經(jīng)驗(yàn)、掌握的數(shù)據(jù)類型等是影響數(shù)據(jù)科學(xué)家薪酬的主要因素。行業(yè)是自己選的,經(jīng)驗(yàn)是自己攢的,這些都沒(méi)啥好說(shuō)的。至于數(shù)據(jù)類型,你會(huì)的更高級(jí)就賺得越多。
如何提高薪酬?本文作者從 2018 年 Kaggle ML & DS 調(diào)查問(wèn)卷中總結(jié)出 124 條「該做」和「不該做」之事。
做什么能為你的數(shù)據(jù)科學(xué)職業(yè)生涯加碼?很多人已經(jīng)非常清楚鞏固數(shù)據(jù)科學(xué)職業(yè)和加薪的重要因素。但我從沒(méi)有見(jiàn)過(guò)一個(gè)系統(tǒng)的、基于數(shù)據(jù)的方法來(lái)回答這個(gè)問(wèn)題。所以我想通過(guò)建模來(lái)解釋「哪些因素可以提高數(shù)據(jù)科學(xué)家的市場(chǎng)價(jià)值」。有些你可能已經(jīng)了解,但有些可能真的有助于你加薪呢~
完整研究報(bào)告及代碼地址:
https://www.kaggle.com/andresionek/what-makes-a-kaggler-valuable
根據(jù)數(shù)據(jù)估計(jì)薪酬
我們只能做這種研究,因?yàn)?Kaggle 已經(jīng)發(fā)布了其第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查的數(shù)據(jù)。該調(diào)查于 2018 年 10 月展開,耗時(shí)一周,共獲得 23859 份回復(fù)。結(jié)果包括一些原始數(shù)據(jù),如什么人在研究數(shù)據(jù)、不同行業(yè)中機(jī)器學(xué)習(xí)的情況、新數(shù)據(jù)科學(xué)家進(jìn)入該領(lǐng)域的最佳方式。
有了這些數(shù)據(jù),我們想了解影響 Kaggler 薪酬的因素(我們把回復(fù)調(diào)查的人稱之為 Kaggler)。我們想讓你了解什么對(duì)市場(chǎng)更有價(jià)值,這樣你就可以停止把時(shí)間花在投資回報(bào)率(ROI)低的事情上,并加速獲得更高的報(bào)酬。根據(jù)這些從數(shù)據(jù)中提煉出來(lái)的見(jiàn)解,我希望你有一天能夠像 Babineaux 一樣——躺在錢堆上。
Huel Babineaux,《絕命毒師》和《風(fēng)騷律師》中的角色。圖源:AMC
在進(jìn)入正題之前,我們可以先做一些基本的探索性數(shù)據(jù)分析(EDA)。首先看一下大家的薪水↓↓
數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
薪酬主要集中分布在較低的水平范圍內(nèi)(每年 1 萬(wàn)美元),在 10 萬(wàn)美元左右還有另一個(gè)高峰。很多學(xué)生也填寫了這份調(diào)查問(wèn)卷,看看他們賺多少?
數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
不出所料,學(xué)生們賺得不多,因?yàn)樗麄冞€沒(méi)有正式工作。既然如此,我們可以把學(xué)生從數(shù)據(jù)中剔除并確定收入前 20% 的 Kaggler 薪酬是多少。
數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
根據(jù)這些數(shù)據(jù),我們定義了用于建模的目標(biāo)變量,如下:
我們將計(jì)算一個(gè) Kaggler 年收入超過(guò) 10 萬(wàn)美元的概率。
數(shù)據(jù)科學(xué)中的性別不平衡
在繼續(xù)建模之前,我想告訴你的是,在收入最高的 20%Kaggler 中存在性別不平衡,但是其余的 80% 中不存在這種現(xiàn)象。這意味著男性高管的薪資要高于女性。如下圖所示:
數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
預(yù)測(cè)模型
為了創(chuàng)建模型,我們從 29 個(gè)問(wèn)題中提取了 138 個(gè)可以解釋高薪的特征。經(jīng)過(guò)一定的數(shù)據(jù)清洗之后,我們運(yùn)行了 Logistic 回歸和隨機(jī)森林模型。
經(jīng)過(guò)評(píng)估,我們發(fā)現(xiàn) Logistic 回歸表現(xiàn)更好。該模型在提取特征系數(shù)方面也具有優(yōu)勢(shì)。這可以幫助我們理解每個(gè)特征對(duì)(收入最高的 20%Kaggler)最終結(jié)果有何貢獻(xiàn)。我們做了欠采樣、交叉驗(yàn)證及網(wǎng)格搜索,代碼見(jiàn)完整版調(diào)查報(bào)告。
- ### -- ### -- LogisticRegression -- ### -- ###
- MODEL PERFORMANCE ON TEST DATA*
- Accuracy: 0.8167438271604939
- AUC: 0.8963917030007695
- Confusion Matrix:
- [[1817 411]
- [ 64 300]]
- Type 1 error: 0.18447037701974867
- Type 2 error: 0.17582417582417584
模型性能:薪水前 20% 和后 80% 的預(yù)測(cè)分?jǐn)?shù)。數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。
幫你加薪的幾個(gè)方法
選擇特征之后,我們的模型總共有 124 個(gè)特征。從它們的系數(shù)我們總結(jié)了幾點(diǎn)幫你加薪的建議。
我們模型的截距是 0。這意味著每個(gè)人都是從 0 分開始的。接下來(lái)你可以在你分?jǐn)?shù)的基礎(chǔ)上加分或減分,這取決于你針對(duì)每個(gè)問(wèn)題給出的答案。
- 正系數(shù):系數(shù)為正表示肯定的答案有助于你擠進(jìn)前 20%
- 負(fù)系數(shù):系數(shù)為負(fù)表示肯定的回答不利于你擠進(jìn)前 20%
模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
學(xué)生身份可能是挫敗感強(qiáng)、薪水低的一個(gè)原因。走出學(xué)校門找份工作吧!做一名數(shù)據(jù)科學(xué)家很不錯(cuò),但軟件工程師薪水更高。為什么不去做一名 B 型數(shù)據(jù)科學(xué)家(注:B 型數(shù)據(jù)科學(xué)家具有很強(qiáng)的編程能力,可能是經(jīng)過(guò)訓(xùn)練的軟件工程師。詳見(jiàn):
https://medium.com/@jamesdensmore/there-are-two-types-of-data-scientists-and-two-types-of-problems-to-solve-a149a0148e64)并將模型部署到生產(chǎn)中呢?
模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
如果想致富,不要再待在學(xué)界/教育界了。從完整的 EDA 調(diào)查中可以看出,與其它領(lǐng)域相比,學(xué)界/教育界的平均薪水最低,模型的系數(shù)也佐證了這一點(diǎn)。作為對(duì)數(shù)據(jù)科學(xué)的未來(lái)最重要的領(lǐng)域之一,學(xué)界/教育的平均薪資水平居然最低,這讓人非常沮喪。如果你想多賺點(diǎn)錢,投身計(jì)算機(jī)/技術(shù)行業(yè)有利于你擠進(jìn)薪水的前 20%。
模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
顯然,經(jīng)驗(yàn)越豐富,賺得就越多。所以看開點(diǎn),你不太可能憑借兩年經(jīng)驗(yàn)就成為收入前 20% 的 Kaggler 之一。
模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
說(shuō)到活動(dòng),試著構(gòu)建原型或機(jī)器學(xué)習(xí)服務(wù)。探索機(jī)器學(xué)習(xí)在新領(lǐng)域的應(yīng)用并利用它來(lái)改進(jìn)產(chǎn)品或工作流,這也是離年入 10 萬(wàn)美元更近一步的方法。
另一方面,如果你的工作主要是運(yùn)用商業(yè)智能來(lái)分析和理解影響產(chǎn)品或商業(yè)決策的數(shù)據(jù),那就不要期望高薪了。運(yùn)行數(shù)據(jù)基礎(chǔ)架構(gòu)也是如此。
使用云計(jì)算服務(wù)!習(xí)慣使用 AWS 或其它領(lǐng)先的云供應(yīng)商,如谷歌或微軟。
模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
有些機(jī)器學(xué)習(xí)框架可能會(huì)增加你的市場(chǎng)價(jià)值。學(xué)習(xí)并使用 SparkMLlib、Xgboost、TensorFlow 會(huì)讓你的簡(jiǎn)歷更有分量。
模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
說(shuō)到可能會(huì)增加薪酬的數(shù)據(jù)類型,不妨試著學(xué)學(xué)時(shí)間序列(Time Series)和地理空間數(shù)據(jù)(Geospatial Data)。所有人都在用數(shù)值型數(shù)據(jù)(Numerical Data),所以先學(xué)好基礎(chǔ)數(shù)據(jù),如果你想獲得高薪,那就去學(xué)習(xí)更高級(jí)的數(shù)據(jù)類型。
模型系數(shù)。數(shù)據(jù):Kaggle 第二次年度機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)調(diào)查。圖表:作者
原文鏈接:https://towardsdatascience.com/what-makes-a-data-scientist-valuable-b723e6e814aa
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】