2020 Kaggle年度報(bào)告:90%數(shù)據(jù)科學(xué)家堅(jiān)持終生學(xué)習(xí)
Kaggle 是重要的數(shù)據(jù)建模和數(shù)據(jù)分析競(jìng)賽平臺(tái)。近日,Kaggle 發(fā)布了第四次年度報(bào)告,試圖從中一窺社區(qū)趨勢(shì)。該調(diào)查涉及 20036 名 Kaggle 會(huì)員,此報(bào)告主要聚焦其中當(dāng)前職位為「數(shù)據(jù)科學(xué)家」的受訪者,約占 13%(2675 名)。
值得注意的是,想要成為參與調(diào)查并獲得所設(shè)獎(jiǎng)項(xiàng),必須滿足以下條件:
- 年滿 18 歲(或滿足你所居住地區(qū)的成年年齡);
- 不是克里米亞、古巴、伊朗、敘利亞、朝鮮或蘇丹的居民;
- 不是受美國(guó)出口管控條例制裁的個(gè)人 / 實(shí)體代表。
因此,這份報(bào)告可能會(huì)缺少相當(dāng)一部分來(lái)自中國(guó)的 Kaggle 數(shù)據(jù)科學(xué)家的情況。
在眾多回答中,Kaggle 總結(jié)了以下要點(diǎn):
群體畫像
- 數(shù)據(jù)科學(xué)領(lǐng)域仍然存在嚴(yán)重的性別不均衡,大部分從業(yè)人員為男性;
- 大部分?jǐn)?shù)據(jù)科學(xué)家年齡在 35 歲以下;
- 過(guò)半數(shù)據(jù)科學(xué)家有碩士學(xué)位。
教育和雇傭情況
- 大多數(shù)數(shù)據(jù)科學(xué)家在正式教育之外繼續(xù)學(xué)習(xí);
- 大多數(shù)數(shù)據(jù)科學(xué)家碼齡不超過(guò)十年;
- 過(guò)半數(shù)據(jù)科學(xué)家具備三年以下的機(jī)器學(xué)習(xí)經(jīng)驗(yàn);
- 美國(guó)的數(shù)據(jù)科學(xué)家比其他國(guó)家的同行掙更多錢。
技術(shù)
- 與 2019 年的調(diào)查結(jié)果相比,2020 年更多的數(shù)據(jù)科學(xué)家使用云計(jì)算;
- scikit-learn 是 2020 年最流行的機(jī)器學(xué)習(xí)工具,超過(guò)五分之四的數(shù)據(jù)科學(xué)家使用 scikit-learn;
- Tableau 和 PowerBI 是最流行的商業(yè)智能工具。
下面,我們來(lái)看每個(gè)層面的具體細(xì)節(jié)。
數(shù)據(jù)科學(xué)家群體畫像
性別
數(shù)據(jù)科學(xué)領(lǐng)域仍然存在較大的性別差距,82% 為男性,相比去年的 84%,略有下降。
年齡
與去年的調(diào)查結(jié)果類似,數(shù)據(jù)科學(xué)家多為 30 歲左右,約 60% 的受訪者年齡在 22-34 歲,只有 1/5 的職業(yè)數(shù)據(jù)科學(xué)家是 40 歲及以上。
國(guó)家
在本次報(bào)告中,印度開(kāi)發(fā)者所占的比例最多(21.8%),美國(guó)緊隨其后(14.5%),再往下是巴西和英國(guó)。
教育
高等教育
數(shù)據(jù)科學(xué)家大多有碩士學(xué)位,68% 獲得了碩士或博士文憑,不到 5% 的學(xué)歷在高中及以下。
終生學(xué)習(xí)
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)是快速變化的領(lǐng)域,90% 以上的 Kaggle 數(shù)據(jù)科學(xué)家保持終生學(xué)習(xí)的習(xí)慣。其中約 30% 接受的是傳統(tǒng)高等教育課程,更多是通過(guò)線上材料學(xué)習(xí)。線上學(xué)習(xí)渠道中最常用的媒介是 Coursera、Udemy 和 Kaggle Learn。受訪者中很多數(shù)據(jù)科學(xué)家選擇多個(gè)學(xué)習(xí)渠道,平均數(shù)量為 2.8。
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)經(jīng)驗(yàn)
編程經(jīng)驗(yàn)
大多數(shù) Kaggle 數(shù)據(jù)科學(xué)家都有編程經(jīng)驗(yàn)。有 20 年以上編程經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家僅有大約 8%,去年才開(kāi)始編程的數(shù)據(jù)科學(xué)家占比約 9%。只有不到 2% 表示自己從未寫過(guò)代碼。
與全球受訪者相比,美國(guó)數(shù)據(jù)科學(xué)家的編程經(jīng)驗(yàn)要多得多。在美國(guó),編程經(jīng)驗(yàn)超過(guò) 10 年的占比 27%,而全球范圍內(nèi)這一比例僅為 22%。
機(jī)器學(xué)習(xí)經(jīng)驗(yàn)
大多數(shù) Kaggle 數(shù)據(jù)科學(xué)家都是機(jī)器學(xué)習(xí)領(lǐng)域的新手。約 55% 的數(shù)據(jù)科學(xué)家機(jī)器學(xué)習(xí)經(jīng)驗(yàn)不到三年,具備十年及以上機(jī)器學(xué)習(xí)經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家占比不到 6%。
薪資水平
調(diào)查結(jié)果顯示,在國(guó)家 / 地區(qū)的最常見(jiàn)工資中,美國(guó)公司可能支付的金額更高,德國(guó)和日本緊隨其后。地區(qū)差別是存在的,比如來(lái)自印度的受訪群體 90% 表示年收入不足 5 萬(wàn)美元,美國(guó)公司最有可能支付六位數(shù)的薪水。
技術(shù)
交互開(kāi)發(fā)環(huán)境
基于 Jupyter 的 IDE 仍然是數(shù)據(jù)科學(xué)家的首選工具,大約 75% 的 Kaggle 數(shù)據(jù)科學(xué)家都在用它,但與去年的 83% 相比有所下降。VS Code 位居第二,僅占約 33%。這是它與 Visual Studio 分離的第一年,兩者今年合計(jì)占比超過(guò) 43%,而 2019 年不足 30%。
方法 & 算法
數(shù)據(jù)科學(xué)家最常用的算法是線性回歸和 logistic 回歸,緊隨其后是決策樹(shù)和隨機(jī)森林。在更加復(fù)雜的方法中,梯度提升和卷積神經(jīng)網(wǎng)絡(luò)是最受歡迎的方法。
基于 Python 的工具仍然在機(jī)器學(xué)習(xí)框架這一項(xiàng)上占據(jù)主導(dǎo),從統(tǒng)計(jì)結(jié)果可以看出,scikit-learn 適用于大部分項(xiàng)目,82.8% 的數(shù)據(jù)科學(xué)家都在使用它。各有 50% 左右的數(shù)據(jù)科學(xué)家使用過(guò) TensorFlow 和 Keras,尤其是用于深度學(xué)習(xí)項(xiàng)目之中。
梯度提升庫(kù) xgboost 排名第四,使用率和 2019 年相似。排名第五的 PyTorch 從 2019 年的 26% 左右上升到了 30% 以上。在今年的調(diào)查中,最受歡迎的工具是基于 R 的 Tidymodels,占比達(dá)到 7% 以上。
企業(yè)云計(jì)算
這個(gè)領(lǐng)域有三個(gè)主要成員(不難猜),它們是 AWS、谷歌云平臺(tái)、微軟 Azure。值得注意的是,越來(lái)越多的數(shù)據(jù)科學(xué)家開(kāi)始采用全部上云的方式。在 2019 年的調(diào)查中,大約 25% 的人沒(méi)有使用云計(jì)算,但在 2020 年,這一比例下降到了 17%。
在云服務(wù)用戶中,如果問(wèn)到他們使用的特定產(chǎn)品,最常見(jiàn)的答案是計(jì)算云服務(wù)器,其次是無(wú)服務(wù)器技術(shù),約有五分之一的人未提到云產(chǎn)品。
在使用 AWS 等云服務(wù)的用戶中,有一半以上表示自己沒(méi)有使用云上的機(jī)器學(xué)習(xí)工具,而使用的群體中,Amazon SageMaker 是最受歡迎的選項(xiàng),其次是 Google Cloud AI/ML。
企業(yè)大數(shù)據(jù)
在數(shù)據(jù)庫(kù)方面,數(shù)據(jù)科學(xué)家并沒(méi)有明顯的偏好。最常被提及的是 MySQL(35.6%),其次是 PostgreSQL (28.86%) 和 SQL Server (24.93%)。
報(bào)告鏈接:https://www.kaggle.com/c/kaggle-survey-2020