如何成為一名更有“市場”的數(shù)據(jù)科學(xué)家?
這個標(biāo)題可能有點(diǎn)奇怪,畢竟在2019年,數(shù)據(jù)科學(xué)家本身就已經(jīng)是一個非常有市場的職業(yè)了。由于數(shù)據(jù)科學(xué)對當(dāng)今的業(yè)務(wù)產(chǎn)生了巨大影響,因此對數(shù)據(jù)科學(xué)專家的需求正在增長。截至本文發(fā)布之前,僅LinkedIn就有144,527個數(shù)據(jù)科學(xué)工作。
但是,更重要的是要密切關(guān)注行業(yè)脈搏,了解最快、最有效的數(shù)據(jù)科學(xué)解決方案。為了幫助大家,癡迷于數(shù)據(jù)的CV Compiler團(tuán)隊分析了一些職位空缺數(shù)量并確定了2019年數(shù)據(jù)科學(xué)領(lǐng)域的就業(yè)趨勢。
2019年更受歡迎的數(shù)據(jù)科學(xué)技能
下圖顯示了2019年雇主需要數(shù)據(jù)科學(xué)工程師能夠掌握的技能:

在此分析中,該團(tuán)隊查看了來自StackOverflow,AngelList和類似網(wǎng)站的300個Data Science職位空缺。某些條款可能在一個職位列表中重復(fù)多次。
注意: 這項研究代表了雇主的偏好,而不是數(shù)據(jù)科學(xué)工程師自己。
關(guān)鍵要點(diǎn)和數(shù)據(jù)科學(xué)趨勢
顯然,數(shù)據(jù)科學(xué)更多地是在于基礎(chǔ)知識而不是框架和庫,但仍有一些趨勢和技術(shù)值得注意。
大數(shù)據(jù)
根據(jù) 2018年大數(shù)據(jù)分析市場研究,企業(yè)的大數(shù)據(jù)采用率從2015年的17%飆升至2018年的59%。因此,大數(shù)據(jù)工具的普及也在增長。如果不考慮Apache Spark和Hadoop的話,最受歡迎的是 MapReduce (36)和 Redshift (29)。
Hadoop
盡管Spark和云存儲很受歡迎, 但Hadoop的時代還沒有結(jié)束。因此,一些雇主仍然希望候選人熟悉 Apache Pig(30),HBase(32)和類似技術(shù)。 HDFS (20)也在調(diào)查中被提及。
實時數(shù)據(jù)處理
隨著各種傳感器、移動設(shè)備和物聯(lián)網(wǎng)(18)的應(yīng)用越來越多 ,越來越多的企業(yè)的目標(biāo)是從實時數(shù)據(jù)處理中獲得更多的見解。因此,像Apache Flink (21)這樣的流分析平臺在一些雇主中很受歡迎。
Pexels 上的 rawpixel.com 拍攝的照片
特征工程和超參數(shù)調(diào)整
準(zhǔn)備數(shù)據(jù)和選擇模型參數(shù)是任何數(shù)據(jù)科學(xué)家工作的關(guān)鍵部分。數(shù)據(jù)挖掘(128)這一術(shù)語在雇主中頗為流行。一些雇主也非常重視超參數(shù)調(diào)整(21)。但是作為數(shù)據(jù)科學(xué)家,您首先需要關(guān)注特征工程。為模型選擇最佳功能至關(guān)重要,因為它們決定了模型在其創(chuàng)建的最早階段的成功。
數(shù)據(jù)可視化
處理數(shù)據(jù)并從中提取有價值的見解的能力至關(guān)重要。不過,數(shù)據(jù)可視化(55)對于任何數(shù)據(jù)科學(xué)家而言也同樣重要。其核心目的是,您可以以任何團(tuán)隊成員或客戶都能理解的格式展示您的工作成果。至于數(shù)據(jù)可視化工具,雇主更喜歡Tableau(54)。
一般趨勢
在該項調(diào)查中,AWS(86)、Docker(36)和Kubernetes(24)這樣的術(shù)語也多此出現(xiàn) 。因此,軟件開發(fā)行業(yè)的一般趨勢也適用于數(shù)據(jù)科學(xué)領(lǐng)域。
數(shù)據(jù)科學(xué)是一個快速發(fā)展和復(fù)雜的行業(yè),其中一般知識以及特定技術(shù)的經(jīng)驗都很重要。希望這篇文章可以幫助您獲得有關(guān)2019年所需的數(shù)據(jù)科學(xué)技能的寶貴見解。