自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

大數(shù)據(jù)
數(shù)據(jù)科學(xué)家需要涉獵的知識面很廣,包括:機器學(xué)習(xí)、計算機科學(xué)、統(tǒng)計學(xué)、數(shù)學(xué)、數(shù)據(jù)可視化、溝通和深度學(xué)習(xí),那么數(shù)據(jù)科學(xué)家應(yīng)如何制定他們的學(xué)習(xí)預(yù)算,才能最大限度地滿足雇主的需要?

數(shù)據(jù)科學(xué)家需要涉獵的知識面很廣,包括:機器學(xué)習(xí)、計算機科學(xué)、統(tǒng)計學(xué)、數(shù)學(xué)、數(shù)據(jù)可視化、溝通和深度學(xué)習(xí),那么數(shù)據(jù)科學(xué)家應(yīng)如何制定他們的學(xué)習(xí)預(yù)算,才能***限度地滿足雇主的需要?

我瀏覽了一些求職網(wǎng)站,想找出哪些技能是數(shù)據(jù)科學(xué)家最需要掌握的技能,并對普通數(shù)據(jù)科學(xué)技能以及特定的語言和工具的特殊技能分別做了一些研究。2018年10月10日,我在LinkedIn,Indeed,SimplyHired,Monster上搜索了求職名單,下面這個圖表,顯示了每個網(wǎng)站列出的數(shù)據(jù)科學(xué)家職位的數(shù)目。

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

通過閱讀這些職位清單,經(jīng)過一番調(diào)查研究,我找出了數(shù)據(jù)科學(xué)家最常用的技能。像“管理”這樣的術(shù)語沒有進(jìn)行比較,因為它們在職位清單中被太多的上下文所引用。

所有搜索都是用“數(shù)據(jù)科學(xué)家”這個關(guān)鍵字在美國本土進(jìn)行的,采用精確匹配搜索的話,會使得搜索結(jié)果的數(shù)量大為減少。精確匹配搜索確保了搜索結(jié)果均與數(shù)據(jù)科學(xué)家的職位相關(guān),并受到類似搜索條件的影響。

AngelList列出了需要數(shù)據(jù)科學(xué)家的上市公司的數(shù)量,而不是列出了數(shù)據(jù)科學(xué)家職位數(shù)量。我將AngelList從這兩種分析中排除,因為它的搜索算法似乎是一種OR(或)類型的邏輯搜索,沒有將其轉(zhuǎn)換為AND(與)邏輯。

如果你搜索的關(guān)鍵字是 “數(shù)據(jù)科學(xué)家”“ TensorFlow”,那么只會列出需要數(shù)據(jù)科學(xué)家的公司,AngelList的搜索效果不錯。但是如果你的關(guān)鍵詞是“數(shù)據(jù)科學(xué)家” “react.js”,它會返回許多需要非數(shù)據(jù)科學(xué)家公司的列表。

Glassdoor 也被排除在我的分析之外。該網(wǎng)站聲稱,它在美國有26263個“數(shù)據(jù)科學(xué)家”職位,但能讓我看到的職位不超過900個。此外,數(shù)據(jù)科學(xué)家的職位數(shù)量不可能超過其他主要平臺的三倍以上。***的分析中包括了在LinkedIn上列出400多個普通技能和200多個特殊技能,當(dāng)然這其中會有一些交叉。

結(jié)果記錄在下面鏈接的Google Sheet表格中。我下載了.csv文件并將它們導(dǎo)入JupyterLab中。然后,計算出了百分比,并在職位列表網(wǎng)站上對它們進(jìn)行了平均計算。

Google Sheet表格鏈接:https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing

我還將軟件的計算結(jié)果與JupyterLab針對2017年上半年數(shù)據(jù)科學(xué)家職位列表進(jìn)行了比較。結(jié)合KDNuggets’ usage survey的信息,似乎有些技能變得越來越重要,而另一些則變得越來越不重要。我們一會兒再談。

KDNuggets’ usage survey

https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2

請參閱我的Kaggle Kernel以獲得交互式圖表和其他的分析。我用Plotly對數(shù)據(jù)進(jìn)行可視化。在編寫這篇文章時,對使用JupyterLab的Ploly出現(xiàn)了一些爭論-指令在我的Kaggle Kernel的結(jié)尾的Plotly’s docs之中。

Plotly’s docs

https://github.com/plotly/plotly.py

普通技能

以下是雇主最常搜索的數(shù)據(jù)科學(xué)家技能圖表。

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

結(jié)果表明,分析和機器學(xué)習(xí)是數(shù)據(jù)科學(xué)家工作的核心。從數(shù)據(jù)中收集有用信息是數(shù)據(jù)科學(xué)的主要功能。機器學(xué)習(xí)的全部內(nèi)容是創(chuàng)建系統(tǒng)來預(yù)測性能,這個需求非常大。

數(shù)據(jù)科學(xué)需要統(tǒng)計學(xué)和計算機科學(xué)技能——這一點也不奇怪。統(tǒng)計學(xué)、計算機科學(xué)和數(shù)學(xué)也都是大學(xué)的專業(yè),可能有助于加大它們出現(xiàn)的頻度。

有趣的是,在近一半的職位列表中提到了溝通,數(shù)據(jù)科學(xué)家需要能夠交流見解并與他人密切合作。

人工智能和深度學(xué)習(xí)不像其他術(shù)語那樣頻繁出現(xiàn)。然而,它們是機器學(xué)習(xí)的子集。深度學(xué)習(xí)正被越來越多的機器學(xué)習(xí)任務(wù)所使用,而這些任務(wù)以前是由其他算法完成的。例如,對于大多數(shù)自然語言處理問題,***的機器學(xué)習(xí)算法都是當(dāng)前的深度學(xué)習(xí)算法。我預(yù)計,在未來,人們將更加明確地尋求深度學(xué)習(xí)技能,而機器學(xué)習(xí)將成為深度學(xué)習(xí)的代名詞。

雇主們都在尋找掌握哪些特定的軟件工具的數(shù)據(jù)科學(xué)家?接下來我們來解決這個問題。

技術(shù)技能

雇主們正在尋找的具備以下技能的數(shù)據(jù)科學(xué)家,其中名列前20位的特定語言、庫和技術(shù)工具如下。

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

我們來簡要地看看最常見的技術(shù)技能。

1. Python

Python是***的語言。這種開源語言的受歡迎程度已廣為所知。初學(xué)者容易接受,而且有很多支持資源。絕大多數(shù)新的數(shù)據(jù)科學(xué)工具都與它兼容。Python是數(shù)據(jù)科學(xué)家的主要語言。

2. R

R不遜于 Python,它曾經(jīng)是數(shù)據(jù)科學(xué)的主要語言。我驚訝地看到它目前仍然很受歡迎。這種開源語言的根源在于統(tǒng)計學(xué),它目前仍然很受統(tǒng)計學(xué)家的歡迎。Python或R對于幾乎每一個數(shù)據(jù)科學(xué)家職位來說都是必須的。

3. SQL

SQL也很受歡迎。SQL是結(jié)構(gòu)化查詢語言,是與關(guān)系型數(shù)據(jù)庫交互的主要方式。在數(shù)據(jù)科學(xué)領(lǐng)域,SQL有時會被忽視,但是如果您打算進(jìn)入就業(yè)市場,這是一項值得展示的技能。

4. Hadoop和Spark

接下來是Hadoop和Spark,它們都是Apache提供的用于大數(shù)據(jù)的開源工具。Apache Hadoop是一個開源的軟件平臺,用于分布式存儲和分布式處理由商業(yè)硬件構(gòu)建的計算機集群上的大型數(shù)據(jù)集。

Apache Spark是一個快速、內(nèi)存數(shù)據(jù)處理引擎,它具有優(yōu)雅的、有表現(xiàn)力的開發(fā)API,使數(shù)據(jù)工作者能夠高效地執(zhí)行需要快速迭代訪問數(shù)據(jù)集的流、機器學(xué)習(xí)或SQL工作負(fù)載。

與許多其他工具相比,這些工具在媒體和教程中,關(guān)于它們的文章要少得多。我預(yù)計具備這些技能的求職者比具備Python、R和SQL技能的求職者要少得多。如果你有或可以獲得Hadoop和Spark的經(jīng)驗,會為你的競爭優(yōu)勢助一臂之力。

5. Java和SAS

然后是Java和SAS??吹竭@兩種語言位列如此之高,我感到十分驚訝。這兩種語言的背后都有大公司支持,至少有一些免費產(chǎn)品。Java和SAS通常在數(shù)據(jù)科學(xué)社區(qū)中很少受到關(guān)注。

6. Tableau

接下來是Tableau。這個分析平臺和可視化工具功能強大,易于使用,并且越來越受歡迎。它有一個免費的公開版本,但如果想要保持?jǐn)?shù)據(jù)私密性,則需要付費。

如果你不熟悉Tableau,那么肯定值得在Udemy上一門快速課程,比如Tableau 10A-Z。我參加了這門課,發(fā)現(xiàn)它物超所值。

下圖顯示了這些語言、框架和其他數(shù)據(jù)科學(xué)軟件工具的列表。

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

歷史比對

GlassDoor分析了2017年1月至2017年7月期間在其網(wǎng)站上的數(shù)據(jù)科學(xué)家最常見的10種軟件技能。以下是與2018年10月LinkedIn, Indeed, SimplyHired, 和Monster平均水平相比,它們在網(wǎng)站上出現(xiàn)頻率的比較。

結(jié)果非常相似。我的分析和GlassDoor’s都發(fā)現(xiàn)Python、R和SQL是***的。我們還發(fā)現(xiàn)了同樣的前九位技術(shù)技能,只是順序略有不同。

結(jié)果表明,與2017年上半年相比,目前對R、Hadoop、Java、SAS和MATLAB需求較少,Tableau需求則更大。這就是我所期望的,對 KDnuggets developer survey等來源的結(jié)果的補充。在那里,R、Hadoop、Java和SAS都顯示出明顯的多年下降趨勢,Tableau顯示出明顯的上升趨勢。

建議

根據(jù)以上分析結(jié)果,為當(dāng)前和有抱負(fù)的數(shù)據(jù)科學(xué)家,提出一些一般性的建議,以使自己在職場上更受歡迎:

1. 證明你可以進(jìn)行數(shù)據(jù)分析,并專注于成為真正擅長機器學(xué)習(xí)的人。

2. 投資于自己的溝通技巧。我建議閱讀《Made to Stick》這本書,它對你的想法會有更大的影響。還可以查看名稱為 Hemmingway Editor的APP(應(yīng)用程序),以提高寫作的清晰度。

《Made to Stick》:https://www.amazon.com/Made-Stick-Ideas-Survive-Others/dp/1400064287

Hemmingway Editor:http://www.hemingwayapp.com/

3. 掌握一個深度學(xué)習(xí)的框架。對深度學(xué)習(xí)框架的熟練程度是精通機器學(xué)習(xí)的重要組成部分。有關(guān)深度學(xué)習(xí)框架在用法、興趣和流行程度方面的比較,請參閱下方鏈接中的文章:

https://towardsdatascience.com/deep-learning-framework-power-scores-2018-23607ddf297a

4. 如果在學(xué)習(xí)Python和R之間進(jìn)行選擇,請選擇Python。如果對Python不感冒,考慮學(xué)習(xí)R。如果你會使用Python的同時也知道R,你肯定會更有市場。

當(dāng)雇主正在尋找一位具備Python技能的數(shù)據(jù)科學(xué)家時,他們也期望應(yīng)聘者能了解常見的Python數(shù)據(jù)科學(xué)庫,如:numpy、pandas、scikit-learn和matplotlib。如果想學(xué)習(xí)這組工具,我建議提供以下資源:

1. DataCamp和 DataQuest:它們都是定價合理的在線SaaS數(shù)據(jù)科學(xué)教育產(chǎn)品,在這些產(chǎn)品中,您可以一邊編寫代碼一邊學(xué)習(xí),二者都教授一些技術(shù)工具。

DataCamp

https://www.datacamp.com/

DataQuest

https://www.dataquest.io/

2. Data School擁有多種資源,包括一套很好的視頻,解釋數(shù)據(jù)科學(xué)的概念。

Data School

https://www.dataschool.io/start/

視頻資源:https://www.youtube.com/dataschool

3. 麥金尼(McKinney)的《用于數(shù)據(jù)分析的Python》。這本書由pandas庫的主要作者撰寫,重點關(guān)注pandas,還討論了基本的python,numpy和scikit-learn等數(shù)據(jù)科學(xué)的知識。

Python for Data Analysis

https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython/dp/1491957662

4. Müller&Guido的《用Python進(jìn)行機器學(xué)習(xí)簡介》。米勒是scikit-learn的主要維護(hù)者。這是一本用于學(xué)習(xí)機器學(xué)習(xí)scikit-learn的很好的書。

Introduction to Machine Leaning with Python

https://www.amazon.com/Introduction-Machine-Learning-Python-Scientists-ebook/dp/B01M0LNE8C

如果你想探究深度學(xué)習(xí),我建議在進(jìn)入TensorFlow或PyTorch之前先從Keras或FastAI開始。Chollet的《用Python進(jìn)行的深度學(xué)習(xí)》一書是學(xué)習(xí)Keras的很好的資源。除了這些建議之外,我建議你了解自己感興趣的內(nèi)容,盡管在決定如何分配學(xué)習(xí)時間時有很多因素需要考慮。

如果你想通過網(wǎng)絡(luò)門戶尋找一份數(shù)據(jù)科學(xué)家的工作,我建議你從LinkedIn開始——它的結(jié)果總是最多的。

如果你在網(wǎng)上求職或者在求職網(wǎng)站上發(fā)布職位,關(guān)鍵詞非常重要。“數(shù)據(jù)科學(xué)”返回的結(jié)果是“數(shù)據(jù)科學(xué)家”返回結(jié)果數(shù)的近3倍。但是,如果你在嚴(yán)格地尋找數(shù)據(jù)科學(xué)家的工作,你***還是輸入 “數(shù)據(jù)科學(xué)家”這個關(guān)鍵字。

無論你在哪個網(wǎng)站找工作,我建議你建立一個在線組合列表,列出你對所需求技能領(lǐng)域的熟練程度。我還建議用LinkedIn個人資料展示你的技能。

作為這個項目的一部分,我收集了其他數(shù)據(jù),可能也會寫成文章。跟我來,不要錯過哦。

如果您希望看到交互式圖表和它們背后的代碼,請查看我的Kaggle Kernel:

Kaggle Kernel:https://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/

作者簡介:

Jeff Hale是一位經(jīng)驗豐富的企業(yè)家,曾為多家公司管理過技術(shù)、運營和財務(wù)。專注于機器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)科學(xué)家,子商務(wù)公司的共同創(chuàng)始人和***運營官。目前,杰夫正將他對數(shù)據(jù)驅(qū)動決策的熱情轉(zhuǎn)化為以數(shù)據(jù)科學(xué)家為職業(yè)期盼。他對機器學(xué)習(xí)、交流和數(shù)據(jù)分析很感興趣。

  • 原文標(biāo)題:The Most in Demand Skills for Data Scientists
  • 原文鏈接:https://www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html

譯者簡介:陳之炎,北京交通大學(xué)通信與控制工程專業(yè)畢業(yè),獲得工學(xué)碩士學(xué)位,歷任長城計算機軟件與系統(tǒng)公司工程師,大唐微電子公司工程師,現(xiàn)任北京吾譯超群科技有限公司技術(shù)支持。目前從事智能化翻譯教學(xué)系統(tǒng)的運營和維護(hù),在人工智能深度學(xué)習(xí)和自然語言處理(NLP)方面積累有一定的經(jīng)驗。

責(zé)任編輯:未麗燕 來源: 數(shù)據(jù)派HTU
相關(guān)推薦

2019-11-29 18:03:27

數(shù)學(xué)R語言算法

2019-03-25 21:18:41

數(shù)據(jù)科學(xué)家大數(shù)據(jù)技能

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2018-03-27 11:02:55

2019-07-05 10:29:17

大數(shù)據(jù)數(shù)據(jù)科學(xué)家

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2018-05-03 09:11:51

數(shù)據(jù)科學(xué)家職業(yè)數(shù)據(jù)科學(xué)

2016-12-22 23:27:49

數(shù)據(jù)數(shù)據(jù)科學(xué)家變量

2016-12-23 14:56:49

數(shù)據(jù)科學(xué)商業(yè)視角思維

2018-05-25 10:51:50

數(shù)據(jù)保護(hù)進(jìn)

2019-09-11 14:34:13

排序算法數(shù)據(jù)科學(xué)

2018-05-22 09:07:54

數(shù)據(jù)科學(xué)語言職位

2012-12-27 09:50:36

Facebook

2021-10-08 13:45:23

大數(shù)據(jù)數(shù)據(jù)科學(xué)家貨幣

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2012-12-06 15:36:55

CIO
點贊
收藏

51CTO技術(shù)棧公眾號