2021年成為數(shù)據(jù)科學(xué)家最需要學(xué)習(xí)的7項技能
雖然這篇文章可能更多的是軼事,但我覺得這篇文章分享了一個有價值的觀點。我特別不是指從搜集來的招聘信息中獲取的數(shù)據(jù),因為從我的經(jīng)驗來看,職位描述和實際工作之間似乎有很大的脫節(jié)。
您可能會注意到,這七個技能中的任何一個都與機器學(xué)習(xí)或深度學(xué)習(xí)無關(guān),這不是一個錯誤。當(dāng)前,對在建模前和建模后階段使用的技能有更高的要求。因此,最受推薦的七種學(xué)習(xí)技能實際上與數(shù)據(jù)分析師,軟件工程師和數(shù)據(jù)工程師的技能重疊。
我寫了一篇文章,專門介紹了為什么不應(yīng)該首先學(xué)習(xí)機器學(xué)習(xí)的原因-您可以在下面查看:
SQL
SQL是數(shù)據(jù)世界中的通用語言。無論你是數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師還是數(shù)據(jù)分析師,你都需要了解SQL。
SQL用于從數(shù)據(jù)庫中提取數(shù)據(jù),處理數(shù)據(jù)和創(chuàng)建數(shù)據(jù)管道。本質(zhì)上,這對于數(shù)據(jù)生命周期中幾乎每個預(yù)分析/預(yù)建模階段都很重要。
開發(fā)強大的SQL技能將使您能夠?qū)⒎治?,可視化和建模提高到一個新的水平,因為您將能夠以高級方式提取和操作數(shù)據(jù)。 而且,對于使用PB級數(shù)據(jù)的公司而言,編寫高效且可擴展的查詢變得越來越重要。
數(shù)據(jù)可視化
如果您認(rèn)為創(chuàng)建數(shù)據(jù)可視化和講故事特定于數(shù)據(jù)分析師的角色,那么請往下看。
數(shù)據(jù)可視化只是指以視覺方式呈現(xiàn)的數(shù)據(jù)-它可以采用圖表的形式,但也可以采用非常規(guī)的方式進行呈現(xiàn)。
數(shù)據(jù)敘事使數(shù)據(jù)可視化更上一層樓-數(shù)據(jù)敘事是指"如何"傳達見解。 可以把它想像成一本圖畫書。 一本好的圖畫書具有良好的視覺效果,但也具有將視覺效果聯(lián)系起來的引人入勝且功能強大的敘述。
開發(fā)數(shù)據(jù)可視化和講故事的技能至關(guān)重要,因為您始終以數(shù)據(jù)科學(xué)家的身份出售自己的想法和模型。 與其他不懂技術(shù)的人交流時,這一點尤其重要。
Python
從我的交流來看,Python似乎是學(xué)習(xí)首選編程語言。這并不意味著如果你使用R,你就不能成為一名數(shù)據(jù)科學(xué)家,但這只是意味著你將在一種不同于大多數(shù)人使用的語言中工作。
學(xué)習(xí)Python語法很容易,但您應(yīng)該能夠編寫高效的腳本,并利用Python提供的大量庫和包。Python編程是一個應(yīng)用程序的構(gòu)建塊,如操作數(shù)據(jù),構(gòu)建機器學(xué)習(xí)模型,編寫DAG文件等等…
PANDAS
可以說,用Python中最重要的庫是Pandas,它是一個用于數(shù)據(jù)處理和分析的程序包。 作為數(shù)據(jù)科學(xué)家,無論您要清理數(shù)據(jù),瀏覽數(shù)據(jù)還是處理數(shù)據(jù),您都將一直使用此軟件包。
Pandas之所以成為如此流行的軟件包,不僅因為它具有功能性,而且因為DataFrames已成為機器學(xué)習(xí)模型的標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)。
Git /版本控制
Git是技術(shù)社區(qū)中使用的主要版本控制系統(tǒng)。
如果那沒有意義,請考慮以下示例。 在高中或大學(xué)中,如果您不得不寫一篇論文,則在進行過程中可能會保存不同版本的論文。 例如:
- Final Essay
- └Essay_v1
- └Essay_v2
- └Essay_final
- └Essay_finalfinal
- └Essay_OFFICIALFINAL
Git是一個功能相同的工具,只是它是分布式系統(tǒng)。 這意味著文件(或存儲庫)既存儲在本地也存儲在中央服務(wù)器中。
Git非常重要,其原因有以下幾個:
- 它允許您還原到舊版本的代碼
- 它使您可以與其他數(shù)位數(shù)據(jù)科學(xué)家和程序員并行工作
- 即使您正在開發(fā)一個完全不同的項目,它也可以使您使用與其他代碼庫相同的代碼庫
Docker
Docker是一個容器化平臺,可讓您部署和運行應(yīng)用程序,例如機器學(xué)習(xí)模型。
數(shù)據(jù)科學(xué)家不僅知道如何構(gòu)建模型,而且也知道如何部署模型,這一點變得越來越重要。 實際上,許多職位招聘現(xiàn)在需要在模型部署方面有一定經(jīng)驗。
學(xué)習(xí)如何部署模型如此重要的原因是,在將模型與與其關(guān)聯(lián)的流程/產(chǎn)品進行實際集成之前,它不會產(chǎn)生任何商業(yè)價值。
Airflow
Airflow是一種工作流程管理工具,可讓您自動化…良好的工作流程。 更具體地說,Airflow允許您為數(shù)據(jù)管道和機器學(xué)習(xí)管道創(chuàng)建自動化的工作流。
Airflow功能強大,因為它使您可以將要用于進一步分析或建模的表格進行生產(chǎn)化,并且它也是可用于部署機器學(xué)習(xí)模型的工具。
謝謝閱讀!
我希望這有助于指導(dǎo)您的學(xué)習(xí),并為您提供新年的方向。 有很多東西要學(xué)習(xí),所以我肯定會選擇一些聽起來最有趣的技能,然后再去學(xué)習(xí)。