2021年比較值得投資的7種數(shù)據(jù)科學(xué)技能
在2021年伊始,Google數(shù)據(jù)與分析主管、NVIDIA工程部高級(jí)總監(jiān) ,以及Wealthsimple數(shù)據(jù)科學(xué)與工程副總裁等全球數(shù)據(jù)領(lǐng)導(dǎo)者,分享了他們認(rèn)為的7種比較值得大家在新的一年里學(xué)習(xí)的數(shù)據(jù)科學(xué)技能。這些技能是各大公司正在廣泛使用并推崇的。
首先需要申明,這七項(xiàng)技能都與機(jī)器學(xué)習(xí)或深度學(xué)習(xí)無(wú)關(guān),這是因?yàn)槟壳?,?shù)據(jù)分析行業(yè)對(duì)建模前階段和建模后階段使用的技能有更高的要求。因此,這七個(gè)最值得學(xué)習(xí)的技能實(shí)際上與數(shù)據(jù)分析師、軟件工程師和數(shù)據(jù)工程師擁有技能重疊。
那接下來(lái)就讓我們深入探討2021年比較值得學(xué)習(xí)的七項(xiàng)數(shù)據(jù)科學(xué)技能吧!
1) SQL
SQL是數(shù)據(jù)世界中的通用語(yǔ)言。無(wú)論你是數(shù)據(jù)科學(xué)家,數(shù)據(jù)工程師還是數(shù)據(jù)分析師,你都需要了解SQL。
SQL用于從數(shù)據(jù)庫(kù)中提取數(shù)據(jù)、處理數(shù)據(jù)和創(chuàng)建數(shù)據(jù)管道。本質(zhì)上,在數(shù)據(jù)生命周期中,它對(duì)于每個(gè)預(yù)分析、預(yù)建模階段都很重要。
開(kāi)發(fā)強(qiáng)大的SQL技能將使你能夠?qū)⒎治?、可視化和建模都提高到一個(gè)新的水平,因?yàn)槟銓⒛軌蛞愿呒?jí)方式提取和操作數(shù)據(jù)。而且,對(duì)于使用PB級(jí)數(shù)據(jù)(1PB=1024TB=2^50字節(jié))的公司而言,編寫(xiě)高效且可擴(kuò)展的查詢變得越來(lái)越重要。
2) 數(shù)據(jù)可視化與數(shù)據(jù)講述
如果你認(rèn)為只有數(shù)據(jù)分析師才會(huì)專注于創(chuàng)建數(shù)據(jù)可視化圖表和數(shù)據(jù)講述(storytelling)的話,那你可能想錯(cuò)了。
數(shù)據(jù)可視化只是指以可視化的方式呈現(xiàn)的數(shù)據(jù)。它可以是以圖形的形式,但也可以以非常規(guī)的方式呈現(xiàn)。
數(shù)據(jù)講述(storytelling)將數(shù)據(jù)可視化提升到了一個(gè)新的層次——數(shù)據(jù)講述指的是你如何傳達(dá)你的見(jiàn)解。把它想象成一本圖畫(huà)書(shū)。一本好的圖畫(huà)書(shū)有很好的視覺(jué)效果,但它也有一個(gè)引人入勝的和強(qiáng)有力的敘述,連接視覺(jué)效果。
強(qiáng)化你的數(shù)據(jù)可視化和數(shù)據(jù)講述的技能是必不可少的,因?yàn)樽鳛橐粋€(gè)數(shù)據(jù)科學(xué)家,你總是需要推銷你的想法和模型。在與非技術(shù)人員或者跨部門溝通時(shí)(比如說(shuō)服你的產(chǎn)品經(jīng)理),這一點(diǎn)就顯得尤為重要了。在這里給大家推薦一個(gè)Google的演講視頻,來(lái)自《Storytelling with Data》這本書(shū)的作者Cole Nussbaumer Knaflic,演講的標(biāo)題與書(shū)同名。
3) Python
在數(shù)據(jù)科學(xué)家中使用Python的比例正在逐年增高。學(xué)習(xí)Python語(yǔ)法很容易,但是你應(yīng)該學(xué)習(xí)編寫(xiě)高效的腳本,并充分利用Python提供的各種庫(kù)和包。Python編程是諸如數(shù)據(jù)處理、構(gòu)建機(jī)器學(xué)習(xí)模型、編寫(xiě)DAG文件等應(yīng)用程序的基礎(chǔ)。
4)Pandas
可以說(shuō),Pandas是Python中最重要的包,它可以用于進(jìn)行數(shù)據(jù)操作和分析。作為一名數(shù)據(jù)科學(xué)家,Pandas可以說(shuō)是一個(gè)會(huì)被一直用到的工具,無(wú)論是清理數(shù)據(jù)、處理數(shù)據(jù)還是展示數(shù)據(jù)它都能勝任。
Pandas之所以能夠成為如此流行的包,不僅僅因?yàn)樗墓δ軓?qiáng)大,還因?yàn)镈ataFrame已經(jīng)成為機(jī)器學(xué)習(xí)模型中的常用的數(shù)據(jù)結(jié)構(gòu)。
5)Git/版本控制(Version Control)
Git是目前業(yè)界最流行的版本控制系統(tǒng)(Version Control System)。
如果這對(duì)你來(lái)說(shuō)有點(diǎn)難以理解,那我來(lái)舉個(gè)例子。在高中或大學(xué)的時(shí)候,假如你需要寫(xiě)一篇論文,那你的電腦里可能會(huì)隨著你的進(jìn)展保存下你論文的不同版本。例如:
開(kāi)個(gè)小玩笑。Git是一個(gè)分布式版控制系統(tǒng),其最大的特點(diǎn)是各開(kāi)發(fā)者本地所復(fù)制的不僅僅是當(dāng)前最新版本的文件,而是把代碼倉(cāng)庫(kù)完整地從服務(wù)器上克隆了下來(lái)。這意味著代碼文件(或代碼倉(cāng)庫(kù)庫(kù))既存儲(chǔ)在本地,也存儲(chǔ)在中央服務(wù)器中。各開(kāi)發(fā)者本地?fù)碛写a倉(cāng)庫(kù)所有的文件以及文件歷史和變更信息。這樣即使服務(wù)器出現(xiàn)宕機(jī),也不影響開(kāi)發(fā)者本地開(kāi)發(fā),開(kāi)發(fā)者也可以隨時(shí)查看文件的各歷史版本。
Git可以實(shí)現(xiàn)幾個(gè)非常重要的功能:
- 它允許恢復(fù)到舊版本的代碼
- 它允許幾個(gè)數(shù)據(jù)科學(xué)家和程序員并行工作
- 它允許你使用與他人完全相同的代碼庫(kù),即使你正在處理的是完全不同的項(xiàng)目
6)Docker
Docker是一個(gè)開(kāi)放源代碼軟件項(xiàng)目。它是一個(gè)容器化的平臺(tái),就像機(jī)器學(xué)習(xí)模型,允許你部署和運(yùn)行應(yīng)用程序。
一個(gè)越來(lái)越重要的趨勢(shì)是,數(shù)據(jù)科學(xué)家不僅需要知道如何建立模型,而且要知道如何部署它們,現(xiàn)在很多數(shù)據(jù)科學(xué)家的職位招聘都需要一些模型部署的經(jīng)驗(yàn)。
因?yàn)橐粋€(gè)模型在沒(méi)有實(shí)際集成到與之相關(guān)的流程/產(chǎn)品之前,是沒(méi)有產(chǎn)生任何商業(yè)價(jià)值的,這也是為什么學(xué)習(xí)如何部署模型如此重要的原因。
7) Airflow
Airflow是一個(gè)工作流程管理的工具,你可以自動(dòng)地執(zhí)行工作流程。換句話說(shuō),Airflow可以為創(chuàng)建全自動(dòng)化的工作流水線,搭建數(shù)據(jù)流通道和機(jī)器學(xué)習(xí)模型。
Airflow功能十分強(qiáng)大,它可以將要用于進(jìn)一步分析或建模的數(shù)據(jù)表格產(chǎn)品化,同時(shí)它還是一個(gè)可用于部署機(jī)器學(xué)習(xí)模型的工具。