2020年數(shù)據(jù)科學(xué)就業(yè)市場(chǎng)必備的五項(xiàng)技能
AI開(kāi)發(fā)者按,數(shù)據(jù)科學(xué)是一個(gè)競(jìng)爭(zhēng)激烈的領(lǐng)域,人們正在迅速學(xué)習(xí)越來(lái)越多的技能和經(jīng)驗(yàn)。這導(dǎo)致了機(jī)器學(xué)習(xí)工程師的從業(yè)要求的直線(xiàn)上升,所有的數(shù)據(jù)科學(xué)家也需要成為開(kāi)發(fā)人員。
為了保持競(jìng)爭(zhēng)力,一定要為新工具帶來(lái)的新工作方式做好準(zhǔn)備!以下就是2020 年數(shù)據(jù)科學(xué)就業(yè)市場(chǎng)必備的五項(xiàng)技能。
1.敏捷開(kāi)發(fā)
敏捷開(kāi)發(fā)是一種組織工作的方法,已經(jīng)被開(kāi)發(fā)團(tuán)隊(duì)大量使用。越來(lái)越多的人扮演著數(shù)據(jù)科學(xué)家的角色,他們最初的技能是純軟件開(kāi)發(fā),這就產(chǎn)生了機(jī)器學(xué)習(xí)工程師這一角色。
越來(lái)越多的數(shù)據(jù)科學(xué)家/機(jī)器學(xué)習(xí)工程師被劃分為開(kāi)發(fā)人員:他們的工作是不斷改進(jìn)現(xiàn)有的代碼庫(kù)中的機(jī)器學(xué)習(xí)相關(guān)的內(nèi)容。
對(duì)于這類(lèi)角色,數(shù)據(jù)科學(xué)家必須了解基于 Scrum 方法的敏捷工作方式。它為不同的人定義了不同的角色,這種角色定義保證了工作的順利實(shí)施和持續(xù)改進(jìn)。
2.Github
Git 和 Github 是面向開(kāi)發(fā)人員的軟件,在管理不同版本的軟件時(shí)有很大幫助。它們跟蹤對(duì)代碼庫(kù)所做的所有更改,此外,當(dāng)多個(gè)開(kāi)發(fā)人員同時(shí)對(duì)同一個(gè)項(xiàng)目進(jìn)行更改時(shí),它們能夠真正讓協(xié)作變得便利。
隨著數(shù)據(jù)科學(xué)家的角色變得越來(lái)越重要,能夠熟練使用這些開(kāi)發(fā)工具也是必備的技能之一。Git 正成為找工作時(shí)必備的一項(xiàng)技能,要熟練使用 Git 需要時(shí)間。當(dāng)你一個(gè)人或者你的同事都是新手的時(shí)候,開(kāi)始研究 Git 是很容易的,但是當(dāng)你加入一個(gè) Git 專(zhuān)家團(tuán)隊(duì),只有你一個(gè)人是新手的時(shí)候,你可能會(huì)經(jīng)歷比你想象的多得多的努力才能跟上。
3.工業(yè)化
在數(shù)據(jù)科學(xué)領(lǐng)域,我們思考項(xiàng)目的方式也在發(fā)生變化。沒(méi)有變的是,數(shù)據(jù)科學(xué)家仍然是用機(jī)器學(xué)習(xí)來(lái)回答商業(yè)問(wèn)題的。但是,隨著時(shí)間的發(fā)展,數(shù)據(jù)科學(xué)項(xiàng)目越來(lái)越多地是為生產(chǎn)系統(tǒng)開(kāi)發(fā)的,例如作為大型軟件中的微服務(wù)。
與此同時(shí),高級(jí)模型的 CPU 和 RAM 消耗也越來(lái)越大,尤其是在使用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)時(shí)。
就數(shù)據(jù)科學(xué)家的工作而言,不僅要考慮模型的準(zhǔn)確性,還要考慮項(xiàng)目的執(zhí)行時(shí)間或其他工業(yè)化的方面,后者正變得越來(lái)越重要。
4.云與大數(shù)據(jù)
在機(jī)器學(xué)習(xí)產(chǎn)業(yè)化對(duì)數(shù)據(jù)科學(xué)家的約束越來(lái)越嚴(yán)重,同時(shí),它也成為了數(shù)據(jù)工程師乃至整個(gè) it 行業(yè)的嚴(yán)重約束。
在數(shù)據(jù)科學(xué)家可以致力于減少模型所需時(shí)間的情況下,it 人員可以通過(guò)更改計(jì)算服務(wù)來(lái)做出貢獻(xiàn),這些服務(wù)通常通過(guò)以下一種或兩種方式獲得:
云:將計(jì)算資源轉(zhuǎn)移到外部供應(yīng)商,如 AWS、Microsoft Azure 或 Google Cloud,可以很容易地建立一個(gè)可以快速?gòu)倪h(yuǎn)程訪問(wèn)的機(jī)器學(xué)習(xí)環(huán)境。這就要求數(shù)據(jù)科學(xué)家對(duì)云功能有一個(gè)基本的了解,例如:使用遠(yuǎn)程服務(wù)器而不是自己的計(jì)算機(jī),或者使用 Linux 而不是 Windows/Mac。
大數(shù)據(jù):它使用 Hadoop 和 Spark,這兩個(gè)工具允許同時(shí)在許多計(jì)算機(jī)上并行處理任務(wù)(工作節(jié)點(diǎn))。這要求數(shù)據(jù)科學(xué)家使用不同的方法來(lái)實(shí)現(xiàn)模型,因?yàn)榇a必須允許并行執(zhí)行。
5.NLP、神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
目前,數(shù)據(jù)科學(xué)家仍然認(rèn)為 NLP 和圖像識(shí)別僅僅是數(shù)據(jù)科學(xué)的專(zhuān)業(yè)知識(shí),并非所有人都必須掌握。
但是,圖像分類(lèi)和 NLP 的用例越來(lái)越頻繁,甚至在「常規(guī)」業(yè)務(wù)中也是如此。在目前的情況下,對(duì)這類(lèi)技術(shù)沒(méi)有基本的了解已經(jīng)沒(méi)辦法適應(yīng)當(dāng)前的技術(shù)環(huán)境了。
即使你的工作中沒(méi)有此類(lèi)模型的直接應(yīng)用程序,在實(shí)際操作的項(xiàng)目也很容易找到。這些項(xiàng)目可以讓你理解圖像和文本項(xiàng)目的基本步驟。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。