譯者 | 趙青窕
審校 | 梁策 孫淑娟
開(kāi)始學(xué)習(xí)數(shù)據(jù)科學(xué)時(shí),我以為找到一個(gè)對(duì)口工作就萬(wàn)事大吉了。然而,工作了幾年之后,我開(kāi)始意識(shí)到當(dāng)初的想法實(shí)在是大錯(cuò)特錯(cuò)。
我認(rèn)識(shí)不少數(shù)據(jù)科學(xué)家在入職后的幾個(gè)月內(nèi)就離職了,而我本人,因?yàn)檎J(rèn)為領(lǐng)導(dǎo)分配的任務(wù)與自己辛苦所學(xué)的技能毫無(wú)關(guān)系,在數(shù)據(jù)科學(xué)崗實(shí)習(xí)了一周后也遞上了辭呈。
在同我一樣在職業(yè)生涯早期就離職的業(yè)界人士交談后,我意識(shí)到數(shù)據(jù)科學(xué)領(lǐng)域員工流失率如此之高有以下兩個(gè)主因:
1. 個(gè)人期望與公司崗位期望不符
想象一下,你花了數(shù)千小時(shí)學(xué)習(xí)統(tǒng)計(jì)數(shù)據(jù)和不同機(jī)器學(xué)習(xí)算法,然后申請(qǐng)了幾十個(gè)不同的數(shù)據(jù)科學(xué)崗位,接著經(jīng)歷了大量的面試,最終被一家中型公司錄用。
當(dāng)你滿心歡喜地以為自己終于可以開(kāi)始研究現(xiàn)實(shí)中的機(jī)器學(xué)習(xí)問(wèn)題,想著多年所學(xué)終于可以付諸實(shí)踐,結(jié)果上班第一天就發(fā)現(xiàn)公司的系統(tǒng)中有大量未經(jīng)處理的非結(jié)構(gòu)化數(shù)據(jù)。
在領(lǐng)導(dǎo)心里,你就是“搞數(shù)據(jù)”的人,所以每天收集的大量數(shù)據(jù)你都要負(fù)責(zé)分析,以此來(lái)幫助他們提高業(yè)績(jī)。
最后你發(fā)現(xiàn),自己的工作完全不像期望的那樣可以構(gòu)建負(fù)責(zé)的算法和模型,而是將所有時(shí)間都花在“復(fù)習(xí)”SQL 和數(shù)據(jù)準(zhǔn)備工作上,以把數(shù)據(jù)從系統(tǒng)中提取為不同的格式,并將這些數(shù)據(jù)呈現(xiàn)給領(lǐng)導(dǎo),讓他們可以使用這些數(shù)據(jù)來(lái)做出相應(yīng)的業(yè)務(wù)決策。
盡管崗位叫作“數(shù)據(jù)科學(xué)家”,但你卻沒(méi)有扮演自己想象中的角色。你不甘心只做公司里管數(shù)據(jù)的人,而是希望從事一個(gè)可以讓自己辛苦習(xí)得的技能有用武之地的項(xiàng)目。
最終,你只剩下兩個(gè)選擇?——?要么在公司待幾年并繼續(xù)執(zhí)行不喜歡的任務(wù),要么離職去找一個(gè)更符合個(gè)人發(fā)展目標(biāo)的公司。
可能你并沒(méi)有碰到這樣的情況,但從我周圍的數(shù)據(jù)科學(xué)家那里了解到,這幾乎是他們最多的抱怨之一。 他們中的許多人對(duì)自己的工作范圍都有著不同的期望,但最終每天都是執(zhí)行數(shù)據(jù)報(bào)告和分析的任務(wù)。
在這樣的公司待了一段時(shí)間后,因?yàn)槎嗄晡磸氖抡嬲臋C(jī)器學(xué)習(xí)項(xiàng)目,許多數(shù)據(jù)科學(xué)家最終喪失了之前掌握的機(jī)器學(xué)習(xí)技能。
在尋找另一份工作時(shí),他們也無(wú)法申請(qǐng)中級(jí)或高級(jí)數(shù)據(jù)科學(xué)職位,因?yàn)樽约阂呀?jīng)不再具有所需的專業(yè)知識(shí)。這些人通常不得不轉(zhuǎn)換職業(yè)發(fā)展方向,繼續(xù)從事著數(shù)據(jù)或報(bào)告的分析工作。
2. 無(wú)法增加商業(yè)價(jià)值
大多數(shù)數(shù)據(jù)科學(xué)家不滿的另一個(gè)常見(jiàn)原因是無(wú)法通過(guò)他們的機(jī)器學(xué)習(xí)模型增加商業(yè)價(jià)值。
在我看來(lái),這個(gè)問(wèn)題比上一個(gè)問(wèn)題更普遍,?因?yàn)槟壳熬哂忻鞔_定義的工作范圍和合適的數(shù)據(jù)管道(Data Pipeline)的組織也面臨著這個(gè)問(wèn)題。
以下是數(shù)據(jù)科學(xué)家未能構(gòu)建用來(lái)增加商業(yè)價(jià)值模型的幾個(gè)原因:
技術(shù)與商業(yè)之間存在鴻溝
利益相關(guān)者和高層管理人員也許不了解技術(shù),也不能意識(shí)到什么情況可以引入機(jī)器學(xué)習(xí)模型。 此外,這個(gè)領(lǐng)域炒作的太厲害,作為一名數(shù)據(jù)科學(xué)家,你可能會(huì)從領(lǐng)導(dǎo)那里聽(tīng)到一些比較有野心的需求。
數(shù)據(jù)科學(xué)家們這種情況下就需要就一個(gè)項(xiàng)目能否成功,能否帶來(lái)期望結(jié)果向領(lǐng)導(dǎo)解釋,從而確保其預(yù)期能與潛在的結(jié)果保持一致,這樣以后大家對(duì)結(jié)果都不會(huì)太失望。
在從事任何機(jī)器學(xué)習(xí)項(xiàng)目之前,最好先分析其預(yù)估成本和效益情況,這樣公司就可以集體決定針對(duì)該項(xiàng)目來(lái)分配時(shí)間和資源是否值得。
沒(méi)有提出正確的問(wèn)題
作為一名數(shù)據(jù)科學(xué)家,你需要知道自己構(gòu)建的模型是否會(huì)為業(yè)務(wù)增加價(jià)值。
我所見(jiàn)過(guò)的大多數(shù)數(shù)據(jù)科學(xué)家都會(huì)根據(jù)得到的指示快速地開(kāi)始一個(gè)項(xiàng)目,可他們卻可能沒(méi)有提出正確的問(wèn)題,也不會(huì)試圖去理解經(jīng)理的思路。
當(dāng)你僅僅是根據(jù)別人的安排而工作,那么你也不會(huì)清晰了解對(duì)自己可能會(huì)帶來(lái)什么價(jià)值,假如這時(shí)有人問(wèn)你的工作價(jià)值何在,可能你也很難答出。
如果你一開(kāi)始就不知道自己的產(chǎn)品為什么要做,你又怎能讓別人相信你的產(chǎn)品是可行的呢?
缺乏相應(yīng)的知識(shí)
要正確提出問(wèn)題,需要先了解業(yè)務(wù)運(yùn)作模式。
你的模型構(gòu)建應(yīng)該針對(duì)特定領(lǐng)域,同時(shí)還需要了解它對(duì)最終用戶可能產(chǎn)生的影響。
例如,如果你正在為一家服裝公司構(gòu)建模型,就必須要知道季節(jié)性等因素會(huì)影響你給客戶的建議。
我從事市場(chǎng)營(yíng)銷工作,大部分專業(yè)知識(shí)都是通過(guò)直接與業(yè)務(wù)團(tuán)隊(duì)合作獲得,此外還有一些來(lái)自在線課程,而當(dāng)中很多是基于我與人們的日?;?dòng)以及對(duì)其行為方式的理解。
根據(jù)個(gè)人工作領(lǐng)域差異,花些時(shí)間來(lái)獲取特定行業(yè)知識(shí)是很明智的做法。這些知識(shí)在數(shù)據(jù)科學(xué)工作流程中的每一步都可能會(huì)用到,包括預(yù)處理、特征選擇、特征權(quán)重,以及在模型部署之后的微調(diào)等等。
那要怎樣才能成為一個(gè)對(duì)工作有熱情的數(shù)據(jù)科學(xué)家呢?
首先,選擇一家可以讓自己發(fā)揮所長(zhǎng)的公司很重要,避開(kāi)那些在職位描述中列出了很多工具的公司。在申請(qǐng)崗位之前,可以在招聘平臺(tái)上查一查,看看他們之前是否招聘過(guò)數(shù)據(jù)科學(xué)人員。
如果沒(méi)有,那我建議你遠(yuǎn)離這類公司,因?yàn)檫@意味著所有與數(shù)據(jù)相關(guān)的工作都可能由你來(lái)做。
如果有,可以查查他們數(shù)據(jù)科學(xué)家的個(gè)人資料,看看他們?yōu)閷?duì)該職位的描述是否符合你的期望。
其次,在面試中不要只是單方面被問(wèn),你需要盡可能多地向面試官詢問(wèn)有關(guān)工作范圍和工作內(nèi)容的問(wèn)題。如果它與期望不符,最好繼續(xù)找找其他機(jī)會(huì)。
最后,花些時(shí)間來(lái)獲取從事領(lǐng)域的專業(yè)知識(shí)。利用這些知識(shí)向經(jīng)理提出正確的問(wèn)題,并確保他們的期望與潛在的項(xiàng)目成果保持一致。
譯者介紹
趙青窕,51CTO社區(qū)編輯,從事多年驅(qū)動(dòng)開(kāi)發(fā)。研究興趣包含安全OS和網(wǎng)絡(luò)安全領(lǐng)域,發(fā)表過(guò)網(wǎng)絡(luò)相關(guān)專利。
原文標(biāo)題:??Why Are So Many Data Scientists Quitting Their Jobs???,作者:Natassha Selvaraj