我,一位數(shù)據(jù)科學(xué)家,用親身經(jīng)歷告訴你:為啥數(shù)據(jù)科學(xué)家都在離職
大數(shù)據(jù)文摘出品
來源:medium
編譯:Fisher
本文的作者就是一位數(shù)據(jù)科學(xué)家,做了這么久,他覺得有必要將這個(gè)行業(yè)的苦惱公之于眾,為那些想進(jìn)入這個(gè)行業(yè)的人們做個(gè)參考。
話不多說,來和文摘菌一起看看吧~
是的,我是一名數(shù)據(jù)科學(xué)家,你也沒看錯(cuò)標(biāo)題,總得有人來說這件事。我們都讀過很多文章,說數(shù)據(jù)科學(xué)是21世紀(jì)“最性感”的工作,數(shù)據(jù)科學(xué)家可以賺得盆滿缽滿,以至于數(shù)據(jù)科學(xué)看起來是完全夢(mèng)幻般的美妙工作??紤]到這個(gè)領(lǐng)域里有大量高技術(shù)人才在沉迷于解決復(fù)雜的問題,這份工作值得熱愛。
但事實(shí)是,數(shù)據(jù)科學(xué)家們通常“每周花1-2個(gè)小時(shí)尋找新工作”,這是《金融時(shí)報(bào)》的一篇文章中提到的。此外,這篇文章還指出,“表示自己正在尋找新工作的開發(fā)者中,機(jī)器學(xué)習(xí)專家位居榜首,占14.3%。數(shù)據(jù)科學(xué)家緊隨其后,占13.2%。”這些數(shù)據(jù)是Stack Overflow在一次基于64000名開發(fā)者的調(diào)查中得到的。
我也曾處于這個(gè)狀態(tài),我自己最近也換了另一份數(shù)據(jù)科學(xué)的工作。
那么,為什么這么多的數(shù)據(jù)科學(xué)家要找新工作呢?
在我回答這個(gè)問題之前,我應(yīng)該澄清一下,我現(xiàn)在仍然是數(shù)據(jù)科學(xué)家。總體上,我熱愛這份工作,我也不想勸退那些有志成為數(shù)據(jù)科學(xué)家的人,因?yàn)檫@份工作充滿樂趣、令人振奮且回報(bào)豐厚。這篇文章是有意要唱唱反調(diào),揭示一下這個(gè)職業(yè)里存在的一些負(fù)面問題。
在我看來,很多數(shù)據(jù)科學(xué)家對(duì)工作的不滿意,可以歸結(jié)為四大原因。
期望與現(xiàn)實(shí)不符
大數(shù)據(jù)就像是青少年口中的性:每個(gè)人都在談?wù)撍?,沒人真的知道怎么去做,但是每個(gè)人都認(rèn)為別人在做,所以每個(gè)人都聲稱自己在做……——Dan Ariely
這句話太貼切了。我認(rèn)識(shí)的許多資歷不深的數(shù)據(jù)科學(xué)家(包括我自己),想進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域是為了用最新的很酷的機(jī)器學(xué)習(xí)算法來解決復(fù)雜問題,并且產(chǎn)生巨大的商業(yè)影響。這可能會(huì)讓我們覺得自己正做著的工作比先前做的任何事都更重要。但事實(shí)往往并非如此。
我認(rèn)為,期望與現(xiàn)實(shí)不符是很多數(shù)據(jù)科學(xué)家離開的最終原因。原因有很多,我不可能列出一個(gè)詳盡的清單,但這篇帖子基本列舉了我遇到的一些原因。
每個(gè)公司的情況都不一樣,所以我講的并不能代表所有公司,但確實(shí)很多公司在雇傭數(shù)據(jù)科學(xué)家時(shí)并沒有配套的基礎(chǔ)設(shè)施,好開始從AI中獲取商業(yè)價(jià)值。這造成了AI系統(tǒng)的冷啟動(dòng)問題。再加上這些公司在雇用資歷不深的數(shù)據(jù)科學(xué)家之前,沒有雇用資深或有足夠經(jīng)驗(yàn)的從業(yè)者,這就導(dǎo)致雙方都感到失望和不愉快。數(shù)據(jù)科學(xué)家很可能是來寫智能的機(jī)器學(xué)習(xí)算法以助力商業(yè)洞察的,但他們做不到這點(diǎn),因?yàn)樗麄兪紫纫龅氖墙?shù)據(jù)基礎(chǔ)設(shè)施和/或創(chuàng)建分析報(bào)告。相反,公司只想要一張圖表,好每天在董事會(huì)上展示。于是公司感到失望,因?yàn)樗麄儧]能看到價(jià)值被迅速創(chuàng)造出來,這一切都會(huì)使數(shù)據(jù)科學(xué)家對(duì)自己扮演的角色感到不愉快。
在Robert Chang給新手?jǐn)?shù)據(jù)科學(xué)家提建議的一篇博客中,有句話非常精辟:“評(píng)估我們的抱負(fù)與我們所處環(huán)境的前進(jìn)軌道有多一致,這點(diǎn)很重要。找到與你自身的前進(jìn)軌道最相符的項(xiàng)目、團(tuán)隊(duì)和公司。”
這話強(qiáng)調(diào)了雇主和數(shù)據(jù)科學(xué)家之間的雙向關(guān)系。如果公司不合適,或者公司目標(biāo)與數(shù)據(jù)科學(xué)家的目標(biāo)不同,那么數(shù)據(jù)科學(xué)家另尋出路只是時(shí)間問題。
如果有興趣,Samson Hu有一系列精彩的文章,描述了Wish公司的分析團(tuán)隊(duì)是如何建立的,我覺得也很有見地。
讓數(shù)據(jù)科學(xué)家感到失望的另一個(gè)原因與我自己對(duì)學(xué)術(shù)界的失望很相似:我一度以為自己能給世界各處的人帶來影響,而不只局限于公司內(nèi)部。事實(shí)上,如果公司的核心業(yè)務(wù)不是機(jī)器學(xué)習(xí)(我的前雇主是一家媒體出版公司),那么很可能你所做的數(shù)據(jù)科學(xué)只能帶來很小的增量收益。這些收益積累起來可能會(huì)變得可觀,或者你可能很幸運(yùn)碰到一個(gè)“金礦”項(xiàng)目,但這些情況很少見。
政治至上
關(guān)于政治的話題,已經(jīng)有一篇出色的文章專門介紹了——《數(shù)據(jù)科學(xué)行業(yè)里最困難的事:政治》。我強(qiáng)烈推薦你讀一下。這篇文章的前幾句話基本概括了我想說的內(nèi)容:
當(dāng)年我早上六點(diǎn)起床學(xué)習(xí)支持向量機(jī)的時(shí)候,我想:“這真是太難了! 不過,嘿嘿,至少對(duì)于未來的雇主我會(huì)變得非常有價(jià)值!”。如果現(xiàn)在能搞到時(shí)光機(jī),我一定會(huì)回到過去,對(duì)自己大罵一聲“傻冒!”。
如果你當(dāng)真以為了解很多機(jī)器學(xué)習(xí)算法會(huì)讓你成為最有價(jià)值的數(shù)據(jù)科學(xué)家,請(qǐng)回到上面我講的第一點(diǎn):期望與現(xiàn)實(shí)不符。
事實(shí)是,你需要讓公司里最有權(quán)力的人對(duì)你有個(gè)不錯(cuò)的看法。而這可能意味著,你必須經(jīng)常做一些臨時(shí)安排的工作,比如從數(shù)據(jù)庫中獲取數(shù)字,以便在適當(dāng)?shù)臅r(shí)候呈給適當(dāng)?shù)娜?,或者做一些簡單的?xiàng)目,只是為了讓某些人對(duì)你有個(gè)恰當(dāng)?shù)牧私?。在我的前公司,我不得不做很多這樣的事。盡管讓人覺得沮喪,但這是工作中必不可少的部分。
有任何關(guān)于數(shù)據(jù)的事兒,公司都會(huì)來找你
在你盡一切努力取悅合適的人之后,那些大權(quán)在握的人卻常常不理解“數(shù)據(jù)科學(xué)家”的含義。這意味著你將既是分析專家又是匯報(bào)員,還有別忘了你也將是數(shù)據(jù)庫專家。
不只有非技術(shù)型的主管會(huì)對(duì)你的技能做出過多假設(shè)。別的技術(shù)型的同事會(huì)假設(shè)你了解跟數(shù)據(jù)相關(guān)的一切:你懂得Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、R、Scala、Tensorflow、A/B測(cè)試、NLP、一切跟機(jī)器學(xué)習(xí)有關(guān)的事(還有任何你能想到的與數(shù)據(jù)有關(guān)的事——順便說一下,如果你看到一個(gè)職位描述上寫了所有這些東西,請(qǐng)保持清醒。這份職位描述顯然來自一個(gè)并不知道自己的數(shù)據(jù)戰(zhàn)略是啥的公司,他們會(huì)雇任何人,因?yàn)樗麄冋J(rèn)為雇任何一個(gè)數(shù)據(jù)人員都能解決他們所有的數(shù)據(jù)問題)。
事情還不止于此。因?yàn)槟愣眠@一切,而且你顯然可以拿到所有的數(shù)據(jù),所以你應(yīng)該能回答一切問題,而且是在……好吧,在五分鐘之內(nèi)就把答案發(fā)送到相關(guān)人員的收件箱里。
對(duì)你來說,嘗試去告訴大家你實(shí)際知道和掌握的東西,可能很困難。不是因?yàn)橛腥魏稳藭?huì)真的看不起你,而是因?yàn)樽鳛橐粋€(gè)沒有什么行業(yè)經(jīng)驗(yàn)的新手?jǐn)?shù)據(jù)科學(xué)家,你會(huì)擔(dān)心別人看不起你。這樣的處境可能相當(dāng)艱難。
在一個(gè)孤立團(tuán)隊(duì)中工作
當(dāng)我們?nèi)タ闯晒Φ臄?shù)據(jù)產(chǎn)品時(shí),我們往往會(huì)看到精心設(shè)計(jì)的用戶界面、智能的功能,而最重要的是具備有用的輸出結(jié)果,最起碼能讓用戶感覺到解決了一個(gè)相關(guān)的問題。如果數(shù)據(jù)科學(xué)家只把時(shí)間花在學(xué)習(xí)如何編寫和執(zhí)行機(jī)器學(xué)習(xí)算法上,那么對(duì)于推動(dòng)項(xiàng)目成功并產(chǎn)生價(jià)值的整個(gè)團(tuán)隊(duì)而言,他們只是這個(gè)團(tuán)隊(duì)的一小部分(盡管是必不可少的)。這意味著一個(gè)孤立工作的數(shù)據(jù)科學(xué)團(tuán)隊(duì)將很難提供價(jià)值!
盡管如此,許多公司的數(shù)據(jù)科學(xué)團(tuán)隊(duì)仍然在執(zhí)行團(tuán)隊(duì)自身的項(xiàng)目,編寫代碼來嘗試解決一個(gè)問題。在某些情況下這就足夠了。例如,如果公司需要的只是一份靜態(tài)電子表格,每季度生成一次,那么這足以提供一些價(jià)值。與此相反,如果目標(biāo)是要優(yōu)化一個(gè)預(yù)訂網(wǎng)站的智能建議功能,那么這將需要許多不同的技能,對(duì)于絕大多數(shù)的數(shù)據(jù)科學(xué)家,不能期望他們有這個(gè)能力(這種事只有那些數(shù)據(jù)科學(xué)家中的獨(dú)角獸能搞定)。因此,如果是一個(gè)孤立的數(shù)據(jù)科學(xué)團(tuán)隊(duì)在承擔(dān)這個(gè)項(xiàng)目,項(xiàng)目很可能會(huì)失敗(或者要花很長時(shí)間,因?yàn)樵诖笮凸纠锝M織幾個(gè)孤立團(tuán)隊(duì)進(jìn)行項(xiàng)目協(xié)作并不容易)。
因此,要在行業(yè)里成為一個(gè)卓有成效的數(shù)據(jù)科學(xué)家,僅僅玩轉(zhuǎn)Kaggle競(jìng)賽、完成一些在線課程是不夠的。很不幸(或幸運(yùn),取決于你從什么角度去看),你需要懂得公司里的等級(jí)制度和政治是怎么運(yùn)作的。去找一家與你的前進(jìn)軌道一致的公司,這應(yīng)是你在尋找一份數(shù)據(jù)科學(xué)工作時(shí)的關(guān)鍵目標(biāo)。但是,你仍可能需要重新調(diào)整你對(duì)行業(yè)的期待。
有任何評(píng)論、問題或者異議,請(qǐng)自由發(fā)表意見。建設(shè)性的討論是非常必要的,能夠幫助胸懷抱負(fù)的數(shù)據(jù)科學(xué)家在職業(yè)規(guī)劃上做出明智決策。
感謝你的閱讀,希望我沒有把你勸退。
相關(guān)報(bào)道:
https://towardsdatascience.com/why-so-many-data-scientists-are-leaving-their-jobs-a1f0329d7ea4
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】