高端大氣的“數據科學家”,竟然成了離職率最高的職位之一
每一份工作都很有趣。但是做到優(yōu)秀卻很難,因為這不僅關于技術本身,也關乎職場的復雜性。本文作者Jonny Brooks-Bartlett在“Here’s why so many data scientists are leaving their jobs”一文中講述了數據科學家遭遇挫敗的4大原因。
是的,我就是一名數據科學家。但是,你讀的這個標題也沒錯。總需要有人來說出這些話。我們已經讀到過許多關于數據科學的故事,比如“這是21世紀最迷人的工作”以及“作為數據科學家你能賺到一大筆錢”之類,這讓這份工作看起來簡直***。由于這個領域里有眾多高技能人才,他們會努力解決那些復雜的問題(是得,這對于“極客”來說是一件積極的事情),所以沒有任何道理不熱愛這份工作。
但是事實上,正如英國《金融時報》的這篇文章中所指出的那樣,數據科學家每周通常會“花費1-2個小時尋找新工作”。此外,這篇文章還指出,“在開發(fā)者中說自己正在找一份新工作的比例在機器學習專家中名列前茅,為14.3%。數據科學家緊隨其后,為13.2%”。以上數據是基于Stack Overflow對于64000位開發(fā)人員的調查所得出。
我同樣也身處在這個崗位上,而且最近剛換了一份工作。
為什么有如此之多的數據科學家在尋找新工作?
在回答這個問題之前,我需要說明一點,我仍然是一名數據科學家??傮w而言,我熱愛這個職業(yè),而且也不想阻止別人成為數據科學家,因為它充滿著趣味、刺激和回報。但是這篇文章的目的是作為消極指導者而做出,為的是揭露這份職業(yè)的消極一面。
在我看來,數據科學家對自己工作的不滿意之處體現在下面四個方面。
1. 期望值與現實不符
大數據如同青少年的性行為:每個人都在談論它,沒有人真正知道如何去做,每個人都以為別人都這么做,所以每個人都聲稱自己正在做……—丹·艾瑞里
這個比喻很恰當。許多我所認識的初級數據科學家(包括我在內)之所以進入數據科學領域是因為它能夠用新的機器學習算法解決復雜問題,從而對商業(yè)產生巨大影響。這會讓我們覺得自己所從事的工作比我們之前做的任何事情都要重要。然而,事實往往并非如此。
在我看來,期望值與現實不符是許多數據科學家離開的根本原因。原因眾多但是我沒有辦法提供一個詳盡列表,而這篇文章所談及之處是我實際上遇到的某些情況。
每個公司的情況各有不同之處,因此我的意見不能代表所有公司的情況。但是有許多公司雇傭數據科學家,但是卻沒有能從人工智能技術中獲取價值的基礎設施。這就導致了人工智能的遇冷遭遇。與此同時,這些公司在雇傭初級數據從業(yè)者之前沒有聘請資深或是有經驗的數據人員,這又為彼此的失望與不愉快埋下伏筆。數據科學家可能通過編寫機器學習算法來增加分析洞察,但是他們并不能這么做,因為他們的***份工作往往是整理數據基礎結構或是創(chuàng)建分析報告。公司只是需要一張他們每天可以在董事會會議上進行展示的圖表。之后,公司并不能從促使其快速行動中看到足夠的價值。而以上的一切導致數據科學家對于自己的角色感到不滿。
羅伯特·張在他給初級數據科學家的建議的博客文章中給出了一個很有見地的引用:
對于我們的抱負與此刻身處關鍵路途的環(huán)境的一致性進行評估非常重要。找到那些最適合你的關鍵路途的項目、團隊與公司。
這就突出了雇主與數據科學家之間的雙向關系。如果公司并不處于正確位置上,或者是與數據科學家的目標不一致,那么對于數據科學家來說找一份新工作只是時間問題。
胡書賓有一個關于分析團隊如何按愿望創(chuàng)建的系列,我覺得說的很有見地。
另一個原因讓數據科學家感到失望的原因與我對學術界的幻滅有相似之處:我認為自己有能力對人們產生影響,這種影響不僅僅局限在公司內部。事實上,如果這家公司的核心業(yè)務并不在機器學習(我的上一任雇主是一家媒體出版公司),那么你所從事的數據行業(yè)只能帶來小幅增長獲益。這會產生一個非常重要的事情,或者是你會十分幸運的撞上一個金礦項目,但是這并不常見。
2. 政治統治***原則
關于政治議題已經有一篇精彩文章:數據科學中最困難的一件事:政治,我希望你能讀一讀。這篇文章的前幾句話基本上概括了我想說的。
當我早上6點起床去學習支持向量機時,我想:“這真的是太難了。但是,嘿,至少我會為未來的老板帶來價值。”如果我擁有DeLorean時光車,我就會回到過去,然后沖自己大喊“笨蛋”。
如果你真的認為了解許多機器學習算法知識會讓你成為最有價值的數據科學家,那么看看上文中我提到的***點:期望值與現實不符。
事實是,那些商業(yè)中最有影響力的人需要對你有一個良好的印象。這可能意味著你必須經常做一些特別的工作,比如從數據庫中提取數據,并在合適的時間給到合適的人,做一些簡單的項目,以便讓正確的人對你有一個好印象。我的上一份工作必須做許多類似的事情。但是讓人沮喪的是,這是工作中必不可少的一部分。
3. 你對數據“全然”了解
而談到做正確的事取悅正確的人這件事,那些擁有巨大影響力的人往往不理解“數據科學家”的含義。這意味著你將是分析專家,同時也是做報告的人,更不要忘記你也將成為一個數據庫專家。
不僅僅是那些非技術高管對你所擁有的技能有太多假設。其他技術同事也會假定你了解所有關于數據的事情。你是了解Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP,任何關于機器學習,以及你能想到的其他相關數據的事情。順便說一句,如果你看到一份工作明細上寫了所有上面提到的東西,請保持理智。這表明,這家公司對于自己的數據策略是什么一無所知,以及他們雇傭相關人員是因為他們以為自己雇傭了一個可以解決所有數據問題的數據工作者。
但是事情并不僅僅止于此。因為你了解所有的一切,顯然你可以處理所有訪問的數據,那么你就應該能夠解決所有的問題。
試著告訴人們你真正知道的以及真正掌握的東西,但是做到這件事相當有困難。這并不是因為人們會認為你的能力不行,而且作為一名沒有多少行業(yè)經驗的初級數據科學家來說,你會擔心人們對你的想法會變少。這真的是一個兩難困境。
4. 在一個孤立團隊中工作
當我們看到一款帶有智能功能且用戶界面設計的很巧妙的成功的數據產品時,更重要的是需要認識到一個有用的外接輸出產品至少能被用戶用來解決一個相關問題。如今,如果一個數據科學家只花時間學習了如何編寫和執(zhí)行機器學習算法,那么他們只能是一個能夠制造出有價值產品的一個項目的所屬團隊的一顆小螺絲釘,盡管這是必要的。這意味著那些孤立工作的數據科學團隊很難提供價值。
盡管如此,許多公司仍然成立數據科學團隊,他們提出自己的項目并編寫代碼來嘗試解決問題。在某些情況下,這就足夠了。比如,如果僅僅需要在每個季度完成一個靜態(tài)電子表格,并且能夠提供一些價值。但是另一方面,如果目標是在定制網站建設產品中優(yōu)化所提供的智能建議,那么這將涉及到許多不同的技能,而這對于絕大多數數據科學家來說則不可能做到,只有真正的數據科學獨角獸才有能力解決這個問題。因此,如果一個項目由一個孤立的數據科學團隊所執(zhí)行,那么結果很有可能是失敗的(或是會耗費掉很長時間。)
因此,想要成為一個有用的數據科學家,僅僅在Kaggle競賽中取得好成績并完成一些在線課程是不夠的。幸運或不幸運的是,它涉及到理解等級與政治如何在商業(yè)中運作,以及你看待它的方式。尋找一個與你的關鍵路途一致的公司應是你在尋找能滿足自己要求的數據科學工作時的一個關鍵目標。但是,你仍然需要重新調整自己對于數據科學角色的期望。