如何成為全棧數(shù)據(jù)科學(xué)家?
Warald指出:統(tǒng)計(jì)、編程、商業(yè)嗅覺三項(xiàng)全能的全棧數(shù)據(jù)科學(xué)家非常罕見。如果欠缺這三項(xiàng)中的1-2項(xiàng),但是還是想成為全棧數(shù)據(jù)科學(xué)家,還有可能嗎?答曰:當(dāng)然。除了讀書,你還可以在工作當(dāng)中繼續(xù)學(xué)習(xí)、不斷提高。那么,該如何加強(qiáng)背景?該選擇加入什么樣的公司(或者說團(tuán)隊(duì))?Warald給出一些建議。
首先感受一下自己喜歡多快的步伐,喜歡把事情做的多么細(xì)致。網(wǎng)絡(luò)創(chuàng)業(yè)公司代表快+準(zhǔn)確率不太高的極端,制藥公司代表慢+極其準(zhǔn)確的極端。即使都在互聯(lián)網(wǎng)創(chuàng)業(yè)公司范圍,不同產(chǎn)品的公司也對(duì)步伐要求不同,值得好好體會(huì)一下。
其次是要明白數(shù)據(jù)的領(lǐng)域性。無論你是分析什么數(shù)據(jù),都需要對(duì)這個(gè)領(lǐng)域有一定的理解,否則一定走不遠(yuǎn)。你對(duì)這個(gè)領(lǐng)域本身是否有興趣?如果是完全陌生的,是否肯花時(shí)間去學(xué)? 這些很主觀的事情,完全因人而異。有的人可能無論分析什么數(shù)據(jù)都一樣有熱情,但是有的人會(huì)看見金融數(shù)據(jù)就兩眼放光,但是看見網(wǎng)站運(yùn)行的log就睡著了,看見 DNA結(jié)構(gòu)就兩眼模糊了。
作為新人,你需要跟同事們學(xué)習(xí),這意味著團(tuán)隊(duì)成員背景也是很重要。雖然一開始找個(gè)工作難度低、人員水平低的地方,會(huì)活的很愉快,但是這種情況一般難以長(zhǎng)久。當(dāng)你剛畢業(yè)生的時(shí)候,同事對(duì)你的無知容忍度會(huì)很大,也會(huì)因?yàn)槟銓?duì)他們地位沒有威脅而更愿意教你。
如果不趁著這時(shí)候多問問題、多學(xué)習(xí),以后當(dāng)別人對(duì)你的期望是“資深數(shù)據(jù)科學(xué)家”但是你卻沒有那個(gè)能力的時(shí)候,下場(chǎng)會(huì)很慘。剛工作的前幾年,哪怕錢不是最多,也要去能幫你學(xué)習(xí)提高的地方。比如你自己代碼能力不錯(cuò)但是對(duì)數(shù)據(jù)嗅覺一般,建模雖然也能調(diào)用現(xiàn)成的包來跑個(gè)機(jī)器學(xué)習(xí)的模型但是對(duì)里面細(xì)節(jié)和適用場(chǎng)合也不太清楚,那么找個(gè)能帶你的人就非常重要。比如說,如果你是統(tǒng)計(jì)出身但是代碼能力一般,那么可以想方設(shè)法跟軟件工程師一起合作。在你是新人的時(shí)候,如果全公司沒有一個(gè)人能在你最需要的能力方向上輔導(dǎo)你,那這個(gè)公司真的值得去嗎?如果是大公司的科研團(tuán)隊(duì),那就看看成員有多少是博士、有沒有科研實(shí)力(比如發(fā)論文記錄)、有沒有給開源項(xiàng)目貢獻(xiàn)代碼的 – 不是說團(tuán)隊(duì)沒有PhD就不行,但是現(xiàn)在PhD這么多、各種專業(yè)都可以做數(shù)據(jù)科學(xué),連一個(gè)PhD都沒有的地方經(jīng)常不是好跡象。
數(shù)據(jù)科學(xué)跟碼農(nóng)一樣,必須一輩子保持學(xué)習(xí)。如果你天天勉強(qiáng)混夠8小時(shí)工作,業(yè)余不做任何學(xué)習(xí),也許你可以這么混兩三年,但是五年以后,可能突然發(fā)現(xiàn)你技能陳舊(典型的例子就是工作只用excel做分析)、喪失了跳槽的能力。這個(gè)時(shí)代沒有什么鐵飯碗,沒有什么公司能保證你可以呆一輩子。老牌企業(yè)從MSR到IBM到ebay到雅虎都在裁掉一些當(dāng)初也還算很不錯(cuò)的人。如果你保持學(xué)習(xí)的活力,一直保持在領(lǐng)域前言,那自然不用擔(dān)心,剛聽說風(fēng)吹草動(dòng),沒等公司裁員通知下來,就有很多下家要來搶你了。反之,如果你等到裁員以后才開始準(zhǔn)備面試、學(xué)習(xí)新技能,那么已經(jīng)太晚了。
爭(zhēng)取用開源工具。開源的東西用的人更多。雖說只要學(xué)好了一個(gè),其他東西很快也可以學(xué)會(huì),但是開源的東西會(huì)讓你跟別人交流更順暢,能交流的人更多。比如全組都是用 Python、R、Hadoop,但是你用SAS,這個(gè)鴻溝其實(shí)不是那么容易跨越的;Matlab因?yàn)楦鶵足夠類似,一般會(huì)被接受;Hadoop/Spark/Pig比微軟的SCOPE應(yīng)用廣泛太多。
培養(yǎng)數(shù)據(jù)科學(xué)的嗅覺。看別的公司在做什么、別的公司要聘請(qǐng)什么樣的人,哪怕不打算跳槽也要時(shí)不時(shí)看看外面的職位有什么要求;開學(xué)術(shù)會(huì)議、去meetup、閱讀專業(yè)博客;你平常用的技術(shù)工具如果是開源的,那么肯定會(huì)不斷有新工具出來,經(jīng)??纯?,保持跟上時(shí)代步伐;公開課的確需要花費(fèi)大量時(shí)間,但是既然數(shù)據(jù)科學(xué)是真愛,那么花費(fèi)時(shí)間的事情并不會(huì)覺得痛苦。
很多年輕人說,也不清楚到底自己是否喜歡某件事,那么可以試試再說?,F(xiàn)在這個(gè)時(shí)代,中國(guó)很多年輕人已經(jīng)不像上一代那樣充滿了對(duì)金錢的不安全感,在富足中長(zhǎng)大,沒有遇到過真正缺吃少穿的日子,很多人對(duì)生活和工作的追求超越了上一代,還需要追求成就感、滿足感、幸福感,而不是僅僅的混口飯吃。正如有很多人做碼農(nóng)是因?yàn)橄矚g編程一樣,也有很多人選擇數(shù)據(jù)科學(xué)是因?yàn)橄矚g從數(shù)據(jù)里面挖掘價(jià)值。很幸運(yùn),這些工作也都緊跟時(shí)代的步伐,機(jī)會(huì)多、收入高。