如何成為一名合格的數(shù)據(jù)科學(xué)家
本文獨(dú)家探討了IT行業(yè)發(fā)展最快、業(yè)內(nèi)討論最多的角色之一--數(shù)據(jù)科學(xué)家。根據(jù)CNN報(bào)道,數(shù)據(jù)科學(xué)家是2012年度最佳的新工作之一,《哈佛商業(yè)評(píng)論》的評(píng)論文章甚至稱其為21世紀(jì)“最性感”的工作。數(shù)據(jù)科學(xué)家的工作是使用數(shù)據(jù)分析作為交易工具,在浩如煙海的數(shù)據(jù)容量中發(fā)掘有意義的關(guān)聯(lián)數(shù)據(jù),并將其轉(zhuǎn)化為有利可圖的商業(yè)洞察力。

(圖片來源:《數(shù)據(jù)科學(xué)家》科技中國(guó))
經(jīng)過為期數(shù)月的高失業(yè)率和仍然搖擺不定的經(jīng)濟(jì)態(tài)勢(shì)之后,從就業(yè)市場(chǎng)上得到的任何好消息都能迅速獲得關(guān)注,但即便是這樣,對(duì)于大家都關(guān)注著一個(gè)突然非常“in”的工作職務(wù):數(shù)據(jù)科學(xué)家這樣的事情,似乎沒能完全解釋得清。
根據(jù)CNN報(bào)道,數(shù)據(jù)科學(xué)家是2012年度最佳的新工作之一,《哈佛商業(yè)評(píng)論》的評(píng)論文章甚至稱其為21世紀(jì)“最性感”的工作。
數(shù)據(jù)科學(xué)家的巨大誘惑力直接根源于市場(chǎng)對(duì)大數(shù)據(jù)與分析的強(qiáng)烈興趣。數(shù)據(jù)科學(xué)家的工作是使用數(shù)據(jù)分析作為交易工具,在浩如煙海的數(shù)據(jù)容量中發(fā)掘有意義的關(guān)聯(lián)數(shù)據(jù),并將其轉(zhuǎn)化為有利可圖的商業(yè)洞察力。
此外,那些適應(yīng)多維度工作崗位,糅合計(jì)算機(jī)科學(xué),掌握先進(jìn)的定量概念、業(yè)務(wù)領(lǐng)域知識(shí)和溝通技巧的人常常是鶴立雞群、鳳毛麟角。隨著數(shù)據(jù)科學(xué)家的供不應(yīng)求,數(shù)據(jù)工作者的收入達(dá)到了6位數(shù)字,人力資源公司Modis高級(jí)副總裁Matthew Ripaldi表示。
招聘人員同樣表示數(shù)據(jù)科學(xué)家崗位飛速增長(zhǎng),即便工作職位的數(shù)量并不那么驚人。“當(dāng)我們兩年前開始尋找符合該職位要求的人時(shí),僅僅只有8個(gè)工作崗位,但現(xiàn)在工作崗位有42個(gè)。”Tom Silver表示,他在工作搜索網(wǎng)站Dice.com擔(dān)任北美地區(qū)高級(jí)副總裁。“83000個(gè)工作崗位中的42個(gè),實(shí)在是不算龐大,但我決不會(huì)懷疑這個(gè)崗位在未來的快速發(fā)展”。
眾人矚目之外,有任何數(shù)據(jù)和計(jì)算機(jī)工作背景的人自然會(huì)心生懷疑,誰會(huì)成為數(shù)據(jù)科學(xué)家,我能不能成為數(shù)據(jù)科學(xué)家?筆者在此試著解答一些最基本的問題。
數(shù)據(jù)科學(xué)家是什么?
這個(gè)看似簡(jiǎn)單的問題的答案,取決于你問的對(duì)象。網(wǎng)址縮短服務(wù)Bit.ly公司首席科學(xué)家Hilary Manson對(duì)數(shù)據(jù)科學(xué)家的定義獲得了廣泛接受與認(rèn)可: 數(shù)據(jù)科學(xué)家指能獲取、清洗、探索、建模與解釋數(shù)據(jù)的人。
位于新墨西哥州圣達(dá)菲的咨詢機(jī)構(gòu)Hired Brains公司首席執(zhí)行官兼首席分析師 Neil Raden則更為深入,他將數(shù)據(jù)科學(xué)家分成兩種類型。
第一種類型--他們是真正的科學(xué)家,研究創(chuàng)造算法和方法,發(fā)表論文,并積極參與這些規(guī)則的溝通。這些單個(gè)的人物常見于以算法和方法為核心的研究機(jī)構(gòu)和學(xué)術(shù)機(jī)構(gòu)(想想谷歌、亞馬遜和華爾街),Raden表示。
第二種類型--這個(gè)類型的人群更接近于我們今天提到的雇傭市場(chǎng)上的人--他們不是科學(xué)家而是數(shù)據(jù)從業(yè)者,Raden補(bǔ)充道。他們都是統(tǒng)計(jì)學(xué)與數(shù)學(xué)建模及開發(fā)領(lǐng)域的專家,掌握并采用定量分析方法,設(shè)計(jì)、測(cè)試和部署模型。
預(yù)測(cè)分析服務(wù)提供商Opera解決方案研發(fā)中心全球負(fù)責(zé)人Jacob Spoelstra,也把在Opera工作的人大致歸類為數(shù)據(jù)科學(xué)家,以及由他本人與同事負(fù)責(zé)的其他工作。
Opera公司的“數(shù)據(jù)科學(xué)家”--與Raden分類的第一種類型人群十分符合--在機(jī)器學(xué)習(xí)(能力)的水平上工作,開發(fā)統(tǒng)計(jì)模型和模式識(shí)別算法,從海量數(shù)據(jù)流中發(fā)現(xiàn)和提取智能預(yù)測(cè)。他們將分析發(fā)現(xiàn)轉(zhuǎn)化為直接行動(dòng),通過減少財(cái)務(wù)欺詐或檢測(cè)高風(fēng)險(xiǎn)抵押貸款等類似措施,幫助提升業(yè)務(wù)。Spoelstra估計(jì),類似谷歌這樣的公司雇傭了數(shù)百位這種類型的數(shù)據(jù)科學(xué)家,而Opera公司近700位雇員中,有三分之一是機(jī)器學(xué)習(xí)(能力)領(lǐng)域的專家。
同時(shí),天才分析(Talent Analytics)公司CEO Greta Roberts堅(jiān)信當(dāng)前對(duì)數(shù)據(jù)科學(xué)家工作的理解實(shí)際上包含四大功能角色。一項(xiàng)針對(duì)數(shù)據(jù)科學(xué)家的調(diào)查詢問了他們?nèi)绾畏峙?1項(xiàng)分析功能的時(shí)間,出現(xiàn)了四個(gè)集群:數(shù)據(jù)準(zhǔn)備人員(他們花費(fèi)絕大部分時(shí)間,進(jìn)行數(shù)據(jù)的采集、制備和分析);程序員(他們創(chuàng)建程序并做相應(yīng)的一些分析);管理人員(他們專注于數(shù)據(jù)管理、管控、展示、詮釋與設(shè)計(jì));最后一種為通才(什么都干,什么都只會(huì)一點(diǎn)點(diǎn))。
“當(dāng)我最開始聽說這些的時(shí)候,我認(rèn)為’沒有人符合該定義--他們?cè)趺纯赡?’”Robert說,“因?yàn)檫@是一個(gè)新角色,我覺得人們把什么職責(zé)都扔給了他。當(dāng)你過度指定,最終只能得到一個(gè)空集”。許多商業(yè)人士視作數(shù)據(jù)科學(xué)家的,實(shí)際上是一個(gè)團(tuán)體的人表現(xiàn)出的各種各樣的功能。盡管現(xiàn)在依然缺乏符合這些角色的人,實(shí)際情況也與“鳳毛麟角”相去甚遠(yuǎn),有太多的人擁有這樣的天賦,成長(zhǎng)為一個(gè)或多個(gè)所需的角色。 #p#
必要的技能與憑據(jù)是什么?
正如Robert表明的那樣,詳細(xì)的數(shù)據(jù)科學(xué)技能如雨后春筍般在網(wǎng)絡(luò)上列出,列表令人生畏。絕大多數(shù)指定經(jīng)驗(yàn)要求先進(jìn)的數(shù)學(xué)和統(tǒng)計(jì)分析(包括對(duì)類似R、SAS和Stata工具等的掌握)、創(chuàng)建程序(包括C、C++、Python和Java語言)、SQL數(shù)據(jù)庫(kù)、平臺(tái)如Hadoop/MapReduce、數(shù)據(jù)挖掘和建模、數(shù)據(jù)虛擬化、創(chuàng)造性和溝通能力與商務(wù)理解力。
當(dāng)然,數(shù)據(jù)科學(xué)家的確需要與先前的數(shù)據(jù)分析人員決然不同的能力與技巧,這是事實(shí)。Raden承認(rèn),例如,他們需要有能力處理當(dāng)前各種各樣的有效數(shù)據(jù),并且最終分析數(shù)組可以采用,Raden表示。
他們需要掌握編程技巧,也要有定量方法和調(diào)查與建模方向的背景;在涉及到數(shù)據(jù)的時(shí)候,他們必須能夠辨別什么數(shù)據(jù)是有意義的,什么數(shù)據(jù)是無意義的,Raden補(bǔ)充道。高效的數(shù)據(jù)科學(xué)家還需要足夠的業(yè)務(wù)領(lǐng)域知識(shí),在復(fù)雜學(xué)科上與缺乏相應(yīng)背景工具和方法的人順暢溝通的能力,他說。
到底是什么導(dǎo)致數(shù)據(jù)科學(xué)家優(yōu)于其他分析人士呢?Ripaldi解釋,是溝通能力--通常的C系列--數(shù)據(jù)告訴他們結(jié)果,以及針對(duì)此結(jié)果應(yīng)該如何采取行動(dòng)。“你可以分析所有你想要的數(shù)據(jù),但如果你不能清晰的表達(dá)出數(shù)據(jù)告訴你的東西,你就不能算作是數(shù)據(jù)科學(xué)家”,他說。畢竟,我們的目標(biāo)是推進(jìn)經(jīng)營(yíng)戰(zhàn)略,如減少客戶流失,提供跨渠道,化解金融風(fēng)險(xiǎn)。
然后再一次,Robert看到了這些需求本身存在的固有的沖突,她坦陳,“他們不得不能夠坐在那里,在一段時(shí)間內(nèi)尋找數(shù)據(jù),然后翻轉(zhuǎn)開關(guān),化身為能引人入勝的主持人?這完全是兩個(gè)不同的人。”
Opera--也雇傭了各種各樣機(jī)器學(xué)習(xí)(能力)的數(shù)據(jù)科學(xué)家--在尋找這樣的人,他們擁有定量領(lǐng)域背景,有數(shù)學(xué)和統(tǒng)計(jì)概念資質(zhì),能夠?qū)⑦@些概念以計(jì)算機(jī)程序進(jìn)行實(shí)例化,接受大容量數(shù)據(jù)流并對(duì)解決實(shí)際商業(yè)問題有一定興趣。
“我們對(duì)那些需要學(xué)習(xí)機(jī)器學(xué)習(xí)算法的人感到自在,如果他們對(duì)數(shù)學(xué)和解決問題的能力表現(xiàn)出色。”Opera分析部門全球負(fù)責(zé)人Joseph Milanna表示,“他們可能不是一名合格的數(shù)學(xué)家或已經(jīng)建立了神經(jīng)網(wǎng)絡(luò),但他們應(yīng)該表現(xiàn)出激情與興趣,這樣我們才會(huì)選擇他”。
擁有怎樣的背景,才能成為一名數(shù)據(jù)科學(xué)家?
在Opera,大多數(shù)成功的申請(qǐng)者都擁有更高水平的學(xué)術(shù)培訓(xùn)甚至擁有PhD。“鑒于在機(jī)器學(xué)習(xí)科學(xué)和其他新出現(xiàn)的新型技術(shù)的進(jìn)步,科學(xué)家的確需要更高水平的訓(xùn)練,浸淫最新思想成果”,Milanna說。即便是在求職搜索網(wǎng)站Dice,半數(shù)的數(shù)據(jù)科學(xué)家都指定要求必須具備PhD學(xué)位,Silver表示,“這不是絕對(duì)必要的,但卻是主要的獎(jiǎng)勵(lì)”,他補(bǔ)充。
Opera雇員跨越了各種各樣的數(shù)據(jù)驅(qū)動(dòng)型學(xué)科,包括計(jì)算機(jī)科學(xué)、電子工程、統(tǒng)計(jì)學(xué)、機(jī)械工程和心理學(xué)。這樣跨學(xué)科的知識(shí)大有裨益,Milanna強(qiáng)調(diào)。例如,他已經(jīng)看到了來自水文學(xué)的分子式應(yīng)用于股票市場(chǎng)交易信號(hào)。
對(duì)于更大的數(shù)據(jù)科學(xué)家池,Raden堅(jiān)信PhD學(xué)位不是必要的。如果一個(gè)人現(xiàn)在的工作室商業(yè)智能和定量分析,并且在那之前表現(xiàn)出了先進(jìn)的數(shù)學(xué)和統(tǒng)計(jì)建模能力,就可以成長(zhǎng)為企業(yè)的數(shù)據(jù)科學(xué)家,為企業(yè)提供如預(yù)測(cè)建模和大數(shù)據(jù)等類似關(guān)鍵領(lǐng)域的指導(dǎo)與培訓(xùn)。
Roberts表示同意,專注于特定技能和學(xué)歷。某些時(shí)候可能會(huì)成為潛在求職者思考的代理人。“他們正示圖衡量的是‘你喜歡學(xué)習(xí)嗎?’但一堆方法可以用來獲取該結(jié)論”,她表示。在天才分析(Talent Analytics)公司的調(diào)查中,數(shù)據(jù)科學(xué)家的先天特性包括好奇心、創(chuàng)造力、客觀、有條理地思考能力與對(duì)細(xì)節(jié)的專注力,她強(qiáng)調(diào)。Milanna和Spoelstra也同意該觀點(diǎn),他們尋找候選人的最重要的天然特質(zhì)也包括好奇心、邏輯思維、常識(shí)力、毅力、實(shí)用性和良好的判斷力。
毫無疑問對(duì)數(shù)據(jù)科學(xué)家的需求只會(huì)不斷增長(zhǎng),但由于該角色相對(duì)新潮,隨著時(shí)間的推移,數(shù)據(jù)科學(xué)家的定義只會(huì)變化更多,不管是這些專業(yè)人士的工作范圍,還是企業(yè)組織、實(shí)現(xiàn)并發(fā)展所需人才的方法。
“對(duì)于處在IT行業(yè)、項(xiàng)目管理和產(chǎn)品管理的人士來說,這是一個(gè)巨大的發(fā)展機(jī)遇,他們不再害怕學(xué)習(xí)他們行業(yè)相關(guān)的知識(shí),也不用擔(dān)心開夜車來整理頭緒、解決問題。”
本文作者Brandel系Networkworld自由作家