二十一世紀(jì)最性感的職業(yè):數(shù)據(jù)科學(xué)家
性感事物方面的權(quán)威《哈佛商業(yè)評論》宣布,“數(shù)據(jù)科學(xué)家”是二十一世紀(jì)最性感的職業(yè)。所謂性感,既代表著難以名狀的誘惑,又說明了大家都不知道它干的是什么。
不管老板懂不懂?dāng)?shù)據(jù)科學(xué)家是干什么的,反正最近幾年這個崗位的需求數(shù)正在快速攀升,Indeed.com的數(shù)據(jù)可以為證。
但是其性感在什么地方?什么是數(shù)據(jù)科學(xué)家?他們是科學(xué)家嗎?還是工程師?程序員?抑或是一個商業(yè)決策與創(chuàng)新者的新血統(tǒng)?
Indeed.com的數(shù)據(jù)沒有反應(yīng)出來的一個事實是,盡管這個職業(yè)對應(yīng)的學(xué)科在學(xué)術(shù)界經(jīng)過長期的醞釀,但終究沒有成立為一個新的學(xué)科。而這段時間很長的學(xué)術(shù)孵化期,也許跟今天的數(shù)據(jù)科學(xué)實踐有著很大的關(guān)系。
我 們首先來簡要回顧一下這段歷史。早在上世紀(jì)六十年代,Peter Naur就首次提議要用“數(shù)據(jù)科學(xué)(data science、Datalogy)”來替代“計算機科學(xué)(computer science)”,后來在上世紀(jì)九十年代中期為國際分類社團聯(lián)盟所用。2001年,William S. Cleveland提議將其設(shè)立為一個新的學(xué)科,吸收“計算在數(shù)據(jù)方面取得的進(jìn)展”作為統(tǒng)計學(xué)的延伸?!稊?shù)據(jù)科學(xué)(Data Science Journal )》及《The Journal of Data Science》分別于2002年與2003年發(fā)行.2005年,國家科學(xué)委員會發(fā)表了《數(shù)字?jǐn)?shù)據(jù)收集萬歲:促進(jìn)二十一世紀(jì)的研究與教育》,文中將數(shù)據(jù)科學(xué)家定義為“信息與計算機科學(xué)家,數(shù)據(jù)庫與軟件工程師及程序員,學(xué)科專家,成功管理數(shù)字?jǐn)?shù)據(jù)收集的關(guān)鍵人物。”
到 了本世紀(jì)頭十年的中期,數(shù)據(jù)科學(xué)不再屈尊于僅列為其他學(xué)科的細(xì)目清單,開始走出學(xué)術(shù)殿堂。從學(xué)術(shù)邁向新職業(yè)走出的這半步是Troy Sadkowsky于2009年完成的。他在澳大利亞的一個學(xué)術(shù)性崗位工作,但卻有一個“科學(xué)性程序員”的頭銜,其職責(zé)是開發(fā)支撐大規(guī)模、“大數(shù)據(jù)”科學(xué) 性研究的應(yīng)用。2009年一月,數(shù)字化數(shù)據(jù)跨機構(gòu)工作組發(fā)表了一份名為《駕馭科學(xué)與社會數(shù)字化數(shù)據(jù)之力》的報告,Sadkowsky從中了解到“數(shù)據(jù)科學(xué) 家”這個詞,認(rèn)為該詞是自己所從事工作的最好描述。2009年6月,他在LinkedIn建立了一個數(shù)據(jù)科學(xué)家小組作為其 datasceintists.com網(wǎng)站的輔佐。
但是數(shù)據(jù)科學(xué)從學(xué)術(shù)向行業(yè)的大規(guī)模遷移此前早就在美國發(fā)生 了,那時候Web公司正在開發(fā)大數(shù)據(jù)技術(shù),需要定量分析員對其收集得海量數(shù)據(jù)進(jìn)行挖掘利用。那些不愿呆在象牙塔里的數(shù)量分析專家都會跑到華爾街。不過 2008年的時候這個地方的誘惑力下降了。Greylock Partners的數(shù)據(jù)科學(xué)家D.J. Patil跟Jeff Hammerbacher一起在Facebook和LikedIn上建立了數(shù)據(jù)與分析小組,這一舉動被視為是數(shù)據(jù)科學(xué)走向職業(yè)化的標(biāo)志,小組的職能是致力 于對業(yè)務(wù)能夠產(chǎn)生即時的、大規(guī)模影響的數(shù)據(jù)應(yīng)用。所謂數(shù)據(jù)科學(xué)家就是運用數(shù)據(jù)和科學(xué)創(chuàng)造新東西的人。
而數(shù)據(jù)科學(xué)家這個職位的頭銜則是2009年由Natahn Yau首次提及的,他認(rèn)為數(shù)據(jù)科學(xué)家就是能夠從大型數(shù)據(jù)集中析取出數(shù)據(jù),并提供某些可供非數(shù)據(jù)專家使用的東西的人。
數(shù)據(jù)科學(xué)家、創(chuàng)業(yè)家Mike Driscoll則認(rèn)為數(shù)據(jù)極客有三個性感之處:建模、轉(zhuǎn)換、可視化。而一種比較有詩意的表述方式是:數(shù)據(jù)科學(xué)家好比是哥倫布遇上科倫坡,目光如炬的探險家與懷疑一切的大偵探的合體。
而 在《數(shù)據(jù)科學(xué)家:二十一世紀(jì)最性感的職業(yè)》一文中,設(shè)計LinkedIn的“你可能認(rèn)識的人”功能的數(shù)據(jù)科學(xué)家Jonathan Goldman的工作也許是對數(shù)據(jù)科學(xué)家工作方式的最好詮釋:首先構(gòu)建理論、印證預(yù)感,然后尋找出模式,對應(yīng)該推出某人的哪一個網(wǎng)絡(luò)做出預(yù)測。文章最后對 數(shù)據(jù)科學(xué)家的工作進(jìn)行如下概括:
數(shù)據(jù)科學(xué)家做的,就是在數(shù)據(jù)中遨游的同時進(jìn)行探索,其 顯著特點是強烈的好奇—他們渴望尋找問題核心,追究問題實質(zhì),并把這些東西提煉為一組非常清晰、可以驗證的假設(shè)。這往往會讓人聯(lián)想到這些都是任何一個領(lǐng)域 最有創(chuàng)意的科學(xué)家所具備的特質(zhì),很顯然,科學(xué)家這個頭銜適合于這一新興角色。他們實現(xiàn)價值提升并不是靠做報表或者PPT給高管,而是靠在面向客戶的產(chǎn)品與 流程方面所做出的創(chuàng)新。
不過,這一大段的闡述仍然不夠簡潔明了,在上述觀察的基礎(chǔ)上我們來給出一個數(shù)據(jù)科學(xué)家的簡明版定義:
數(shù)據(jù)科學(xué)家就是采用科學(xué)方法、運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師。
科 學(xué)辦法就是構(gòu)思假設(shè)、測試想法、精心設(shè)計實驗、經(jīng)由他人驗證,這些是他們從統(tǒng)計身上掌握的知識,經(jīng)科學(xué)訓(xùn)練出來的經(jīng)驗。而工具的運用則是來自其工程經(jīng)驗, 或者更確切地說來自于其計算機科學(xué)與編程背景。最好的數(shù)據(jù)科學(xué)家是產(chǎn)品與流程的創(chuàng)新者,有時候還是新的數(shù)據(jù)挖掘工具的開發(fā)者。
何謂性感,這就是。
【編輯推薦】