數(shù)據(jù)科學(xué)家需要的技能組合
在2016年的美國,數(shù)據(jù)科學(xué)家已經(jīng)被冠以“最佳工作”的頭銜,數(shù)據(jù)科學(xué)家的定義以及成為一名出色數(shù)據(jù)科學(xué)家所需的技能一直處于不斷的變化之中??萍己蜕虡I(yè)需求方面的進步驅(qū)使著數(shù)據(jù)科學(xué)家隨著行業(yè)的不斷變化而不停的進化。在這片文章中,我們將會近距離的看一看在2016年當中,作為一名數(shù)據(jù)科學(xué)家應(yīng)該扮演何種角色。
Dave Holtz寫道,小小的“數(shù)據(jù)科學(xué)家”這樣的崗位頭銜,經(jīng)常被充當一個空白頭銜來用,其作用就是說明數(shù)據(jù)科學(xué)家這樣的崗位所涉及到一系列工作,其實與其他工作有著天壤之別的差異。他把其中的原因歸咎于數(shù)據(jù)科學(xué)領(lǐng)域仍然處于嬰兒期并且人們對數(shù)據(jù)科學(xué)家的定義也并不是如此明確。采用了這樣一個屬于跨學(xué)科領(lǐng)域的包羅萬象的頭銜,數(shù)據(jù)科學(xué)家的工作就是從海量的數(shù)據(jù)當中以各種形式提取出人們所需要的知識或者是對于事物的洞察力。
大數(shù)據(jù)時代的年齡取決于我們自身,而且此刻它就停留在我們面前?,F(xiàn)在我們收集到的數(shù)據(jù)量比以往任何時期都要龐大,而且伴隨著時間的流逝,從數(shù)據(jù)中提取有價值的信息將會變得越來越錯綜復(fù)雜,并且需要更高超的技術(shù)。大數(shù)據(jù)經(jīng)濟背后的邏輯正在以難以想象和預(yù)測的方式影響著我們每個人的生活。我們?nèi)粘I钪性炀偷拿恳粋€電子信息化的行為所產(chǎn)生的數(shù)據(jù),最后都將會被用于數(shù)據(jù)統(tǒng)計,我們也可以借此洞察產(chǎn)業(yè)的發(fā)展。
作為消費者經(jīng)濟的參與者,當我們與任何一個網(wǎng)站或者電子化服務(wù)有所接觸的時候,我們每個人都會被當成 數(shù)據(jù)挖掘 的對象,而且數(shù)據(jù)科學(xué)家就在那里使用計算機科學(xué)、統(tǒng)計分析學(xué)以及錯綜復(fù)雜的商業(yè)知識相結(jié)合的方式對我們提供的數(shù)據(jù)進行收集、清洗、分析以及預(yù)測。
下面這張圖為我們展示了一名數(shù)據(jù)科學(xué)家所需要具備的技能組合。我們可以發(fā)現(xiàn),和典型的大數(shù)據(jù)開發(fā)者或者商業(yè)分析專員相比,他的職責(zé)是多種技能和經(jīng)驗的有效組合。
圖1:數(shù)據(jù)科學(xué)家的技能組合
是什么讓數(shù)據(jù)科學(xué)家有別于他人,是看起來比較類似的數(shù)據(jù)工作嗎?
Rivera和Haverson提示我們說,以前的數(shù)據(jù)專家總是把工作的精力集中到數(shù)據(jù)的演示和遷移,而數(shù)據(jù)科學(xué)家更趨向于從數(shù)學(xué)角度出發(fā),主要精力在于從過去和目前的數(shù)據(jù)中鑒別出各種模式,并從中得到啟發(fā)。如果從字面意思進行理解的話,“科學(xué)”表示通過系統(tǒng)性的學(xué)習(xí)而得到的知識;“數(shù)據(jù)”則意味著定性或定量變量的信息庫——因此,從字面上看,一名數(shù)據(jù)科學(xué)家可以被定義為一個對組織和信息的屬性進行系統(tǒng)性研究的人士。
盡管統(tǒng)計學(xué)家和其他研究數(shù)據(jù)分析的人士扮演著至關(guān)重要的角色,但是數(shù)據(jù)科學(xué)家的角色,就像Anjul Bhambari先生描述的那樣,一部分是分析師,一部分是藝術(shù)家,并且必定會為傳統(tǒng)數(shù)據(jù)的分析和使用方式帶來全新的變革。
社會對數(shù)據(jù)科學(xué)家的需求與日俱增
商務(wù)人際網(wǎng)絡(luò)LinkedIn的成功,就是一個數(shù)據(jù)科學(xué)家通過數(shù)據(jù)為商業(yè)智能帶去好處和利益的鮮活案例。當一家企業(yè)主要依靠他擁有的三億八千萬用戶之間互聯(lián)的數(shù)據(jù)轉(zhuǎn)換來盈利時,LinkedIn正在利用這些專業(yè)人才的好奇心來探尋大數(shù)據(jù)當中的新大陸。
LinkedIn和其他類似Facebook以及Google這樣的知識產(chǎn)業(yè)正在利用數(shù)據(jù)科學(xué)家的角色將體量龐大且抽象的數(shù)據(jù)進行結(jié)構(gòu)化建設(shè),從數(shù)據(jù)值和變量之間的系統(tǒng)性關(guān)聯(lián)當中界定其自身所蘊含的機密。
最近,由KPMG發(fā)起的一份調(diào)查報告顯示,99%的被調(diào)查對象認為大數(shù)據(jù)分析對他們下一年的戰(zhàn)略規(guī)劃有著舉足輕重的作用。等到了2020年,企業(yè)發(fā)展過程中每天產(chǎn)生的數(shù)據(jù)量將會超過240艾字節(jié),到了那個時候,企業(yè)會發(fā)現(xiàn),對于可以從龐大數(shù)據(jù)庫中提取有價值信息的數(shù)據(jù)科學(xué)家的需求,將會比以前更重要。然而,一篇由Travis Wright撰寫的文章說,對于數(shù)據(jù)科學(xué)家的需求將會遠遠超過目前社會能夠提供的水平,并且單單在美國的那些公司就需要雇傭14萬至19萬名數(shù)據(jù)科學(xué)家,前提是這些公司會繼續(xù)跟隨數(shù)據(jù)經(jīng)濟帶來的效益。
但是出乎我們意料的是,數(shù)據(jù)科學(xué)家的平均工資卻存在著很多的矛盾,然而,我們清楚的是,該職位的平均工資確實會隨著對數(shù)據(jù)科學(xué)家需求的增長迎來更高的工資待遇。如果雇主期待候選人可以擁有數(shù)據(jù)挖掘算法經(jīng)驗;能夠完全使用像R和Python這樣的語言開展工作;在大型數(shù)據(jù)庫(類似SQL)方面有工作經(jīng)驗;可以執(zhí)行Java應(yīng)用;可以執(zhí)行NoSQL數(shù)據(jù)庫——并且候選人還可以和非專業(yè)技術(shù)人員交流以上所有工作方面的事宜,那么想得到約為12萬美金的年薪看起來并非如此遙遠的事情。
數(shù)據(jù)科學(xué)家的作用
盡管一名數(shù)據(jù)科學(xué)家的職能超越很多傳統(tǒng)的數(shù)據(jù)分析師的職務(wù),其中也有很多顯而易見的區(qū)別。
一名數(shù)據(jù)分析師或建筑師能夠從龐大的數(shù)據(jù)庫當中提取信息。然而他們卻被SQL查詢和用于切割數(shù)據(jù)庫的軟件分析包所限制。通過使用機器學(xué)習(xí)的高級知識和編程/工程,數(shù)據(jù)科學(xué)家可以按照他們自己的意愿操作數(shù)據(jù)從而揭露出更深層次的發(fā)現(xiàn)。他們卻不會因這些程序而受到約束。
典型的數(shù)據(jù)分析專員的做法就是回顧過去產(chǎn)生的數(shù)據(jù)以及所發(fā)生的事件,但是一名數(shù)據(jù)科學(xué)家的做法必須超越于此并著眼于未來。通過使用高級統(tǒng)計方式和復(fù)雜的數(shù)據(jù)建模,數(shù)據(jù)科學(xué)家必須發(fā)現(xiàn)其中的模式,還得對未來做出預(yù)測。
數(shù)據(jù)科學(xué)家需要具備的技能
成功的數(shù)據(jù)分析依賴于數(shù)據(jù)的清理、整合以及轉(zhuǎn)換——關(guān)鍵的是,這需要所有數(shù)據(jù)科學(xué)家必須擁有所有技能的整合能力。如果將你自己的科學(xué)背景與計算和分析技巧相結(jié)合的話,完全可以讓自己更上一層樓。
但還是讓我們更深入的挖掘一下,成為一名數(shù)據(jù)科學(xué)家所需具備的實際技能吧。Data Floq公司的CEO,Mark van Rijmenam先生向我們推薦說,數(shù)據(jù)科學(xué)家應(yīng)該具備以下的技能:統(tǒng)計、數(shù)學(xué)和倫理,當然也得包括相當高的預(yù)測建模經(jīng)驗,以便于為了找出正確的問題和相應(yīng)正確的答案而構(gòu)建出必要的算法。
盡管一位數(shù)據(jù)科學(xué)家可能執(zhí)行的技能和不同的崗位職能很多,但來自LinkedIn的Ferris Jumah又進一步為我們整潔地歸納出所需的技能。
一名數(shù)據(jù)科學(xué)家必須:
- 用數(shù)學(xué)的思維方式看待數(shù)據(jù)。了解一些像機器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析以及統(tǒng)計方面的知識非常重要。一名數(shù)據(jù)科學(xué)家需要從數(shù)學(xué)的角度對數(shù)據(jù)進行詮釋和演示。
- 使用通用語言進行數(shù)據(jù)的獲取、開采以及建模。掌握統(tǒng)計編程語言也很重要。類似R,Python或者 MATLAB這樣的語言,還有SQL這樣的數(shù)據(jù)庫查詢語言也是當下最受歡迎且比較搶手的語言。數(shù)據(jù)提取、研究和假設(shè)測試是數(shù)據(jù)科學(xué)實踐的核心。
- 培養(yǎng)強大的計算機科學(xué)和軟件工程背景。這個要求數(shù)據(jù)科學(xué)家培養(yǎng)包括Java、C++或者算法和Hadoop方面的知識。這些技能可以用來建設(shè)數(shù)據(jù)系統(tǒng)。
圖2:數(shù)據(jù)科學(xué)所關(guān)注的領(lǐng)域
數(shù)據(jù)科學(xué)家用到的工具
與典型的程序員不同的的是,程序員使用標準化的工具,而數(shù)據(jù)科學(xué)家趨向于使用大量的總是不斷改進的工具。這是因為數(shù)據(jù)科學(xué)家的世界正在快速的進化,很多新的工具還不夠成熟和完善。下面我們來列舉一些所必要的工具:
數(shù)據(jù)分析工具:
這里所指的工具實際上僅僅是數(shù)據(jù)科學(xué)家使用的用于數(shù)據(jù)提取和分析的編程語言。較為典型的工具就是Python、R和 SQL。
數(shù)據(jù)倉庫工具:
數(shù)據(jù)科學(xué)可以選擇擁有自己的數(shù)據(jù)庫,他們可以在這里進行數(shù)據(jù)的提取與分析。MySQL就是一款最受歡迎的處理體量較為合理的數(shù)據(jù)庫的軟件。當話題轉(zhuǎn)到大數(shù)據(jù)領(lǐng)域時,他們通常會使用Hive或者Redshift這樣的程序。也許你會吃驚的問,使用CSV文件的數(shù)據(jù)科學(xué)家還會支撐多久。
數(shù)據(jù) 可視化 工具:
我們經(jīng)常提到的最普通的數(shù)據(jù)可視化工具是D3.js和Tableau。對于D3.js而言,如果你能想象出數(shù)據(jù)可視化的樣子,那么你就可以利用這個軟件達到你想要的結(jié)果。目前Tableau是最受歡迎的數(shù)據(jù)可視化軟件,它可以使來自于數(shù)百條輸入的編譯數(shù)據(jù)輕而易舉的轉(zhuǎn)換為清晰可見的可視化效果。
機器學(xué)習(xí)工具:
機器學(xué)習(xí)領(lǐng)域內(nèi)的剛出現(xiàn)的工具也許每天正處于不斷變化之中。廣泛使用的工具也許就非 Scikit-learn莫屬了,該工具利用Python進行機器學(xué)習(xí)。之后當然還有SparkMLlib,這是Apache為自己的Spark 和Hadoop使用的機器學(xué)習(xí)資料館。