清理數(shù)據(jù)成數(shù)據(jù)科學(xué)家最大挑戰(zhàn)
數(shù)據(jù)分析師花費一半以上的時間清理和轉(zhuǎn)換數(shù)據(jù),而不是從中提取商業(yè)智能,這并不稀奇。數(shù)據(jù)儲存的規(guī)模不斷增大,數(shù)據(jù)類型也在激增。新一代的工具蜂擁而至,并承諾把復(fù)雜的工具送到不依賴數(shù)據(jù)的科學(xué)家的手上。
技術(shù)領(lǐng)域最熱門的職位之一是數(shù)據(jù)科學(xué)家,或許只有***出現(xiàn)的***高管職位:***數(shù)據(jù)科學(xué)家能超越他們。顯而易見,人們對這種趨勢一直存在質(zhì)疑,來自美國科技網(wǎng)站InfoWorld的 Yves de Montcheuil曾引用過一則笑話,數(shù)據(jù)學(xué)家就是住在加利福尼亞州的商業(yè)分析師。
每個公司都需要把公司的數(shù)據(jù)轉(zhuǎn)換為商業(yè)智能,這并不是什么有趣的事,這就是數(shù)據(jù)科學(xué)家承擔(dān)主導(dǎo)責(zé)任的時候。但隨著數(shù)據(jù)數(shù)量和種類的激增,數(shù)據(jù)科學(xué)家發(fā)現(xiàn),他們大部分的時間都花費在清理和轉(zhuǎn)換數(shù)據(jù),而不是分析數(shù)據(jù),并把它們告訴給企業(yè)經(jīng)理。
最近,IT項目眾包公司CrowdFlower的數(shù)據(jù)科學(xué)家進行了一項調(diào)查(需要注冊可查看)。調(diào)查發(fā)現(xiàn),三分之二的分析人員認為清理和組織數(shù)據(jù)是它們最費時的工作,52%稱他們***的障礙是數(shù)據(jù)質(zhì)量差。受訪者說出了在它們工作中使用的48種不同的技術(shù),***的是Excel(55.6%),其次是開源語言研究(43.1%),和Tableau數(shù)據(jù)可視化軟件(26.1%)。

▲來源:CrowdFlower公司
數(shù)據(jù)科學(xué)家認為它們***的挑戰(zhàn)是清理數(shù)據(jù)花費時間,數(shù)據(jù)質(zhì)量差,缺少分析時間,以及無效的數(shù)據(jù)建模。
是什么抑制了數(shù)據(jù)分析的發(fā)展?被調(diào)查的數(shù)據(jù)科學(xué)家列舉出,包括缺少有效滿足他們工作需要的工具(54.3%),組織沒有清楚地說明目標和宗旨(52.3%),以及培訓(xùn)投資不足(47.7%)。

▲來源:CrowdFlower公司
缺乏工具,目標不明確,不注重培訓(xùn)被報告為影響數(shù)據(jù)科學(xué)家效率的主要障礙。
承諾將滿足大數(shù)據(jù)分析師需要的新工具
在技術(shù)領(lǐng)域有一個基本的課題:早期只有少數(shù)精英需要理解和使用知識、工具,隨著時間的推移,產(chǎn)品日益改進,價格降低,企業(yè)適應(yīng),技術(shù)逐漸成為了主流。新的數(shù)據(jù)分析工具蜂擁而至,承諾把技術(shù)的效益帶給非科研人員。
2014年8月17日,Steve Lohr在紐約時報上刊登了幾種產(chǎn)品的簡介。例如,ClearStory Data公司的軟件結(jié)合多個來源的數(shù)據(jù),并轉(zhuǎn)換成圖表、地圖和其他圖形。在數(shù)據(jù)準備問題上Paxata公司采取了不同方式,他們的軟件通過各種可視化工具對數(shù)據(jù)進行檢索、清理,和混合用于分析。
這家不以營利為目的的知識開放實驗室,號稱是一個為“公民駭客、數(shù)據(jù)管理者,以及對技術(shù)和資訊結(jié)合的可能性產(chǎn)生興趣的普通公民”提供的社區(qū)。這個組織正在招募“數(shù)據(jù)管理員”志愿者,來維護核心數(shù)據(jù)集,例如國內(nèi)生產(chǎn)總值和ISO代碼??哲娍偹玖畈康腞ufus Pollock于2015年1月3日對該項目進行了描述。

▲來源:知識開放實驗室
知識開放實驗室正在尋找志愿者程序員,策劃核心數(shù)據(jù)集并作為零阻力數(shù)據(jù)計劃的一部分。
沒有比使用Morpheus更簡單和直接的方式來管理異構(gòu)MySQL、MongoDB、Redis和ElasticSearch數(shù)據(jù)庫。儀表板上的一次單擊,Morpheus能使你在混合云上無縫提供、監(jiān)控和分析SQL、NoSQL和內(nèi)存數(shù)據(jù)庫。你創(chuàng)造每個的數(shù)據(jù)庫實例都包括一個內(nèi)置的容錯和故障的完整副本集。