自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清理數(shù)據(jù)成數(shù)據(jù)科學(xué)家最大挑戰(zhàn)

大數(shù)據(jù)
最近,IT項目眾包公司CrowdFlower的數(shù)據(jù)科學(xué)家進行了一項調(diào)查(需要注冊可查看)。調(diào)查發(fā)現(xiàn),三分之二的分析人員認為清理和組織數(shù)據(jù)是它們最費時的工作,52%稱他們最大的障礙是數(shù)據(jù)質(zhì)量差。

數(shù)據(jù)分析師花費一半以上的時間清理和轉(zhuǎn)換數(shù)據(jù),而不是從中提取商業(yè)智能,這并不稀奇。數(shù)據(jù)儲存的規(guī)模不斷增大,數(shù)據(jù)類型也在激增。新一代的工具蜂擁而至,并承諾把復(fù)雜的工具送到不依賴數(shù)據(jù)的科學(xué)家的手上。

清理數(shù)據(jù)成數(shù)據(jù)科學(xué)家***挑戰(zhàn)

技術(shù)領(lǐng)域最熱門的職位之一是數(shù)據(jù)科學(xué)家,或許只有***出現(xiàn)的***高管職位:***數(shù)據(jù)科學(xué)家能超越他們。顯而易見,人們對這種趨勢一直存在質(zhì)疑,來自美國科技網(wǎng)站InfoWorld的 Yves de Montcheuil曾引用過一則笑話,數(shù)據(jù)學(xué)家就是住在加利福尼亞州的商業(yè)分析師。

每個公司都需要把公司的數(shù)據(jù)轉(zhuǎn)換為商業(yè)智能,這并不是什么有趣的事,這就是數(shù)據(jù)科學(xué)家承擔(dān)主導(dǎo)責(zé)任的時候。但隨著數(shù)據(jù)數(shù)量和種類的激增,數(shù)據(jù)科學(xué)家發(fā)現(xiàn),他們大部分的時間都花費在清理和轉(zhuǎn)換數(shù)據(jù),而不是分析數(shù)據(jù),并把它們告訴給企業(yè)經(jīng)理。

最近,IT項目眾包公司CrowdFlower的數(shù)據(jù)科學(xué)家進行了一項調(diào)查(需要注冊可查看)。調(diào)查發(fā)現(xiàn),三分之二的分析人員認為清理和組織數(shù)據(jù)是它們最費時的工作,52%稱他們***的障礙是數(shù)據(jù)質(zhì)量差。受訪者說出了在它們工作中使用的48種不同的技術(shù),***的是Excel(55.6%),其次是開源語言研究(43.1%),和Tableau數(shù)據(jù)可視化軟件(26.1%)。

 


▲來源:CrowdFlower公司

數(shù)據(jù)科學(xué)家認為它們***的挑戰(zhàn)是清理數(shù)據(jù)花費時間,數(shù)據(jù)質(zhì)量差,缺少分析時間,以及無效的數(shù)據(jù)建模。

是什么抑制了數(shù)據(jù)分析的發(fā)展?被調(diào)查的數(shù)據(jù)科學(xué)家列舉出,包括缺少有效滿足他們工作需要的工具(54.3%),組織沒有清楚地說明目標和宗旨(52.3%),以及培訓(xùn)投資不足(47.7%)。

 


▲來源:CrowdFlower公司

缺乏工具,目標不明確,不注重培訓(xùn)被報告為影響數(shù)據(jù)科學(xué)家效率的主要障礙。

承諾將滿足大數(shù)據(jù)分析師需要的新工具

在技術(shù)領(lǐng)域有一個基本的課題:早期只有少數(shù)精英需要理解和使用知識、工具,隨著時間的推移,產(chǎn)品日益改進,價格降低,企業(yè)適應(yīng),技術(shù)逐漸成為了主流。新的數(shù)據(jù)分析工具蜂擁而至,承諾把技術(shù)的效益帶給非科研人員。

2014年8月17日,Steve Lohr在紐約時報上刊登了幾種產(chǎn)品的簡介。例如,ClearStory Data公司的軟件結(jié)合多個來源的數(shù)據(jù),并轉(zhuǎn)換成圖表、地圖和其他圖形。在數(shù)據(jù)準備問題上Paxata公司采取了不同方式,他們的軟件通過各種可視化工具對數(shù)據(jù)進行檢索、清理,和混合用于分析。

這家不以營利為目的的知識開放實驗室,號稱是一個為“公民駭客、數(shù)據(jù)管理者,以及對技術(shù)和資訊結(jié)合的可能性產(chǎn)生興趣的普通公民”提供的社區(qū)。這個組織正在招募“數(shù)據(jù)管理員”志愿者,來維護核心數(shù)據(jù)集,例如國內(nèi)生產(chǎn)總值和ISO代碼??哲娍偹玖畈康腞ufus Pollock于2015年1月3日對該項目進行了描述。

 


▲來源:知識開放實驗室

知識開放實驗室正在尋找志愿者程序員,策劃核心數(shù)據(jù)集并作為零阻力數(shù)據(jù)計劃的一部分。

沒有比使用Morpheus更簡單和直接的方式來管理異構(gòu)MySQL、MongoDB、Redis和ElasticSearch數(shù)據(jù)庫。儀表板上的一次單擊,Morpheus能使你在混合云上無縫提供、監(jiān)控和分析SQL、NoSQL和內(nèi)存數(shù)據(jù)庫。你創(chuàng)造每個的數(shù)據(jù)庫實例都包括一個內(nèi)置的容錯和故障的完整副本集。

責(zé)任編輯:未麗燕 來源: IT168編譯
相關(guān)推薦

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2012-06-12 09:33:59

2012-12-27 09:52:23

數(shù)據(jù)科學(xué)家大數(shù)據(jù)

2014-07-03 09:38:19

2019-08-26 09:47:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2020-04-09 15:32:20

數(shù)據(jù)科學(xué)AutoML代智能

2022-04-25 09:48:31

數(shù)據(jù)科學(xué)崗位離職

2015-08-25 13:20:29

數(shù)據(jù)科學(xué)

2015-08-28 09:22:07

數(shù)據(jù)科學(xué)

2012-12-06 15:36:55

CIO

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家

2022-06-23 12:33:35

大數(shù)據(jù)數(shù)據(jù)分析

2013-11-12 09:27:01

大數(shù)據(jù)科學(xué)家大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號