自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Kaggle問卷主成分分析,16000萬數(shù)據(jù)從業(yè)者面臨這5類挑戰(zhàn)

企業(yè)動態(tài)
數(shù)據(jù)科學(xué)的功能是在數(shù)據(jù)中尋找有用的觀點并加以應(yīng)用。然而,數(shù)據(jù)科學(xué)并非憑空而來。在向分析目標(biāo)邁進(jìn)的過程中,數(shù)據(jù)從業(yè)者可能面臨阻礙其進(jìn)展的各種挑戰(zhàn)。本文探討了數(shù)據(jù)從業(yè)者在分析數(shù)據(jù)時遇到的挑戰(zhàn)類型。

[[224974]]

大數(shù)據(jù)文摘作品

編譯:李雷、元元、小魚

數(shù)據(jù)科學(xué)的功能是在數(shù)據(jù)中尋找有用的觀點并加以應(yīng)用。然而,數(shù)據(jù)科學(xué)并非憑空而來。在向分析目標(biāo)邁進(jìn)的過程中,數(shù)據(jù)從業(yè)者可能面臨阻礙其進(jìn)展的各種挑戰(zhàn)。

本文探討了數(shù)據(jù)從業(yè)者在分析數(shù)據(jù)時遇到的挑戰(zhàn)類型。為了研究這個問題,本文分析了Kaggle 2017年數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)狀況調(diào)查報告(Kaggle 2017 State of Data Science and Machine Learning)中的數(shù)據(jù)。這是一項針對16,000多名數(shù)據(jù)從業(yè)者展開的專項調(diào)查(數(shù)據(jù)收集于2017年8月)。

[[224975]]

Kaggle的調(diào)查數(shù)據(jù)顯示,數(shù)據(jù)科學(xué)家面臨的最常見挑戰(zhàn)包括臟數(shù)據(jù)(36%),缺乏數(shù)據(jù)科學(xué)人才(30%)和缺乏管理支持(27%)。

數(shù)據(jù)來源:

https://www.kaggle.com/kaggle/kaggle-survey-2017

工作中的障礙與挑戰(zhàn)

數(shù)據(jù)從業(yè)者過去一年所面臨的挑戰(zhàn)

在調(diào)查中10153名受訪者被問到,“在過去的一年中,你工作中遇到了哪些障礙或挑戰(zhàn)?(可多選)。”結(jié)果如上圖所示,排名前十的挑戰(zhàn)是:

  1. 臟數(shù)據(jù)(36%的受訪者提及此項)
  2. 缺乏數(shù)據(jù)科學(xué)人才(30%)
  3. 公司政策(27%)
  4. 缺乏明確的研究問題(22%)
  5. 數(shù)據(jù)無法訪問(22%)
  6. 結(jié)果未被決策者使用(18%)
  7. 向其他人解釋數(shù)據(jù)科學(xué)(16%)
  8. 隱私問題(14%)
  9. 缺乏專業(yè)領(lǐng)域知識(14%)
  10. 小公司請不起數(shù)據(jù)科學(xué)團(tuán)隊(13%)

結(jié)果顯示,平均每個數(shù)據(jù)從業(yè)者就會遇到上圖中的三項挑戰(zhàn)(3是中位值)。不同職位所遇到的挑戰(zhàn)數(shù)量不同。自認(rèn)為是數(shù)據(jù)科學(xué)家(Data Scientist)或預(yù)測建模師(Predictive Modeler)的數(shù)據(jù)從業(yè)者稱遇到了其中的四項挑戰(zhàn)。自認(rèn)為是程序員的數(shù)據(jù)從業(yè)者稱只遇到了其中的某一項挑戰(zhàn)。

挑戰(zhàn)分組

我想將這20項挑戰(zhàn)進(jìn)行分組,把通常一起出現(xiàn)的挑戰(zhàn)歸為一組,因此我對數(shù)據(jù)進(jìn)行了主成分分析(0表示未經(jīng)歷此項挑戰(zhàn);1表示經(jīng)歷過此項挑戰(zhàn))。我發(fā)現(xiàn)了一個相當(dāng)清晰的、由5個主要成分構(gòu)成的分組方案,其中特定挑戰(zhàn)往往會與其他相關(guān)挑戰(zhàn)一起出現(xiàn)。

數(shù)據(jù)從業(yè)者遇到的挑戰(zhàn)的主成分分析。

圖中表格數(shù)據(jù)是方差極大正交旋轉(zhuǎn)后的成分矩陣,得分大于等于0.40的成分以粗體顯示。

上圖中五個主要成分(挑戰(zhàn)分組)是:

  • 分析結(jié)果未被用于決策:這組挑戰(zhàn)還包括公司政策、無法將研究結(jié)果納入決策過程以及缺乏管理支持。
  • 數(shù)據(jù)隱私、真實性、無法訪問:這組挑戰(zhàn)圍繞數(shù)據(jù)本身展開,包括數(shù)據(jù)清洗的復(fù)雜程度、可訪問性以及隱私問題。
  • 擴(kuò)展/部署工具的局限性:這組挑戰(zhàn)與用于提取結(jié)果、部署模型以及將解決方案擴(kuò)展到完整數(shù)據(jù)庫的工具相關(guān)。
  • 缺乏資金:資金缺乏引起的挑戰(zhàn)會影響組織機(jī)構(gòu)在外部數(shù)據(jù)源、數(shù)據(jù)科學(xué)人才以及可能的領(lǐng)域?qū)I(yè)知識方面的購買力。
  • 提出的錯誤問題:這組挑戰(zhàn)包括難以對數(shù)據(jù)科學(xué)項目的結(jié)果保持合理的期望,并且對數(shù)據(jù)分析沒有明確目的或方向。

結(jié)論

數(shù)據(jù)從業(yè)者在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工作方面會遇到一些挑戰(zhàn)。一年中平均每個數(shù)據(jù)從業(yè)者可能會遇到其中三項挑戰(zhàn)。最常見的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)挑戰(zhàn)包括臟數(shù)據(jù),缺乏數(shù)據(jù)科學(xué)人才,缺乏管理支持以及缺乏數(shù)據(jù)分析明確的方向或目的。

原文鏈接:

http://businessoverbroadway.com/top-10-challenges-to-practicing-data-science-at-work

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2020-07-15 07:42:12

人工智能

2016-10-21 14:17:21

2010-12-01 11:44:56

IT從業(yè)者

2019-08-29 10:20:13

大數(shù)據(jù)IT互聯(lián)網(wǎng)

2018-01-04 15:24:07

IT基礎(chǔ)設(shè)施術(shù)語

2020-03-04 14:16:45

安全從業(yè)者甲方乙方

2022-04-09 09:21:19

人工智能機(jī)器學(xué)習(xí)PCA算法

2018-02-25 05:23:11

區(qū)塊鏈求職招聘

2019-07-25 14:23:36

2009-01-12 14:47:57

經(jīng)濟(jì) 互聯(lián)網(wǎng)

2015-06-24 14:29:07

PaaSPaaS困境

2016-12-02 19:34:26

數(shù)據(jù)科學(xué)大數(shù)據(jù)

2010-11-24 10:59:40

跳槽

2014-07-28 09:47:16

游戲游戲收入游戲從業(yè)

2018-11-19 07:10:04

安全從業(yè)者網(wǎng)絡(luò)安全信息安全

2015-10-20 09:28:44

云時代IT從業(yè)者職業(yè)技能

2017-02-15 20:05:28

網(wǎng)絡(luò)安全工具信息安全

2012-04-06 09:01:40

2016-11-11 20:46:01

數(shù)據(jù)科學(xué)大數(shù)據(jù)Python

2021-01-29 12:40:36

數(shù)據(jù)科學(xué)人工智能編程
點贊
收藏

51CTO技術(shù)棧公眾號