Kaggle問卷主成分分析,16000萬數(shù)據(jù)從業(yè)者面臨這5類挑戰(zhàn)
編譯:李雷、元元、小魚
數(shù)據(jù)科學(xué)的功能是在數(shù)據(jù)中尋找有用的觀點并加以應(yīng)用。然而,數(shù)據(jù)科學(xué)并非憑空而來。在向分析目標(biāo)邁進(jìn)的過程中,數(shù)據(jù)從業(yè)者可能面臨阻礙其進(jìn)展的各種挑戰(zhàn)。
本文探討了數(shù)據(jù)從業(yè)者在分析數(shù)據(jù)時遇到的挑戰(zhàn)類型。為了研究這個問題,本文分析了Kaggle 2017年數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)狀況調(diào)查報告(Kaggle 2017 State of Data Science and Machine Learning)中的數(shù)據(jù)。這是一項針對16,000多名數(shù)據(jù)從業(yè)者展開的專項調(diào)查(數(shù)據(jù)收集于2017年8月)。
Kaggle的調(diào)查數(shù)據(jù)顯示,數(shù)據(jù)科學(xué)家面臨的最常見挑戰(zhàn)包括臟數(shù)據(jù)(36%),缺乏數(shù)據(jù)科學(xué)人才(30%)和缺乏管理支持(27%)。
數(shù)據(jù)來源:
https://www.kaggle.com/kaggle/kaggle-survey-2017
工作中的障礙與挑戰(zhàn)
數(shù)據(jù)從業(yè)者過去一年所面臨的挑戰(zhàn)
在調(diào)查中10153名受訪者被問到,“在過去的一年中,你工作中遇到了哪些障礙或挑戰(zhàn)?(可多選)。”結(jié)果如上圖所示,排名前十的挑戰(zhàn)是:
- 臟數(shù)據(jù)(36%的受訪者提及此項)
- 缺乏數(shù)據(jù)科學(xué)人才(30%)
- 公司政策(27%)
- 缺乏明確的研究問題(22%)
- 數(shù)據(jù)無法訪問(22%)
- 結(jié)果未被決策者使用(18%)
- 向其他人解釋數(shù)據(jù)科學(xué)(16%)
- 隱私問題(14%)
- 缺乏專業(yè)領(lǐng)域知識(14%)
- 小公司請不起數(shù)據(jù)科學(xué)團(tuán)隊(13%)
結(jié)果顯示,平均每個數(shù)據(jù)從業(yè)者就會遇到上圖中的三項挑戰(zhàn)(3是中位值)。不同職位所遇到的挑戰(zhàn)數(shù)量不同。自認(rèn)為是數(shù)據(jù)科學(xué)家(Data Scientist)或預(yù)測建模師(Predictive Modeler)的數(shù)據(jù)從業(yè)者稱遇到了其中的四項挑戰(zhàn)。自認(rèn)為是程序員的數(shù)據(jù)從業(yè)者稱只遇到了其中的某一項挑戰(zhàn)。
挑戰(zhàn)分組
我想將這20項挑戰(zhàn)進(jìn)行分組,把通常一起出現(xiàn)的挑戰(zhàn)歸為一組,因此我對數(shù)據(jù)進(jìn)行了主成分分析(0表示未經(jīng)歷此項挑戰(zhàn);1表示經(jīng)歷過此項挑戰(zhàn))。我發(fā)現(xiàn)了一個相當(dāng)清晰的、由5個主要成分構(gòu)成的分組方案,其中特定挑戰(zhàn)往往會與其他相關(guān)挑戰(zhàn)一起出現(xiàn)。
數(shù)據(jù)從業(yè)者遇到的挑戰(zhàn)的主成分分析。
圖中表格數(shù)據(jù)是方差極大正交旋轉(zhuǎn)后的成分矩陣,得分大于等于0.40的成分以粗體顯示。
上圖中五個主要成分(挑戰(zhàn)分組)是:
- 分析結(jié)果未被用于決策:這組挑戰(zhàn)還包括公司政策、無法將研究結(jié)果納入決策過程以及缺乏管理支持。
- 數(shù)據(jù)隱私、真實性、無法訪問:這組挑戰(zhàn)圍繞數(shù)據(jù)本身展開,包括數(shù)據(jù)清洗的復(fù)雜程度、可訪問性以及隱私問題。
- 擴(kuò)展/部署工具的局限性:這組挑戰(zhàn)與用于提取結(jié)果、部署模型以及將解決方案擴(kuò)展到完整數(shù)據(jù)庫的工具相關(guān)。
- 缺乏資金:資金缺乏引起的挑戰(zhàn)會影響組織機(jī)構(gòu)在外部數(shù)據(jù)源、數(shù)據(jù)科學(xué)人才以及可能的領(lǐng)域?qū)I(yè)知識方面的購買力。
- 提出的錯誤問題:這組挑戰(zhàn)包括難以對數(shù)據(jù)科學(xué)項目的結(jié)果保持合理的期望,并且對數(shù)據(jù)分析沒有明確目的或方向。
結(jié)論
數(shù)據(jù)從業(yè)者在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)工作方面會遇到一些挑戰(zhàn)。一年中平均每個數(shù)據(jù)從業(yè)者可能會遇到其中三項挑戰(zhàn)。最常見的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)挑戰(zhàn)包括臟數(shù)據(jù),缺乏數(shù)據(jù)科學(xué)人才,缺乏管理支持以及缺乏數(shù)據(jù)分析明確的方向或目的。
原文鏈接:
http://businessoverbroadway.com/top-10-challenges-to-practicing-data-science-at-work
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】