數(shù)據(jù)科學家大調(diào)查:職業(yè)受挫數(shù)據(jù)多樣性,吐槽Hadoop
經(jīng)過無數(shù)權威媒體的反復轟炸,我們大致已經(jīng)相信,數(shù)據(jù)科學家是21世紀最神秘最性感最多金的職業(yè),他們是大數(shù)據(jù)時代數(shù)據(jù)炸彈的拆彈專家,企業(yè)數(shù)字化經(jīng)營的發(fā)動機,他們的身價堪比NFL四分衛(wèi),而且,他們比昆侖山上的雪豹數(shù)量還少。
顯然,數(shù)據(jù)科學家個個都是十八般數(shù)據(jù)分析武藝樣樣精通的絕世高手,但他們近來也有煩心事。不久前,開源數(shù)據(jù)庫SciDB開發(fā)商Paradigm4進行的一項針對111名北美數(shù)據(jù)科學家的調(diào)查顯示,71%的數(shù)據(jù)科學家認為數(shù)據(jù)來源的多樣性(IT經(jīng)理網(wǎng)記者此前曾與百度創(chuàng)始七劍客之一,酷我音樂CEO雷鳴討論機器學習和大數(shù)據(jù)分析的最大挑戰(zhàn),他也認為是數(shù)據(jù)維度),而不是數(shù)據(jù)總量構成其職業(yè)最大威脅和挑戰(zhàn)。
值得注意的是,只有48%的受訪數(shù)據(jù)科學家表示他們在工作中曾使用過Hadoop或者Spark,高達76%的數(shù)據(jù)科學家抱怨Hadoop太慢,編程速度過慢,以及其他一些局限性。(參考閱讀:Hadoop真特么難用)
雖然Hadoop口碑不佳,但是有接近半數(shù)的數(shù)據(jù)科學家表示很難將數(shù)據(jù)存入傳統(tǒng)關系數(shù)據(jù)庫表中。Nexedi的首席執(zhí)行官Jean-Paul Smets在接受IT經(jīng)理網(wǎng)采訪時也曾指出,大數(shù)據(jù)的真正難題其實并不是所謂的“大”,業(yè)界目前缺乏是通過使用高效的分布式運算法則來處理數(shù)據(jù)的軟件,Hadoop過于依賴Java,而Java已經(jīng)被Oracle牢牢控制。中國興起的去IOE運動,實際上為Hadoop之外的大數(shù)據(jù)軟件方案提供了良機。
企業(yè)大數(shù)據(jù)進入復雜分析階段
根據(jù)報告,有59%的數(shù)據(jù)科學家表示其所在企業(yè)已經(jīng)開始采用更加復雜的分析技術,例如集群、機器學習、種量分析(Principal components analysis)、圖論分析等高級分析技術分析數(shù)據(jù),而不是局限于傳統(tǒng)的BI報告。
還有15%的數(shù)據(jù)科學家表示計劃在明年啟用復雜分析技術,另有16%的數(shù)據(jù)科學家表示將在未來兩年內(nèi)采用復雜分析技術。
Hadoop被過度吹捧
Paradigm4的報告指出,Hadoop被過度吹捧成無所不能的,革命性的大數(shù)據(jù)解決方案,實際上Hadoop并不適用于需要進行復雜分析的大數(shù)據(jù)應用場景。
Hadoop的核心技術方法數(shù)據(jù)并行(data parallel),被Paradigm4稱作“鬧心的并行”。報告指出,復雜分析人物往往需要經(jīng)常訪問、處理和分享全體數(shù)據(jù),并在數(shù)據(jù)處理中交叉溝通中間結果,而這恰恰是Hadoop MapReduce的軟肋。
22%的受調(diào)查數(shù)據(jù)科學家表示Hadoop和Spark壓根不適合他們的分析任務,此外還有35%的數(shù)據(jù)科學家在嘗試Hadoop或Spark后停止使用這兩項技術。
Paradigm4數(shù)據(jù)科學家調(diào)查報告中的一些亮點被濃縮在下面這張信息圖中,供有興趣的讀者深究:
本文出自:IT經(jīng)理網(wǎng)