大數(shù)據(jù)分析的三大演進(jìn)方向
最近Gartner發(fā)布了2013年度BI和分析的魔力四象限圖,同時(shí)Wikibon也發(fā)布了2013年大數(shù)據(jù)市場(chǎng)預(yù)測(cè),兩份報(bào)告都明確指出,隨著分析正在成為企業(yè)IT的核心,昔日的BI-ETL-EDW分析范型已經(jīng)完全落伍,不再適用。
2013開年不久,一連串的重大事件的發(fā)生標(biāo)志著大數(shù)據(jù)和分析領(lǐng)域正在加速演進(jìn),對(duì)于數(shù)據(jù)分析專業(yè)人士和企業(yè)管理者來說,2013年是大數(shù)據(jù)進(jìn)入企業(yè)應(yīng)用的關(guān)鍵一年。
近日Alteryx公司總裁喬治馬修(George Mathew,Twitter帳號(hào)@gkm1)與大數(shù)據(jù)領(lǐng)域的著名專家Mayank Bawa、Mike Olson和Scott Yara就數(shù)據(jù)分析的傳統(tǒng)范型(BI-ETL-EDW)即將被新的分析范型取代達(dá)成共識(shí),幾位專家認(rèn)為全新的數(shù)據(jù)分析平臺(tái)將消除當(dāng)前分析軟件在設(shè)計(jì)和實(shí)施方面的延遲和低效率,從根本上重新思考和定義三大阻礙企業(yè)數(shù)據(jù)分析應(yīng)用的關(guān)鍵問題:數(shù)據(jù)管理、分析透明度以及用戶應(yīng)用。
以下是馬修在博客中對(duì)新數(shù)據(jù)分析范型三大演進(jìn)方向的解讀,編譯整理如下:
一、數(shù)據(jù)管理
Hadoop已經(jīng)成為企業(yè)管理大數(shù)據(jù)的基礎(chǔ)支撐技術(shù)。最近隨著Greenplum Pivotal HD、Hortonworks Stinger和Cloudera的Impala的發(fā)布,Hadoop的技術(shù)創(chuàng)新速度正在加快,上述Hadoop項(xiàng)目傳遞出一個(gè)非常明確的信號(hào):主要的Hadoop發(fā)行商想要在Hadoop HDFS之上提供實(shí)時(shí)、互動(dòng)的查詢服務(wù)。這個(gè)趨勢(shì)將兩個(gè)領(lǐng)域的杰作整合到了一起:眾所周知的SQL查詢處理與具備指數(shù)級(jí)擴(kuò)展能力的HDFS存儲(chǔ)架構(gòu)。參考閱讀:Hadoop發(fā)行版升級(jí),NoSQL的未來是SQL?
二、去黑箱化
預(yù)測(cè)分析是管理者進(jìn)行數(shù)據(jù)化決策的關(guān)鍵。目前預(yù)測(cè)和統(tǒng)計(jì)分析領(lǐng)域已經(jīng)已經(jīng)有很多技術(shù)可以幫助企業(yè)洞察不遠(yuǎn)的未來。但預(yù)測(cè)分析眼下面臨的的最大問題是“黑箱”化。隨著企業(yè)領(lǐng)導(dǎo)越來越多地以來預(yù)測(cè)分析技術(shù)做出重大商業(yè)決策,預(yù)測(cè)分析技術(shù)需要去黑箱化:包括應(yīng)用自描述數(shù)據(jù)沿襲,增加對(duì)底層數(shù)學(xué)和算法解釋等。“去黑箱化”有利于企業(yè)管理者學(xué)會(huì)徹底駕馭數(shù)據(jù)分析工具,不但看到數(shù)據(jù)分析結(jié)果,還知道分析是如何得來的,分析工具的設(shè)計(jì)原理等,這有助于管理者增加對(duì)預(yù)測(cè)分析的信心,而不是過去那樣完全依靠“信仰”。
三、應(yīng)用普及
即使實(shí)現(xiàn)了分析的去黑箱化,企業(yè)數(shù)據(jù)分析應(yīng)用在企業(yè)中的部署依然面臨以下幾個(gè)方面的挑戰(zhàn):發(fā)布可復(fù)用應(yīng)用,創(chuàng)建最佳實(shí)踐、組織范圍內(nèi)的橫向協(xié)作,無縫重組模型等。在最終用戶(員工)中的應(yīng)用普及是數(shù)據(jù)分析成功的關(guān)鍵。例如建設(shè)一個(gè)專門提供分析應(yīng)用的企業(yè)移動(dòng)應(yīng)用商店App Store往往能大大加快數(shù)據(jù)分析的應(yīng)用普及。
新數(shù)據(jù)分析范型的重要特征:
新的數(shù)據(jù)分析范型是目標(biāo)導(dǎo)向的,不關(guān)心數(shù)據(jù)的來源和格式,能夠無縫處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。能夠輸出有效結(jié)果;能夠提供去黑箱化的預(yù)測(cè)分析服務(wù),能夠面向更廣泛的普通員工快速部署分析應(yīng)用。

最近Gartner發(fā)布了2013年度BI和分析的魔力四象限圖,同時(shí)Wikibon也發(fā)布了2013年大數(shù)據(jù)市場(chǎng)預(yù)測(cè),兩個(gè)報(bào)告都明確指出,隨著分析正在成為企業(yè)IT的核心,昔日的BI-ETL-EDW分析范型已經(jīng)完全落伍,不再適用。新的分析范型正在崛起,以下是我們能看到的未來趨勢(shì):
Hadoop(和NoSQL)正在顛覆我們對(duì)PB級(jí)別大數(shù)據(jù)的管理方式。
R和Stata的崛起,正在沖擊傳統(tǒng)分析學(xué)術(shù)圈的的黑箱式分析方法,這也代表著商業(yè)世界的發(fā)展趨勢(shì)。
分析應(yīng)用將不再是數(shù)據(jù)科學(xué)家的專利,更多分析應(yīng)用將以預(yù)先打包的內(nèi)容和應(yīng)用發(fā)送到分析人士和企業(yè)員工的手中。