大數(shù)據(jù)和傳統(tǒng)BI
對于傳統(tǒng)企業(yè)內(nèi)部,更多的應(yīng)該是使用了大數(shù)據(jù)技術(shù)的傳統(tǒng)BI平臺,或者是融合了傳統(tǒng)BI+大數(shù)據(jù)的混合平臺,而不能單純說是大數(shù)據(jù)平臺。在談大數(shù)據(jù)平臺的時候,一味去否定傳統(tǒng)BI是不合適的。
在沒有和互聯(lián)網(wǎng)打通的傳統(tǒng)企業(yè)內(nèi)部,更多接觸的仍然是結(jié)構(gòu)化數(shù)據(jù),優(yōu)先要解決的是圍繞企業(yè)核心價(jià)值鏈的數(shù)據(jù)建模和企業(yè)戰(zhàn)略,各業(yè)務(wù)域KPI體系的建立,決策支持和分析這些內(nèi)容。在整個數(shù)據(jù)建模和分析過程中,還要考慮去解決數(shù)據(jù)不一致性,重復(fù)等問題,建立數(shù)據(jù)管控和治理體系。36大數(shù)據(jù)(http://www.36dsj.com/)
傳統(tǒng)BI平臺在發(fā)展過程中會遇到問題和瓶頸,使用傳統(tǒng)的技術(shù)架構(gòu)無法解決,需要我們在傳統(tǒng)BI技術(shù)架構(gòu)的構(gòu)建中引入大數(shù)據(jù)相關(guān)技術(shù)和工具,從這意義上更多應(yīng)該叫使用了大數(shù)據(jù)技術(shù)的傳統(tǒng)BI平臺。36大數(shù)據(jù)(http://www.36dsj.com/)
使用了大數(shù)據(jù)技術(shù)的傳統(tǒng)BI平臺
在數(shù)據(jù)存儲和查詢效率層面,傳統(tǒng)BI遇到瓶頸,可以看到在大量的上千萬即上億數(shù)據(jù)量的結(jié)構(gòu)化數(shù)據(jù)表中,要進(jìn)行查詢統(tǒng)計(jì)分析輸出KPI指標(biāo)性能下降非常明顯。為了解決查詢效率問題,有兩個思路,一個是引入了MPP數(shù)據(jù)庫來解決,一個則是引入Hadoop平臺進(jìn)行存儲,雖然是結(jié)構(gòu)化數(shù)據(jù)但是仍然引入Hadoop平臺,重點(diǎn)是解決分布式存儲和查詢性能問題。36大數(shù)據(jù)(http://www.36dsj.com/)
其次,雖然傳統(tǒng)企業(yè)以結(jié)構(gòu)化數(shù)據(jù)為主,但是仍然出現(xiàn)對大數(shù)據(jù)量的非結(jié)構(gòu)化數(shù)據(jù)的采集和處理,這個時候我們可能引入了Hadoop平臺,將數(shù)據(jù)采集,清理存儲后最終還是再導(dǎo)入我們的結(jié)構(gòu)化數(shù)據(jù)倉庫??梢钥吹皆谶@個過程中大數(shù)據(jù)技術(shù)解決了對非結(jié)構(gòu)化數(shù)據(jù)的處理和整合問題。36大數(shù)據(jù)(http://www.36dsj.com/)
融合傳統(tǒng)BI能力的大數(shù)據(jù)平臺
對于原來沒有規(guī)劃建設(shè)BI系統(tǒng)的企業(yè),在構(gòu)建BI系統(tǒng)的時候更多考慮的就是直接構(gòu)建大數(shù)據(jù)平臺同時完全融合傳統(tǒng)BI應(yīng)該具備的能力。即既保留了傳統(tǒng)BI,又實(shí)現(xiàn)了遠(yuǎn)期對大數(shù)據(jù)平臺和應(yīng)用的擴(kuò)展能力。
數(shù)據(jù)采集層-》數(shù)據(jù)存儲層-》數(shù)據(jù)處理層-》數(shù)據(jù)整合層-》數(shù)據(jù)分析層-》數(shù)據(jù)展現(xiàn)層
數(shù)據(jù)采集:大數(shù)據(jù)在傳統(tǒng)ETL基礎(chǔ)上增加了對HDFS,非結(jié)構(gòu)化數(shù)據(jù),流數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù)的支持能力
數(shù)據(jù)存儲:增加了HDFS,HBASE等數(shù)據(jù)存儲方式
數(shù)據(jù)處理:傳統(tǒng)BI在ETL過程中可以完成清洗,大數(shù)據(jù)平臺是存采集不處理,處理用單獨(dú)定制腳本。
數(shù)據(jù)整合:整合了結(jié)構(gòu)化+非結(jié)構(gòu)化數(shù)據(jù),提供統(tǒng)一數(shù)據(jù)開放接口
數(shù)據(jù)分析:HIVE+Impala+Spark,大批量和即席交互查詢能力并存
數(shù)據(jù)展現(xiàn):傳統(tǒng)的BI報(bào)表功能仍然適用,也可以引入大數(shù)據(jù)可視化技術(shù)
可以看到要融合傳統(tǒng)BI能力,則數(shù)據(jù)整合層需要能夠整合結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),同時提供統(tǒng)一的大數(shù)據(jù)開放能力服務(wù)接口。盡量讓前端報(bào)表通過大數(shù)據(jù)服務(wù)接口獲取數(shù)據(jù)以隔離底層大數(shù)據(jù)平臺的數(shù)據(jù)源。即數(shù)據(jù)展現(xiàn)層和數(shù)據(jù)整合層通過服務(wù)層進(jìn)行解耦和隔離。
如果企業(yè)已有傳統(tǒng)BI平臺,那么底層的BI平臺可以共存,即可以將底層BI平臺的ODS庫或EDW數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)平臺進(jìn)行存儲和整合。大數(shù)據(jù)平臺存儲一定是混合存儲模式,即有些通過Hadoop平臺處理后的中間結(jié)果數(shù)據(jù)我們?nèi)匀粚?dǎo)入到結(jié)構(gòu)化數(shù)據(jù)庫進(jìn)行存儲,遵從傳統(tǒng)BI數(shù)據(jù)建模技術(shù)構(gòu)建星型模型,方便后續(xù)對數(shù)據(jù)進(jìn)行維度分析和上鉆下鉆。對于self service BI,我們?nèi)匀婚_放Hadoop平臺原始數(shù)據(jù)接口能力。
一開始就構(gòu)建大數(shù)據(jù)目標(biāo)平臺
如果企業(yè)在構(gòu)建平臺的時候,一開始目標(biāo)就很明確是大數(shù)據(jù)類分析和應(yīng)用,如采集海量的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行某行業(yè)的客戶行為分析,用戶畫像,同時結(jié)合企業(yè)內(nèi)部經(jīng)營數(shù)據(jù)進(jìn)行針對性營銷的輔助決策。那么一開始構(gòu)建就會以Hadoop平臺為主,同時兼容能夠采集企業(yè)已有的結(jié)構(gòu)化數(shù)據(jù)。
這類平臺在構(gòu)建過程中可以看到不會是傳統(tǒng)BI數(shù)據(jù)建模和分析那套方法,而更多是新的大數(shù)據(jù)分析和挖掘技術(shù),則完全可能是以Impala+Hive+Hdfs為主線,以Tableau,Qlic View為前段展現(xiàn),通過R語言或KNIME進(jìn)行數(shù)據(jù)挖掘和分析等。即脫離傳統(tǒng)BI,大數(shù)據(jù)整套框架仍然是完整的。但是弱化了傳統(tǒng)BI中的數(shù)據(jù)建模,數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)治理等方面的能力。