自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)時(shí)代,OLAP解析與發(fā)展方向

大數(shù)據(jù) 數(shù)據(jù)分析
數(shù)據(jù)分析領(lǐng)域自2010前后一直占據(jù)了全球信息技術(shù)的核心地位,OLAP的需求并未隨著Hadoop的流行而消亡,而是被越來(lái)越理智的認(rèn)可——“數(shù)據(jù)再多也需要分析、分析的主要需求還是交互查詢”。本文概括了OLAP的本質(zhì)原則、曾經(jīng)的困境和當(dāng)前的技術(shù)派系,希望能引起從業(yè)者的思考,共同促進(jìn)行業(yè)進(jìn)步與發(fā)展!

前言:數(shù)據(jù)分析領(lǐng)域自2010前后一直占據(jù)了全球信息技術(shù)的核心地位,OLAP的需求并未隨著Hadoop的流行而消亡,而是被越來(lái)越理智的認(rèn)可——“數(shù)據(jù)再多也需要分析、分析的主要需求還是交互查詢”。本文概括了OLAP的本質(zhì)原則、曾經(jīng)的困境和當(dāng)前的技術(shù)派系,希望能引起從業(yè)者的思考,共同促進(jìn)行業(yè)進(jìn)步與發(fā)展!

1. 剖析OLAP本質(zhì)

OLAP(Online Analytical Processing)是一種數(shù)據(jù)處理技術(shù),專門(mén)設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營(yíng)狀況

二十幾年前E.F. Codd提出OLAP時(shí),也參照關(guān)系數(shù)據(jù)庫(kù)提出了12條規(guī)則,但后期沒(méi)有得到發(fā)展,其中有些規(guī)則在現(xiàn)在看來(lái)都已經(jīng)不再完全適用,或者不是OLAP的特殊規(guī)則。因此我們從OLAP的本質(zhì)定位上,重新確定三條原則,用以解析OLAP的歷史發(fā)展:

1) 提供多維的業(yè)務(wù)視圖(“維”是OLAP存在和核心概念)

2) 滿足靈活的交互分析(面向決策分析需要及時(shí)響應(yīng)查詢需求的變更)

3) 提供高速的檢索性能(沒(méi)有人希望查詢數(shù)據(jù)等待太長(zhǎng)時(shí)間)

無(wú)論從E.F. Codd提出的12條規(guī)則中,還是本文提煉的三大原則中,都可以明確出OLAP是滿足應(yīng)用需求而研發(fā)的新技術(shù),而且是以“維度”為核心概念的所有技術(shù)的統(tǒng)稱。

2. OLAP vs Reporting

從事BI/DW的專業(yè)人士們,對(duì)這張架構(gòu)圖應(yīng)該非常熟悉,其中同時(shí)出現(xiàn)了OLAP和Reporting兩個(gè)面向用戶的應(yīng)用功能(數(shù)據(jù)挖掘暫且忽略)。

兩者核心的區(qū)別在于OLAP可以讓終端用戶可隨意更改格式,以及進(jìn)行維度鉆取,甚至自定義成員,而Reporting的終端用戶只能按照開(kāi)發(fā)人員的預(yù)置做有限交互(比如刷新參數(shù)等)。同時(shí)從后臺(tái)原理上,OLAP通過(guò)預(yù)計(jì)算(空間換時(shí)間的思想)做到高速響應(yīng),Reporting一般通過(guò)對(duì)關(guān)系型數(shù)據(jù)庫(kù)的模型和優(yōu)化保證既定SQL的高速查詢。

為什么提到Reporting,因?yàn)樗荗LAP出現(xiàn)之前的唯一數(shù)據(jù)應(yīng)用,也正是因?yàn)镽eporting解決不了大規(guī)模數(shù)據(jù)的交互分析,才誕生了OLAP。

3. OLAP遇到的困難

OLAP核心三原則的“多維”通過(guò)星型/雪花模型得以保證(已經(jīng)有OLTP能參考的經(jīng)驗(yàn))、“靈活交互”和“高速響應(yīng)”通過(guò)基于“預(yù)計(jì)算”數(shù)據(jù)的交互查詢而實(shí)現(xiàn)。這就順理成章的讓我們聯(lián)想起多維表達(dá)式——MDX(MultiDimensional eXpressions),此技術(shù)在E.F.Codd提出OLAP四年后就被微軟定義并使用。

Multidimensional Expressions (MDX) is a query language for OLAP databases. Much like SQL, it is a query language for relational databases.

MDX是類似SQL的查詢語(yǔ)言,只不過(guò)查詢的是OLAP數(shù)據(jù)庫(kù)。

當(dāng)微軟發(fā)明MDX后,眾多廠商都相繼跟進(jìn)并應(yīng)用了這個(gè)非公開(kāi)標(biāo)準(zhǔn)的技術(shù),比如Oracle、SAS、Teradata、Cognos、Business Objects等等,從而使得MDX成為了OLAP領(lǐng)域的必備技術(shù)。

熟悉OLAP的朋友都知道MOLAP、ROLAP、HOLAP,它們都是時(shí)間與空間平衡關(guān)系的產(chǎn)物,比如MOLAP犧牲了空間和時(shí)效性,過(guò)度滿足了查詢性能,ROLAP保證了空間和時(shí)效性,卻又容易喪失前端查詢的高性能,最后發(fā)展出混合型的HOLAP。無(wú)論后端如何變化,前端的MDX卻從來(lái)沒(méi)有改變過(guò)(2008年我曾參加的面試題,里面就全部都是MDX語(yǔ)法)。

言歸正傳,為什么說(shuō)OLAP的發(fā)展遇到了苦難呢,有這么幾點(diǎn):

1、 OLAP產(chǎn)品的封閉性

雖然前端查詢的默認(rèn)標(biāo)準(zhǔn)是MDX,但由于MDX的不夠普及和易用,實(shí)際得以商業(yè)應(yīng)用的軟件中很多都自成一體(所謂成熟的商業(yè)軟件),比如IBM Cognos等,造成前端功能的受限和不易集成。只有Microsoft SSAS、Oracle Essbase、Mondrian等少數(shù)幾個(gè)可以把服務(wù)端以XML for Analysis標(biāo)準(zhǔn)開(kāi)放出來(lái),提供比較好的開(kāi)發(fā)和集成能力。

2、 OLAP的預(yù)建模瓶頸

傳統(tǒng)的OLAP軟件,無(wú)論MOLAP/ROLAP/HOLAP,都會(huì)為用戶的使用提前設(shè)計(jì)一個(gè)星型模型,它的好處是便于用戶在一個(gè)存在相關(guān)關(guān)系的數(shù)據(jù)范圍內(nèi)操作,避免出現(xiàn)查詢結(jié)果的錯(cuò)誤。但帶來(lái)的問(wèn)題就是,當(dāng)業(yè)務(wù)需求變化快或者業(yè)務(wù)關(guān)聯(lián)更新時(shí),模型就需要重構(gòu),而且必須由IT人員負(fù)責(zé)重構(gòu),較低的變更效率影響了使用感受。

3、 xOLAP都滿足不了大數(shù)據(jù)的分析

凡事都存在量變到質(zhì)變,數(shù)據(jù)量一旦大到TB、PB的程度,無(wú)論是基于文件的MOLAP,還是基于數(shù)據(jù)庫(kù)的ROLAP,就都不能滿足第三原則(高速響應(yīng))了。尤其很多客戶已經(jīng)采用Hadoop的數(shù)據(jù)架構(gòu),傳統(tǒng)的OLAP技術(shù)就很難融入其中了!

4、 OLAP可視化能力弱

熟悉OLAP產(chǎn)品前端操作的用戶都清楚,拖拽、下鉆、切片這些動(dòng)作都是基于表格的,基本不能在圖形上完成同樣的操作,這就給OLAP帶來(lái)一個(gè)基因上的缺陷,就是可視化能力不夠。還不要提現(xiàn)在時(shí)髦的玫瑰圖、網(wǎng)絡(luò)圖、桑基圖等等可視化圖形!

5、 MDX不如SQL普及

MDX在很多統(tǒng)計(jì)分析功能上得天獨(dú)厚,又比如協(xié)方差等計(jì)算函數(shù),但80%的真正需求還是定位在簡(jiǎn)單的分級(jí)匯總和鉆取切片排序上。無(wú)論在學(xué)習(xí)資源還是普及程度上,SQL還是擁有最多人群的數(shù)據(jù)查詢技術(shù)。SQL的接受程度從在Hadoop生態(tài)的回歸就能知道!

技術(shù)從來(lái)就不能阻擋需求,這些問(wèn)題存在了若干年后,最近OLAP出現(xiàn)了很多新的技術(shù)實(shí)現(xiàn),從多個(gè)方向帶來(lái)了新的選擇。

4. OLAP的技術(shù)派系

OLAP作為一大類市場(chǎng)需求始終是存在的,需要發(fā)展的只是實(shí)現(xiàn)它的技術(shù)(OLTP所基于的RDBMS非常穩(wěn)定)?,F(xiàn)在OLAP技術(shù)發(fā)展了20多年,正處于群雄逐鹿階段,無(wú)論未來(lái)有沒(méi)有一統(tǒng)江湖的完美技術(shù),至少?gòu)默F(xiàn)在來(lái)看,我們有必要從OLAP本質(zhì)三原則梳理技術(shù)派系,以便市場(chǎng)參考和個(gè)人選擇:

1. 傳統(tǒng)OLAP

尊重傳統(tǒng)是技術(shù)領(lǐng)域最缺少的品德,傳統(tǒng)OLAP中尤其是Mondrian和SSAS還是有不少用戶群的(前者是開(kāi)源軟件),反而選用Cognos、MSTR等的越來(lái)越少。

2. 可視化OLAP

十幾年前,最火爆的BI產(chǎn)品是BO(2007年以68億美元被SAP收購(gòu))。BO里最早的核心技術(shù)叫做“動(dòng)態(tài)微立方”,就是把基于語(yǔ)義模型查詢的結(jié)果集數(shù)據(jù)以MOLAP的方式存儲(chǔ)在內(nèi)存中,以加快后期交互分析的效率?,F(xiàn)在同樣也有各種基于內(nèi)存計(jì)算的軟件,但它們是以可視化為主,比如Tableau和Qlikview等。單純定位在可視化上的OLAP只有商業(yè)軟件,沒(méi)有開(kāi)源也沒(méi)有免費(fèi)的選擇,這是因?yàn)榭梢暬莻€(gè)短期需求吧。

3. 大數(shù)據(jù)OLAP

Hadoop的生態(tài)系統(tǒng)誕生于互聯(lián)網(wǎng)公司,從一開(kāi)始就有開(kāi)放的基因,這個(gè)OLAP派系最有意思的是Kylin,而且是咱中國(guó)人在Apache上的定級(jí)項(xiàng)目。“Apache Kylin™是一個(gè)開(kāi)源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規(guī)模數(shù)據(jù),最初由eBay Inc. 開(kāi)發(fā)并貢獻(xiàn)至開(kāi)源社區(qū)。”它與前2者最大不同點(diǎn)在于2個(gè):使用SQL進(jìn)行查詢和支持Hadoop(SQL、SQL、SQL,重要的事情說(shuō)三遍J)!準(zhǔn)確的說(shuō),Kylin只是一個(gè)OLAP server,它的前端可以選用Smartbi等免費(fèi)或者商業(yè)的軟件,也可以選擇自己開(kāi)發(fā)。

4. 辦公OLAP

最后一個(gè)派系也不可小視,那就是微軟Excel(WPS等電子表格軟件還難以匹敵)。雖然它也是自有的封閉技術(shù),但它的友好性和兼容性足夠強(qiáng)大,幾乎人人電腦上都能使用,而且也確實(shí)是每個(gè)數(shù)據(jù)分析人員都略會(huì)一二的工具軟件。而且它更重要的價(jià)值在于在Excel里面可以維護(hù)和處理數(shù)據(jù),這是其它3類OLAP都無(wú)法提供的。具體介紹網(wǎng)上有很多,大家可以關(guān)注中國(guó)電子表格應(yīng)用大會(huì)、Excelhome等網(wǎng)絡(luò)資源。

最后還是強(qiáng)調(diào)OLAP是除了報(bào)表Reporting和數(shù)據(jù)挖掘Mining以外的一大類數(shù)據(jù)分析需求,在遵從“多維”、“靈活交互”和“高速響應(yīng)”三個(gè)本質(zhì)原則情況下,無(wú)論你是辦公一族還是軟件工程師、大數(shù)據(jù)專家,都有適合你的OLAP軟件工具!

數(shù)據(jù)的聯(lián)機(jī)分析處理,不會(huì)隨著時(shí)間淡出,只會(huì)隨著數(shù)據(jù)化運(yùn)營(yíng)的管理觀念普及而加強(qiáng)!

責(zé)任編輯:武曉燕 來(lái)源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2016-11-22 13:17:36

大數(shù)據(jù)OLAP

2024-01-29 08:20:03

物化視圖StarRocksOLAP系統(tǒng)

2009-10-14 15:06:22

IT職業(yè)發(fā)展

2013-10-23 10:03:39

大數(shù)據(jù)

2021-11-05 21:54:58

云存儲(chǔ)數(shù)據(jù)安全

2014-08-04 10:22:26

大數(shù)據(jù)

2020-12-17 13:51:35

人工智能人工智能發(fā)展方向

2022-05-11 10:48:56

模型JavaScript框架

2019-10-14 15:14:17

存儲(chǔ)云存儲(chǔ)人工智能

2009-10-21 15:43:38

綜合布線市場(chǎng)

2016-12-12 13:32:32

2016-10-19 18:36:50

大數(shù)據(jù)大數(shù)據(jù)應(yīng)用

2016-05-13 10:20:43

大數(shù)據(jù)應(yīng)用數(shù)據(jù)管理數(shù)據(jù)分析

2017-08-24 10:25:53

數(shù)據(jù)中心光模塊技術(shù)

2010-02-04 11:20:29

網(wǎng)絡(luò)數(shù)據(jù)交換技術(shù)

2025-01-13 09:44:16

人工智能AI芯片

2019-12-09 14:55:00

大數(shù)據(jù)

2009-10-26 16:13:48

遠(yuǎn)程接入網(wǎng)

2011-06-21 18:05:15

SEO

2013-01-07 10:37:10

移動(dòng)游戲本地游戲桌游
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)