大數(shù)據(jù)之路(一)數(shù)據(jù)倉(cāng)庫(kù)也需要大數(shù)據(jù)
項(xiàng)目背景
最近在處理一個(gè)商業(yè)銀行的大數(shù)據(jù)項(xiàng)目,旨在構(gòu)建大數(shù)據(jù)資源池,項(xiàng)目邊界確認(rèn)過(guò)程中,針對(duì)項(xiàng)目的定位出現(xiàn)了兩種不同的觀點(diǎn),對(duì)大數(shù)據(jù)的在傳統(tǒng)行業(yè)的應(yīng)用有了新的啟發(fā)。觀點(diǎn)一、大數(shù)據(jù)作為操作數(shù)據(jù)歷史庫(kù),存儲(chǔ)操作數(shù)據(jù)庫(kù)數(shù)據(jù),提供歷史數(shù)據(jù)長(zhǎng)周期,快速檢索的歷史數(shù)據(jù)存儲(chǔ)和快速查詢服務(wù)。觀點(diǎn)二、大數(shù)據(jù)作為數(shù)據(jù)倉(cāng)庫(kù)的的歷史庫(kù),解決數(shù)據(jù)倉(cāng)庫(kù)歷史數(shù)據(jù)存儲(chǔ)的問(wèn)題,構(gòu)建一個(gè)大容量,高可用的數(shù)據(jù)存儲(chǔ)平臺(tái),為全量數(shù)據(jù)分析和知識(shí)挖掘提供服務(wù)。作為操作數(shù)據(jù)庫(kù)的歷史庫(kù),已經(jīng)完成了項(xiàng)目的實(shí)施,但是作為數(shù)據(jù)倉(cāng)庫(kù)的歷史庫(kù)之前的定位一直是取代,基于大數(shù)據(jù)做數(shù)據(jù)分析和知識(shí)挖掘,現(xiàn)在卻找到了一個(gè)新的切入點(diǎn),才發(fā)現(xiàn),原來(lái)二者并不矛盾。
數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)的定義并無(wú)統(tǒng)一的說(shuō)法,通常的到人們認(rèn)可的概念是:一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理者的決策過(guò)程。簡(jiǎn)單點(diǎn)說(shuō)數(shù)據(jù)倉(cāng)庫(kù)就是一種語(yǔ)義上的數(shù)據(jù)存儲(chǔ),它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放于企業(yè)戰(zhàn)略決策相關(guān)的重要信息。
數(shù)據(jù)倉(cāng)庫(kù)不同于操作數(shù)據(jù)庫(kù),操作數(shù)據(jù)庫(kù)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)處理和查詢處理,稱作聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在數(shù)據(jù)分析和決策支持方面為用戶或者機(jī)器學(xué)習(xí)提供服務(wù),即聯(lián)機(jī)分析處理(OLAP)。二者的主要區(qū)別在于五個(gè)大的方面:
1)用戶系統(tǒng)的面向性:客戶與市場(chǎng);
2)數(shù)據(jù)內(nèi)容:當(dāng)前與歷史;
3)數(shù)據(jù)庫(kù)設(shè)計(jì):ER與面向主題
4)視圖:當(dāng)前與全景
5)訪問(wèn)模式:原子事務(wù)與只讀操作
傳統(tǒng)模式下數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器通常采用關(guān)系型數(shù)據(jù)庫(kù),也就是說(shuō)從軟件實(shí)現(xiàn)的角度,數(shù)據(jù)倉(cāng)庫(kù)和操作型數(shù)據(jù)采用的模式是一樣的。這就決定了,數(shù)據(jù)倉(cāng)庫(kù)和操作數(shù)據(jù)庫(kù)面臨同樣的問(wèn)題:行業(yè)壟斷帶來(lái)的成本依賴、數(shù)據(jù)模型帶來(lái)的存儲(chǔ)瓶頸和運(yùn)算瓶頸。
大數(shù)據(jù)的位置
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)應(yīng)用大數(shù)據(jù)技術(shù)的模式還在探索,但是目前總結(jié)了幾個(gè)方面的應(yīng)用。
1)大數(shù)據(jù)作為數(shù)據(jù)倉(cāng)庫(kù)的歷史數(shù)據(jù)存儲(chǔ)系統(tǒng):解決數(shù)據(jù)倉(cāng)庫(kù)只能存儲(chǔ)短時(shí)段數(shù)據(jù)的問(wèn)題
2)構(gòu)建基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)模型,致力于低成本的數(shù)據(jù)挖掘體系:傳統(tǒng)BI的瓶頸在于軟硬件綁定、商業(yè)壟斷和處理性能,基于但數(shù)據(jù)開源體系的算法模型和并行計(jì)算能力,構(gòu)建全量的數(shù)據(jù)分析和挖掘,最終目標(biāo)在于取代原有高成本的BI體系,為企業(yè)降低負(fù)擔(dān)。
3) 實(shí)時(shí)+離線模式的確立,可以充分利用企業(yè)已有的IT資源設(shè)施,充分利用成熟的BI技術(shù),從而為企業(yè)提供更好的服務(wù)。
遺留問(wèn)題
大數(shù)據(jù)定位為離線的數(shù)據(jù)倉(cāng)庫(kù),將會(huì)出現(xiàn)三級(jí)數(shù)據(jù)存儲(chǔ)模型,實(shí)時(shí)操作庫(kù)-數(shù)據(jù)倉(cāng)庫(kù)-大數(shù)據(jù)資源池,目標(biāo)有定位已經(jīng)明確,但是具體實(shí)施仍要探索,未完待續(xù)...
原文鏈接:http://www.cnblogs.com/hadoopdev/p/3545290.html