必備數(shù)據(jù)知識:數(shù)據(jù)倉庫之數(shù)據(jù)存儲
元數(shù)據(jù)
描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。兩方面用途:
首先,元數(shù)據(jù)能提供基于用戶的信息,如記錄數(shù)據(jù)項的業(yè)務(wù)描述信息的元數(shù)據(jù)能幫助用戶使用數(shù)據(jù)。
其次,元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護,如關(guān)于數(shù)據(jù)項存儲方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問數(shù)據(jù)。
元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能:
(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;
(2)定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);
(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;
(4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;
(5)衡量數(shù)據(jù)質(zhì)量。
ODSOperational Data Store
ODS為企業(yè)提供即時的,操作型的,集成的數(shù)據(jù)集合,具有面向主題性,集成性,動態(tài)性,即時性,明細性等特點
ODS作為數(shù)據(jù)庫到數(shù)據(jù)倉庫的一種過渡形式,與數(shù)據(jù)倉庫在物理結(jié)構(gòu)上不同,能提供高性能的響應(yīng)時間,ODS設(shè)計采用混合設(shè)計方式。
ODS中的數(shù)據(jù)是"實時值",而數(shù)據(jù)倉庫的數(shù)據(jù)卻是"歷史值",一般ODS中儲存的數(shù)據(jù)不超過一個月,而數(shù)據(jù)倉庫為10年或更多.
Data Mart
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實施過程中往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。需要注意的就是在實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相容,這樣再以后實施數(shù)據(jù)倉庫時才不會造成大麻煩。
DDS決策支持系統(tǒng):
用于支持管理決策的系統(tǒng)。通常,DSS包括以啟發(fā)的方式對大量的數(shù)據(jù)單元進行的分析,通常不涉及數(shù)據(jù)更新。
OLAP
聯(lián)機分析處理,On-Line Analysis Processing 即從數(shù)據(jù)倉庫中抽取詳細數(shù)據(jù)的一個子集并經(jīng)過必要的聚集,存儲到OLAP存儲器中供前端分析工具讀取。
OLAP系統(tǒng)按照數(shù)據(jù)存儲格式可以分為關(guān)系OLAP(RelationalOLAP,簡稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡稱MOLAP)和混合型OLAP(HybridOLAP,簡稱HOLAP)三種類型。
ROLAP將分析要用的多維數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中,并根據(jù)應(yīng)用的需要有選擇的定義一批實視圖也存儲在關(guān)系數(shù)據(jù)庫中。MOLAP將OLAP分析所要用到的多維數(shù)據(jù)物理上存儲為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。HOLAP能把MOLAP和ROLAP兩種結(jié)構(gòu)的優(yōu)點有機的結(jié)合起來,能滿足用戶各種復(fù)雜的分析請求。
事實表
事實表是包含大量數(shù)據(jù)值的一種結(jié)構(gòu)。事實數(shù)據(jù)表可能代表某次銀行交易,包含一個顧客的來訪次數(shù),并且這些數(shù)字信息可以匯總,以提供給有關(guān)單位作為歷史的數(shù)據(jù)。
每個數(shù)據(jù)倉庫都包含一個或者多個事實數(shù)據(jù)表。事實數(shù)據(jù)表只能包含數(shù)字度量字段和使事實表與維度表中對應(yīng)項的相關(guān)索引字段.,該索引包含作為外鍵的所有相關(guān)性維度表的主鍵。
事實數(shù)據(jù)表中的“度量值”有兩中:一種是可以累計的度量值,另一種是非累計的度量值。用戶可以通過累計度量值獲得匯總信息。
維度表
用來描述事實表的某個重要方面,維度表中包含事實表中事實記錄的特性:有些特性提供描述性信息,有些特性指定如何匯總事實數(shù)據(jù)表數(shù)據(jù),以便為分析者提供有用的信息,維度表包含幫助匯總數(shù)據(jù)的特性的層次結(jié)構(gòu)
緩慢變化維
在實際情況下,維度的屬性并不是靜態(tài)的,它會隨著時間的流失發(fā)生緩慢的變化。處理方法:
1.新信息直接覆蓋舊信息
2.保存多條記錄,并添加字段加以區(qū)分(用y,n;0,1,2或用時間來區(qū)別新舊記錄)
3.保存多條記錄,并添加字段加以區(qū)分
4.另外建表保存歷史記錄.
5.混合模式
退化維
一般來說事實表中的外鍵都對應(yīng)一個維表,維的信息主要存放在維表中。但是退化維僅僅是事實表中的一列,這個維的相關(guān)信息都在這一列中,沒有維表與之相關(guān)聯(lián)。比如:發(fā)票號,序列號等等。
那么退化維有什么作用呢?
1.退化維具有普通維的各種操作,比如:上卷,切片,切塊等
2.(上卷匯總,下鉆明細;切片,切塊:對二維數(shù)據(jù)進行切片,三維數(shù)據(jù)進行切塊,,可得到所需要的數(shù)據(jù))
3.如果存在退化維,那么在ETL的過程將會變得容易。它可以讓group by等操作變得更快
粒度:(granularity)
是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別,細化程度越高,粒度就越小。
鉆取:
首先從某一個匯總數(shù)據(jù)出發(fā),查看組成該數(shù)據(jù)的各個成員數(shù)據(jù)。
星形模型與雪花模型的區(qū)別?
1.星星的中心是一個大的事實表,發(fā)散出來的是維度表,每一個維度表用一個PK-FK連接到事實表,維度表之間彼此并不關(guān)聯(lián)。一個事實表又包括一些度量值和維度。
2.雪花模型通過規(guī)范維度表來減少冗余度,也就是說,維度表數(shù)據(jù)已經(jīng)被分組成一個個的表而不是使用一個大表。例如產(chǎn)品表被分成了產(chǎn)品大類和產(chǎn)品小類兩個表。盡管這樣做可以節(jié)省了空間,但是卻增加了維度表的數(shù)量和關(guān)聯(lián)的外鍵的個數(shù)。這就導(dǎo)致了更復(fù)雜的查詢并降低了數(shù)據(jù)庫的效率
維度建模(dimensional modeling):
是數(shù)據(jù)倉庫建設(shè)中的一種數(shù)據(jù)建模方法。按照事實表,維表來構(gòu)建數(shù)據(jù)倉庫,數(shù)據(jù)集市。這種方法最被人廣泛知曉的名字就是星型模式(Star-schema)。
什么叫查找表,為什么使用替代鍵?(其實目的和上面一樣,從基礎(chǔ)表到緩慢維度表的過程中的一種實現(xiàn)途徑)
替代鍵(alternate key)可以是數(shù)據(jù)表內(nèi)不作為主鍵的其他任何列,只要該鍵對該數(shù)據(jù)表唯一即可。換句話說,在唯一列內(nèi)不允許出現(xiàn)數(shù)據(jù)重復(fù)的現(xiàn)象。
數(shù)據(jù)倉庫項目最重要或需要注意的是什么,以及如何處理?
數(shù)據(jù)質(zhì)量,主要是數(shù)據(jù)源數(shù)據(jù)質(zhì)量分析,數(shù)據(jù)清洗轉(zhuǎn)換,當然也可以定量分析
數(shù)據(jù)倉庫有兩個重要目的,一是數(shù)據(jù)集成,二是服務(wù)BI
數(shù)據(jù)準確性是數(shù)據(jù)倉庫的基本要求,而效率是項目事實的前提,數(shù)據(jù)質(zhì)量、運行效率和擴展性是數(shù)據(jù)倉庫項目設(shè)計、實施高明與否的三大標志;
代理鍵:
在關(guān)系型數(shù)據(jù)庫設(shè)計中,是在當資料表中的候選鍵都不適合當主鍵時,例如資料太長,或是意義層面太多,就會用一個attribute來當代理主鍵,此主鍵可能是用流水號,來代替可辨識唯一值的主鍵
在數(shù)據(jù)倉庫領(lǐng)域有一個概念叫Surrogate key,中文一般翻譯為“代理關(guān)鍵字”。代理關(guān)鍵字一般是指維度表中使用順序分配的整數(shù)值作為主鍵,也稱為“代理鍵”。代理關(guān)鍵字用于維度表和事實表的連接??梢员苊馔ㄟ^主鍵的值就可以了解一些業(yè)務(wù)信息。
另一種來源:
1. (Dimension)
維度是用來反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個維度。如、地理位置或產(chǎn)品,
2.粒度
粒度將直接決定所構(gòu)建倉庫能夠提供決策支持的細節(jié)級別。粒度越高表示倉庫中的較粗,反之,較細。粒度是與具體指標相關(guān)的,具體表現(xiàn)在描述此指標的某些可分層次維的維值上。例如,時間維度,時間可以分成年、季、月、周、日等。
3. 指標(Measure)
指標也稱關(guān)鍵性能指標、事實或關(guān)鍵事務(wù)指標,是沿維度衡量商務(wù)信息的。每一個指標代表了業(yè)務(wù)對象所固有的一個可供分析的屬性。指標是典型的數(shù)量、容量或?qū)⑼ㄟ^同標準的比較查明的款項。這些數(shù)據(jù)點可用于商務(wù)性能的定量的比較。
4. 指標組(Relation Measures)
實際上每一組用于分析的業(yè)務(wù)對象會有若干相互關(guān)聯(lián)的指標,如營業(yè)額、納稅額。這些指標之間存在計算關(guān)系,往往是作為一個整體用于分析的,這個整體稱之為指標組。
5. 元數(shù)據(jù)(Metadata)
關(guān)于數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)用于描述中的數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和。
6. 元(Metadata Repository)
一種提供數(shù)據(jù)詳細情況的詞典。這些詳細的信息包括數(shù)據(jù)源的目錄和它們相關(guān)的標準。該數(shù)據(jù)目錄描述的是數(shù)據(jù)捕捉和數(shù)據(jù)兩種環(huán)境中可用的數(shù)據(jù)。該目錄還應(yīng)說明數(shù)據(jù)最后一次更新的時間和計劃將要更新的時間—最起碼,要說明數(shù)據(jù)維護的調(diào)度。數(shù)據(jù)目錄還應(yīng)說明數(shù)據(jù)的物理屬性;也就是說,數(shù)據(jù)是如何存儲的。數(shù)據(jù)目錄幫助數(shù)據(jù)弄清楚“從哪里”可獲得“什么樣”的數(shù)據(jù)。
7. 中央數(shù)據(jù)庫(Center Database)
數(shù)據(jù)倉庫中用于存儲原始數(shù)據(jù)的存儲介質(zhì)。此處的原始數(shù)據(jù)指從業(yè)務(wù)系統(tǒng)中采集后經(jīng)過清洗、轉(zhuǎn)換的數(shù)據(jù)。
8. 指標數(shù)據(jù)庫(Indicator Databases)
數(shù)據(jù)倉庫中用于存放指標數(shù)據(jù)的存儲介質(zhì)。指標數(shù)據(jù)庫根據(jù)數(shù)據(jù)倉庫系統(tǒng)的使用對象劃分,通常分成多個。
9. 星形圖(Star-Schema)
是數(shù)據(jù)倉庫應(yīng)用程序的最佳模式。它的命名是因其在物理上表現(xiàn)為中心實體,典型內(nèi)容包括指標數(shù)據(jù)、輻射數(shù)據(jù),通常是有助于瀏覽和聚集指標數(shù)據(jù)的維度。星形圖得到的結(jié)果常常是查詢式數(shù)據(jù)結(jié)構(gòu),能夠為快速響應(yīng)用戶的查詢要求提供最優(yōu)的數(shù)據(jù)結(jié)構(gòu)。星形圖還常常產(chǎn)生一種包含維度數(shù)據(jù)和指標數(shù)據(jù)的兩層模型。
10.雪花圖(Snowflake-Schema)
指一種擴展的星形圖。星形圖通常生成一個兩層結(jié)構(gòu),即只有維度和指標,雪花圖生成了附加層。實際數(shù)據(jù)倉庫系統(tǒng)建設(shè)過程中,通常只擴展三層:維度(維度實體)、指標(指標實體)和相關(guān)的描述數(shù)據(jù)(類目細節(jié)實體)超過三層的雪花圖模型在數(shù)據(jù)倉庫系統(tǒng)中應(yīng)該避免。因為它們開始像更傾向于支持OLTP 應(yīng)用程序的規(guī)格化結(jié)構(gòu),而不是為數(shù)據(jù)倉庫和OLAP應(yīng)用程序而優(yōu)化的非格式化結(jié)構(gòu)。