自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

必備數(shù)據(jù)知識:數(shù)據(jù)倉庫之數(shù)據(jù)存儲

存儲 存儲軟件 數(shù)據(jù)倉庫
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實施過程中往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。

元數(shù)據(jù)

描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。兩方面用途:

首先,元數(shù)據(jù)能提供基于用戶的信息,如記錄數(shù)據(jù)項的業(yè)務(wù)描述信息的元數(shù)據(jù)能幫助用戶使用數(shù)據(jù)。

其次,元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護,如關(guān)于數(shù)據(jù)項存儲方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問數(shù)據(jù)。

元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能:

(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;

(2)定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);

(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;

(4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;

(5)衡量數(shù)據(jù)質(zhì)量。

[[223041]]

ODSOperational Data Store

ODS為企業(yè)提供即時的,操作型的,集成的數(shù)據(jù)集合,具有面向主題性,集成性,動態(tài)性,即時性,明細性等特點

ODS作為數(shù)據(jù)庫到數(shù)據(jù)倉庫的一種過渡形式,與數(shù)據(jù)倉庫在物理結(jié)構(gòu)上不同,能提供高性能的響應(yīng)時間,ODS設(shè)計采用混合設(shè)計方式。

ODS中的數(shù)據(jù)是"實時值",而數(shù)據(jù)倉庫的數(shù)據(jù)卻是"歷史值",一般ODS中儲存的數(shù)據(jù)不超過一個月,而數(shù)據(jù)倉庫為10年或更多.

Data Mart

為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實施過程中往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。需要注意的就是在實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相容,這樣再以后實施數(shù)據(jù)倉庫時才不會造成大麻煩。

DDS決策支持系統(tǒng):

用于支持管理決策的系統(tǒng)。通常,DSS包括以啟發(fā)的方式對大量的數(shù)據(jù)單元進行的分析,通常不涉及數(shù)據(jù)更新。

OLAP

聯(lián)機分析處理,On-Line Analysis Processing 即從數(shù)據(jù)倉庫中抽取詳細數(shù)據(jù)的一個子集并經(jīng)過必要的聚集,存儲到OLAP存儲器中供前端分析工具讀取。

OLAP系統(tǒng)按照數(shù)據(jù)存儲格式可以分為關(guān)系OLAP(RelationalOLAP,簡稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡稱MOLAP)和混合型OLAP(HybridOLAP,簡稱HOLAP)三種類型。

ROLAP將分析要用的多維數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中,并根據(jù)應(yīng)用的需要有選擇的定義一批實視圖也存儲在關(guān)系數(shù)據(jù)庫中。MOLAP將OLAP分析所要用到的多維數(shù)據(jù)物理上存儲為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。HOLAP能把MOLAP和ROLAP兩種結(jié)構(gòu)的優(yōu)點有機的結(jié)合起來,能滿足用戶各種復(fù)雜的分析請求。

事實表

事實表是包含大量數(shù)據(jù)值的一種結(jié)構(gòu)。事實數(shù)據(jù)表可能代表某次銀行交易,包含一個顧客的來訪次數(shù),并且這些數(shù)字信息可以匯總,以提供給有關(guān)單位作為歷史的數(shù)據(jù)。

每個數(shù)據(jù)倉庫都包含一個或者多個事實數(shù)據(jù)表。事實數(shù)據(jù)表只能包含數(shù)字度量字段和使事實表與維度表中對應(yīng)項的相關(guān)索引字段.,該索引包含作為外鍵的所有相關(guān)性維度表的主鍵。

事實數(shù)據(jù)表中的“度量值”有兩中:一種是可以累計的度量值,另一種是非累計的度量值。用戶可以通過累計度量值獲得匯總信息。

維度表

用來描述事實表的某個重要方面,維度表中包含事實表中事實記錄的特性:有些特性提供描述性信息,有些特性指定如何匯總事實數(shù)據(jù)表數(shù)據(jù),以便為分析者提供有用的信息,維度表包含幫助匯總數(shù)據(jù)的特性的層次結(jié)構(gòu)

緩慢變化維

在實際情況下,維度的屬性并不是靜態(tài)的,它會隨著時間的流失發(fā)生緩慢的變化。處理方法:

1.新信息直接覆蓋舊信息

2.保存多條記錄,并添加字段加以區(qū)分(用y,n;0,1,2或用時間來區(qū)別新舊記錄)

3.保存多條記錄,并添加字段加以區(qū)分

4.另外建表保存歷史記錄.

5.混合模式

退化維

一般來說事實表中的外鍵都對應(yīng)一個維表,維的信息主要存放在維表中。但是退化維僅僅是事實表中的一列,這個維的相關(guān)信息都在這一列中,沒有維表與之相關(guān)聯(lián)。比如:發(fā)票號,序列號等等。

那么退化維有什么作用呢?

1.退化維具有普通維的各種操作,比如:上卷,切片,切塊等

2.(上卷匯總,下鉆明細;切片,切塊:對二維數(shù)據(jù)進行切片,三維數(shù)據(jù)進行切塊,,可得到所需要的數(shù)據(jù))

3.如果存在退化維,那么在ETL的過程將會變得容易。它可以讓group by等操作變得更快

粒度:(granularity)

是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別,細化程度越高,粒度就越小。

鉆取:

首先從某一個匯總數(shù)據(jù)出發(fā),查看組成該數(shù)據(jù)的各個成員數(shù)據(jù)。

星形模型與雪花模型的區(qū)別?

1.星星的中心是一個大的事實表,發(fā)散出來的是維度表,每一個維度表用一個PK-FK連接到事實表,維度表之間彼此并不關(guān)聯(lián)。一個事實表又包括一些度量值和維度。

2.雪花模型通過規(guī)范維度表來減少冗余度,也就是說,維度表數(shù)據(jù)已經(jīng)被分組成一個個的表而不是使用一個大表。例如產(chǎn)品表被分成了產(chǎn)品大類和產(chǎn)品小類兩個表。盡管這樣做可以節(jié)省了空間,但是卻增加了維度表的數(shù)量和關(guān)聯(lián)的外鍵的個數(shù)。這就導(dǎo)致了更復(fù)雜的查詢并降低了數(shù)據(jù)庫的效率

維度建模(dimensional modeling):

是數(shù)據(jù)倉庫建設(shè)中的一種數(shù)據(jù)建模方法。按照事實表,維表來構(gòu)建數(shù)據(jù)倉庫,數(shù)據(jù)集市。這種方法最被人廣泛知曉的名字就是星型模式(Star-schema)。

什么叫查找表,為什么使用替代鍵?(其實目的和上面一樣,從基礎(chǔ)表到緩慢維度表的過程中的一種實現(xiàn)途徑)

替代鍵(alternate key)可以是數(shù)據(jù)表內(nèi)不作為主鍵的其他任何列,只要該鍵對該數(shù)據(jù)表唯一即可。換句話說,在唯一列內(nèi)不允許出現(xiàn)數(shù)據(jù)重復(fù)的現(xiàn)象。

數(shù)據(jù)倉庫項目最重要或需要注意的是什么,以及如何處理?

數(shù)據(jù)質(zhì)量,主要是數(shù)據(jù)源數(shù)據(jù)質(zhì)量分析,數(shù)據(jù)清洗轉(zhuǎn)換,當然也可以定量分析

數(shù)據(jù)倉庫有兩個重要目的,一是數(shù)據(jù)集成,二是服務(wù)BI

數(shù)據(jù)準確性是數(shù)據(jù)倉庫的基本要求,而效率是項目事實的前提,數(shù)據(jù)質(zhì)量、運行效率和擴展性是數(shù)據(jù)倉庫項目設(shè)計、實施高明與否的三大標志;

代理鍵:

在關(guān)系型數(shù)據(jù)庫設(shè)計中,是在當資料表中的候選鍵都不適合當主鍵時,例如資料太長,或是意義層面太多,就會用一個attribute來當代理主鍵,此主鍵可能是用流水號,來代替可辨識唯一值的主鍵

在數(shù)據(jù)倉庫領(lǐng)域有一個概念叫Surrogate key,中文一般翻譯為“代理關(guān)鍵字”。代理關(guān)鍵字一般是指維度表中使用順序分配的整數(shù)值作為主鍵,也稱為“代理鍵”。代理關(guān)鍵字用于維度表和事實表的連接??梢员苊馔ㄟ^主鍵的值就可以了解一些業(yè)務(wù)信息。

另一種來源:

1. (Dimension)

維度是用來反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個維度。如、地理位置或產(chǎn)品,

2.粒度

粒度將直接決定所構(gòu)建倉庫能夠提供決策支持的細節(jié)級別。粒度越高表示倉庫中的較粗,反之,較細。粒度是與具體指標相關(guān)的,具體表現(xiàn)在描述此指標的某些可分層次維的維值上。例如,時間維度,時間可以分成年、季、月、周、日等。

3. 指標(Measure)

指標也稱關(guān)鍵性能指標、事實或關(guān)鍵事務(wù)指標,是沿維度衡量商務(wù)信息的。每一個指標代表了業(yè)務(wù)對象所固有的一個可供分析的屬性。指標是典型的數(shù)量、容量或?qū)⑼ㄟ^同標準的比較查明的款項。這些數(shù)據(jù)點可用于商務(wù)性能的定量的比較。

4. 指標組(Relation Measures)

實際上每一組用于分析的業(yè)務(wù)對象會有若干相互關(guān)聯(lián)的指標,如營業(yè)額、納稅額。這些指標之間存在計算關(guān)系,往往是作為一個整體用于分析的,這個整體稱之為指標組。

5. 元數(shù)據(jù)(Metadata)

關(guān)于數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)用于描述中的數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和。

6. 元(Metadata Repository)

一種提供數(shù)據(jù)詳細情況的詞典。這些詳細的信息包括數(shù)據(jù)源的目錄和它們相關(guān)的標準。該數(shù)據(jù)目錄描述的是數(shù)據(jù)捕捉和數(shù)據(jù)兩種環(huán)境中可用的數(shù)據(jù)。該目錄還應(yīng)說明數(shù)據(jù)最后一次更新的時間和計劃將要更新的時間—最起碼,要說明數(shù)據(jù)維護的調(diào)度。數(shù)據(jù)目錄還應(yīng)說明數(shù)據(jù)的物理屬性;也就是說,數(shù)據(jù)是如何存儲的。數(shù)據(jù)目錄幫助數(shù)據(jù)弄清楚“從哪里”可獲得“什么樣”的數(shù)據(jù)。

7. 中央數(shù)據(jù)庫(Center Database)

數(shù)據(jù)倉庫中用于存儲原始數(shù)據(jù)的存儲介質(zhì)。此處的原始數(shù)據(jù)指從業(yè)務(wù)系統(tǒng)中采集后經(jīng)過清洗、轉(zhuǎn)換的數(shù)據(jù)。

8. 指標數(shù)據(jù)庫(Indicator Databases)

數(shù)據(jù)倉庫中用于存放指標數(shù)據(jù)的存儲介質(zhì)。指標數(shù)據(jù)庫根據(jù)數(shù)據(jù)倉庫系統(tǒng)的使用對象劃分,通常分成多個。

9. 星形圖(Star-Schema)

是數(shù)據(jù)倉庫應(yīng)用程序的最佳模式。它的命名是因其在物理上表現(xiàn)為中心實體,典型內(nèi)容包括指標數(shù)據(jù)、輻射數(shù)據(jù),通常是有助于瀏覽和聚集指標數(shù)據(jù)的維度。星形圖得到的結(jié)果常常是查詢式數(shù)據(jù)結(jié)構(gòu),能夠為快速響應(yīng)用戶的查詢要求提供最優(yōu)的數(shù)據(jù)結(jié)構(gòu)。星形圖還常常產(chǎn)生一種包含維度數(shù)據(jù)和指標數(shù)據(jù)的兩層模型。

10.雪花圖(Snowflake-Schema)

指一種擴展的星形圖。星形圖通常生成一個兩層結(jié)構(gòu),即只有維度和指標,雪花圖生成了附加層。實際數(shù)據(jù)倉庫系統(tǒng)建設(shè)過程中,通常只擴展三層:維度(維度實體)、指標(指標實體)和相關(guān)的描述數(shù)據(jù)(類目細節(jié)實體)超過三層的雪花圖模型在數(shù)據(jù)倉庫系統(tǒng)中應(yīng)該避免。因為它們開始像更傾向于支持OLTP 應(yīng)用程序的規(guī)格化結(jié)構(gòu),而不是為數(shù)據(jù)倉庫和OLAP應(yīng)用程序而優(yōu)化的非格式化結(jié)構(gòu)。

責(zé)任編輯:武曉燕 來源: 中國統(tǒng)計網(wǎng)
相關(guān)推薦

2018-07-24 09:28:18

存儲數(shù)據(jù)倉庫

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉庫分層

2009-01-18 15:48:31

數(shù)據(jù)倉庫數(shù)據(jù)存儲OLTP

2021-04-16 10:21:50

數(shù)據(jù)庫數(shù)據(jù)湖數(shù)據(jù)

2021-10-27 11:33:31

數(shù)據(jù)倉庫架構(gòu)

2022-02-18 09:02:04

數(shù)據(jù)倉庫治理

2018-07-13 16:10:21

數(shù)據(jù)倉庫數(shù)據(jù)存儲

2019-06-06 14:08:37

數(shù)據(jù)倉庫數(shù)據(jù)分析數(shù)據(jù)報表

2018-03-15 08:50:46

Hive-數(shù)據(jù)存儲

2021-09-01 10:03:44

數(shù)據(jù)倉庫云數(shù)據(jù)倉庫數(shù)據(jù)庫

2013-03-20 16:23:53

數(shù)據(jù)清洗

2021-11-30 08:11:19

數(shù)據(jù)倉庫經(jīng)驗

2022-11-29 17:16:57

2022-05-11 08:00:00

Lakehouse存儲數(shù)據(jù)湖

2017-06-27 10:08:29

數(shù)據(jù)倉庫模型

2024-09-05 16:08:52

2017-02-28 09:21:56

HadoopHive數(shù)據(jù)倉庫

2023-08-14 16:56:53

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2021-05-27 09:22:41

云計算數(shù)據(jù)科技
點贊
收藏

51CTO技術(shù)棧公眾號