自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)于數(shù)據(jù)倉庫以及云數(shù)據(jù)倉庫的那些事兒!

數(shù)據(jù)庫 其他數(shù)據(jù)庫 數(shù)據(jù)倉庫 數(shù)據(jù)倉庫
幾乎所有投資者都看好數(shù)據(jù)庫上云趨勢,就在云數(shù)據(jù)庫、云原生數(shù)據(jù)庫呼聲高漲的同時,云數(shù)倉成為一個新的賽道,開始走入大眾眼簾。

這兩年,大量資本涌入數(shù)據(jù)庫市場,導致數(shù)據(jù)庫市場競爭更加白熱化。幾乎所有投資者都看好數(shù)據(jù)庫上云趨勢,就在云數(shù)據(jù)庫、云原生數(shù)據(jù)庫呼聲高漲的同時,云數(shù)倉成為一個新的賽道,開始走入大眾眼簾。只是,在分析什么是云數(shù)倉、云數(shù)倉為什么火爆之前,我們必要先來了解下數(shù)據(jù)倉庫的定義。

[[420890]]

什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫和商業(yè)智能是一回事嗎?

數(shù)據(jù)庫通常被分為關(guān)系型數(shù)據(jù)庫(SQL)或者非關(guān)系型數(shù)據(jù)庫 (NoSQL),以及聯(lián)機事務(wù)處理(OLTP)和交易型、聯(lián)機分析處理(OLAP),還有混合型業(yè)務(wù)處理 (HTAP)。另外,除了這些常見的數(shù)據(jù)庫類型,專有數(shù)據(jù)庫也對業(yè)務(wù)提升帶了極大改進,只是隨著數(shù)據(jù)庫技術(shù)的發(fā)展,專有數(shù)據(jù)庫成了“數(shù)據(jù)孤島”的代名詞。

之后,一些聰明的企業(yè)開始嘗試,將不同數(shù)據(jù)源的數(shù)據(jù)匯聚在一起,這些將保持著原格式的數(shù)據(jù)存儲起來的方式叫做數(shù)據(jù)湖;而按照通用格式或者經(jīng)過加工與集成的數(shù)據(jù),則被歸為數(shù)據(jù)倉庫。不同的數(shù)據(jù)倉庫獲取數(shù)據(jù)的方式不同,比如有的直接從操作型環(huán)境中獲取數(shù)據(jù),有的則從企業(yè)級數(shù)據(jù)倉庫中獲取數(shù)據(jù),這些滿足不同場景需要的數(shù)據(jù)倉庫,又叫數(shù)據(jù)集市。換言之,數(shù)據(jù)集市是數(shù)據(jù)倉庫的子集。

從本質(zhì)上講,數(shù)據(jù)倉庫是一個分析型數(shù)據(jù)庫,通常是關(guān)系型數(shù)據(jù)庫,它由兩個或多個數(shù)據(jù)源創(chuàng)建,通??梢源鎯哂?PB 級以上規(guī)模的歷史數(shù)據(jù),然后憑借大量的計算和內(nèi)存資源來運行復(fù)雜的查詢操作,最后生成數(shù)據(jù)報告。另外,數(shù)據(jù)倉庫也是商業(yè)智能 (BI) 系統(tǒng)和機器學習獲得直接數(shù)據(jù)源的唯一路徑。

為什么說數(shù)據(jù)倉庫特別重要?

企業(yè)之所以使用數(shù)據(jù)倉庫,是因為在OLTP中,索引的創(chuàng)建和使用受到個數(shù)和數(shù)據(jù)類型的限制,并且當數(shù)值接近峰值或者數(shù)據(jù)類型不符合規(guī)范時,會減慢用戶的數(shù)據(jù)分析和查詢速度。但是,如果把數(shù)據(jù)放在數(shù)據(jù)倉庫中,用戶就可以自定義主題,根據(jù)需要進行數(shù)據(jù)分析和查詢;同時,在數(shù)據(jù)倉庫中使用數(shù)據(jù),不會影響到OLTP 數(shù)據(jù)庫的寫入性能。

最重要的是,企業(yè)構(gòu)建數(shù)據(jù)倉庫除了能提升數(shù)據(jù)處理速度,還能對多源數(shù)據(jù)進行分析。比如:一名銷售,在使用OLTP支撐的相關(guān)應(yīng)用時,只能用來處理具體事務(wù),但是不會看到銷售所在地的天氣,但是銷售又想擁有天氣預(yù)測功能,怎么辦呢?如果將所有和天氣相關(guān)的數(shù)據(jù)添加到數(shù)據(jù)倉庫,銷售就可以利用數(shù)據(jù)模型來判斷當?shù)氐奶鞖馇闆r。

數(shù)據(jù)倉庫與數(shù)據(jù)湖是什么關(guān)系?

數(shù)據(jù)倉庫之所以與數(shù)據(jù)湖不同,除了數(shù)據(jù)存儲的格式有區(qū)別,數(shù)據(jù)的“讀取模式”也不一樣。數(shù)據(jù)湖是讀模式,很多數(shù)據(jù)都以易于讀取的格式存儲;而數(shù)據(jù)倉庫是“寫入模式”,能支持各種數(shù)據(jù)類型的存儲,并且在索引查詢和各種數(shù)據(jù)關(guān)系的處理上更方便、快捷。

這種“讀取模式”適用于來自多個聚合根(不同上下文)的數(shù)據(jù)讀取,避免出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象,但有一個弊端是,很多數(shù)據(jù)會變成死數(shù)據(jù),應(yīng)用不會被使用,大量占據(jù)存儲資源。“寫入模式”適用于具有特定目的的數(shù)據(jù),并且所使用數(shù)據(jù)必須與其他來源的數(shù)據(jù)正確關(guān)聯(lián)。但有時會因為錯誤的數(shù)據(jù)格式而被丟棄,導致有價值的數(shù)據(jù)沒有被使用。

主流的數(shù)據(jù)倉庫架構(gòu)有哪些?

通常,數(shù)據(jù)倉庫架構(gòu)分為三層,包括:源數(shù)據(jù)、數(shù)據(jù)倉庫和數(shù)據(jù)應(yīng)用。

  • 源數(shù)據(jù)層包括來自銷售、營銷和其他業(yè)務(wù)部門的運營數(shù)據(jù),還可能包括社交媒體和外部數(shù)據(jù),例如:人口調(diào)查和統(tǒng)計數(shù)據(jù)。

臨時數(shù)據(jù)庫,是指從數(shù)據(jù)源檢索到的數(shù)據(jù),屬于臨時存儲區(qū)域,為下一步的數(shù)據(jù)處理做準備。比如:如果來源是非結(jié)構(gòu)化的,例如:社交媒體文本,需要通過質(zhì)量檢驗,刪除質(zhì)量差的數(shù)據(jù)。

  • 數(shù)據(jù)倉庫層,也稱為細節(jié)層,所有數(shù)據(jù)是一致、準確、干凈的數(shù)據(jù),對源數(shù)據(jù)進行了清洗,去除了雜質(zhì)。
  • 數(shù)據(jù)應(yīng)用層,是從前端應(yīng)用直接讀取的數(shù)據(jù)源,是指根據(jù)報表直接生成或者按主題需求計算出來的數(shù)據(jù)。

數(shù)據(jù)倉庫獲取數(shù)據(jù)以及在倉庫中實現(xiàn)的轉(zhuǎn)換和流動都可以認為是 ETL (提取、轉(zhuǎn)換和加載)過程,即指經(jīng)過清洗的數(shù)據(jù),通過 ETL 工具提取數(shù)據(jù),執(zhí)行任何所需的映射和轉(zhuǎn)換,并將數(shù)據(jù)加載到數(shù)據(jù)存儲層。而ELT (提取、加載和轉(zhuǎn)換)工具,則是指先存儲數(shù)據(jù),然后再進行轉(zhuǎn)換,使用 ELT 工具的好處是,數(shù)據(jù)跳過傳統(tǒng)的暫存層,直接進入數(shù)據(jù)湖。

什么是云數(shù)據(jù)倉庫?與本地數(shù)據(jù)倉庫相比有哪些區(qū)別?

隨著云計算的深化發(fā)展,企業(yè)應(yīng)用上云已成為主流趨勢,而數(shù)據(jù)庫上云則成為企業(yè)應(yīng)用上云的最后一步。眾所周知,云數(shù)據(jù)庫的概念,是指被優(yōu)化或部署到一個虛擬計算環(huán)境中的數(shù)據(jù)庫,可以實現(xiàn)按需付費、按需擴展、高可用性以及存儲整合等優(yōu)勢。而云數(shù)據(jù)倉庫和云數(shù)據(jù)庫的定義非常相似,也是指數(shù)據(jù)倉庫可以在本地、云中或混合環(huán)境中部署。

從過去實踐來看,數(shù)據(jù)倉庫都在本地部署,但本地數(shù)據(jù)中心以及服務(wù)器的可擴展性差,所以數(shù)據(jù)倉庫上云成為主流趨勢。只是,云數(shù)據(jù)倉庫也有一個挑戰(zhàn),那就是將PB 級數(shù)據(jù)全部遷移上云,涉及到計算、存儲和內(nèi)存等成本。另外,如何快速上云也是一個挑戰(zhàn)。當然,隨著市場的不斷發(fā)展,這些問題都不再是問題,現(xiàn)在已經(jīng)有超大規(guī)模的云服務(wù)提供商在提供大容量、基于磁盤的數(shù)據(jù)傳輸服務(wù)。

最后,到底選擇本地數(shù)據(jù)倉庫、云數(shù)據(jù)倉庫,還是選擇數(shù)據(jù)湖、數(shù)據(jù)集市,需要結(jié)合企業(yè)具體的數(shù)據(jù)量、增長速度等來確定,建議用戶先拿少量數(shù)據(jù)去測試,或者將部分數(shù)據(jù)托管在云上,等所有應(yīng)用和流程跑通,再把成熟的架構(gòu)向核心關(guān)鍵業(yè)務(wù)擴展。

 

 

責任編輯:趙寧寧 來源: IT168網(wǎng)站
相關(guān)推薦

2018-03-15 08:50:46

Hive-數(shù)據(jù)存儲

2022-07-28 13:47:30

云計算數(shù)據(jù)倉庫

2020-10-14 06:28:38

數(shù)據(jù)倉庫模型

2020-02-17 11:37:54

大數(shù)據(jù)數(shù)據(jù)倉庫技術(shù)

2022-06-24 09:38:43

數(shù)據(jù)庫大數(shù)據(jù)

2021-03-03 21:24:57

數(shù)據(jù)倉庫工具

2013-03-20 16:23:53

數(shù)據(jù)清洗

2017-07-21 08:54:12

云數(shù)據(jù)大數(shù)據(jù)Kubernetes

2019-09-26 10:56:04

云計算數(shù)據(jù)中心公共云

2013-10-25 09:14:30

Teradata數(shù)據(jù)倉庫服務(wù)

2021-01-21 11:44:20

云計算數(shù)據(jù)倉庫云數(shù)據(jù)倉庫

2021-03-31 10:16:00

架構(gòu)運維技術(shù)

2022-11-29 17:16:57

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉庫分層

2018-07-24 09:28:18

存儲數(shù)據(jù)倉庫

2019-05-24 11:51:18

BI數(shù)據(jù)倉庫數(shù)據(jù)分析

2009-01-18 15:48:31

數(shù)據(jù)倉庫數(shù)據(jù)存儲OLTP

2023-08-14 16:56:53

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2017-06-27 10:08:29

數(shù)據(jù)倉庫模型
點贊
收藏

51CTO技術(shù)棧公眾號