自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有了數(shù)據(jù)湖,數(shù)據(jù)倉庫究竟能不能被取代?他們又有什么樣的區(qū)別呢?

大數(shù)據(jù) 數(shù)據(jù)湖 數(shù)據(jù)倉庫
數(shù)據(jù)湖是近兩年中比較新的技術在大數(shù)據(jù)領域中,對于一個真正的數(shù)據(jù)湖應該是什么樣子,現(xiàn)在對數(shù)據(jù)湖認知還是處在探索的階段,像現(xiàn)在代表的開源產(chǎn)品有iceberg、hudi、Delta Lake。

數(shù)據(jù)湖是近兩年中比較新的技術在大數(shù)據(jù)領域中,對于一個真正的數(shù)據(jù)湖應該是什么樣子,現(xiàn)在對數(shù)據(jù)湖認知還是處在探索的階段,像現(xiàn)在代表的開源產(chǎn)品有iceberg、hudi、Delta Lake。

那對于數(shù)據(jù)湖應該是什么樣子,先來看數(shù)據(jù)湖的作者AWS來說明數(shù)據(jù)湖是什么東西,比如下圖:

圖片

不懂數(shù)據(jù)的人也許會覺得數(shù)據(jù)湖很厲害,而懂數(shù)據(jù)的人也許會覺得僅是一堆數(shù)據(jù)倉庫技術的堆砌包裝而已,你看上面那張框架圖,哪個專業(yè)詞匯數(shù)據(jù)人士會不懂?憑什么數(shù)據(jù)湖被炒作成了一個新概念?

而對于數(shù)據(jù)湖的定義則是:

數(shù)據(jù)湖是一個集中式存儲庫,允許您以任意規(guī)模存儲所有結構化和非結構化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進行結構化處理),并運行不同類型的分析 – 從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學習,以指導做出更好的決策。

那么數(shù)據(jù)湖和我們早先的數(shù)據(jù)倉庫究竟有什么樣的區(qū)別呢:

數(shù)據(jù)倉庫是一個優(yōu)化的數(shù)據(jù)庫,用于分析來自事務系統(tǒng)和業(yè)務線應用程序的關系數(shù)據(jù)。事先定義數(shù)據(jù)結構和 Schema 以優(yōu)化快速 SQL 查詢,其中結果通常用于操作報告和分析。數(shù)據(jù)經(jīng)過了清理、豐富和轉換,因此可以充當用戶可信任的“單一信息源”。

數(shù)據(jù)湖有所不同,因為它存儲來自業(yè)務線應用程序的關系數(shù)據(jù),以及來自移動應用程序、IoT 設備和社交媒體的非關系數(shù)據(jù)。捕獲數(shù)據(jù)時,未定義數(shù)據(jù)結構或 Schema。這意味著您可以存儲所有數(shù)據(jù),而不需要精心設計也無需知道將來您可能需要哪些問題的答案。您可以對數(shù)據(jù)使用不同類型的分析(如 SQL 查詢、大數(shù)據(jù)分析、全文搜索、實時分析和機器學習)來獲得見解。

圖片

從介紹來看好像數(shù)據(jù)倉庫和數(shù)據(jù)湖的最主要的區(qū)別就是對結構化的數(shù)據(jù)和非結構化數(shù)據(jù)的存儲,但是真的僅僅是這樣嗎?

事實上,這種比較有較大邏輯漏洞:即是從結果出發(fā)來看差異,然后又用這個差異來說明區(qū)別,顛倒了因果。比如AWS的數(shù)據(jù)湖能夠處理非結構化數(shù)據(jù),而數(shù)據(jù)倉庫無法處理非結構化數(shù)據(jù),就認為這是數(shù)據(jù)湖與數(shù)據(jù)倉庫的本質區(qū)別之一。

下面的文章中將來探索數(shù)據(jù)湖和數(shù)據(jù)倉庫究竟有什么樣的區(qū)別,學習一個新的事物要一步步的發(fā)現(xiàn)這個事物的本質是什么。

圖片

數(shù)據(jù)倉庫和數(shù)據(jù)湖的處理流程可以用下圖來示意,其中用紅圈標出了5個對標的流程節(jié)點。

從圖中可以看出來數(shù)據(jù)湖并不比數(shù)據(jù)倉庫在處理流程上多出了什么內容,更多的在于結構性的變化,下面就從數(shù)據(jù)存儲、模型設計、加工工具、開發(fā)人員和消費人員五個方面來進行比較。

(1)數(shù)據(jù)存儲

數(shù)據(jù)倉庫采集、處理過程中存儲下來的數(shù)據(jù)一般是以結構化的形式存在的,即使原始數(shù)據(jù)是非結構化的,但這些非結構化數(shù)據(jù)也只是在源頭暫存一下,它通過結構化數(shù)據(jù)的形式進入數(shù)據(jù)倉庫,成了數(shù)據(jù)倉庫的基本存儲格式,這個跟數(shù)據(jù)倉庫的模型(維度或關系建模)都是建立在關系型數(shù)據(jù)基礎上的特點有關。

事實上,是傳統(tǒng)的數(shù)據(jù)建模負擔讓數(shù)據(jù)倉庫只處理結構化數(shù)據(jù),其實誰都沒規(guī)定過數(shù)據(jù)倉庫只處理和存儲結構化數(shù)據(jù)。

數(shù)據(jù)湖包羅萬象,輕裝上陣,結構化與非結構化數(shù)據(jù)都成為了數(shù)據(jù)湖本身的一部分,這體現(xiàn)了數(shù)據(jù)湖中“湖”這個概念。因為沒有數(shù)據(jù)倉庫建模的限制,當然什么東西都可以往里面扔,但這為其變成數(shù)據(jù)沼澤埋下了伏筆。

(2)模型設計

數(shù)據(jù)倉庫中所有的Schema(比如表結構)都是預先設計并生成好的,數(shù)據(jù)倉庫建設最重要的工作就是建模,其通過封裝好的、穩(wěn)定的模型對外提供有限的、標準化的數(shù)據(jù)服務,模型能否設計的高內聚、松耦合成了評估數(shù)據(jù)倉庫好壞的一個標準,就好比數(shù)據(jù)中臺非常強調數(shù)據(jù)服務的復用性一樣。

你會發(fā)現(xiàn),數(shù)據(jù)倉庫很像數(shù)據(jù)領域的計劃經(jīng)濟,所有的產(chǎn)品(模型)都是預先生成好的,模型可以變更,但相當緩慢。

數(shù)據(jù)湖的模型不是預先生成的,而是隨著每個應用的需要即時設計生成的,其更像是市場經(jīng)濟的產(chǎn)物,犧牲了復用性卻帶來了靈活性,這也是為什么數(shù)據(jù)湖的應用更多強調探索分析的原因。

(3)加工工具

數(shù)據(jù)倉庫的采集、處理工具一般是比較封閉的,很多采取代碼的方式暴力實現(xiàn),大多只向集中的專業(yè)開發(fā)人員開放,主要的目的是實現(xiàn)數(shù)據(jù)的統(tǒng)一采集和建模,它不為消費者(應用方)服務,也沒這個必要。

數(shù)據(jù)湖的采集和處理工具是完全開放的,因為第(2)點提到過:數(shù)據(jù)湖的模型是由應用即席設計生成的,意味著應用必須具備針對數(shù)據(jù)湖數(shù)據(jù)的直接ETL能力和加工能力才能完成定制化模型的建設,否則就沒有落地的可能,更無靈活性可言。

工具能否開放、體驗是否足夠好是數(shù)據(jù)湖能夠成功的一個前提,顯然傳統(tǒng)數(shù)據(jù)倉庫的一些采集和開發(fā)工具是不行的,它們往往不可能向普通大眾開放。

(4)開發(fā)人員

數(shù)據(jù)倉庫集中開發(fā)人員處理數(shù)據(jù)涵蓋了數(shù)據(jù)采集、存儲、加工等各個階段,其不僅要管理數(shù)據(jù)流,也要打造工具流。

由于數(shù)據(jù)流最終要為應用服務,因此其特別關注數(shù)據(jù)模型的質量,而工具流只要具備基本的功能、滿足性能要求就可以了,反正是數(shù)據(jù)倉庫團隊人員自己用,導致的后果是害苦了運營人員。

數(shù)據(jù)湖完全不一樣,集中開發(fā)人員在數(shù)據(jù)流階段只負責把原始數(shù)據(jù)扔到數(shù)據(jù)湖,更多的精力花在對工具流的改造上,因為這些工具是直接面向最終使用者的,假如不好用,數(shù)據(jù)湖就不能用了。

(5)應用人員

數(shù)據(jù)倉庫對于應用人員暴露的所有東西就是建好的數(shù)據(jù)模型,應用方的所有角色只能在數(shù)據(jù)倉庫限定好的數(shù)據(jù)模型范圍內倒騰,這在一定程度上限制了應用方的創(chuàng)新能力。比如原始數(shù)據(jù)有個字段很有價值,但數(shù)據(jù)倉庫集中開發(fā)人員卻把它過濾了。

這種問題在數(shù)據(jù)倉庫中很常見,很多取數(shù)人員只會取寬表,對于源端數(shù)據(jù)完全不清楚,所謂成也數(shù)據(jù)倉庫,敗也數(shù)據(jù)倉庫。

數(shù)據(jù)湖的應用方則可以利用數(shù)據(jù)湖提供的工具流接觸到最生鮮的原始數(shù)據(jù),涵蓋了從數(shù)據(jù)采集、抽取、存儲、加工的各個階段,其可以基于對業(yè)務的理解,壓榨出原始數(shù)據(jù)的最大價值。

可以看到,數(shù)據(jù)倉庫和數(shù)據(jù)湖,代表著兩種數(shù)據(jù)處理模式和服務模式,是數(shù)據(jù)技術領域的一次輪回。

早在ORACLE的DBLINK時代,我們就有了第一代的數(shù)據(jù)湖,因為那個時候ORACLE一統(tǒng)天下,ORALCE的DBLINK讓直接探索原始數(shù)據(jù)有了可能。

隨著數(shù)據(jù)量的增長和數(shù)據(jù)類型的不斷豐富,我們不得不搞出一種新的“數(shù)據(jù)庫”來集成各種數(shù)據(jù)。

但那個時候搞出的為什么是數(shù)據(jù)倉庫而不是數(shù)據(jù)湖呢?

主要還是應用驅動力的問題。

因為那個時候大家關注的是報表,而報表最核心的要求就是準確性和一致性,標準化、規(guī)范化的維度和關系建模正好適應了這一點,集中化的數(shù)據(jù)倉庫支撐模式就是一種變相的計劃經(jīng)濟。

隨著大數(shù)據(jù)時代到來和數(shù)字化的發(fā)展,很多企業(yè)發(fā)現(xiàn),原始數(shù)據(jù)的非結構化比例越來越高,前端應用響應的要求越來越高,海量數(shù)據(jù)挖掘的要求越來越對,報表取數(shù)已經(jīng)滿足不了數(shù)據(jù)驅動業(yè)務的要求了。

圖片

一方面企業(yè)需要深挖各種數(shù)據(jù),從展示數(shù)據(jù)為主(報表)逐步向挖掘數(shù)據(jù)(探索預測)轉變,另一方面企業(yè)也需要從按部就班的支撐模式向快速靈活的方向轉變,要求數(shù)據(jù)倉庫能夠開放更多的靈活性給應用方,這個時候數(shù)據(jù)倉庫就有點撐不住了。

數(shù)據(jù)湖就是在這種背景下誕生的。

其實早在數(shù)據(jù)湖出來之前,很多企業(yè)就在做類似數(shù)據(jù)湖的工作了,但是只不過大家更多的集中在數(shù)據(jù)倉庫結構化的數(shù)據(jù)處理中,對于非結構化的數(shù)據(jù)日志等更多的則是將其存儲起來,對于需要的時候再通過應用程序進行處理獲取到自己想要的結果,只不過是沒有系統(tǒng)化的處理而已。

ETL之所以不開放,主要是驅動力不夠,其實我們沒有那么多類型的數(shù)據(jù)要定制化抽取。

很多企業(yè)不搞可視化開發(fā)平臺也是容易理解的,報表就能活得很好,干嘛業(yè)務人員要自己開發(fā)和挖掘?,F(xiàn)在數(shù)據(jù)湖叫的歡的,大多是互聯(lián)網(wǎng)公司,比如亞馬遜,這是很正常的。

而最近比較新的概念湖倉一體,阿里提出的概念,下面這張圖來看一下:

圖片

何謂湖倉一體?

  1. 湖倉一體是一種新的數(shù)據(jù)管理模式,將數(shù)據(jù)倉庫和數(shù)據(jù)湖兩者之間的差異進行融合,并將數(shù)據(jù)倉庫構建在數(shù)據(jù)湖上,從而有效簡化了企業(yè)數(shù)據(jù)的基礎架構,提升數(shù)據(jù)存儲彈性和質量的同時還能降低成本,減小數(shù)據(jù)冗余。
  2. 湖和倉的數(shù)據(jù)/元數(shù)據(jù)無縫打通,互相補充,數(shù)據(jù)倉庫的模型反哺到數(shù)據(jù)湖(成為原始數(shù)據(jù)一部分),湖的結構化應用知識沉淀到數(shù)據(jù)倉庫。
  3. 湖倉一體架構主要的一點是實現(xiàn)“湖里”和“倉里”的數(shù)據(jù)能夠無縫打通,對數(shù)據(jù)倉庫的彈性和數(shù)據(jù)湖的靈活性進行有效集成,在該架構中,主要將數(shù)據(jù)湖作為中央存儲庫,將機器學習、數(shù)據(jù)倉庫、日志分析、大數(shù)據(jù)等技術進行整合,形成一套數(shù)據(jù)服務環(huán),更好地分析、整合數(shù)據(jù),讓數(shù)據(jù)倉庫和數(shù)據(jù)湖中的數(shù)據(jù)可以自由流動,用戶可以更便捷地調取其中的數(shù)據(jù),讓數(shù)據(jù)“入湖”、“出湖”更為便捷。
  4. 湖倉一體化,是將數(shù)據(jù)倉庫和數(shù)據(jù)湖的價值進行疊加,克服數(shù)據(jù)重力,讓數(shù)據(jù)在服務之間流動起來,減少重復建設,讓湖中的數(shù)據(jù)可以”流到“數(shù)據(jù)倉中,并能直接進行數(shù)據(jù)調用;而數(shù)據(jù)倉中的數(shù)據(jù)也可以保存于數(shù)據(jù)湖中,供未來數(shù)據(jù)挖掘使用。借助湖倉一體化,可快速處理數(shù)倉內的熱數(shù)據(jù)與數(shù)據(jù)湖中的歷史數(shù)據(jù),并生成豐富的數(shù)據(jù)集,但無需在執(zhí)行中做任何數(shù)據(jù)移動操作。

那數(shù)據(jù)湖究竟應該是什么樣子,需要在接下來的發(fā)展中獲取到答案,但是以目前來看,典型的組織都需要數(shù)據(jù)倉庫和數(shù)據(jù)湖,因為它們可滿足不同的需求和使用訴求。所以數(shù)據(jù)湖和數(shù)據(jù)倉庫的存在并不沖突,也并不是取代的關系,而是相互的融合關系。

責任編輯:華軒 來源: 數(shù)據(jù)治理體系
相關推薦

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2020-01-08 21:53:06

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2020-10-20 18:59:40

數(shù)據(jù)湖數(shù)據(jù)倉庫采集

2024-09-05 16:08:52

2022-11-29 17:16:57

2022-10-18 10:10:52

數(shù)據(jù)技術

2023-12-01 14:55:32

數(shù)據(jù)網(wǎng)格數(shù)據(jù)湖

2024-07-15 11:41:14

2023-12-13 07:26:24

數(shù)據(jù)湖倉數(shù)據(jù)倉庫性能

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2021-05-28 09:23:07

數(shù)據(jù)倉庫數(shù)據(jù)湖

2022-05-11 08:00:00

Lakehouse存儲數(shù)據(jù)湖

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2022-10-21 16:38:57

數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)庫

2022-08-09 11:12:02

數(shù)據(jù)倉庫數(shù)據(jù)挖掘數(shù)據(jù)集

2020-07-07 07:57:45

數(shù)據(jù)倉庫

2024-04-26 09:37:43

國產(chǎn)數(shù)據(jù)庫開發(fā)者

2023-11-27 16:35:28

數(shù)據(jù)湖數(shù)據(jù)倉庫

2011-08-09 16:08:53

數(shù)據(jù)庫連接

2009-01-19 14:22:58

OLTP數(shù)據(jù)倉庫區(qū)別
點贊
收藏

51CTO技術棧公眾號