自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)湖存儲方案Lakehouse帶來數(shù)據(jù)倉庫架構(gòu)的提升

譯文 精選
存儲 存儲架構(gòu)
本文將從概念上向您重點(diǎn)介紹如何改進(jìn)當(dāng)前的數(shù)據(jù)湖平臺,并最終將其變成Lakehouse,以增強(qiáng)架構(gòu)模式,進(jìn)而改造傳統(tǒng)的數(shù)據(jù)倉庫。

眾所周知,數(shù)據(jù)倉庫的初始架構(gòu)旨在通過把來自各種異構(gòu)數(shù)據(jù)源的數(shù)據(jù),收集到集中式的存儲庫中,以提供分析的見解,并充當(dāng)決策支持和商業(yè)智能(business intelligence,BI)的支點(diǎn)。不過,由于它只能支持寫入時模式(schema-on-write),而無法存儲非結(jié)構(gòu)化的數(shù)據(jù)、不能與計(jì)算緊密集成、以及只能實(shí)現(xiàn)本地設(shè)備存儲,因此近年來,數(shù)據(jù)倉庫碰到了諸如數(shù)據(jù)模型設(shè)計(jì)耗時過長等各種挑戰(zhàn)。

盡管目前的數(shù)據(jù)倉庫能夠支持以在線分析處理(OLAP)服務(wù)器作為中間層的三層架構(gòu),但是它仍然屬于一種被用于機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的整合平臺。此類平臺雖然具有元數(shù)據(jù)層、緩存層和索引層,但是這些層次并非單獨(dú)存在。下面,我將向您重點(diǎn)介紹如何改進(jìn)當(dāng)前的數(shù)據(jù)湖平臺,并最終將其變成Lakehouse,以增強(qiáng)架構(gòu)模式,進(jìn)而改造傳統(tǒng)的數(shù)據(jù)倉庫。

傳統(tǒng)數(shù)據(jù)倉庫平臺的架構(gòu)

HDFS

上圖展示了傳統(tǒng)數(shù)據(jù)倉庫平臺的邏輯架構(gòu)。近年來,隨著音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)集的快速增長,許多組織和企業(yè)都在尋找和探索某種高級的替代產(chǎn)品,以解決與傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)相關(guān)的復(fù)雜性問題(正如本文開頭所提到的各種痛點(diǎn))。目前,業(yè)界常用的是于2006年面世的Apache Hadoop生態(tài)系統(tǒng)。通過利用HDFS(Hadoop分布式文件系統(tǒng)),它解決了在被加載到傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)之前,將原始數(shù)據(jù)提取并轉(zhuǎn)換為結(jié)構(gòu)化格式(即:行和列的形式)的主要瓶頸問題。

HDFS不但能夠處理在商用硬件上運(yùn)行的大型數(shù)據(jù)集,而且可以適應(yīng)通常具有GB和TB體量的數(shù)據(jù)集應(yīng)用程序。此外,它還可以通過在集群上添加新的節(jié)點(diǎn),來進(jìn)行水平擴(kuò)展,以適應(yīng)海量的數(shù)據(jù),而無需考慮任何數(shù)據(jù)格式的需求。你可以通過鏈接—https://dataview.in/installation-of-apache-hadoop-3-2-0/,來進(jìn)一步了解如何在多節(jié)點(diǎn)集群上安裝和配置Apache Hadoop。

Hadoop生態(tài)系統(tǒng)(Apache Hive)的另一個優(yōu)勢在于,它支持讀取時模式(schema-on-read)。由于傳統(tǒng)數(shù)據(jù)倉庫具有嚴(yán)格的寫入時模式原則,因此ETL(Extract-Transform-Load的縮寫)步驟在遵守已設(shè)計(jì)好的表空間時,非常耗費(fèi)時間。而通過一行語句,我們可以將數(shù)據(jù)湖定義為一個存儲庫,以存儲大量原始數(shù)據(jù)的原生格式(包括:結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化等),以用于后續(xù)分析,預(yù)測分析,通過執(zhí)行機(jī)器學(xué)習(xí)代碼與APP,來構(gòu)建算法等大數(shù)據(jù)處理操作。

數(shù)據(jù)湖架構(gòu)

如上圖所示,由于沒有適合的數(shù)據(jù)模式,因此數(shù)據(jù)湖在加載之前不需要進(jìn)行任何數(shù)據(jù)轉(zhuǎn)換,那么如何保持?jǐn)?shù)據(jù)質(zhì)量便成了一個大問題。數(shù)據(jù)湖并沒有完全具備解決數(shù)據(jù)治理和安全相關(guān)問題的能力。因此,機(jī)器學(xué)習(xí)(ML)以及數(shù)據(jù)科學(xué)的應(yīng)用,需要使用非SQL代碼,來處理海量的數(shù)據(jù),以便成功地部署和運(yùn)行在數(shù)據(jù)湖上。但是與SQL引擎相比,由于缺乏已優(yōu)化的處理引擎,因此數(shù)據(jù)湖往往無法很好地服務(wù)此類應(yīng)用。而且,僅靠這些引擎,是不足以解決數(shù)據(jù)湖的所有問題,甚至取代數(shù)據(jù)倉庫的。此外,數(shù)據(jù)湖中仍然缺少諸如ACID(原子性,atomicity;一致性,consistency;隔離性,isolation;持久性durability)屬性等功能、以及索引等高效的訪問方法。據(jù)此,構(gòu)建在它上面的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)等應(yīng)用,也會遇到例如數(shù)據(jù)質(zhì)量、一致性和隔離性等數(shù)據(jù)管理問題。因此,數(shù)據(jù)湖需要額外的工具和技術(shù),來支持SQL查詢,以便執(zhí)行各種商業(yè)智能和報(bào)告。

Lakehouse

借助著S3、HDFS、Azure Blob等數(shù)據(jù)湖的處理能力,Lakehouse結(jié)合了數(shù)據(jù)湖的低成本存儲優(yōu)勢,以開放的格式為各種系統(tǒng)提供訪問,并凸顯了數(shù)據(jù)倉庫強(qiáng)大的管理和優(yōu)化功能。目前,??Databricks???和??AWS??都相繼引入了數(shù)據(jù)Lakehouse的概念。

數(shù)據(jù)Lakehouse架構(gòu)的多層架構(gòu)

Lakehouse能夠提高各種高級分析負(fù)載的速度,并為其提供更好的數(shù)據(jù)管理功能。如上圖所示,Lakehouse通常分為五層,它們分別是攝取層、存儲層、元數(shù)據(jù)層、API 層、以及最后的消費(fèi)層。

  • 攝取層是Lakehouse的第一層,負(fù)責(zé)從各種來源提取數(shù)據(jù),并將其傳送到存儲層。該層可以使用各種組件來攝取數(shù)據(jù)。其中包括:用于從IoT設(shè)備處流式傳輸數(shù)據(jù)的Apache Kafka、用于從關(guān)系數(shù)據(jù)庫管理系統(tǒng)(Relational Database Management System,RDBMS)處導(dǎo)入數(shù)據(jù)的Apache Sqoop、以及支持批量數(shù)據(jù)處理的更多組件。
  • 由于計(jì)算層和存儲層得到了分離,因此數(shù)據(jù)Lakehouse最適合云存儲庫服務(wù)。它可以利用HDFS平臺在本地得以實(shí)施。在設(shè)計(jì)上,Lakehouse允許開發(fā)者將各種數(shù)據(jù)保存在諸如AWS S3等低成本對象的存儲中,并作為使用標(biāo)準(zhǔn)文件格式(例如Apache Parquet)的對象。
  • Lakehouse中的元數(shù)據(jù)層負(fù)責(zé)為湖存儲(lake storage)中的所有對象提供元數(shù)據(jù)(即,提供有關(guān)其他數(shù)據(jù)片段信息的數(shù)據(jù))。此外,它還可以管理如下方面:
  1. 確保并發(fā)各項(xiàng)ACID事務(wù)
  2. 使用更快的存儲設(shè)備(如,處理節(jié)點(diǎn)上的SSD和RAM)緩存來自云服務(wù)對象所存儲的文件
  3. 通過索引,以加快查詢的速度
  • Lakehouses中的API層提供了兩種類型的API:聲明性DataFrame API和SQL API。在DataFrame API的幫助下,數(shù)據(jù)科學(xué)家可以直接使用數(shù)據(jù),來執(zhí)行他們的各種應(yīng)用。例如,TensorFlow和Spark MLlib等機(jī)器學(xué)習(xí)代碼庫,可以讀取Parquet等開放的文件格式,并直接查詢元數(shù)據(jù)層。而SQL API可以用于為組合業(yè)務(wù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等商業(yè)智能、以及各種報(bào)告類工具,獲取數(shù)據(jù)。
  • 最后,消費(fèi)層包含了諸如Power BI、Tableau等各種工具和應(yīng)用。整個企業(yè)的所有用戶都可以使Lakehouse的消費(fèi)層,來執(zhí)行各種分析任務(wù)。其中包括:商業(yè)智能化儀表板、數(shù)據(jù)可視化、SQL查詢、以及機(jī)器學(xué)習(xí)作業(yè)等。

此外,Lakehouse架構(gòu)也最適合在組織內(nèi)部,為各種數(shù)據(jù)提供單點(diǎn)式訪問。

小結(jié)

Lakehouse架構(gòu)是應(yīng)對數(shù)據(jù)提純的復(fù)雜性、查詢的兼容性、熱數(shù)據(jù)的緩存等需求產(chǎn)生的。目前,該單體架構(gòu)尚處于初級階段。但是,在不久的將來,Lakehouse作為一種數(shù)據(jù)工具,將能夠?qū)崿F(xiàn)數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)使用指標(biāo)、數(shù)據(jù)治理等更加豐富的功能。

原文標(biāo)題:??The Lakehouse: An Uplift of Data Warehouse Architecture??,作者:Gautam Goswami


責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2024-09-05 16:08:52

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2022-11-29 17:16:57

2023-12-01 14:55:32

數(shù)據(jù)網(wǎng)格數(shù)據(jù)湖

2023-12-13 07:26:24

數(shù)據(jù)湖倉數(shù)據(jù)倉庫性能

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2017-01-22 15:43:47

數(shù)據(jù)架構(gòu)演進(jìn)

2009-01-18 15:48:31

數(shù)據(jù)倉庫數(shù)據(jù)存儲OLTP

2020-12-02 17:20:58

數(shù)據(jù)倉庫阿里云數(shù)據(jù)湖

2018-07-24 09:28:18

存儲數(shù)據(jù)倉庫

2021-03-31 10:16:00

架構(gòu)運(yùn)維技術(shù)

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2020-10-20 18:59:40

數(shù)據(jù)湖數(shù)據(jù)倉庫采集

2022-10-21 16:38:57

數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)庫

2018-03-20 09:36:57

數(shù)據(jù)倉庫數(shù)據(jù)存儲知識

2023-11-27 16:35:28

數(shù)據(jù)湖數(shù)據(jù)倉庫

2021-06-07 10:45:16

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2024-11-13 08:43:47

2020-01-08 21:53:06

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2018-03-15 08:50:46

Hive-數(shù)據(jù)存儲
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號