自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="okdvo"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)湖存儲方案Lakehouse帶來數(shù)據(jù)倉庫架構(gòu)的提升

作者：陳峻 2022-05-11 08:00:00

存儲存儲架構(gòu)

本文將從概念上向您重點(diǎn)介紹如何改進(jìn)當(dāng)前的數(shù)據(jù)湖平臺，并最終將其變成Lakehouse，以增強(qiáng)架構(gòu)模式，進(jìn)而改造傳統(tǒng)的數(shù)據(jù)倉庫。

眾所周知，數(shù)據(jù)倉庫的初始架構(gòu)旨在通過把來自各種異構(gòu)數(shù)據(jù)源的數(shù)據(jù)，收集到集中式的存儲庫中，以提供分析的見解，并充當(dāng)決策支持和商業(yè)智能(business intelligence，BI)的支點(diǎn)。不過，由于它只能支持寫入時模式(schema-on-write)，而無法存儲非結(jié)構(gòu)化的數(shù)據(jù)、不能與計(jì)算緊密集成、以及只能實(shí)現(xiàn)本地設(shè)備存儲，因此近年來，數(shù)據(jù)倉庫碰到了諸如數(shù)據(jù)模型設(shè)計(jì)耗時過長等各種挑戰(zhàn)。

盡管目前的數(shù)據(jù)倉庫能夠支持以在線分析處理(OLAP)服務(wù)器作為中間層的三層架構(gòu)，但是它仍然屬于一種被用于機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的整合平臺。此類平臺雖然具有元數(shù)據(jù)層、緩存層和索引層，但是這些層次并非單獨(dú)存在。下面，我將向您重點(diǎn)介紹如何改進(jìn)當(dāng)前的數(shù)據(jù)湖平臺，并最終將其變成Lakehouse，以增強(qiáng)架構(gòu)模式，進(jìn)而改造傳統(tǒng)的數(shù)據(jù)倉庫。

傳統(tǒng)數(shù)據(jù)倉庫平臺的架構(gòu)

HDFS

上圖展示了傳統(tǒng)數(shù)據(jù)倉庫平臺的邏輯架構(gòu)。近年來，隨著音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)集的快速增長，許多組織和企業(yè)都在尋找和探索某種高級的替代產(chǎn)品，以解決與傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)相關(guān)的復(fù)雜性問題(正如本文開頭所提到的各種痛點(diǎn))。目前，業(yè)界常用的是于2006年面世的Apache Hadoop生態(tài)系統(tǒng)。通過利用HDFS(Hadoop分布式文件系統(tǒng))，它解決了在被加載到傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)之前，將原始數(shù)據(jù)提取并轉(zhuǎn)換為結(jié)構(gòu)化格式(即：行和列的形式)的主要瓶頸問題。

HDFS不但能夠處理在商用硬件上運(yùn)行的大型數(shù)據(jù)集，而且可以適應(yīng)通常具有GB和TB體量的數(shù)據(jù)集應(yīng)用程序。此外，它還可以通過在集群上添加新的節(jié)點(diǎn)，來進(jìn)行水平擴(kuò)展，以適應(yīng)海量的數(shù)據(jù)，而無需考慮任何數(shù)據(jù)格式的需求。你可以通過鏈接—https://dataview.in/installation-of-apache-hadoop-3-2-0/，來進(jìn)一步了解如何在多節(jié)點(diǎn)集群上安裝和配置Apache Hadoop。

Hadoop生態(tài)系統(tǒng)(Apache Hive)的另一個優(yōu)勢在于，它支持讀取時模式(schema-on-read)。由于傳統(tǒng)數(shù)據(jù)倉庫具有嚴(yán)格的寫入時模式原則，因此ETL(Extract-Transform-Load的縮寫)步驟在遵守已設(shè)計(jì)好的表空間時，非常耗費(fèi)時間。而通過一行語句，我們可以將數(shù)據(jù)湖定義為一個存儲庫，以存儲大量原始數(shù)據(jù)的原生格式(包括：結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化等)，以用于后續(xù)分析，預(yù)測分析，通過執(zhí)行機(jī)器學(xué)習(xí)代碼與APP，來構(gòu)建算法等大數(shù)據(jù)處理操作。

數(shù)據(jù)湖架構(gòu)

如上圖所示，由于沒有適合的數(shù)據(jù)模式，因此數(shù)據(jù)湖在加載之前不需要進(jìn)行任何數(shù)據(jù)轉(zhuǎn)換，那么如何保持?jǐn)?shù)據(jù)質(zhì)量便成了一個大問題。數(shù)據(jù)湖并沒有完全具備解決數(shù)據(jù)治理和安全相關(guān)問題的能力。因此，機(jī)器學(xué)習(xí)(ML)以及數(shù)據(jù)科學(xué)的應(yīng)用，需要使用非SQL代碼，來處理海量的數(shù)據(jù)，以便成功地部署和運(yùn)行在數(shù)據(jù)湖上。但是與SQL引擎相比，由于缺乏已優(yōu)化的處理引擎，因此數(shù)據(jù)湖往往無法很好地服務(wù)此類應(yīng)用。而且，僅靠這些引擎，是不足以解決數(shù)據(jù)湖的所有問題，甚至取代數(shù)據(jù)倉庫的。此外，數(shù)據(jù)湖中仍然缺少諸如ACID(原子性，atomicity;一致性，consistency;隔離性，isolation;持久性durability)屬性等功能、以及索引等高效的訪問方法。據(jù)此，構(gòu)建在它上面的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)等應(yīng)用，也會遇到例如數(shù)據(jù)質(zhì)量、一致性和隔離性等數(shù)據(jù)管理問題。因此，數(shù)據(jù)湖需要額外的工具和技術(shù)，來支持SQL查詢，以便執(zhí)行各種商業(yè)智能和報(bào)告。

Lakehouse

借助著S3、HDFS、Azure Blob等數(shù)據(jù)湖的處理能力，Lakehouse結(jié)合了數(shù)據(jù)湖的低成本存儲優(yōu)勢，以開放的格式為各種系統(tǒng)提供訪問，并凸顯了數(shù)據(jù)倉庫強(qiáng)大的管理和優(yōu)化功能。目前，??Databricks???和??AWS??都相繼引入了數(shù)據(jù)Lakehouse的概念。

數(shù)據(jù)Lakehouse架構(gòu)的多層架構(gòu)

Lakehouse能夠提高各種高級分析負(fù)載的速度，并為其提供更好的數(shù)據(jù)管理功能。如上圖所示，Lakehouse通常分為五層，它們分別是攝取層、存儲層、元數(shù)據(jù)層、API 層、以及最后的消費(fèi)層。

攝取層是Lakehouse的第一層，負(fù)責(zé)從各種來源提取數(shù)據(jù)，并將其傳送到存儲層。該層可以使用各種組件來攝取數(shù)據(jù)。其中包括：用于從IoT設(shè)備處流式傳輸數(shù)據(jù)的Apache Kafka、用于從關(guān)系數(shù)據(jù)庫管理系統(tǒng)(Relational Database Management System，RDBMS)處導(dǎo)入數(shù)據(jù)的Apache Sqoop、以及支持批量數(shù)據(jù)處理的更多組件。
由于計(jì)算層和存儲層得到了分離，因此數(shù)據(jù)Lakehouse最適合云存儲庫服務(wù)。它可以利用HDFS平臺在本地得以實(shí)施。在設(shè)計(jì)上，Lakehouse允許開發(fā)者將各種數(shù)據(jù)保存在諸如AWS S3等低成本對象的存儲中，并作為使用標(biāo)準(zhǔn)文件格式(例如Apache Parquet)的對象。
Lakehouse中的元數(shù)據(jù)層負(fù)責(zé)為湖存儲(lake storage)中的所有對象提供元數(shù)據(jù)(即，提供有關(guān)其他數(shù)據(jù)片段信息的數(shù)據(jù))。此外，它還可以管理如下方面：

確保并發(fā)各項(xiàng)ACID事務(wù)
使用更快的存儲設(shè)備(如，處理節(jié)點(diǎn)上的SSD和RAM)緩存來自云服務(wù)對象所存儲的文件
通過索引，以加快查詢的速度

Lakehouses中的API層提供了兩種類型的API：聲明性DataFrame API和SQL API。在DataFrame API的幫助下，數(shù)據(jù)科學(xué)家可以直接使用數(shù)據(jù)，來執(zhí)行他們的各種應(yīng)用。例如，TensorFlow和Spark MLlib等機(jī)器學(xué)習(xí)代碼庫，可以讀取Parquet等開放的文件格式，并直接查詢元數(shù)據(jù)層。而SQL API可以用于為組合業(yè)務(wù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等商業(yè)智能、以及各種報(bào)告類工具，獲取數(shù)據(jù)。
最后，消費(fèi)層包含了諸如Power BI、Tableau等各種工具和應(yīng)用。整個企業(yè)的所有用戶都可以使Lakehouse的消費(fèi)層，來執(zhí)行各種分析任務(wù)。其中包括：商業(yè)智能化儀表板、數(shù)據(jù)可視化、SQL查詢、以及機(jī)器學(xué)習(xí)作業(yè)等。

此外，Lakehouse架構(gòu)也最適合在組織內(nèi)部，為各種數(shù)據(jù)提供單點(diǎn)式訪問。

小結(jié)

Lakehouse架構(gòu)是應(yīng)對數(shù)據(jù)提純的復(fù)雜性、查詢的兼容性、熱數(shù)據(jù)的緩存等需求產(chǎn)生的。目前，該單體架構(gòu)尚處于初級階段。但是，在不久的將來，Lakehouse作為一種數(shù)據(jù)工具，將能夠?qū)崿F(xiàn)數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)使用指標(biāo)、數(shù)據(jù)治理等更加豐富的功能。

原文標(biāo)題：??The Lakehouse: An Uplift of Data Warehouse Architecture??，作者：Gautam Goswami

責(zé)任編輯：華軒來源： 51CTO

Lakehouse 存儲數(shù)據(jù)湖

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營