自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

組織應(yīng)該采用數(shù)據(jù)湖的7個(gè)原因

譯文
數(shù)據(jù)庫 數(shù)據(jù)湖
數(shù)據(jù)倉庫長(zhǎng)期以來一直是管理大數(shù)據(jù)的標(biāo)準(zhǔn)方法,但是數(shù)據(jù)湖是否更適合組織的需要?其答案是肯定的。

[[391266]]

【51CTO.com快譯】數(shù)據(jù)倉庫長(zhǎng)期以來一直是管理大數(shù)據(jù)的標(biāo)準(zhǔn)方法,但是數(shù)據(jù)湖是否更適合組織的需要?其答案是肯定的。

隨著當(dāng)今數(shù)據(jù)的數(shù)量、速度和種類的不斷變化,人們開始意識(shí)到,并沒有一種能夠滿足組織所有數(shù)據(jù)需求的數(shù)據(jù)庫。與其相反,許多組織已經(jīng)轉(zhuǎn)向?yàn)樘囟ㄓ美蝽?xiàng)目選擇合適的數(shù)據(jù)存儲(chǔ)技術(shù)。數(shù)據(jù)分散存儲(chǔ)在不同數(shù)據(jù)存儲(chǔ)空間中給組織整合數(shù)據(jù)進(jìn)行分析帶來了挑戰(zhàn)。從歷史上看,唯一可行的解決方案是構(gòu)建數(shù)據(jù)倉庫,這可以從所有不同的數(shù)據(jù)源攝取數(shù)據(jù),在清理之后并將其合并在一起,最后以定義良好的結(jié)構(gòu)將這些數(shù)據(jù)加載到精煉的數(shù)據(jù)倉庫中。雖然這種方法并沒有什么問題,但是數(shù)據(jù)湖和數(shù)據(jù)倉庫的組合才是組織真正需要的解決方案。以下是組織為什么應(yīng)該采用數(shù)據(jù)湖的7個(gè)原因:

為什么要?jiǎng)?chuàng)建數(shù)據(jù)湖

1.為數(shù)據(jù)倉庫構(gòu)建暫存區(qū)

數(shù)據(jù)湖并不需要成為數(shù)據(jù)的最終存儲(chǔ)目的地。由于數(shù)據(jù)不斷流動(dòng)并改變其形式,現(xiàn)代數(shù)據(jù)平臺(tái)應(yīng)該便于數(shù)據(jù)的攝取和發(fā)現(xiàn),同時(shí)又要為分析需求提供完整而嚴(yán)格的結(jié)構(gòu)。常見的一個(gè)模式是數(shù)據(jù)湖充當(dāng)數(shù)據(jù)攝取的不可變層。任何內(nèi)容都不會(huì)從中刪除(可能只會(huì)被新版本覆蓋,或者出于合規(guī)性原因而刪除)。所有被攝取到數(shù)據(jù)平臺(tái)的原始數(shù)據(jù)都可以在數(shù)據(jù)湖中找到。這意味著組織仍然可以有ELT/ETL作業(yè)來轉(zhuǎn)換和清理數(shù)據(jù),然后將其接收到數(shù)據(jù)倉庫中,同時(shí)嚴(yán)格遵循Kimbol、Inmon或Data Vault方法。

組織無需在數(shù)據(jù)湖或數(shù)據(jù)倉庫之間進(jìn)行選擇,可以同時(shí)使用數(shù)據(jù)湖和不可更改的暫存區(qū),以及將數(shù)據(jù)倉庫用于商業(yè)智能的分析報(bào)告。人工智能廠商Databricks公司創(chuàng)造了“湖倉一體”(Data Lakehouse)這一術(shù)語,也就是在一個(gè)解決方案中將數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)點(diǎn)結(jié)合在一起。同樣,組織采用Snowflake之類的平臺(tái)將諸如S3之類的云存儲(chǔ)桶作為外部存儲(chǔ),從而有效地利用數(shù)據(jù)湖作為暫存區(qū)域。

最后,組織需要確定為其用例是選擇采用湖倉一體,還是數(shù)據(jù)湖與數(shù)據(jù)倉庫的組合。

研究發(fā)現(xiàn),越來越多的數(shù)據(jù)團(tuán)隊(duì)不再只是采用數(shù)據(jù)倉庫或數(shù)據(jù)湖,他們希望采用湖倉一體,這有著充分的理由。隨著更多用例的出現(xiàn)和涉及更多利益相關(guān)者,單一的解決方案難以滿足所有需求。

2.由于暫存區(qū)不可變,因此可以審核所有數(shù)據(jù)的日志,這些數(shù)據(jù)都被攝入到組織的數(shù)據(jù)生態(tài)系統(tǒng)中

審計(jì)跟蹤對(duì)于滿足合規(guī)性要求通常很重要。數(shù)據(jù)湖使收集元數(shù)據(jù)變得更容易,它可以了解用戶何時(shí)和從何處攝取數(shù)據(jù)。這不僅有助于合規(guī)性,而且有助于跟蹤數(shù)據(jù)所有權(quán)。

3.增加洞察價(jià)值的時(shí)間和數(shù)據(jù)價(jià)值

通過提供不可變的所有數(shù)據(jù)層,組織在獲取數(shù)據(jù)后立即向消費(fèi)者提供數(shù)據(jù)。通過提供原始數(shù)據(jù),組織將啟用探索性分析,而在不同的數(shù)據(jù)團(tuán)隊(duì)以不同的方式使用相同的數(shù)據(jù)集時(shí),這可能很難完成。通常情況下,不同的數(shù)據(jù)使用者可能需要基于相同原始數(shù)據(jù)的不同轉(zhuǎn)換。數(shù)據(jù)湖允許組織深入研究各種類型和形式的數(shù)據(jù),并決定哪些數(shù)據(jù)可能為組織產(chǎn)生見解。

4.用于實(shí)時(shí)和批處理分析的單一數(shù)據(jù)平臺(tái)

將實(shí)時(shí)數(shù)據(jù)攝取到數(shù)據(jù)倉庫中仍然是一個(gè)具有挑戰(zhàn)性的問題。即使市場(chǎng)上推出嘗試解決這一問題的工具,但在利用數(shù)據(jù)湖作為提取所有數(shù)據(jù)的不可變層時(shí),也可以輕松解決這一問題。例如,許多解決方案(例如Kinesis Data Streams或Apache Kafka)允許組織將S3存儲(chǔ)桶作為數(shù)據(jù)的接收器。

5.成本

隨著社交媒體、傳感器、日志和Web分析數(shù)據(jù)量的不斷增長(zhǎng),將所有數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉庫中的成本可能會(huì)變得越來越高昂。許多傳統(tǒng)的數(shù)據(jù)倉庫將存儲(chǔ)和處理緊密地結(jié)合在一起,使得數(shù)據(jù)倉庫的擴(kuò)展變得更加困難。

數(shù)據(jù)湖彼此獨(dú)立地?cái)U(kuò)展存儲(chǔ)和處理(查詢和API請(qǐng)求以檢索數(shù)據(jù))的規(guī)模,而一些云計(jì)算數(shù)據(jù)倉庫也支持這種范例。

6.便利性

通常情況下,采用數(shù)據(jù)倉庫解決方案要求組織管理基礎(chǔ)計(jì)算集群。云計(jì)算供應(yīng)商開始意識(shí)到這樣做的困難,并建立了完全托管或完全無服務(wù)器的數(shù)據(jù)存儲(chǔ)。

例如,將S3存儲(chǔ)桶與AWS Glue和Athena結(jié)合使用時(shí),組織的平臺(tái)仍然不需要采用服務(wù)器,并只需為其使用的內(nèi)容支付費(fèi)用。組織可以利用這個(gè)單一數(shù)據(jù)平臺(tái)執(zhí)行以下操作:

  • 檢索關(guān)系和非關(guān)系數(shù)據(jù)
  • 查詢歷史和實(shí)時(shí)數(shù)據(jù)
  • 檢查組織機(jī)器學(xué)習(xí)訓(xùn)練工作和服務(wù)機(jī)器學(xué)習(xí)模型
  • 攝取數(shù)據(jù)之后直接在應(yīng)用轉(zhuǎn)換之前查詢數(shù)據(jù)
  • 通過外部表合并來自數(shù)據(jù)湖和DWH表的數(shù)據(jù)(幾乎在所有DWH解決方案中都可用)
  • 與其他服務(wù)和分布式計(jì)算框架(例如Dask或Spark)集成

關(guān)于數(shù)據(jù)集成,在AWS云平臺(tái)上,組織可以利用:

  • 數(shù)據(jù)湖形成的通道管理
  • awswrangler(可在AWS上稱為Pandas的Python庫)
  • Quicksight(AWS BI工具)
  • Delta lake(由Databricks創(chuàng)建的開源平臺(tái))
  • lakeFS(數(shù)據(jù)的版本控制)
  • Upsolver(使用Kappa架構(gòu),例如數(shù)據(jù)流和批處理的數(shù)據(jù)攝取)
  • AWS Database Migration Service可以使組織將數(shù)據(jù)從RDS數(shù)據(jù)庫表(甚至整個(gè)架構(gòu))以增量方式導(dǎo)出到S3存儲(chǔ)桶文件中,這些文件可以使用AWS Glue使用Athena進(jìn)行查詢。

7.經(jīng)得起未來的考驗(yàn)

根據(jù)調(diào)查和統(tǒng)計(jì),通常存儲(chǔ)在數(shù)據(jù)倉庫中的數(shù)據(jù)中至少有三分之一幾乎從未使用過。組織需要攝取、清理和維護(hù)這樣的數(shù)據(jù)源,以便以后可能需要它們。這意味著數(shù)據(jù)工程師將要花費(fèi)大量時(shí)間和精力來構(gòu)建和維護(hù)可能還沒有明確業(yè)務(wù)需求的數(shù)據(jù)。

ELT范例使組織可以通過只針對(duì)實(shí)際需要的用例構(gòu)建數(shù)據(jù)管道來節(jié)省時(shí)間,同時(shí)將所有數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)湖中以備將來可能的用例使用。如果在將來出現(xiàn)特定的業(yè)務(wù)問題,則可能會(huì)找到答案,因?yàn)閿?shù)據(jù)已經(jīng)存在。但是組織不必花時(shí)間清理和維護(hù)數(shù)據(jù)管道,以解決尚無明確業(yè)務(wù)用例的問題。

數(shù)據(jù)湖和云計(jì)算數(shù)據(jù)平臺(tái)能夠經(jīng)得起未來考驗(yàn)的另一個(gè)原因是,如果組織的業(yè)務(wù)增長(zhǎng)迅速,則其平臺(tái)將具備快速擴(kuò)展的能力。組織不需要采用成本高昂的遷移方案即可轉(zhuǎn)換到更大或更小的數(shù)據(jù)庫來適應(yīng)其規(guī)模的增減。

無論組織選擇哪一種方法,組織的云數(shù)據(jù)平臺(tái)都應(yīng)允許其無限制地增長(zhǎng)數(shù)據(jù)資產(chǎn)。

用例演示:AWS上具有Data Lake的無服務(wù)器事件驅(qū)動(dòng)ETL

為了構(gòu)建事件驅(qū)動(dòng)的ETL演示,使用了一個(gè)數(shù)據(jù)集,并遵循了Databricks的“金銀銅”原則。簡(jiǎn)而言之,這意味著組織將“青銅”層用于原始數(shù)據(jù),將“白銀”層用于預(yù)處理和干凈的數(shù)據(jù),最后,“黃金”層用于已經(jīng)整理數(shù)據(jù)的最后階段。為了實(shí)現(xiàn)這一點(diǎn)而創(chuàng)建:

  • 用于原始數(shù)據(jù)的S3存儲(chǔ)桶:s3//data-lake-bronze
  • 用于清理和轉(zhuǎn)換數(shù)據(jù)的S3存儲(chǔ)桶:s3//data-lake-silver
  • 只要新文件到達(dá)“青銅”S3存儲(chǔ)桶中,就會(huì)觸發(fā)AWS Lambda函數(shù)。它將轉(zhuǎn)換新對(duì)象并將數(shù)據(jù)加載到“白銀”階段。

指令wr.s3.to_parquet()不僅將數(shù)據(jù)加載到新的數(shù)據(jù)湖位置,而且還包括:

  • 使用snappy和parquet格式壓縮數(shù)據(jù)
  • 根據(jù)Pandas數(shù)據(jù)框的數(shù)據(jù)類型和列名對(duì)架構(gòu)進(jìn)行分類
  • 將架構(gòu)存儲(chǔ)在AWS Glue目錄中
  • 創(chuàng)建一個(gè)新的Athena表

因此,可以看到S3、AWS Glue和Athena如何在管理控制臺(tái)中一起發(fā)揮作用。

帶有Lambda的無服務(wù)器ETL如何擴(kuò)展?

想象一下,組織將對(duì)更多數(shù)據(jù)集執(zhí)行類似的操作。管理所有這些lambda函數(shù)可能會(huì)充滿挑戰(zhàn)。即使AWS Lambda的計(jì)算能力可以無限擴(kuò)展,但管理數(shù)據(jù)轉(zhuǎn)換的狀態(tài)還是很困難的,尤其是在實(shí)時(shí)和事件驅(qū)動(dòng)的場(chǎng)景中。如果使用Dashbird之類的可觀察性平臺(tái),則可以輕松檢查哪些事件驅(qū)動(dòng)的ETL工作負(fù)載獲得成功,哪些沒有成功。

而組織在測(cè)試功能時(shí),可能會(huì)犯一些錯(cuò)誤。而Dashbird平臺(tái)的可觀察性對(duì)于查看事件驅(qū)動(dòng)的ETL的狀態(tài)(包括所有錯(cuò)誤消息)非常有幫助。它可以更深入地了解日志,并檢查所有失敗的執(zhí)行情況。想象一下,如果必須對(duì)數(shù)百個(gè)ETL作業(yè)執(zhí)行這一操作,可能會(huì)遇到更大的困難。而配置故障警報(bào)就像將電子郵件地址或Slack頻道添加到警報(bào)策略一樣簡(jiǎn)單。

組織還可以根據(jù)其他選定條件(例如冷啟動(dòng)),持續(xù)時(shí)間超過特定閾值(可能是僵尸任務(wù))或在特定時(shí)間段內(nèi)異常大量的函數(shù)調(diào)用來通知用戶。

結(jié)論

數(shù)據(jù)湖以及具有數(shù)據(jù)湖功能的數(shù)據(jù)倉庫構(gòu)成了經(jīng)得起未來考驗(yàn)的數(shù)據(jù)平臺(tái)的重要組成部分。而預(yù)先為所有數(shù)據(jù)建立關(guān)系架構(gòu)可能效率低下,并且可能與當(dāng)今的數(shù)據(jù)需求不兼容。而擁有一個(gè)不變的數(shù)據(jù)攝取層來存儲(chǔ)曾經(jīng)攝取的所有數(shù)據(jù),這有利于審計(jì)、數(shù)據(jù)發(fā)現(xiàn)、再現(xiàn)以及修復(fù)數(shù)據(jù)管道中的錯(cuò)誤。

原文標(biāo)題:7 Reasons Why You Should Consider a Data Lake,作者:Anna Anisienia

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2021-07-16 11:57:19

公共云云計(jì)算云服務(wù)

2017-04-26 15:40:07

云計(jì)算失敗企業(yè)

2020-03-03 11:14:46

技術(shù)電腦人生第一份工作

2020-12-24 11:05:05

人工智能AI深度學(xué)習(xí)

2021-03-08 16:47:24

大數(shù)據(jù)錯(cuò)誤大數(shù)據(jù)

2021-11-16 13:58:35

數(shù)據(jù)中心閃存固態(tài)硬盤

2020-12-30 08:44:37

開源應(yīng)用開發(fā)

2020-07-27 09:58:55

數(shù)據(jù)湖數(shù)據(jù)CIO

2018-11-06 12:16:10

數(shù)據(jù)湖初創(chuàng)公司大數(shù)據(jù)

2020-04-07 11:00:30

大數(shù)據(jù)大數(shù)據(jù)是軟件即服務(wù)SaaS

2019-07-04 12:42:58

云端云計(jì)算基礎(chǔ)設(shè)施

2016-10-28 16:18:25

數(shù)據(jù)中心制冷冷熱通道隔離

2016-08-22 15:15:14

數(shù)據(jù)實(shí)踐

2015-09-01 16:27:31

薪資錯(cuò)誤

2024-08-02 17:29:42

2020-09-11 19:38:31

GitOps倉庫CI

2021-02-23 11:16:50

遠(yuǎn)程工作網(wǎng)絡(luò)防御網(wǎng)絡(luò)安全

2023-11-14 14:25:09

數(shù)據(jù)湖大數(shù)據(jù)

2019-05-10 15:03:33

軟件定義存儲(chǔ)

2020-04-27 11:11:54

數(shù)據(jù)湖數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)