Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)

作者：聞數(shù)起舞 2021-03-08 15:42:54

四個(gè)大型數(shù)據(jù)和數(shù)據(jù)湖的大型Apache系統(tǒng)，Apache Shardingsphere，Apache冰山，Apache Hudi和Apache IotdB

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)

管理大數(shù)據(jù)所需的許多功能是其中一些是事務(wù)，數(shù)據(jù)突變，數(shù)據(jù)校正，流媒體支持，架構(gòu)演進(jìn)，因?yàn)樗嵝允聞?wù)能力Apache提供了四種，用于滿足和管理大數(shù)據(jù)。

Apache Sharding Sphere

它是一個(gè)眾所周知的數(shù)據(jù)庫(kù)中間件系統(tǒng)。它包含三個(gè)獨(dú)立的模塊，JDBC，Proxy和Sidecar(計(jì)劃)，但在部署時(shí)它們都混合在一起。Apache Shardingsphere提供標(biāo)準(zhǔn)化的數(shù)據(jù)分片，分布式事務(wù)和數(shù)據(jù)庫(kù)治理功能，可以針對(duì)各種多樣化應(yīng)用方案，例如Java同義，異構(gòu)語(yǔ)言和云本機(jī)。

今天的電子商務(wù)主要依賴于關(guān)系數(shù)據(jù)庫(kù)和分布式環(huán)境，高效查詢的激增和數(shù)據(jù)快速轉(zhuǎn)移成為公司關(guān)系數(shù)據(jù)庫(kù)的主要目標(biāo)Apache Shardingsphere是偉大的關(guān)系數(shù)據(jù)庫(kù)中間件生態(tài)系統(tǒng)，它為其開(kāi)發(fā)人員提供了合理的計(jì)算和存儲(chǔ)功能關(guān)系數(shù)據(jù)庫(kù)。

Apache Iceberg

Apache Iceberg 最初由Netflix設(shè)計(jì)和開(kāi)發(fā)。關(guān)鍵的想法是組織目錄樹(shù)中的所有文件，如果您需要在2018年5月創(chuàng)建的文件在Apache iceBerg中，您只需找出該文件并只讀該文件，也沒(méi)有必要閱讀您可以閱讀的其他文件忽略您對(duì)當(dāng)前情況不太重要的其他數(shù)據(jù)。核心思想是跟蹤時(shí)間表上表中的所有更改。

它是一種用于跟蹤非常大的表的數(shù)據(jù)湖解決方案，它是一個(gè)輕量級(jí)數(shù)據(jù)湖解決方案，旨在解決列出大量分區(qū)和耗時(shí)和不一致的元數(shù)據(jù)和HDFS數(shù)據(jù)的問(wèn)題。它包含三種類型的表格格式木質(zhì)，Avro和Orc.in Apache iceberg表格格式與文件集合和文件格式的集合執(zhí)行相同的東西，允許您在單個(gè)文件中跳過(guò)數(shù)據(jù)

它是一種用于在非常大型和比例表上跟蹤和控制的新技術(shù)格式。它專為對(duì)象存儲(chǔ)而設(shè)計(jì)(例如S3)。Iceberg 中更重要的概念是一個(gè)快照?？煺毡硎疽唤M完整的表數(shù)據(jù)文件。為每個(gè)更新操作生成新快照。

Apache Iceberg 有以下特征：

ACID 事務(wù)能力，可以在不影響當(dāng)前運(yùn)行數(shù)據(jù)處理任務(wù)的情況下進(jìn)行上游數(shù)據(jù)寫入，這大大簡(jiǎn)化了ETL; Iceberg 提供更好的合并能力，可以大大減少數(shù)據(jù)存儲(chǔ)延遲;
支持更多的分析引擎優(yōu)異的內(nèi)核抽象使其不綁定到特定的計(jì)算引擎。目前，冰山支持的計(jì)算發(fā)動(dòng)機(jī)是Spark，F(xiàn)link，Presto和Hive。
Apache Iceberg為文件存儲(chǔ)，組織，基于流的增量計(jì)算模型和基于批處理的全尺度計(jì)算模型提供統(tǒng)一和靈活的數(shù)據(jù)。批處理和流式傳輸任務(wù)可以使用類似的存儲(chǔ)模型，并且不再隔離數(shù)據(jù)。iceberg支持隱藏的分區(qū)和分區(qū)演進(jìn)，這促進(jìn)了業(yè)務(wù)更新數(shù)據(jù)分區(qū)策略。支持三個(gè)存儲(chǔ)格式木質(zhì)，Avro和Orc。
增量讀取處理能力iceBerg支持以流式方式讀取增量數(shù)據(jù)，支持流和傳輸表源。

Apache Hudi

Apache Hudi是一個(gè)大數(shù)據(jù)增量處理框架，它試圖解決攝取管道的效率問(wèn)題和在大數(shù)據(jù)中需要插入，更新和增量消耗基元的ETL管道。它是針對(duì)分析和掃描優(yōu)化的數(shù)據(jù)存儲(chǔ)抽象，其可以在幾分鐘內(nèi)將更改應(yīng)用于HDF中的數(shù)據(jù)集，并支持多個(gè)增量處理系統(tǒng)來(lái)處理數(shù)據(jù)。通過(guò)自定義InputFormat與當(dāng)前Hadoop生態(tài)系統(tǒng)(包括Apache Hive，Apache Parquet，Presto和Apache Spark)的集成使框架無(wú)縫為最終用戶。

Hudi的設(shè)計(jì)目標(biāo)是快速且逐步更新HDFS上的數(shù)據(jù)集。有兩種更新數(shù)據(jù)的方法：讀寫編寫并合并讀取。寫入模式上的副本是當(dāng)我們更新數(shù)據(jù)時(shí)，我們需要通過(guò)索引獲取更新數(shù)據(jù)中涉及的文件，然后讀取數(shù)據(jù)并合并更新的數(shù)據(jù)。這種模式更易于更新數(shù)據(jù)，但是當(dāng)涉及的數(shù)據(jù)更新時(shí)更新時(shí)，效率非常低;并合并讀取是要將更新寫入單獨(dú)的新文件，然后我們可以選擇與原始數(shù)據(jù)同步或異步地將更新的數(shù)據(jù)與原始數(shù)據(jù)合并(可以調(diào)用組合)，因?yàn)楦碌膬H編寫新文件，所以此模式將更新更快。

在Hudi系統(tǒng)的幫助下，很容易在MySQL，HBase和Cassandra中收集增量數(shù)據(jù)，并將其保存到Hudi。然后，presto，spark和hive可以快速閱讀這些遞增更新的數(shù)據(jù)。

Apache Iotdb

它是一種物聯(lián)網(wǎng)時(shí)間序列工業(yè)數(shù)據(jù)庫(kù)，Apache IOTDB是一款集成，存儲(chǔ)，管理和Anallyze Thge IoT時(shí)間序列數(shù)據(jù)的軟件系統(tǒng)。Apache IOTDB采用具有高性能和豐富功能的輕量級(jí)架構(gòu)，并與Apache Hadoop，Spark和Flink等進(jìn)行深度集成，可以滿足工業(yè)中大規(guī)模數(shù)據(jù)存儲(chǔ)，高速數(shù)據(jù)讀數(shù)和復(fù)雜數(shù)據(jù)分析的需求事物互聯(lián)網(wǎng)領(lǐng)域。

Apache IOTDB套件由多個(gè)組件組成，它們一起形成一系列功能，例如“數(shù)據(jù)收集 - 數(shù)據(jù)寫入數(shù)據(jù)存儲(chǔ) - 數(shù)據(jù)查詢 - 數(shù)據(jù)可視化數(shù)據(jù)分析”。其結(jié)構(gòu)如下：

用戶可以導(dǎo)入從設(shè)備上的傳感器收集的時(shí)間序列數(shù)據(jù)，服務(wù)器負(fù)載和CPU內(nèi)存等消息隊(duì)列中的時(shí)間序列數(shù)據(jù)，時(shí)間序列數(shù)據(jù)，應(yīng)用程序的時(shí)間序列數(shù)據(jù)或從其他數(shù)據(jù)庫(kù)到本地或遠(yuǎn)程IOTDB的時(shí)間序列數(shù)據(jù)JDBC。在。用戶還可以直接將上述數(shù)據(jù)寫入本地(或在HDFS上)TSFile文件。TSFile文件可以寫入HDF，以實(shí)現(xiàn)數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)處理平臺(tái)等異常檢測(cè)和機(jī)器學(xué)習(xí)等數(shù)據(jù)處理任務(wù)。對(duì)于寫入HDFS或本地的TSFile文件，您可以使用TSFile-Hadoop或TSFile-Spark連接器來(lái)允許Hadoop或Spark處理數(shù)據(jù)。分析結(jié)果可以寫回TSFile文件。IOTDB和TSFile還提供相應(yīng)的客戶端工具，以滿足用戶在SQL，腳本和圖形格式中查看數(shù)據(jù)的需求。

責(zé)任編輯：華軒來(lái)源：今日頭條

數(shù)據(jù)庫(kù)Apache Iceberg 開(kāi)源

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)