自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)

數(shù)據(jù)庫(kù) 數(shù)據(jù)湖
四個(gè)大型數(shù)據(jù)和數(shù)據(jù)湖的大型Apache系統(tǒng),Apache Shardingsphere,Apache冰山,Apache Hudi和Apache IotdB
Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)

 

管理大數(shù)據(jù)所需的許多功能是其中一些是事務(wù),數(shù)據(jù)突變,數(shù)據(jù)校正,流媒體支持,架構(gòu)演進(jìn),因?yàn)樗嵝允聞?wù)能力Apache提供了四種,用于滿足和管理大數(shù)據(jù)。

Apache Sharding Sphere

它是一個(gè)眾所周知的數(shù)據(jù)庫(kù)中間件系統(tǒng)。它包含三個(gè)獨(dú)立的模塊,JDBC,Proxy和Sidecar(計(jì)劃),但在部署時(shí)它們都混合在一起。Apache Shardingsphere提供標(biāo)準(zhǔn)化的數(shù)據(jù)分片,分布式事務(wù)和數(shù)據(jù)庫(kù)治理功能,可以針對(duì)各種多樣化應(yīng)用方案,例如Java同義,異構(gòu)語(yǔ)言和云本機(jī)。

 

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)

 

今天的電子商務(wù)主要依賴于關(guān)系數(shù)據(jù)庫(kù)和分布式環(huán)境,高效查詢的激增和數(shù)據(jù)快速轉(zhuǎn)移成為公司關(guān)系數(shù)據(jù)庫(kù)的主要目標(biāo)Apache Shardingsphere是偉大的關(guān)系數(shù)據(jù)庫(kù)中間件生態(tài)系統(tǒng),它為其開(kāi)發(fā)人員提供了合理的計(jì)算和存儲(chǔ)功能關(guān)系數(shù)據(jù)庫(kù)。

 

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)

 

Apache Iceberg

Apache Iceberg 最初由Netflix設(shè)計(jì)和開(kāi)發(fā)。關(guān)鍵的想法是組織目錄樹(shù)中的所有文件,如果您需要在2018年5月創(chuàng)建的文件在Apache iceBerg中,您只需找出該文件并只讀該文件,也沒(méi)有必要閱讀您可以閱讀的其他文件忽略您對(duì)當(dāng)前情況不太重要的其他數(shù)據(jù)。核心思想是跟蹤時(shí)間表上表中的所有更改。

它是一種用于跟蹤非常大的表的數(shù)據(jù)湖解決方案,它是一個(gè)輕量級(jí)數(shù)據(jù)湖解決方案,旨在解決列出大量分區(qū)和耗時(shí)和不一致的元數(shù)據(jù)和HDFS數(shù)據(jù)的問(wèn)題。它包含三種類型的表格格式木質(zhì),Avro和Orc.in Apache iceberg表格格式與文件集合和文件格式的集合執(zhí)行相同的東西,允許您在單個(gè)文件中跳過(guò)數(shù)據(jù)

它是一種用于在非常大型和比例表上跟蹤和控制的新技術(shù)格式。它專為對(duì)象存儲(chǔ)而設(shè)計(jì)(例如S3)。Iceberg 中更重要的概念是一個(gè)快照??煺毡硎疽唤M完整的表數(shù)據(jù)文件。為每個(gè)更新操作生成新快照。

Apache Iceberg 有以下特征:

  • ACID 事務(wù)能力,可以在不影響當(dāng)前運(yùn)行數(shù)據(jù)處理任務(wù)的情況下進(jìn)行上游數(shù)據(jù)寫入,這大大簡(jiǎn)化了ETL; Iceberg 提供更好的合并能力,可以大大減少數(shù)據(jù)存儲(chǔ)延遲;
  • 支持更多的分析引擎優(yōu)異的內(nèi)核抽象使其不綁定到特定的計(jì)算引擎。目前,冰山支持的計(jì)算發(fā)動(dòng)機(jī)是Spark,F(xiàn)link,Presto和Hive。
  • Apache Iceberg為文件存儲(chǔ),組織,基于流的增量計(jì)算模型和基于批處理的全尺度計(jì)算模型提供統(tǒng)一和靈活的數(shù)據(jù)。批處理和流式傳輸任務(wù)可以使用類似的存儲(chǔ)模型,并且不再隔離數(shù)據(jù)。iceberg支持隱藏的分區(qū)和分區(qū)演進(jìn),這促進(jìn)了業(yè)務(wù)更新數(shù)據(jù)分區(qū)策略。支持三個(gè)存儲(chǔ)格式木質(zhì),Avro和Orc。
  • 增量讀取處理能力iceBerg支持以流式方式讀取增量數(shù)據(jù),支持流和傳輸表源。

Apache Hudi

Apache Hudi是一個(gè)大數(shù)據(jù)增量處理框架,它試圖解決攝取管道的效率問(wèn)題和在大數(shù)據(jù)中需要插入,更新和增量消耗基元的ETL管道。它是針對(duì)分析和掃描優(yōu)化的數(shù)據(jù)存儲(chǔ)抽象,其可以在幾分鐘內(nèi)將更改應(yīng)用于HDF中的數(shù)據(jù)集,并支持多個(gè)增量處理系統(tǒng)來(lái)處理數(shù)據(jù)。通過(guò)自定義InputFormat與當(dāng)前Hadoop生態(tài)系統(tǒng)(包括Apache Hive,Apache Parquet,Presto和Apache Spark)的集成使框架無(wú)縫為最終用戶。

Hudi的設(shè)計(jì)目標(biāo)是快速且逐步更新HDFS上的數(shù)據(jù)集。有兩種更新數(shù)據(jù)的方法:讀寫編寫并合并讀取。寫入模式上的副本是當(dāng)我們更新數(shù)據(jù)時(shí),我們需要通過(guò)索引獲取更新數(shù)據(jù)中涉及的文件,然后讀取數(shù)據(jù)并合并更新的數(shù)據(jù)。這種模式更易于更新數(shù)據(jù),但是當(dāng)涉及的數(shù)據(jù)更新時(shí)更新時(shí),效率非常低;并合并讀取是要將更新寫入單獨(dú)的新文件,然后我們可以選擇與原始數(shù)據(jù)同步或異步地將更新的數(shù)據(jù)與原始數(shù)據(jù)合并(可以調(diào)用組合),因?yàn)楦碌膬H編寫新文件,所以此模式將更新更快。

在Hudi系統(tǒng)的幫助下,很容易在MySQL,HBase和Cassandra中收集增量數(shù)據(jù),并將其保存到Hudi。然后,presto,spark和hive可以快速閱讀這些遞增更新的數(shù)據(jù)。

 

Apache四個(gè)大型開(kāi)源數(shù)據(jù)和數(shù)據(jù)湖系統(tǒng)

 

Apache Iotdb

它是一種物聯(lián)網(wǎng)時(shí)間序列工業(yè)數(shù)據(jù)庫(kù),Apache IOTDB是一款集成,存儲(chǔ),管理和Anallyze Thge IoT時(shí)間序列數(shù)據(jù)的軟件系統(tǒng)。Apache IOTDB采用具有高性能和豐富功能的輕量級(jí)架構(gòu),并與Apache Hadoop,Spark和Flink等進(jìn)行深度集成,可以滿足工業(yè)中大規(guī)模數(shù)據(jù)存儲(chǔ),高速數(shù)據(jù)讀數(shù)和復(fù)雜數(shù)據(jù)分析的需求事物互聯(lián)網(wǎng)領(lǐng)域。

Apache IOTDB套件由多個(gè)組件組成,它們一起形成一系列功能,例如“數(shù)據(jù)收集 - 數(shù)據(jù)寫入數(shù)據(jù)存儲(chǔ) - 數(shù)據(jù)查詢 - 數(shù)據(jù)可視化數(shù)據(jù)分析”。其結(jié)構(gòu)如下:

 

用戶可以導(dǎo)入從設(shè)備上的傳感器收集的時(shí)間序列數(shù)據(jù),服務(wù)器負(fù)載和CPU內(nèi)存等消息隊(duì)列中的時(shí)間序列數(shù)據(jù),時(shí)間序列數(shù)據(jù),應(yīng)用程序的時(shí)間序列數(shù)據(jù)或從其他數(shù)據(jù)庫(kù)到本地或遠(yuǎn)程IOTDB的時(shí)間序列數(shù)據(jù)JDBC。在。用戶還可以直接將上述數(shù)據(jù)寫入本地(或在HDFS上)TSFile文件。TSFile文件可以寫入HDF,以實(shí)現(xiàn)數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)處理平臺(tái)等異常檢測(cè)和機(jī)器學(xué)習(xí)等數(shù)據(jù)處理任務(wù)。對(duì)于寫入HDFS或本地的TSFile文件,您可以使用TSFile-Hadoop或TSFile-Spark連接器來(lái)允許Hadoop或Spark處理數(shù)據(jù)。分析結(jié)果可以寫回TSFile文件。IOTDB和TSFile還提供相應(yīng)的客戶端工具,以滿足用戶在SQL,腳本和圖形格式中查看數(shù)據(jù)的需求。

 

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2016-08-22 15:15:14

數(shù)據(jù)實(shí)踐

2013-08-12 10:08:06

大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)分析

2020-08-25 08:47:15

開(kāi)源軟件技巧

2023-02-16 13:46:36

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2022-11-29 17:16:57

2020-03-27 10:20:05

安全眾測(cè)滲透測(cè)試網(wǎng)絡(luò)安全

2022-05-26 00:15:02

數(shù)據(jù)成熟度模型

2024-08-21 13:40:15

2021-12-03 14:37:38

數(shù)據(jù)備份存儲(chǔ)備份

2012-01-05 09:56:35

數(shù)據(jù)中心高效節(jié)能Facebook

2019-07-15 09:09:29

RedisJava操作系統(tǒng)

2025-01-17 11:14:42

2012-09-19 14:25:52

蘋果大型數(shù)據(jù)中心

2023-11-13 10:00:09

數(shù)據(jù)中心服務(wù)器

2016-08-29 23:00:29

大數(shù)據(jù)數(shù)據(jù)分析

2024-11-04 15:49:02

2022-05-13 10:50:09

數(shù)據(jù)模型谷歌

2022-03-29 15:17:51

數(shù)據(jù)安全網(wǎng)絡(luò)安全

2022-10-24 00:26:51

大數(shù)據(jù)Hadoop存儲(chǔ)層

2011-08-04 11:26:18

XML文檔數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)