自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

更簡潔更高效,Doris對比ClickHouse、MySQL、Presto、HBase

大數(shù)據(jù)
Apache Doris可以替代ClickHouse、MySQL、Presto和HBase,因為它在整個數(shù)據(jù)處理流程中具備全面的能力。

構(gòu)建統(tǒng)一的OLAP

OLAP,即在線分析處理平臺。

保險公司試圖構(gòu)建一個數(shù)據(jù)倉庫,能夠承擔面向客戶、分析師和管理層的數(shù)據(jù)分析工作負載。主要任務(wù)包括:

  • 自助保險合同查詢:保險客戶可以通過合同ID檢查其合同詳情。它還應(yīng)支持諸如保險期限、保險類型和理賠金額等篩選條件。
  • 多維分析:分析師根據(jù)需要基于不同的數(shù)據(jù)維度開發(fā)報告,以便提取見解,促進產(chǎn)品創(chuàng)新和反欺詐工作。
  • 儀表盤:創(chuàng)建保險銷售趨勢的可視化概覽,以及不同指標的橫向和縱向比較。

組建數(shù)據(jù)架構(gòu)

用戶從Lambda架構(gòu)開始,將數(shù)據(jù)流水線分為批處理環(huán)節(jié)和流處理環(huán)節(jié)。對于實時數(shù)據(jù)流,采用Flink CDC;對于批量導(dǎo)入,結(jié)合Sqoop、Python和DataX構(gòu)建自己的數(shù)據(jù)集成工具,名為Hisen。

然后,實時數(shù)據(jù)和離線數(shù)據(jù)在數(shù)據(jù)倉庫層匯合,該層由五個組件組成。

1.ClickHouse

數(shù)據(jù)倉庫采用扁平表設(shè)計,ClickHouse在扁平表讀取方面表現(xiàn)出色。但隨著業(yè)務(wù)的發(fā)展,ClickHouse面臨兩個挑戰(zhàn):

  • 為了支持跨表連接和點查詢,用戶需要星型模式,但在ClickHouse中實現(xiàn)起來很困難。
  • 保險合同的更改需要實時更新到數(shù)據(jù)倉庫。在ClickHouse中,這是通過重新創(chuàng)建扁平表覆蓋舊表來完成的,但速度不夠快。

2.MySQL

計算后的數(shù)據(jù)指標存儲在MySQL中,但隨著數(shù)據(jù)規(guī)模的增長,MySQL開始出現(xiàn)問題,如執(zhí)行時間延長和錯誤。

3.Apache Hive + Presto

Hive是批處理環(huán)節(jié)的主要執(zhí)行器。它可以轉(zhuǎn)換、聚合和查詢離線數(shù)據(jù)。Presto是Hive的補充,用于交互式分析。

4.Apache HBase

HBase負責主鍵查詢。它從MySQL和Hive中讀取客戶狀態(tài),包括客戶信用、保險期限和保額總和。然而,由于HBase不支持二級索引,它在讀取非主鍵列方面的能力有限。另外,作為NoSQL數(shù)據(jù)庫,HBase不支持SQL語句。

這些組件必須相互協(xié)作,以滿足所有需求,使得數(shù)據(jù)倉庫的工作量過大。這不容易上手,因為工程師必須接受所有這些組件的培訓(xùn)。此外,架構(gòu)的復(fù)雜性增加了延遲風險。

因此,用戶試圖尋找一個能更好滿足他們需求的工具。首先需要的是實時能力,包括實時寫入、實時更新和對數(shù)據(jù)查詢的實時響應(yīng)。其次,需要更靈活的數(shù)據(jù)分析能力,以支持面向客戶的自助查詢,如多維分析、大表的連接查詢、主鍵索引、匯總和鉆取。然后,在批處理方面,還希望數(shù)據(jù)寫入具有高吞吐量。

最終選擇了Apache Doris。

用Apache Doris替換四個組件

Apache Doris能夠進行實時和離線數(shù)據(jù)分析,支持高吞吐量的交互式分析和高并發(fā)的點查詢。這就是為什么它可以取代ClickHouse、MySQL、Presto和Apache HBase,并作為整個數(shù)據(jù)系統(tǒng)的統(tǒng)一查詢網(wǎng)關(guān)。

改進后的數(shù)據(jù)流水線是一個更簡潔的Lambda架構(gòu)。

Apache Doris提供了各種數(shù)據(jù)攝取方法。它在數(shù)據(jù)寫入方面速度快。此外,它還實現(xiàn)了寫入合并(Merge-on-Write)以提高并發(fā)點查詢的性能。

1.降低成本

新架構(gòu)降低了用戶的人力成本。一方面,更簡單的數(shù)據(jù)架構(gòu)使得維護更加容易;另一方面,開發(fā)人員不再需要在數(shù)據(jù)服務(wù)API中連接實時和離線數(shù)據(jù)。

用戶還可以通過使用Doris節(jié)省金錢,因為它支持分層存儲。它允許用戶將大量很少訪問的歷史數(shù)據(jù)存儲在對象存儲中,這樣存儲數(shù)據(jù)的成本更低。

2.提高效率

Apache Doris可以達到數(shù)萬的查詢每秒(QPS),并在毫秒內(nèi)響應(yīng)數(shù)十億的點查詢,因此它可以輕松處理面向客戶的查詢。將熱數(shù)據(jù)與冷數(shù)據(jù)分離的分層存儲也提高了查詢效率。

3.服務(wù)可用性

作為存儲、計算和數(shù)據(jù)服務(wù)的統(tǒng)一數(shù)據(jù)倉庫,Apache Doris方便了災(zāi)難恢復(fù)。由于組件較少,不必擔心數(shù)據(jù)丟失或重復(fù)。

用戶的服務(wù)可用性的重要保證是Apache Doris的跨集群復(fù)制(CCR)功能。它可以在幾分鐘甚至幾秒鐘內(nèi)將數(shù)據(jù)從集群同步到集群,并實現(xiàn)兩種機制來確保數(shù)據(jù)可靠性:

  • Binlog:該機制可以自動記錄數(shù)據(jù)更改并為每個數(shù)據(jù)修改操作生成一個日志ID。增量日志ID確保數(shù)據(jù)更改可追溯和有序。
  • 數(shù)據(jù)持久化:在系統(tǒng)崩潰或緊急情況下,數(shù)據(jù)將存儲在磁盤中。

對Apache Doris的深入了解

Apache Doris可以替代ClickHouse、MySQL、Presto和HBase,因為它在整個數(shù)據(jù)處理流程中具備全面的能力。

在數(shù)據(jù)攝取方面,Apache Doris基于對Flink CDC和寫入合并的支持,實現(xiàn)低延遲的實時寫入。它通過標簽機制和事務(wù)加載來保證寫入的Exactly-Once。

在數(shù)據(jù)查詢方面,Apache Doris支持星型模式和扁平表聚合,因此可以在多表連接和大型單表查詢中提供高性能。Apache Doris還提供了各種加速不同查詢的方法,如用于全文搜索和范圍查詢的倒排索引,用于點查詢的短路查詢計劃和預(yù)編譯語句等。

責任編輯:趙寧寧 來源: Java學研大本營
相關(guān)推薦

2017-01-12 10:38:04

TalkingData小程序

2021-11-18 17:41:47

Android 12安卓

2023-11-28 18:03:01

SQLUDF

2024-04-26 07:54:07

ZustandReact狀態(tài)管理庫

2019-05-20 07:24:19

工業(yè)物聯(lián)網(wǎng)物聯(lián)網(wǎng)重型設(shè)備

2024-10-15 10:47:12

2018-10-23 15:20:29

SparkShuffleSpark SQL

2025-03-25 09:53:02

2019-07-31 10:24:16

JavaScript瀏覽器口袋妖怪

2024-12-19 09:05:13

Python鏈式調(diào)用

2015-04-13 16:47:47

賽門鐵克

2011-04-29 10:22:49

CSS高性能Web開發(fā)

2009-07-06 14:23:00

SSL VPNArray netwo

2009-06-19 10:16:10

巔峰訪談

2016-09-29 13:44:23

數(shù)據(jù)中心

2023-08-08 14:40:49

光纖網(wǎng)絡(luò)光纖部署服務(wù)

2023-11-14 10:43:42

微軟Kubernetes

2021-04-02 14:06:59

鑒釋科技劉新銘靜態(tài)代碼開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號