自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

現(xiàn)代化實(shí)時數(shù)據(jù)倉庫 SelectDB 產(chǎn)品全面解讀

大數(shù)據(jù)
本次分享重點(diǎn)介紹了數(shù)據(jù)分析的痛點(diǎn)與機(jī)遇,SelectDB 的架構(gòu)演進(jìn)與優(yōu)化,涵蓋了多數(shù)據(jù)源集成、ETL 處理、實(shí)時查詢及性能提升。通過支持復(fù)雜數(shù)據(jù)類型、日志查詢優(yōu)化及存儲優(yōu)勢,SelectDB 為用戶提供了高效的數(shù)據(jù)平臺,簡化系統(tǒng)架構(gòu),降低運(yùn)維成本。

一、數(shù)據(jù)分析的痛點(diǎn)與機(jī)遇

在當(dāng)今大數(shù)據(jù)時代,實(shí)時數(shù)據(jù)倉庫的需求愈發(fā)重要。企業(yè)越來越多地依賴數(shù)據(jù)來支撐業(yè)務(wù)決策和創(chuàng)新,而“實(shí)時性”正逐漸成為影響數(shù)據(jù)分析和數(shù)據(jù)倉庫系統(tǒng)選擇的關(guān)鍵因素。那么,為什么實(shí)時數(shù)據(jù)倉庫如此重要?我們需要如何構(gòu)建一個實(shí)時數(shù)據(jù)倉庫?

圖片

通過與用戶的接觸和反饋,可以發(fā)現(xiàn)企業(yè)對于數(shù)據(jù)分析的實(shí)時性有著越來越高的要求。實(shí)時數(shù)據(jù)倉庫的構(gòu)建和管理中,實(shí)時性主要體現(xiàn)在以下三方面:

  • 數(shù)據(jù)服務(wù)的實(shí)時性:隨著客戶需求的提升,數(shù)據(jù)產(chǎn)品和服務(wù)的實(shí)時響應(yīng)能力變得至關(guān)重要。尤其在金融、零售等行業(yè),業(yè)務(wù)系統(tǒng)需要隨時提供最新數(shù)據(jù)來支撐運(yùn)營與決策。
  • 數(shù)據(jù)處理的實(shí)時性:在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的速度上,企業(yè)要求越來越短的延遲。傳統(tǒng)的批處理模式已經(jīng)不能滿足高頻數(shù)據(jù)更新的需求,實(shí)時處理數(shù)據(jù)的能力成了一個重要考量。
  • 查詢與分析的實(shí)時性:數(shù)據(jù)倉庫不僅需要快速存入數(shù)據(jù),更需要高效的查詢與分析。用戶希望數(shù)據(jù)一旦進(jìn)入倉庫,即刻能夠進(jìn)行高效分析,從而縮短從數(shù)據(jù)生成到分析產(chǎn)出的時間差。

成本問題與降本增效的需求

在不斷提高實(shí)時性的同時,企業(yè)也在關(guān)注數(shù)據(jù)分析過程中的成本問題。大數(shù)據(jù)領(lǐng)域的系統(tǒng)架構(gòu)經(jīng)過了二十多年的發(fā)展,尤其是基于 Hadoop 生態(tài)的技術(shù)棧已經(jīng)相對成熟,但由于它龐大的架構(gòu)體系,系統(tǒng)的維護(hù)和人力成本較高。傳統(tǒng)的 Hadoop 生態(tài)系統(tǒng)通常包括 HDFS、MapReduce、Hive 等組件,且每個組件的維護(hù)和優(yōu)化需要專門的人員。這種分散化、多模塊的架構(gòu)不僅增加了復(fù)雜度,也導(dǎo)致運(yùn)維難度加大,使得企業(yè)需要投入大量資源去維護(hù)整個技術(shù)棧。

圖片

為了應(yīng)對這些痛點(diǎn),云原生架構(gòu)成為企業(yè)構(gòu)建實(shí)時數(shù)據(jù)倉庫的重要機(jī)遇。云技術(shù)的發(fā)展使得許多企業(yè)能夠輕松獲得彈性資源,極大地緩解了傳統(tǒng)大數(shù)據(jù)架構(gòu)中的資源瓶頸。云原生的基礎(chǔ)設(shè)施提供了以下兩方面的優(yōu)勢:

  • 云原生技術(shù):在傳統(tǒng)的 IT 架構(gòu)中,企業(yè)往往需要為峰值和低谷同樣的資源配置,但云原生技術(shù)允許按需擴(kuò)展,支持企業(yè)只為所用資源付費(fèi),實(shí)現(xiàn)了更高的性價(jià)比。企業(yè)無需再維護(hù)本地的機(jī)房、服務(wù)器等硬件基礎(chǔ)設(shè)施,降低了大量的固定成本。
  • 統(tǒng)一化的架構(gòu)整合:傳統(tǒng)大數(shù)據(jù)技術(shù)棧中包含多個分散的組件,每個組件需要獨(dú)立運(yùn)維和優(yōu)化。相比之下,云原生的數(shù)據(jù)平臺可統(tǒng)一管理存儲、計(jì)算和查詢等服務(wù),實(shí)現(xiàn)數(shù)據(jù)湖與數(shù)據(jù)倉庫一體化、批處理與流處理一體化。比如,數(shù)據(jù)湖在一體化數(shù)據(jù)分析中能靈活處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而統(tǒng)一架構(gòu)有助于簡化維護(hù),減少開發(fā)和運(yùn)維成本。

在這種背景下,企業(yè)有了拋棄舊技術(shù)棧、構(gòu)建新一代實(shí)時數(shù)據(jù)倉庫的迫切需求。SelectDB 產(chǎn)品正是順應(yīng)了這一趨勢。通過云原生的技術(shù)優(yōu)勢,SelectDB 不僅能夠幫助企業(yè)降低成本,還實(shí)現(xiàn)了數(shù)據(jù)分析全流程的統(tǒng)一化和自動化,打破了傳統(tǒng)架構(gòu)的技術(shù)限制。

二、SelectDB 產(chǎn)品簡介

1. Apache Doris

圖片

Apache Doris 是一款采用 MPP 架構(gòu)的實(shí)時分布式 OLAP 數(shù)據(jù)倉庫,專注于高效的實(shí)時數(shù)據(jù)分析。Doris 項(xiàng)目于 2013 年內(nèi)部開發(fā),2017 年正式開源,目前在 GitHub 上獲得了接近 13,000 星,全球已有超過 5,000 家企業(yè)采用,社區(qū)活躍度極高,累計(jì)貢獻(xiàn)者超過 650 人,且曾連續(xù)數(shù)月在大數(shù)據(jù)開源項(xiàng)目中排名第一。

Doris 廣泛應(yīng)用于金融、互聯(lián)網(wǎng)、電信、交通、物流、零售、制造和游戲等多個領(lǐng)域。其核心優(yōu)勢體現(xiàn)在以下幾點(diǎn):

  • 實(shí)時數(shù)據(jù)處理:Doris 的設(shè)計(jì)支持毫秒級的數(shù)據(jù)加載和查詢,滿足了企業(yè)對實(shí)時數(shù)據(jù)分析的高要求。
  • 高擴(kuò)展性的 MPP 架構(gòu):Doris 利用 MPP 架構(gòu),實(shí)現(xiàn)大規(guī)模并行計(jì)算,確保在面對大數(shù)據(jù)集時仍能高效處理和快速分析。
  • 簡化的運(yùn)維與管理:Doris 采用統(tǒng)一架構(gòu),減少了對復(fù)雜組件的依賴,降低了傳統(tǒng)數(shù)據(jù)倉庫的運(yùn)維成本,使企業(yè)能夠更高效地管理數(shù)據(jù)平臺。

Doris 在各行業(yè)的廣泛應(yīng)用不僅展示了其在實(shí)時分析、擴(kuò)展性和低運(yùn)維成本方面的強(qiáng)大優(yōu)勢,也為 SelectDB 的設(shè)計(jì)提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

圖片

2. SelectDB

圖片

SelectDB 是基于 Apache Doris 開源項(xiàng)目構(gòu)建的一個商業(yè)化產(chǎn)品,主要定位于實(shí)時數(shù)據(jù)分析平臺。通過在 Apache Doris 之上進(jìn)行進(jìn)一步的包裝和優(yōu)化,SelectDB 在大數(shù)據(jù)生態(tài)系統(tǒng)中充當(dāng)了高效的分析引擎,支持接入多種數(shù)據(jù)源并提供數(shù)據(jù)加工和 BI 分析服務(wù)。

SelectDB 可以接入多種數(shù)據(jù)源,支持包括 MySQL 等傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)流、數(shù)據(jù)湖等各種不同的數(shù)據(jù)來源。對于數(shù)據(jù)湖中的數(shù)據(jù),SelectDB 支持聯(lián)邦查詢,這樣用戶無需將數(shù)據(jù)物理導(dǎo)入至 SelectDB,即可直接進(jìn)行分析。這種靈活的接入方式不僅簡化了 ETL 過程,還確保數(shù)據(jù)分析的實(shí)時性。

SelectDB 支持多種數(shù)據(jù)應(yīng)用,包括數(shù)據(jù)加工、BI 報(bào)表生成、機(jī)器查詢等功能。作為大數(shù)據(jù)平臺中的關(guān)鍵一環(huán),SelectDB 通過高效的數(shù)據(jù)查詢和處理能力,為用戶提供了全方位的數(shù)據(jù)分析支持。

SelectDB 的三種產(chǎn)品形態(tài)

  • SelectDB Cloud:一種全托管的云端產(chǎn)品,由 SelectDB 自營。用戶可以在阿里云、騰訊云等公有云平臺上使用 SelectDB Cloud,無需自行管理基礎(chǔ)設(shè)施。
  • 阿里云數(shù)據(jù)庫 SelectDB:由阿里云直接提供并集成在阿里云平臺上的 SelectDB 服務(wù),用戶可以像使用其他云數(shù)據(jù)庫一樣便捷地獲取。
  • SelectDB Enterprise:一種支持私有化部署的產(chǎn)品,適用于需要在企業(yè)自有 IDC、私有云中部署的場景。該版本滿足了數(shù)據(jù)安全與合規(guī)的需求,適合無法將數(shù)據(jù)外泄的敏感應(yīng)用場景。

三、SelectDB 的設(shè)計(jì)探索與創(chuàng)新

1. SelectDB 的四大設(shè)計(jì)理念

圖片

在設(shè)計(jì) SelectDB 時,聚焦于以下四大核心理念,以確保其產(chǎn)品能滿足用戶對實(shí)時數(shù)據(jù)分析的需求,并在云環(huán)境中實(shí)現(xiàn)高效、靈活的應(yīng)用:

  • 實(shí)時極速:SelectDB 重點(diǎn)提升數(shù)據(jù)導(dǎo)入和查詢的實(shí)時性,以滿足用戶對數(shù)據(jù)分析速度的高要求,實(shí)現(xiàn)毫秒級數(shù)據(jù)處理和查詢響應(yīng)。
  • 融合統(tǒng)一:通過兼容多種數(shù)據(jù)源,SelectDB 能夠在單一系統(tǒng)中處理不同數(shù)據(jù)來源的查詢和存儲需求,提供一致的數(shù)據(jù)服務(wù),適應(yīng)多樣化的數(shù)據(jù)處理場景。
  • 云原生架構(gòu):充分利用云技術(shù)的彈性與資源優(yōu)勢,SelectDB 基于云原生架構(gòu)設(shè)計(jì),以降低用戶的基礎(chǔ)設(shè)施成本,并實(shí)現(xiàn)高效的資源利用。
  • 開放生態(tài):SelectDB 保持開放態(tài)度,鼓勵用戶參與開源社區(qū),不僅能夠反饋需求,還可以直接參與開發(fā),從而確保產(chǎn)品在實(shí)際應(yīng)用中持續(xù)優(yōu)化和創(chuàng)新。

2. 實(shí)時極速

圖片

在設(shè)計(jì) SelectDB 時,“實(shí)時極速”被視為數(shù)據(jù)價(jià)值的核心之一。團(tuán)隊(duì)認(rèn)為,數(shù)據(jù)的時效性越高,其對決策支持的價(jià)值就越大。在大數(shù)據(jù)時代,用戶對實(shí)時數(shù)據(jù)的需求已從過去的“天級”“小時級”提升到“分鐘級”甚至“秒級”,而 SelectDB 正是為滿足這一需求而生的。

要評估數(shù)據(jù)是否達(dá)到實(shí)時性,主要考量以下兩方面:

  • 數(shù)據(jù)導(dǎo)入速度:數(shù)據(jù)從源系統(tǒng)導(dǎo)入 SelectDB 的速度是否足夠快,確保不會因長時間等待而降低數(shù)據(jù)價(jià)值。
  • 數(shù)據(jù)查詢響應(yīng):數(shù)據(jù)的查詢響應(yīng)時間是否足夠短,以便支持秒級甚至亞秒級別的快速查詢。特別是在需要即時數(shù)據(jù)分析的場景下,傳統(tǒng)的大數(shù)據(jù)查詢延遲已經(jīng)無法滿足需求,SelectDB 通過設(shè)計(jì)優(yōu)化在極短時間內(nèi)實(shí)現(xiàn)查詢響應(yīng)。

為提升數(shù)據(jù)導(dǎo)入的實(shí)時性,SelectDB 提供了多樣化的數(shù)據(jù)導(dǎo)入 API 和工具。通過集成的 Flink Connector、Spark Connector 等工具,SelectDB 能夠從流式數(shù)據(jù)源按需導(dǎo)入數(shù)據(jù),并支持設(shè)定 10 秒、20 秒等靈活的間隔來確保導(dǎo)入的實(shí)時性。

此外,SelectDB 在小批量高頻導(dǎo)入上也做了深入優(yōu)化,具體體現(xiàn)在以下兩方面:

  • 更新模型支持:SelectDB 提供了原地更新的組件模型,允許數(shù)據(jù)在導(dǎo)入時直接更新到已有數(shù)據(jù)行上。這在傳統(tǒng)大數(shù)據(jù)架構(gòu)中是較為復(fù)雜的,因?yàn)樾∨扛哳l更新通常會犧牲查詢性能,而 SelectDB 通過優(yōu)化設(shè)計(jì)有效解決了這一難題。
  • Group Commit 優(yōu)化:SelectDB 實(shí)現(xiàn)了“攢批”機(jī)制(Group Commit),在實(shí)時性與查詢效率之間進(jìn)行平衡,用戶可按需選擇導(dǎo)入和查詢模式,從而實(shí)現(xiàn)最佳性能。

在數(shù)據(jù)結(jié)構(gòu)的動態(tài)變化上,SelectDB 支持輕量級的 schema 更改,用戶可以在秒級時間內(nèi)完成加列、減列等操作,幾乎對系統(tǒng)無感知。這一功能解決了傳統(tǒng)系統(tǒng)在處理大數(shù)據(jù)表結(jié)構(gòu)調(diào)整時的延遲問題,使用戶在需要頻繁進(jìn)行 schema 變更時也能靈活應(yīng)對,滿足了用戶隨時調(diào)整數(shù)據(jù)模型的需求。

圖片

攢批(Group Commit)功能

在數(shù)據(jù)導(dǎo)入過程中,SelectDB 的“攢批”功能為小批量數(shù)據(jù)的高效寫入提供了靈活方案。該功能通過異步和同步模式的靈活設(shè)置,大幅優(yōu)化了數(shù)據(jù)導(dǎo)入的實(shí)時性和性能。

  • 異步模式:在異步模式下,用戶提交的數(shù)據(jù)立即落盤為 WAL(Write-Ahead Log),而請求會在數(shù)據(jù)寫入前端返回,用戶提交的數(shù)據(jù)將會在一定時間后完成導(dǎo)入并可查詢。(例如,用戶可執(zhí)行單條“INSERT INTO”語句將一行數(shù)據(jù)寫入,這種方式通常與大數(shù)據(jù)系統(tǒng)不兼容(因其數(shù)據(jù)合并和讀寫優(yōu)化需求),而 SelectDB 提供了對該負(fù)載的兼容。在異步模式下,數(shù)據(jù)可見性延遲可達(dá) 10 秒左右,適合對數(shù)據(jù)可見性要求較低的用戶。)
  • 同步模式:同步模式適用于數(shù)據(jù)導(dǎo)入后立即可見的場景。用戶在提交數(shù)據(jù)時,系統(tǒng)會在指定的延遲時間內(nèi)完成數(shù)據(jù)寫入并返回查詢結(jié)果。用戶可自行設(shè)定最長等待時間,當(dāng)數(shù)據(jù)寫入請求返回時,即可立即查詢結(jié)果。這種模式兼顧了數(shù)據(jù)實(shí)時性的需求,但會帶來一定的寫入延遲。
  • 非攢批模式:非攢批模式即為原始模式,不進(jìn)行數(shù)據(jù)批次積累,數(shù)據(jù)直接導(dǎo)入。盡管可提供實(shí)時的可見性,但性能較差,適合對數(shù)據(jù)實(shí)時性和性能要求極高的特定場景。
  • 自定義調(diào)優(yōu)參數(shù):SelectDB 允許用戶根據(jù)實(shí)際需求自定義調(diào)節(jié)攢批參數(shù),包括:數(shù)據(jù)可見性間隔(設(shè)定數(shù)據(jù)在異步模式下的可見時間)、積累批次最大值(控制每次積累的數(shù)據(jù)批次大?。?。這種靈活的配置使得 SelectDB 可以應(yīng)對不同場景的性能和可見性需求,用戶可以根據(jù)實(shí)際業(yè)務(wù)場景進(jìn)行最優(yōu)配置。目前,攢批功能在 SelectDB 的兩類 API 上均已實(shí)現(xiàn),可涵蓋絕大多數(shù)用戶的使用場景。

攢批功能顯著提高了小批量數(shù)據(jù)導(dǎo)入的效率,使得數(shù)據(jù)導(dǎo)入可以在更短的時間內(nèi)完成并可查詢,同時為不同的場景提供了靈活的可調(diào)參數(shù)。這種創(chuàng)新功能已被廣泛應(yīng)用,幫助用戶在小批量、高頻次數(shù)據(jù)導(dǎo)入中實(shí)現(xiàn)最佳的實(shí)時性與性能平衡。

圖片

查詢速度方面,SelectDB 在多個大數(shù)據(jù)應(yīng)用場景中表現(xiàn)出色,通過自研優(yōu)化器和基于 Pipeline 的執(zhí)行框架實(shí)現(xiàn)了極致的查詢效率。以下為 SelectDB 在主要查詢場景中的優(yōu)勢:

  • 大寬表查詢:SelectDB 在大寬表查詢中性能領(lǐng)先,特別是在 Clickbench 這樣的系統(tǒng)中表現(xiàn)卓越,甚至達(dá)到了榜首水平。這種優(yōu)勢得益于 SelectDB 在數(shù)據(jù)結(jié)構(gòu)和執(zhí)行優(yōu)化上的創(chuàng)新,使得大寬表的查詢速度大幅提升。
  • 多表 JOIN 查詢在多表 JOIN 場景中(如 TPCH、TPCHS 測試基準(zhǔn)),SelectDB 同樣具備數(shù)量級的性能領(lǐng)先。通過多項(xiàng)執(zhí)行優(yōu)化技術(shù)(例如基于物化視圖、Runtime Filter 等),SelectDB 在復(fù)雜查詢中的表現(xiàn)遠(yuǎn)超傳統(tǒng)系統(tǒng)。
  • 高性能點(diǎn)查:SelectDB 在高并發(fā)點(diǎn)查上具備獨(dú)特的優(yōu)化,能夠?qū)崿F(xiàn)數(shù)量級的吞吐和低延遲,達(dá)到了萬億級 QPS 的表現(xiàn)。多項(xiàng)技術(shù)的結(jié)合,包括對高并發(fā)的吞吐率和低延遲的深度優(yōu)化,使得在點(diǎn)查場景中,SelectDB 展示出極強(qiáng)的性能。

圖片

為了提升在高頻點(diǎn)查場景中的性能,SelectDB 針對 IO 和查詢規(guī)劃進(jìn)行了創(chuàng)新優(yōu)化。以下為關(guān)鍵的改進(jìn)措施:

  • 行列混合存儲優(yōu)化 IO:傳統(tǒng)大數(shù)據(jù)系統(tǒng)基于列式存儲,導(dǎo)致每次查詢特定行時需要從多列讀取數(shù)據(jù),產(chǎn)生大量隨機(jī) IO。SelectDB 通過引入“行列混合存儲”的方案,將每行數(shù)據(jù)以結(jié)構(gòu)化的形式存入內(nèi)部列,從而在查詢時可以只讀取該內(nèi)部列,減少 IO 操作頻次。該方案通過存儲空間換取查詢時間,將原先 1000 列的隨機(jī) IO 縮減為 1 個,大幅提升 IO 效率。
  • 專用的點(diǎn)查規(guī)劃與執(zhí)行路徑:在查詢規(guī)劃方面,SelectDB 針對點(diǎn)查操作設(shè)計(jì)了專門的規(guī)劃器和執(zhí)行路徑。對于簡單的點(diǎn)查請求,SelectDB 能夠自動識別查詢條件的明確性,并采用簡化的短路執(zhí)行路徑,避免了傳統(tǒng)優(yōu)化器的復(fù)雜計(jì)算過程。這種路徑能夠快速鎖定目標(biāo)數(shù)據(jù)節(jié)點(diǎn)并執(zhí)行查詢,不需要進(jìn)行數(shù)據(jù) shuffle,從而提高查詢速度。
  • 預(yù)編譯 SQL 語句:對于高頻點(diǎn)查的場景,SelectDB 通過 Prepare Statement 優(yōu)化,對用戶的 SQL 語句進(jìn)行預(yù)編譯。這減少了重復(fù)的解析和語義分析,降低了高 QPS(每秒查詢量)下的解析壓力,實(shí)現(xiàn)更高的吞吐性能。
  • 緩存與索引優(yōu)化:SelectDB 在點(diǎn)查上還采用了基于磁盤和內(nèi)存的緩存,并結(jié)合索引技術(shù)進(jìn)一步加速查詢響應(yīng)。在典型三節(jié)點(diǎn)集群配置下,點(diǎn)查吞吐量可達(dá) 2 萬-3 萬 QPS,查詢延遲維持在個位數(shù)毫秒級別,為用戶提供了極高的查詢性能和低延遲體驗(yàn)。

3. 融合統(tǒng)一

圖片

SelectDB 致力于通過一套系統(tǒng)支持多種工作負(fù)載,簡化 ETL 和查詢。其架構(gòu)演進(jìn)如下:

  • 單庫單倉庫:傳統(tǒng)模式,以單一庫或倉庫為核心,處理有限工作負(fù)載,ETL 依賴外部組件。
  • 混合數(shù)據(jù)源:支持多源數(shù)據(jù)進(jìn)入倉庫,擴(kuò)大工作負(fù)載能力,但 ETL 效率仍受限。
  • 融合統(tǒng)一:SelectDB 通過集成 ETL 和查詢能力,實(shí)現(xiàn)對內(nèi)外表的統(tǒng)一查詢,支持多工作流,簡化數(shù)據(jù)處理流程,實(shí)現(xiàn)"all-in-one"的高效架構(gòu)。

圖片

在融合統(tǒng)一方面,SelectDB 通過對多種數(shù)據(jù)源(如 HICE、Hive、Iceberg、MySQL 等)的支持,提升了查詢效率,尤其是在湖數(shù)據(jù)查詢和 ETL 性能上取得顯著優(yōu)化:

  • 多源數(shù)據(jù)集成:SelectDB 支持通過 Catalog 方式集成多種外部數(shù)據(jù)源,優(yōu)化外表查詢的性能。
  • 湖數(shù)據(jù)查詢優(yōu)化:針對湖數(shù)據(jù)查詢,SelectDB 在規(guī)劃層面進(jìn)行了優(yōu)化,通過統(tǒng)一統(tǒng)計(jì)信息和 workload 理解,比傳統(tǒng)查詢引擎如 Trino、Presto 表現(xiàn)更優(yōu)。
  • 實(shí)時與批處理的統(tǒng)一:SelectDB 支持?jǐn)?shù)據(jù)實(shí)時導(dǎo)入和庫內(nèi)ETL,大幅提升性能,相較于 Hive、Spark 等有數(shù)量級性能優(yōu)勢。

圖片

圖片

SelectDB 通過支持復(fù)雜數(shù)據(jù)類型(如 map、array、variant)實(shí)現(xiàn)數(shù)據(jù)類型的多樣化和簡便性,尤其適用于海量日志數(shù)據(jù)場景。相比于傳統(tǒng)結(jié)構(gòu),這些復(fù)雜類型能有效簡化用戶操作:

  • 復(fù)雜數(shù)據(jù)類型支持:SelectDB 除傳統(tǒng) MySQL 數(shù)據(jù)類型外,支持 map、array 等復(fù)雜類型及自動類型推導(dǎo)。用戶無需手動定義類型,系統(tǒng)會根據(jù)存儲內(nèi)容自動識別類型,簡化操作。
  • 日志場景優(yōu)化:針對海量日志場景,SelectDB 提供更高的寫入吞吐和更優(yōu)的性價(jià)比,尤其在與 ES(Elasticsearch)系統(tǒng)對比中顯示出顯著的存儲效率和性能優(yōu)勢,減少了存儲開銷并提升了查詢性能。

4. 云原生架構(gòu)

圖片

圖片

在 SelectDB Cloud 的原生架構(gòu)設(shè)計(jì)中,系統(tǒng)將計(jì)算和存儲徹底解耦,以實(shí)現(xiàn)高性價(jià)比和靈活的資源管理。架構(gòu)主要由接入層、計(jì)算節(jié)點(diǎn)和存儲層組成,關(guān)鍵特性包括:

  • 統(tǒng)一接入層和云化服務(wù):SelectDB Cloud 作為云化服務(wù),通過統(tǒng)一接入層讓用戶訪問系統(tǒng)的計(jì)算與存儲資源,提供一致的訪問體驗(yàn)。
  • 計(jì)算與存儲分離:存儲層采用單副本共享的對象存儲方案,既降低成本,又支持計(jì)算層的彈性擴(kuò)展。對象存儲雖然需要網(wǎng)絡(luò)訪問,但系統(tǒng)通過本地緩存來保持性能,主要緩存用戶查詢的熱數(shù)據(jù)。通常情況下,為過去 7 天的數(shù)據(jù)配置緩存即可,降低整體熱數(shù)據(jù)成本。
  • 性能優(yōu)化:為了緩解對象存儲訪問的延遲,SelectDB 實(shí)現(xiàn)了多層次的緩存,包括基于內(nèi)存的緩存和預(yù)讀優(yōu)化,使得常用數(shù)據(jù)能夠快速被檢索。
  • 彈性與自動擴(kuò)縮容:系統(tǒng)支持根據(jù)業(yè)務(wù)高峰和低峰自動擴(kuò)縮容,用戶可以配置策略來自動調(diào)整計(jì)算資源,甚至在沒有流量時實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)的完全停機(jī),僅保留倉庫存儲,降低不必要的成本。
  • 多計(jì)算集群和細(xì)粒度隔離:支持多計(jì)算集群的隔離,用戶可以將導(dǎo)入和查詢分離,并且同一數(shù)據(jù)集可以供不同業(yè)務(wù)使用,以滿足不同的查詢需求,靈活性大大提升。

SelectDB Cloud 的原生架構(gòu)設(shè)計(jì),不僅在性能和彈性上有所保障,還能為用戶在復(fù)雜業(yè)務(wù)負(fù)載下提供資源優(yōu)化和成本控制。

圖片

圖片

5. 開放生態(tài)

在生態(tài)方面,SelectDB 基于 Apache Doris 構(gòu)建,確保與 Apache Doris 的存儲格式和接口兼容。這個設(shè)計(jì)使得 SelectDB 和 Doris 之間可以隨時切換,用戶在使用開源版本時如果感受到規(guī)模擴(kuò)大后對穩(wěn)定性和商業(yè)支持的需求,可以輕松遷移到 SelectDB 商用版本。而對于需要更高自運(yùn)維能力的用戶,也可以在 SelectDB 與 Doris 之間隨時轉(zhuǎn)換,保持靈活性。

此外,SelectDB、Doris 均基于 MySQL 協(xié)議,因此任何支持 MySQL 連接的工具(如 MySQL 客戶端、JDBC 等)都可以無縫連接到這些系統(tǒng)。這種兼容性大大簡化了系統(tǒng)的集成和使用,尤其對于已經(jīng)熟悉 MySQL 的用戶,能夠迅速上手并集成進(jìn)現(xiàn)有的技術(shù)棧。

四、SelectDB 應(yīng)用場景與用戶案例

1. 案例-統(tǒng)一分析平臺

圖片

以某知名服裝生產(chǎn)商為例,該公司的業(yè)務(wù)流程復(fù)雜,涉及多種工作負(fù)載,如實(shí)時報(bào)表、ETL 處理以及數(shù)據(jù)導(dǎo)出等。之前,企業(yè)使用了多個不同的系統(tǒng),如 GTP、ADB 等,管理這些系統(tǒng)需要大量的人力和維護(hù)成本。為了保證系統(tǒng)的穩(wěn)定性,公司需要至少四五名運(yùn)維人員來管理這些復(fù)雜的系統(tǒng)架構(gòu)。這個多系統(tǒng)的環(huán)境帶來了較高的運(yùn)維成本和管理難度。

在引入 SelectDB 之后,原有的多個系統(tǒng)被替換為 SelectDB,后者實(shí)現(xiàn)了系統(tǒng)的融合統(tǒng)一,能夠處理不同的數(shù)據(jù)流,例如支持 Flink 以及數(shù)據(jù)湖查詢等。這樣一來,系統(tǒng)架構(gòu)變得更加簡化,不再需要多套系統(tǒng)之間的配合工作,整體性能得到了提升,同時運(yùn)維的復(fù)雜性和成本也大大降低。SelectDB 不僅提升了性能,還能支持千億級別的數(shù)據(jù)處理,提供了便捷的橫向擴(kuò)展能力,幫助該企業(yè)建立了一個統(tǒng)一的數(shù)據(jù)服務(wù)平臺。這一案例展示了 SelectDB 在制造業(yè)中作為通用數(shù)據(jù)平臺的應(yīng)用效果,尤其是在減少系統(tǒng)復(fù)雜性、降低成本和提升性能方面的優(yōu)勢。

2. 案例-日志搜索分析

圖片

在日志場景中,SelectDB 替代了傳統(tǒng)的 ES 和 Loki 等系統(tǒng),帶來了顯著的成本下降。原本,ES 在性能上表現(xiàn)良好,但存儲成本較高;而 Loki 雖然存儲成本較低,但性能稍遜。通過使用 SelectDB,整體成本大幅下降,存儲和性能都優(yōu)于 ES。具體來說, SelectDB 在日志檢索方面的性能優(yōu)越,支持高效的查詢,同時大大降低了存儲開銷。接入 SelectDB 后,用戶的操作變得更加簡便,并且可以直接使用該系統(tǒng)來替代原有的 ELK 生態(tài)。

這種轉(zhuǎn)換帶來的好處不僅限于成本節(jié)省,還使得用戶的使用體驗(yàn)得到了提升,尤其是在需要處理大量日志數(shù)據(jù)的場景下。SelectDB 的優(yōu)越性能和低成本使得它成為日志管理和分析的理想選擇。這也說明了 SelectDB 在日志場景中的突出能力,能夠?yàn)橛脩籼峁┮粋€高效、低成本的解決方案。對于有興趣深入了解的朋友,可以通過私下交流進(jìn)一步探討更多細(xì)節(jié),或在展臺進(jìn)行面對面的交流。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2023-01-09 07:55:43

Rust開源數(shù)據(jù)倉庫

2021-04-18 18:43:25

數(shù)據(jù)倉庫數(shù)據(jù)數(shù)據(jù)庫

2020-05-20 10:33:48

Cloudera商業(yè)智能數(shù)據(jù)倉庫

2015-09-15 11:06:33

第一屆稅務(wù)行業(yè)信息化研華為

2022-06-28 09:47:05

數(shù)據(jù)倉庫

2024-10-18 08:17:09

Doris數(shù)據(jù)倉庫

2024-01-12 18:02:38

Doris數(shù)據(jù)平臺

2023-10-05 18:25:40

存儲分開存儲SSD

2024-01-23 15:21:14

2021-04-13 16:13:38

大數(shù)據(jù)教育科學(xué)

2024-12-02 09:26:17

2020-10-21 09:25:41

VMware

2020-02-05 15:09:38

數(shù)據(jù)倉庫數(shù)據(jù)中臺OPPO

2018-06-05 13:43:49

數(shù)據(jù)基礎(chǔ)設(shè)施

2022-07-26 06:57:07

數(shù)據(jù)管道端點(diǎn)API

2020-06-22 17:26:36

數(shù)據(jù)倉庫數(shù)據(jù)數(shù)據(jù)庫

2010-09-30 15:03:53

DB2數(shù)據(jù)倉庫

2015-10-29 14:35:21

移動設(shè)備現(xiàn)代化

2024-09-13 12:25:43

2017-11-23 05:50:14

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號