自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

云原生大數(shù)據(jù)架構(gòu)中實時計算維表和結(jié)果表的選型實踐

新聞 架構(gòu) 大數(shù)據(jù) 云原生
隨著互聯(lián)網(wǎng)技術(shù)的日漸發(fā)展、數(shù)據(jù)規(guī)模的擴(kuò)大與復(fù)雜的需求場景的產(chǎn)生,傳統(tǒng)的大數(shù)據(jù)架構(gòu)無法承載。

  [[424013]]

一、前言

傳統(tǒng)的大數(shù)據(jù)技術(shù)起源于 Google 三架馬車 GFS、MapReduce、Bigtable,以及其衍生的開源分布式文件系統(tǒng) HDFS,分布式計算引擎 MapReduce,以及分布式數(shù)據(jù)庫 HBase。最初的大數(shù)據(jù)技術(shù)與需求往往集中在超大規(guī)模數(shù)據(jù)存儲、數(shù)據(jù)處理、在線查詢等。在這個階段,很多公司會選擇自建機(jī)房部署 Hadoop 的方式,大數(shù)據(jù)技術(shù)與需求集中在離線計算與大規(guī)模存儲上,常見的體現(xiàn)方式有 T+1 報表,大規(guī)模數(shù)據(jù)在線查詢等。

隨著互聯(lián)網(wǎng)技術(shù)的日漸發(fā)展、數(shù)據(jù)規(guī)模的擴(kuò)大與復(fù)雜的需求場景的產(chǎn)生,傳統(tǒng)的大數(shù)據(jù)架構(gòu)無法承載。大數(shù)據(jù)架構(gòu)在近些年的演進(jìn)主要體現(xiàn)下以下幾方面:

1. 規(guī)?;哼@里的規(guī)?;饕w現(xiàn)在大數(shù)據(jù)技術(shù)的使用規(guī)模上和數(shù)據(jù)規(guī)模的增長。大數(shù)據(jù)技術(shù)的使用規(guī)模增長代表越來越多的復(fù)雜需求產(chǎn)生,而數(shù)據(jù)規(guī)模的增長決定了傳統(tǒng)的準(zhǔn)大數(shù)據(jù)技術(shù)(如 MySQL)無法解決所有問題。因此,拿存儲組件舉例來說,通常會劃分到不同的數(shù)據(jù)分層,面向規(guī)模、成本、查詢和分析性能等不同維度的優(yōu)化偏向,以滿足多樣性的需求。

2. 實時化:傳統(tǒng)的 T+1 的離線大數(shù)據(jù)技術(shù)無法滿足推薦、監(jiān)控類近實時的需求,整個大數(shù)據(jù)生態(tài)和技術(shù)架構(gòu)在過去十年發(fā)生了很大的升級換代。就存儲上來說,傳統(tǒng)的 HDFS 文件存儲、Hive 數(shù)倉無法滿足低成本,可更新迭代的需求,因此滋生出 Hudi 等數(shù)據(jù)方案。就計算上來說,傳統(tǒng)的 MapReduce 批處理的能力無法做到秒級的數(shù)據(jù)處理,先后出現(xiàn) Storm 較原始的實時處理和 Spark Streaming 的微批處理,目前由 Flink 基于 Dataflow 模型的實時計算框架在實時計算領(lǐng)域占據(jù)絕對主導(dǎo)地位。

3. 云原生化:傳統(tǒng)的公司往往會選擇自建機(jī)房,或者在云上購買機(jī)器部署實例這種云托管的形式,但這種架構(gòu)存在低谷期利用率低,存儲計算不分離導(dǎo)致的存儲和計算彈性差,以及升級靈活度低等各種問題。云原生大數(shù)據(jù)架構(gòu)就是所謂的數(shù)據(jù)湖,其本質(zhì)就是充分利用云上的彈性資源來實現(xiàn)一個統(tǒng)一管理、統(tǒng)一存儲、彈性計算的大數(shù)據(jù)架構(gòu),變革了傳統(tǒng)大數(shù)據(jù)架構(gòu)基于物理集群和本地磁盤的計算存儲架構(gòu)。其主要技術(shù)特征是存儲和計算分離和 Serverless。在云原生大數(shù)據(jù)架構(gòu)中,每一層架構(gòu)都在往服務(wù)化的趨勢演進(jìn),存儲服務(wù)化、計算服務(wù)化、元數(shù)據(jù)管理服務(wù)化等。每個組件都被要求拆分成不同的單元,具備獨立擴(kuò)展的能力,更開放、更靈活、更彈性。

本篇文章將基于云原生大數(shù)據(jù)架構(gòu)的場景,詳細(xì)討論實時計算中的維表和結(jié)果表的架構(gòu)選型。

二、大數(shù)據(jù)架構(gòu)中的實時計算

1、實時計算場景

大數(shù)據(jù)的高速發(fā)展已經(jīng)超過 10 年,大數(shù)據(jù)也正在從計算規(guī)?;蚋訉崟r化的趨勢演進(jìn)。實時計算場景主要有以下幾種最常見的場景:

  • 實時數(shù)倉:實時數(shù)倉主要應(yīng)用在網(wǎng)站 PV / UV 統(tǒng)計、交易數(shù)據(jù)統(tǒng)計、商品銷量統(tǒng)計等各類交易型數(shù)據(jù)場景中。在這種場景下,實時計算任務(wù)通過訂閱業(yè)務(wù)實時數(shù)據(jù)源,將信息實時秒級分析,最終呈現(xiàn)在業(yè)務(wù)大屏中給決策者使用,方便判斷企業(yè)運營狀況和活動促銷的情況。
  • 實時推薦:實時推薦主要是基于 AI 技術(shù),根據(jù)用戶喜好進(jìn)行個性化推薦。常見于短視頻場景、內(nèi)容資訊場景、電商購物等場景。在這種場景下,通過用戶的歷史點擊情況實時判斷用戶喜好,從而進(jìn)行針對性推薦,以達(dá)到增加用戶粘性的效果。
  • 數(shù)據(jù) ETL:實時的 ETL 場景常見于數(shù)據(jù)同步任務(wù)中。比如數(shù)據(jù)庫中不同表的同步、轉(zhuǎn)化,或者是不同數(shù)據(jù)庫的同步,或者是進(jìn)行數(shù)據(jù)聚合預(yù)處理等操作,最終將結(jié)果寫入數(shù)據(jù)倉庫或者數(shù)據(jù)湖進(jìn)行歸檔沉淀。這種場景主要是為后續(xù)的業(yè)務(wù)深度分析進(jìn)行前期準(zhǔn)備工作。
  • 實時診斷:這種常見于金融類或者是交易類業(yè)務(wù)場景。在這些場景中,針對行業(yè)的獨特性,需要有反作弊監(jiān)管,根據(jù)實時短時間之內(nèi)的行為,判定用戶是否為作弊用戶,做到及時止損。該場景對時效性要求極高,通過實時計算任務(wù)對異常數(shù)據(jù)檢測,實時發(fā)現(xiàn)異常并進(jìn)行及時止損。

2、Flink SQL 實時計算

實時計算需要后臺有一套極其強(qiáng)大的大數(shù)據(jù)計算能力,Apache Flink 作為一款開源大數(shù)據(jù)實時計算技術(shù)應(yīng)運而生。由于傳統(tǒng)的 Hadoop、Spark 等計算引擎,本質(zhì)上是批計算引擎,通過對有限的數(shù)據(jù)集進(jìn)行數(shù)據(jù)處理,其處理時效性是不能保證的。而 Apache Flink ,從設(shè)計之初就以定位為流式計算引擎,它可以實時訂閱實時產(chǎn)生的流式數(shù)據(jù),對數(shù)據(jù)進(jìn)行實時分析處理并產(chǎn)生結(jié)果,讓數(shù)據(jù)在第一時間發(fā)揮價值。

Flink 選擇了 SQL 這種聲明式語言作為頂層 API,方便用戶使用,也符合云原生大數(shù)據(jù)架構(gòu)的趨勢:

  • 大數(shù)據(jù)普惠,規(guī)模生產(chǎn):Flink SQL 能夠根據(jù)查詢語句自動優(yōu)化,生成最優(yōu)的物理執(zhí)行計劃,屏蔽大數(shù)據(jù)計算中的復(fù)雜性,大幅降低用戶使用門檻,以達(dá)到大數(shù)據(jù)普惠的效果。
  • 流批一體:Flink SQL 具備流批統(tǒng)一的特性,無論是流任務(wù)還是批處理任務(wù)都給用戶提供相同的語義和統(tǒng)一的開發(fā)體驗,方便業(yè)務(wù)離線任務(wù)轉(zhuǎn)實時。
  • 屏蔽底層存儲差異:Flink 通過提供 SQL 統(tǒng)一查詢語言,屏蔽底層數(shù)據(jù)存儲的差異,方便業(yè)務(wù)在多樣性的大數(shù)據(jù)存儲中進(jìn)行靈活切換,對云上大數(shù)據(jù)架構(gòu)進(jìn)行更開放、靈活的調(diào)整。

上圖是 Flink SQL 的一些基本操作??梢钥吹?SQL 的語法和標(biāo)準(zhǔn) SQL 非常類似,示例中包括了基本的 SELECT、FILTER 操作,可以使用內(nèi)置函數(shù)(如日期的格式化),也可以在注冊函數(shù)后使用自定義函數(shù)。

Flink SQL 將實時計算拆分成源表,結(jié)果表和維表三種,將這三種表的 DDL 語句(比如 CREATE TABLE)注冊各類輸入、輸出的數(shù)據(jù)源,通過 SQL 的 DML(比如 INSERT INTO)表示實時計算任務(wù)的拓?fù)潢P(guān)系,以達(dá)到通過 SQL 完成實時計算任務(wù)開發(fā)的效果。

  • 源表:主要代表消息系統(tǒng)類的輸入,比如 Kafka,MQ(Message Queue),或者 CDC(Change Data Capture,例如將 MySQL binlog 轉(zhuǎn)換成實時流)輸入。
  • 結(jié)果表:主要代表 Flink 將每條實時處理完的數(shù)據(jù)寫入的目標(biāo)存儲,如 MySQL,HBase 等數(shù)據(jù)庫。
  • 維表:主要代表存儲數(shù)據(jù)維度信息的數(shù)據(jù)源。在實時計算中,因為數(shù)據(jù)采集端采集到的數(shù)據(jù)往往比較有限,在做數(shù)據(jù)分析之前,就要先將所需的維度信息補全,而維表就是代表存儲數(shù)據(jù)維度信息的數(shù)據(jù)源。常見的用戶維表有 MySQL,Redis 等。

下圖是一個完整的實時計算示例,示例中的 Flink SQL 任務(wù),這個任務(wù)的目標(biāo)是計算每分鐘不同商品分類的 GMV (Gross Merchandise Volume,即商品交易總額)。在這個任務(wù)中,F(xiàn)link 實時消費用戶訂單數(shù)據(jù)的 Kafka 源表,通過 Redis 維表將商品 id 關(guān)聯(lián)起來獲取到商品分類,按照 1 分鐘間隔的滾動窗口按商品分類將總計的交易金額計算出來,將最后的結(jié)果寫入 RDS(Relational Database Service,如 MySQL) 結(jié)果表中。

  1. # 源表 - 用戶訂單數(shù)據(jù),代表某個用戶(user_id)在 timestamp 時按 price 的價格購買了商品(item_id) 
  2. CREATE TEMPORARY TABLE user_action_source ( 
  3.   `timestamp` BIGINT, 
  4.   `user_id` BIGINT, 
  5.   `item_id` BIGINT, 
  6.   `price` DOUBLE,SQs 
  7. ) WITH ( 
  8.   'connector' = 'kafka'
  9.   'topic' = '<your_topic>'
  10.   'properties.bootstrap.servers' = 'your_kafka_server:9092'
  11.   'properties.group.id' = '<your_consumer_group>' 
  12.   'format' = 'json'
  13.   'scan.startup.mode' = 'latest-offset' 
  14. ); 
  15.  
  16.  
  17. # 維表 - 物品詳情 
  18. CREATE TEMPORARY TABLE item_detail_dim ( 
  19.   id STRING, 
  20.   catagory STRING, 
  21.   PRIMARY KEY (id) NOT ENFORCED 
  22. ) WITH ( 
  23.   'connector' = 'redis'
  24.   'host' = '<your_redis_host>'
  25.   'port' = '<your_redis_port>'
  26.   'password' = '<your_redis_password>'
  27.   'dbNum' = '<your_db_num>' 
  28. ); 
  29.  
  30.  
  31. # 結(jié)果表 - 按時間(分鐘)和分類的 GMV 輸出 
  32. CREATE TEMPORARY TABLE gmv_output ( 
  33.    time_minute STRING, 
  34.    catagory STRING, 
  35.    gmv DOUBLE, 
  36.    PRIMARY KEY (time_minute, catagory) 
  37. ) WITH ( 
  38.    type='rds'
  39.    url='<your_jdbc_mysql_url_with_database>'
  40.    tableName='<your_table>'
  41.    userName='<your_mysql_database_username>'
  42.    password='<your_mysql_database_password>' 
  43. ); 
  44.  
  45.  
  46. # 處理過程 
  47. INSERT INTO gmv_output  
  48. SELECT  
  49.   TUMBLE_START(s.timestamp, INTERVAL '1' MINUTES) as time_minute, 
  50.   d.catagory, 
  51.   SUM(d.price) as gmv 
  52. FROM 
  53.   user_action_source s 
  54.   JOIN item_detail_dim FOR SYSTEM_TIME AS OF PROCTIME() as d 
  55.     ON s.item_id = d.id 
  56. GROUP BY TUMBLE(s.timestamp, INTERVAL '1' MINUTES), d.catagory; 

這是一個很常見的實時計算的處理鏈路。后續(xù)章節(jié)中,我們將針對實時計算的維表和結(jié)果表的關(guān)鍵能力進(jìn)行展開分析,并分別進(jìn)行架構(gòu)選型的討論。

三、實時計算維表

1、關(guān)鍵需求

在數(shù)據(jù)倉庫的建設(shè)中,一般都會圍繞著星型模型和雪花模型來設(shè)計表關(guān)系或者結(jié)構(gòu)。實時計算也不例外,一種常見的需求就是為數(shù)據(jù)流補齊字段。因為數(shù)據(jù)采集端采集到的數(shù)據(jù)往往比較有限,在做數(shù)據(jù)分析之前,就要先將所需的維度信息補全。比如采集到的交易日志中只記錄了商品 id,但是在做業(yè)務(wù)時需要根據(jù)店鋪維度或者行業(yè)緯度進(jìn)行聚合,這就需要先將交易日志與商品維表進(jìn)行關(guān)聯(lián),補全所需的維度信息。這里所說的維表與數(shù)據(jù)倉庫中的概念類似,是維度屬性的集合,比如商品維度、用戶度、地點維度等等。

作為保存用戶維度信息的數(shù)據(jù)存儲,需要應(yīng)對實時計算場景下的海量低延時訪問。根據(jù)這樣的定位,我們總結(jié)下對結(jié)構(gòu)化大數(shù)據(jù)存儲的幾個關(guān)鍵需求:

(1)高吞吐與低延時的讀取能力

首當(dāng)其沖,在不考慮開源引擎 Flink 自身維表的優(yōu)化外,維表必須能承擔(dān)實時計算場景下的海量(上萬 QPS)的數(shù)據(jù)訪問,也能在極低(毫秒級別)的延時下返回查詢數(shù)據(jù)。

(2)與計算引擎的高整合能力

在維表自身的能力之外,出于性能、穩(wěn)定性和成本的考慮,計算引擎自身往往也會有些流量卸載的能力,在一些情況下無需每次請求都需要去訪問下游維表。例如,F(xiàn)link 在維表場景下支持 Async IO 和緩存策略等優(yōu)化特性。 一個比較好的維表需要和開源計算引擎有著較高程度的對接,一方面可以提升計算層的性能,一方面也可以有效的卸載部分流量,保障維表不被過多訪問擊穿,并降低維表的計算成本。

(3)輕存儲下的計算能力的彈性

維表通常是一張共享表,存儲維度屬性等元數(shù)據(jù)信息,訪問規(guī)模往往較大,而存儲規(guī)模往往不會特別大。對維表的訪問規(guī)模極大地依賴實時數(shù)據(jù)流的數(shù)據(jù)量。比如,如果實時流的數(shù)據(jù)規(guī)模擴(kuò)大了數(shù)十倍,此時對維表的訪問次數(shù)會大大提升;又比如,如果新增了多個實時計算任務(wù)訪問該維表,該維表的查詢壓力會激增。在這些場景下,存儲規(guī)模往往不會顯著增加。

所以,計算最好是按需的,是彈性的。無論是新增或者下線實時計算任務(wù),或者增加訪問流量,都不會影響訪問性能。同時,計算和存儲是應(yīng)該分離的,不會單純因為訪問計算量的激增就增加存儲成本。

2、架構(gòu)選型

MySQL

大數(shù)據(jù)和實時計算技術(shù)起步之初,互聯(lián)網(wǎng)早期大量流行 LAMP (Linux + Apache + MySQL + PHP)架構(gòu)快速開發(fā)站點。因此,由于業(yè)務(wù)歷史數(shù)據(jù)已經(jīng)存在 MySQL 中,在最初的實時計算維表選型中大量使用 MySQL 作為維表。

隨著大數(shù)據(jù)架構(gòu)的更新,MySQL 云上架構(gòu)也在不斷改進(jìn),但在維表的應(yīng)用場景下仍然存在以下問題:

  • 存儲側(cè)擴(kuò)展靈活性差,擴(kuò)展成本較高:MySQL 在存儲側(cè)的擴(kuò)展需要進(jìn)行數(shù)據(jù)復(fù)制遷移,擴(kuò)展周期長且靈活性差。同時 MySQL 的分庫分表每次擴(kuò)展需要雙倍資源,擴(kuò)展成本較高。
  • 存儲成本高:關(guān)系數(shù)據(jù)庫是結(jié)構(gòu)化數(shù)據(jù)存儲單位成本最高的存儲系統(tǒng),所以對于大數(shù)據(jù)場景來說,關(guān)系型數(shù)據(jù)庫存儲成本較高。

以上這些限制使 MySQL 在大數(shù)據(jù)維表場景下存在性能瓶頸,成本也比較高。但總體來說,MySQL 是非常優(yōu)秀的數(shù)據(jù)庫產(chǎn)品,在數(shù)據(jù)規(guī)模不怎么大的場景下,MySQL 絕對是個不錯的選擇。

Redis

在云上應(yīng)用架構(gòu)中,由于 MySQL 難以承載不斷增加的業(yè)務(wù)負(fù)載,往往會使用 Redis 作為 MySQL 的查詢結(jié)果集緩存,幫助 MySQL 來抵御大部分的查詢流量。

在這種架構(gòu)中,MySQL 作為主存儲服務(wù)器,Redis 作為輔助存儲,MySQL 到 Redis 的同步可以通過 binlog 實時同步或者 MySQL UDF + 觸發(fā)器的方式實現(xiàn)。在這種架構(gòu)中,Redis 可以用來緩存提高查詢性能,同時降低 MySQL 被擊穿的風(fēng)險。

由于在 Redis 中緩存了一份弱一致性的用戶數(shù)據(jù),Redis 也常常用來作為實時計算的維表。相比于 MySQL 作為維表,Redis 有著獨特的優(yōu)勢:

  • 查詢性能極高:數(shù)據(jù)高速緩存在內(nèi)存中,可以通過高速 Key-Value 形式進(jìn)行結(jié)果數(shù)據(jù)查詢,非常符合維表高性能查詢的需求。
  • 存儲層擴(kuò)展靈活性高:Redis 可以非常方便的擴(kuò)展分片集群,進(jìn)行橫向擴(kuò)展,支持?jǐn)?shù)據(jù)多副本的持久化。

Redis 有其突出的優(yōu)點,但也有一個不可忽視的缺陷:雖然 Redis 有著不錯的擴(kuò)展方案,但由于高速緩存的數(shù)據(jù)存在內(nèi)存中,成本較高,如果遇到業(yè)務(wù)數(shù)據(jù)的維度屬性較大(比如用戶維度、商品維度)時,使用 Redis 作為維表存儲時成本極高。

Tablestore

Tablestore是阿里云自研的結(jié)構(gòu)化大數(shù)據(jù)存儲產(chǎn)品,具體產(chǎn)品介紹可以參考 官網(wǎng) 以及 權(quán)威指南 。在大數(shù)據(jù)維表的場景下,Tablestore 有著獨特的優(yōu)勢:

  • 高吞吐訪問:Tablestore 采用了存儲計算分離架構(gòu),可以彈性擴(kuò)展計算資源,支持高吞吐下的數(shù)據(jù)查詢。
  • 低延時查詢:Tablestore 按照 LSM 存儲引擎實現(xiàn),支持 Block Cache 加速查詢,用戶也通過配置豐富的索引,優(yōu)化業(yè)務(wù)查詢。
  • 低成本存儲和彈性計算成本:在存儲成本上,Tablestore 屬于結(jié)構(gòu)化 NoSQL 存儲類型,數(shù)據(jù)存儲成本比起關(guān)系型數(shù)據(jù)庫或者高速緩存要低很多;在計算成本上,Tablestore 采用了存儲計算架構(gòu),可以按需彈性擴(kuò)展計算資源。
  • 與 Flink 維表優(yōu)化的高度對接:Tablestore 支持 Flink 維表優(yōu)化的所有策略,包括 Async IO 和不同緩存策略。

方案對比

上面是前文提到的幾個維表方案在各個維度的對比。接下來,將舉幾個具體的場景細(xì)致對比下成本:

1. 高存儲高計算:維表需要存 100 億條訂單維度的數(shù)據(jù),總計存儲量需要 1T,盡管業(yè)務(wù)在 Flink 任務(wù)端配置了緩存策略,但仍然有較高的 KV 查詢下沉到維表,到維表的 QPS 峰值  10 萬,均值 2.5 萬。不同維表所需的配置要求和購買成本如下:

2. 低存儲低計算:維表需要存 100 萬條地域維度的數(shù)據(jù),總計存儲量需要 10M,業(yè)務(wù)端在 Flink 任務(wù)中的維表配置了 LRU 緩存策略抵御了絕大部分的流量,到維表的 QPS 峰值 1000 均值 250。不同維表所需的配置要求和購買成本如下:

3. 高存儲低計算:維表需要存 100 億條訂單維度的數(shù)據(jù),總計存儲量需要 1T,業(yè)務(wù)端在 Flink 任務(wù)中的維表配置了 LRU 緩存策略抵御了絕大部分的流量,到維表的 QPS 峰值 1000 均值 250。不同維表所需的配置要求和購買成本如下:

4. 低存儲高計算:Redis 作為內(nèi)存數(shù)據(jù)庫,具有超高頻的數(shù)據(jù) KV 查詢能力,僅 4 核 8G 內(nèi)存的 Redis集群,即可支持 16 萬 QPS的并發(fā)訪問,成本預(yù)計 1600 元 / 月,在低存儲高計算場景有著鮮明的成本優(yōu)勢。

從上面的成本對比報告中可見:

1)MySQL 由于缺乏存儲和計算的彈性,以及關(guān)系型數(shù)據(jù)庫固有的缺點,在不同程度的存儲和計算規(guī)模下成本均較高。

2)Redis 作為內(nèi)存數(shù)據(jù)庫,在低存儲(約 128G 以下)高計算場景有著鮮明的成本優(yōu)勢,但由于內(nèi)存存儲成本很高、缺乏彈性,隨著數(shù)據(jù)規(guī)模的提升,成本呈指數(shù)增長。

3)Tablestore 基于云原生架構(gòu)可以按量對存儲和計算進(jìn)行彈性,在數(shù)據(jù)存儲和訪問規(guī)模不大時成本較低。

4)Tablestore 作為 NoSQL 數(shù)據(jù)庫存儲成本很低,在高存儲(128G 以上)場景下有著鮮明的成本優(yōu)勢。

四、實時計算結(jié)果表

1、需求分析

結(jié)果表作為實時計算完成后數(shù)據(jù)導(dǎo)入的存儲系統(tǒng),主要可分為關(guān)系數(shù)據(jù)庫、搜索引擎、結(jié)構(gòu)化大數(shù)據(jù)離線存儲、結(jié)構(gòu)化大數(shù)據(jù)在線存儲幾種分類,具體差異通過以下表格進(jìn)行了歸納。

對于這幾種數(shù)據(jù)產(chǎn)品,在各自場景下各有優(yōu)勢,起源的先后也各有不同。為了方便探究,我們將問題域縮小,僅僅考慮實時計算的場景下,一個更好的結(jié)果表存儲需要承擔(dān)什么樣的角色。

上文提到了實時計算的主要幾個場景中,實時數(shù)倉,實時推薦,實時監(jiān)控三個場景需要考慮結(jié)果表的選型。我們一一分析。

  • 實時數(shù)倉:實時數(shù)倉主要應(yīng)用在網(wǎng)站實時 PV / UV 統(tǒng)計、交易數(shù)據(jù)統(tǒng)計等實時分析場景。實時分析(即OLAP)場景分為預(yù)聚合、搜索引擎和 MPP(Massively Parallel Processing,即大規(guī)模并行處理)三種 OLAP 模型。對于預(yù)聚合模型來說,可以通過 Flink 計算層進(jìn)行數(shù)據(jù)聚合寫入結(jié)果表,也可以全量寫入結(jié)果表中,通過結(jié)果表自身的預(yù)聚合能力進(jìn)行數(shù)據(jù)存儲,在這種形態(tài)中極大地依賴結(jié)果表數(shù)據(jù)查詢與分析能力的支撐。對于搜索引擎模型來說,數(shù)據(jù)將全量寫入結(jié)果表中,通過搜索引擎的倒排索引和列存特性進(jìn)行數(shù)據(jù)分析,在這種形態(tài)中需要結(jié)果表有高吞吐的數(shù)據(jù)寫入能力和大規(guī)模數(shù)據(jù)存儲能力。MPP 模型是計算引擎,如果訪問的是列式存儲,可以更好地發(fā)揮分析查詢特性。實時 OLAP 存儲和計算引擎眾多,在一個完整的數(shù)據(jù)系統(tǒng)架構(gòu)下,需要有多個存儲組件并存。并且根據(jù)對查詢和分析能力的不同要求,需要數(shù)據(jù)派生派生能力在必要時擴(kuò)展到其他類型存儲。另外,實時數(shù)倉中隨著業(yè)務(wù)規(guī)模的擴(kuò)大,存儲量會大幅增長,相較來說數(shù)據(jù)查詢等計算規(guī)模變化一般不會特別明顯,所以結(jié)果表需要做到存儲和計算成本分離,極大地控制資源成本。
  • 實時推薦:實時推薦主要是根據(jù)用戶喜好進(jìn)行個性化推薦,在常見的用戶商品個性化推薦場景下,一種常見的做法是將用戶的特征寫入結(jié)構(gòu)化大數(shù)據(jù)存儲(如 HBase )中,而該存儲將作為維表另一條用戶點擊消費行為數(shù)據(jù)進(jìn)行關(guān)聯(lián),提取出用戶特征與行為關(guān)聯(lián)輸入,作為推薦算法的輸入。這里的存儲既需要作為結(jié)果表提供高吞吐的數(shù)據(jù)寫入能力,也需要作為維表提供高吞吐低延時的數(shù)據(jù)在線查詢能力。
  • 實時監(jiān)控:應(yīng)用的實時監(jiān)控常見于金融類或者是交易類業(yè)務(wù)場景,該場景對時效性要求極高,通過對異常數(shù)據(jù)檢測,可以實時發(fā)現(xiàn)異常情況而做出一個止損的行為。在這種場景下無論是通過閾值進(jìn)行判斷還是通過異常檢測算法,都需要實時低延時的數(shù)據(jù)聚合查詢能力。

2、關(guān)鍵能力

通過以上的需求分析,我們可以總結(jié)出幾項實時大數(shù)據(jù)結(jié)果表的關(guān)鍵能力:

1. 大規(guī)模數(shù)據(jù)存儲

結(jié)果表存儲的定位是集中式的大規(guī)模存儲,作為在線數(shù)據(jù)庫的匯總,或者是實時計算(或者是離線)的輸入和輸出,必須要能支撐 PB 級規(guī)模數(shù)據(jù)存儲。

2. 豐富的數(shù)據(jù)查詢與聚合分析能力

結(jié)果表需要擁有豐富的數(shù)據(jù)查詢與聚合分析能力,需要為支撐高效在線查詢做優(yōu)化。常見的查詢優(yōu)化包括高速緩存、高并發(fā)低延遲的隨機(jī)查詢、復(fù)雜的任意字段條件組合查詢以及數(shù)據(jù)檢索。這些查詢優(yōu)化的技術(shù)手段就是緩存和索引,其中索引的支持是多元化的,面向不同的查詢場景提供不同類型的索引。例如面向固定組合查詢的基于 B+tree 的二級索引,面向地理位置查詢的基于 R-tree 或 BKD-tree 的空間索引或者是面向多條件組合查詢和全文檢索的倒排索引。

3. 高吞吐寫入能力

實時計算的數(shù)據(jù)表需要能承受大數(shù)據(jù)計算引擎的海量結(jié)果數(shù)據(jù)集導(dǎo)出。所以必須能支撐高吞吐的數(shù)據(jù)寫入,通常會采用一個為寫入而優(yōu)化的存儲引擎。

4. 數(shù)據(jù)派生能力

一個完整的數(shù)據(jù)系統(tǒng)架構(gòu)下,需要有多個存儲組件并存。并且根據(jù)對查詢和分析能力的不同要求,需要在數(shù)據(jù)派生體系下對存儲進(jìn)行動態(tài)擴(kuò)展。所以對于大數(shù)據(jù)存儲來說,也需要有能擴(kuò)展存儲的派生能力,來擴(kuò)展數(shù)據(jù)處理能力。而判斷一個存儲組件是否具備更好的數(shù)據(jù)派生能力,就看是否具備成熟的 CDC 技術(shù)。

5. 云原生架構(gòu):存儲與計算成本分離

在云原生大數(shù)據(jù)架構(gòu)中,每一層架構(gòu)都在往服務(wù)化的趨勢演進(jìn),存儲服務(wù)化、計算服務(wù)化、元數(shù)據(jù)管理服務(wù)化等。每個組件都被要求拆分成不同的單元,作為結(jié)果表也不例外,需要具備獨立擴(kuò)展的能力,更開放、更靈活、更彈性。

單就從結(jié)果表來說,只有符合云原生架構(gòu)的組件,即基于存儲計算分離架構(gòu)實現(xiàn)的產(chǎn)品,才能做到存儲和計算成本的分離,以及獨立擴(kuò)展。存儲和計算分離的優(yōu)勢,在大數(shù)據(jù)系統(tǒng)下會更加明顯。舉一個簡單的例子,結(jié)構(gòu)化大數(shù)據(jù)存儲的存儲量會隨著數(shù)據(jù)的積累越來越大,但是數(shù)據(jù)寫入量是相對平穩(wěn)的。所以存儲需要不斷的擴(kuò)大,但是為了支撐數(shù)據(jù)寫入或臨時的數(shù)據(jù)分析而所需的計算資源,則相對來說比較固定,是按需的。

3、架構(gòu)選型

MySQL

和維表一樣,大數(shù)據(jù)和實時計算技術(shù)起步之初,MySQL 是一個萬能存儲,幾乎所有需求都可以通過 MySQL 來完成,因此應(yīng)用規(guī)模非常廣,結(jié)果表也不例外。隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)展和需求場景的日漸復(fù)雜,MySQL 有點難以承載,就結(jié)果表的場景下主要存在以下問題:

1. 大數(shù)據(jù)存儲成本高:這個在之前討論維表時已經(jīng)提到,關(guān)系數(shù)據(jù)庫單位存儲成本非常高。

2. 單一存儲系統(tǒng),提供的查詢能力有限:隨著數(shù)據(jù)規(guī)模的擴(kuò)大,MySQL 讀寫性能的不足問題逐漸顯現(xiàn)了出來。另外,隨著分析類 AP 需求的產(chǎn)生,更適合 TP 場景的 MySQL 查詢能力比較有限。

3. 高吞吐數(shù)據(jù)寫入能力較差:作為 TP 類的關(guān)系型數(shù)據(jù)庫,并不是特別擅長高吞吐的數(shù)據(jù)寫入。

4. 擴(kuò)展性差,擴(kuò)展成本較高:這個在之前討論維表時已經(jīng)提到,MySQL 在存儲側(cè)的擴(kuò)展需要進(jìn)行數(shù)據(jù)復(fù)制遷移,且需要雙倍資源,因此擴(kuò)展靈活性差,成本也比較高。

以上這些限制使 MySQL 在大數(shù)據(jù)結(jié)果表場景下存在性能瓶頸,成本也比較高,但作為關(guān)系型數(shù)據(jù)庫,不是特別適合作為大數(shù)據(jù)的結(jié)果表使用。

HBase

由于關(guān)系型數(shù)據(jù)庫的天然瓶頸,基于 BigTable 概念的分布式 NoSQL 結(jié)構(gòu)化數(shù)據(jù)庫應(yīng)運而生。目前開源界比較知名的結(jié)構(gòu)化大數(shù)據(jù)存儲是 Cassandra 和 HBase,Cassandra 是 WideColumn 模型 NoSQL 類別下排名 Top-1 的產(chǎn)品,在國外應(yīng)用比較廣泛。這篇文章中,我們重點提下在國內(nèi)應(yīng)用更多的 HBase。      HBase 是基于 HDFS 的存儲計算分離架構(gòu)的 WideColumn 模型數(shù)據(jù)庫,擁有非常好的擴(kuò)展性,能支撐大規(guī)模數(shù)據(jù)存儲,它的優(yōu)點為:

1. 大數(shù)據(jù)規(guī)模存儲,支持高吞吐寫入:基于 LSM 實現(xiàn)的存儲引擎,支持大規(guī)模數(shù)據(jù)存儲,并為寫入優(yōu)化設(shè)計,能提供高吞吐的數(shù)據(jù)寫入。

2. 存儲計算分離架構(gòu):底層基于 HDFS,分離的架構(gòu)可以按需對存存儲和計算分別進(jìn)行彈性擴(kuò)展。

3. 開發(fā)者生態(tài)成熟,與其他開源生態(tài)整合較好:作為發(fā)展多年的開源產(chǎn)品,在國內(nèi)也有比較多的應(yīng)用,開發(fā)者社區(qū)很成熟,與其他開源生態(tài)如 Hadoop,Spark 整合較好。

HBase有其突出的優(yōu)點,但也有幾大不可忽視的缺陷:

1. 查詢能力弱,幾乎不支持?jǐn)?shù)據(jù)分析:提供高效的單行隨機(jī)查詢以及范圍掃描,復(fù)雜的組合條件查詢必須使用 Scan + Filter 的方式,稍不注意就是全表掃描,效率極低。HBase 的 Phoenix 提供了二級索引來優(yōu)化查詢,但和 MySQL 的二級索引一樣,只有符合最左匹配的查詢條件才能做索引優(yōu)化,可被優(yōu)化的查詢條件非常有限。

2. 數(shù)據(jù)派生能力弱:前面章節(jié)提到 CDC 技術(shù)是支撐數(shù)據(jù)派生體系的核心技術(shù),HBase 不具備 CDC 技術(shù)。

3. 非云原生 Serverless 服務(wù)模式,成本高:前面提到結(jié)構(gòu)化大數(shù)據(jù)存儲的關(guān)鍵需求之一是存儲與計算的成本分離,HBase 的成本取決于計算所需 CPU 核數(shù)成本以及磁盤的存儲成本,基于固定配比物理資源的部署模式下 CPU 和存儲永遠(yuǎn)會有一個無法降低的最小比例關(guān)系。即隨著存儲空間的增大,CPU 核數(shù)成本也會相應(yīng)變大,而不是按實際所需計算資源來計算成本。因此,只有云原生的 Serverless 服務(wù)模式,才要達(dá)到完全的存儲與計算成本分離。

4. 運維復(fù)雜:HBase 是標(biāo)準(zhǔn)的 Hadoop 組件,最核心依賴是 Zookeeper 和 HDFS,沒有專業(yè)的運維團(tuán)隊幾乎無法運維。

國內(nèi)的高級玩家大多會基于 HBase 做二次開發(fā),基本都是在做各種方案來彌補 HBase 查詢能力弱的問題,根據(jù)自身業(yè)務(wù)查詢特色研發(fā)自己的索引方案,例如自研二級索引方案、對接 Solr 做全文索引或者是針對區(qū)分度小的數(shù)據(jù)集的 bitmap 索引方案等等??偟膩碚f,HBase 是一個優(yōu)秀的開源產(chǎn)品,有很多優(yōu)秀的設(shè)計思路值得借鑒。

HBase + Elasticsearch

為了解決 HBase 查詢能力弱的問題,國內(nèi)很多公司通過 Elasticsearch 來加速數(shù)據(jù)檢索,按照 HBase + Elasticsearch 的方案實現(xiàn)他們的架構(gòu)。其中,HBase 用于做大數(shù)據(jù)存儲和歷史冷數(shù)據(jù)查詢,Elasticsearch 用于數(shù)據(jù)檢索,其中,由于 HBase 不具備 CDC 技術(shù),所以需要業(yè)務(wù)方應(yīng)用層雙寫 HBase 和 Elasticsearch,或者啟動數(shù)據(jù)同步任務(wù)將 HBase 同步至 Elasticsearch。

這個方案能通過 Elasticsearch 極大地補足 HBase 查詢能力弱的問題,但由于 HBase 和 Elasticsearch 本身的一些能力不足,會存在以下幾個問題:

1. 開發(fā)成本高,運維更加復(fù)雜:客戶要維護(hù)至少兩套集群,以及需要完成 HBase 到 Elasticsearch 的數(shù)據(jù)同步。如果要保證 HBase 和 Elasticsearch 的一致性,需要通過前文提到的應(yīng)用層多寫的方式,這不是解耦的架構(gòu)擴(kuò)展起來比較復(fù)雜。另外整體架構(gòu)比較復(fù)雜,涉及的模塊和技術(shù)較多,運維成本也很高。

2. 成本很高:客戶需要購買兩套集群,以及維護(hù) HBase 和 Elasticsearch 的數(shù)據(jù)同步,資源成本很高。

3. 仍沒有數(shù)據(jù)派生能力:這套架構(gòu)中,只是將數(shù)據(jù)分別寫入 HBase 和 Elasticsearch 中,而 HBase 和 Elasticsearch 均沒有 CDC 技術(shù),仍然無法靈活的將數(shù)據(jù)派生到其他系統(tǒng)中。

Tablestore

Tablestore 是阿里云自研的結(jié)構(gòu)化大數(shù)據(jù)存儲產(chǎn)品,具體產(chǎn)品介紹可以參考 官網(wǎng) 以及 權(quán)威指南 。Tablestore 的設(shè)計理念很大程度上顧及了數(shù)據(jù)系統(tǒng)內(nèi)對結(jié)構(gòu)化大數(shù)據(jù)存儲的需求,并且基于派生數(shù)據(jù)體系這個設(shè)計理念專門設(shè)計和實現(xiàn)了一些特色的功能。簡單概括下 Tablestore 的技術(shù)理念:

1. 大規(guī)模數(shù)據(jù)存儲,支持高吞吐寫入:LSM 和 B+ tree 是主流的兩個存儲引擎實現(xiàn),其中 Tablestore 基于 LSM 實現(xiàn),支持大規(guī)模數(shù)據(jù)存儲,專為高吞吐數(shù)據(jù)寫入優(yōu)化。

2. 通過多元化索引,提供豐富的查詢能力:LSM 引擎特性決定了查詢能力的短板,需要索引來優(yōu)化查詢。而不同的查詢場景需要不同類型的索引,所以 Tablestore 提供多元化的索引來滿足不同類型場景下的數(shù)據(jù)查詢需求。

3. 支持 CDC 技術(shù),提供數(shù)據(jù)派生能力:Tablestore 的 CDC 技術(shù)名為 Tunnel Service,支持全量和增量的實時數(shù)據(jù)訂閱,并且能無縫對接 Flink 流計算引擎來實現(xiàn)表內(nèi)數(shù)據(jù)的實時流計算。

4. 存儲計算分離架構(gòu):采用存儲計算分離架構(gòu),底層基于飛天盤古分布式文件系統(tǒng),這是實現(xiàn)存儲計算成本分離的基礎(chǔ)。

5. 云原生架構(gòu),Serverless 產(chǎn)品形態(tài),免運維:云原生架構(gòu)的最關(guān)鍵因素是存儲計算分離和 Serverless 服務(wù)化,只有存儲計算分離和 Serverless 服務(wù)才能實現(xiàn)一個統(tǒng)一管理、統(tǒng)一存儲、彈性計算的云原生架構(gòu)。由于是 Serverless 產(chǎn)品形態(tài),業(yè)務(wù)方無需部署和維護(hù) Tablestore,極大地降低用戶的運維成本。

方案對比

舉一個具體的場景,結(jié)果表需要存千億級別的電商訂單交易數(shù)據(jù),總計存儲量需要 1T,用戶需要對于這類數(shù)據(jù)進(jìn)行查詢與靈活的分析。日常訂單查詢與數(shù)據(jù)檢索頻率為 1000 次/秒,數(shù)據(jù)分析約每分鐘查詢 10 次左右。

以下是不同架構(gòu)達(dá)到要求所需的配置,以及在阿里云上的購買成本:

五、總結(jié)

本篇文章談了云原生大數(shù)據(jù)架構(gòu)下的實時計算維表和結(jié)果表場景下的架構(gòu)設(shè)計與選型。其中,阿里云 Tablestore 在這些場景下有一些特色功能,希望能通過本篇文章對我們有一個更深刻的了解。 

 

責(zé)任編輯:張燕妮 來源: 阿里技術(shù)
相關(guān)推薦

2019-11-21 09:49:29

架構(gòu)運維技術(shù)

2022-12-29 09:13:02

實時計算平臺

2021-03-10 14:04:10

大數(shù)據(jù)計算技術(shù)

2021-07-05 10:48:42

大數(shù)據(jù)實時計算

2016-11-02 09:02:56

交通大數(shù)據(jù)計算

2024-09-26 17:42:48

2020-09-11 10:19:03

騰訊云大數(shù)據(jù)數(shù)據(jù)

2017-01-15 13:45:20

Docker大數(shù)據(jù)京東

2022-11-07 18:19:14

Arctic大數(shù)據(jù)

2019-02-18 15:23:21

馬蜂窩MESLambda

2012-08-31 09:48:12

云計算大數(shù)據(jù)

2022-12-23 09:29:52

大數(shù)據(jù)

2021-05-08 09:14:55

云計算大數(shù)據(jù)人工智能

2018-01-04 13:39:34

大數(shù)據(jù)云計算IT行業(yè)

2021-02-28 13:45:12

邊緣計算云計算Kubernetes

2017-01-04 10:29:37

Spark運維技術(shù)

2023-07-18 18:14:51

云原生軟件架構(gòu)

2022-11-10 08:48:20

開源數(shù)據(jù)湖Arctic

2021-07-16 10:55:45

數(shù)倉一體Flink SQL
點贊
收藏

51CTO技術(shù)棧公眾號