自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于Apache Hudi 的CDC數(shù)據入湖「內附干貨PPT下載渠道」

數(shù)據庫
CDC的全稱是Change data Capture,即變更數(shù)據捕獲,它是數(shù)據庫領域非常常見的技術,主要用于捕獲數(shù)據庫的一些變更,然后可以把變更數(shù)據發(fā)送到下游。它的應用比較廣,可以做一些數(shù)據同步、數(shù)據分發(fā)和數(shù)據采集,還可以做ETL,今天主要分享的也是把DB數(shù)據通過CDC的方式ETL到數(shù)據湖。

一、CDC背景介紹

首先我們介紹什么是CDC?CDC的全稱是Change data Capture,即變更數(shù)據捕獲,它是數(shù)據庫領域非常常見的技術,主要用于捕獲數(shù)據庫的一些變更,然后可以把變更數(shù)據發(fā)送到下游。它的應用比較廣,可以做一些數(shù)據同步、數(shù)據分發(fā)和數(shù)據采集,還可以做ETL,今天主要分享的也是把DB數(shù)據通過CDC的方式ETL到數(shù)據湖。

對于CDC,業(yè)界主要有兩種類型:一是基于查詢的,客戶端會通過SQL方式查詢源庫表變更數(shù)據,然后對外發(fā)送。二是基于日志,這也是業(yè)界廣泛使用的一種方式,一般是通過binlog方式,變更的記錄會寫入binlog,解析binlog后會寫入消息系統(tǒng),或直接基于Flink CDC進行處理。

它們兩者是有區(qū)別的,基于查詢比較簡單,是入侵性的,而基于日志是非侵入性,對數(shù)據源沒有影響,但binlog的解析比較復雜一些。

基于查詢和基于日志,分別有四種實現(xiàn)技術,有基于時間戳、基于觸發(fā)器和快照,還有基于日志的,這是實現(xiàn)CDC的技術,下面是幾種方式的對比。

通過這個表格對比可以發(fā)現(xiàn)基于日志的綜合最優(yōu),但解析比較復雜,但業(yè)界有很多開源的binlog的解析器,比較通用和流行的有Debezium、Canal,以及Maxwell?;谶@些binlog解析器就可以構建ETL管道。

下面來看下業(yè)界比較流行的一種CDC入倉架構。

整個數(shù)據入倉是分實時流是離線流,實時流解析binlog,通過Canal解析binlog,然后寫入Kafka,然后每個小時會把Kafka數(shù)據同步到Hive中;另外就是離線流,離線流需要對同步到Hive的貼源層的表進行拉取一次全量,如果只有前面的實時流是數(shù)據是不全的,必須通過離線流的SQL Select把全量導入一次數(shù)據,對每張ODS表會把存量數(shù)據和增量數(shù)據做一個Merge。這里可以看到對于ODS層的實時性不夠,存在小時、天級別的延遲。而對ODS層這個延時可以通過引入Apache Hudi做到分鐘級。

二、CDC數(shù)據入湖方法

基于CDC數(shù)據的入湖,這個架構非常簡單。上游各種各樣的數(shù)據源,比如DB的變更數(shù)據、事件流,以及各種外部數(shù)據源,都可以通過變更流的方式寫入表中,再進行外部的查詢分析,整個架構非常簡單。

架構雖然簡單,但還是面臨很多挑戰(zhàn)。以Apache Hudi數(shù)據湖為例,數(shù)據湖是通過文件存儲各種各樣的數(shù)據, 對于CDC的數(shù)據處理需要對湖里某部分文件進行可靠地、事務性變更,這樣可以保證下游查詢不會看到部分結果,另外對CDC數(shù)據需要高效的做更新、刪除操作,這就需要快速定位到更改的文件,另外是對于每小批量的數(shù)據寫入,希望能夠自動處理小文件,避免繁雜的小文件處理,還有面向查詢的布局優(yōu)化,可以通過一些技術手段如Clustering改造文件布局,對外提供更好的查詢性能。

而Apache Hudi是怎么應對這些挑戰(zhàn)的呢?首先支持事務性寫入,包括讀寫之間的MVCC機制保證寫不影響讀,也可以控制事務及并發(fā)保證,對于并發(fā)寫采用OCC樂觀鎖機制,對更新刪除,內置一些索引及自定義保證更新、刪除比較高效。另外是面向查詢優(yōu)化,Hudi內部會自動做小文件的管理,文件會自動長到用戶指定的文件大小,如128M,這對Hudi來說也是比較核心的特性。另外Hudi提供了Clustering來優(yōu)化文件布局的功能。

下圖是典型CDC入湖的鏈路。上面的鏈路是大部分公司采取的鏈路,前面CDC的數(shù)據先通過CDC工具導入Kafka或者Pulsar,再通過Flink或者是Spark流式消費寫到Hudi里。第二個架構是通過Flink CDC直聯(lián)到MySQL上游數(shù)據源,直接寫到下游Hudi表。

其實,這兩條鏈路各有優(yōu)缺點。第一個鏈路統(tǒng)一數(shù)據總線,擴展性和容錯性都很好。對于第二條鏈路,擴展性和容錯性會稍微差點,但由于組件較少,維護成本相應較低。

這是阿里云數(shù)據庫OLAP團隊的CDC入湖鏈路,因為我們我們做Spark的團隊,所以我們采用的Spark Streaming鏈路入湖。整個入湖鏈路也分為兩個部分:首先有一個全量同步作業(yè),會通過Spark做一次全量數(shù)據拉取,這里如果有從庫可以直連從庫做一次全量同步,避免對主庫的影響,然后寫到Hudi。然后會啟動一個增量作業(yè),增量作業(yè)通過Spark消費阿里云DTS里的binlog數(shù)據來將binlog準實時同步至Hudi表。全量和增量作業(yè)的編排借助了Lakehouse的作業(yè)自動編排能力,協(xié)調全量和增量作業(yè),而對于全量和增量銜接時利用Hudi的Upsert語義保證全增量數(shù)據的最終的一致性,不會出現(xiàn)數(shù)據偏多和偏少的問題。

在Lakehouse的CDC入湖鏈路中,我們團隊也做了一些優(yōu)化。

第一個是原庫的Schema變更處理,我們對接的客戶某些列的增加、刪除或者修改某些列的場景。在Spark寫Hudi之前會做Schema的檢驗,看這個Schema是不是合法,如果合法就可以正常寫入,如果不合法的話,則會寫入失敗,而刪除字段會導致Schema校驗不合法,導致作業(yè)失敗,這樣穩(wěn)定性是沒有保證的。因此我們會捕捉Schema Validation的異常,如果發(fā)現(xiàn)是減少了字段,我們會把之前的字段做自動補全,然后做重試,保證鏈路是穩(wěn)定的。

第二個有些客戶表沒有主鍵或者主鍵不合理,比如采用更新時間字段作為主鍵,或者設置會變化的分區(qū)字段,這時候就會導致寫入Hudi的數(shù)據和源庫表數(shù)據對不上。因此我們做了一些產品層面的優(yōu)化,允許用戶合理設置主鍵和分區(qū)映射,保證同步到Hudi里和源庫是數(shù)據完全對齊的。

還有一個常見需求是用戶在上游庫中增加一個表,如果使用表級別同步的話,新增表在整個鏈路是無法感知的,也就無法同步到Hudi中,而在Lakehouse中,我們可以對整庫進行同步,因此在庫中新增表時,會自動感知新增表,將新增表數(shù)據自動同步到Hudi,做到原庫增加表自動感知的能力。

還有一個是對CDC寫入時候性能優(yōu)化,比如拉取包含Insert、Update、Delete等事件的一批數(shù)據,是否一直使用Hudi的Upsert方式寫入呢?這樣控制比較簡單,并且Upsert有數(shù)據去重能力,但它帶來的問題是找索引的效率低,而對于Insert方式而言,不需要找索引,效率比較高。因此對于每一批次數(shù)據會判斷是否都是Insert事件,如果都是Insert事件就直接Insert方式寫入,避免查找文件是否更新的開銷,數(shù)據顯示大概可以提升30%~50%的性能。當然這里也需要考慮到DTS異常,重新消費數(shù)據時,恢復期間不能直接使用Insert方式,否則可能會存在數(shù)據重復,對于這個問題我們引入了表級別的Watermark,保證即使在DTS異常情況下也不會出現(xiàn)數(shù)據重復問題。

三、Hudi核心設計

接著介紹下Hudi 的定位,根據社區(qū)最新的愿景,Hudi的定義是流式數(shù)據湖平臺,它支持海量數(shù)據更新,內置表格式以及支持事務的儲存,一系列列表服務Clean、Archive、

Compaction、Clustering等,以及開箱即用的數(shù)據服務,以及本身自帶的運維工具和指標監(jiān)控,提供很好的運維能力。

這是Hudi官網的圖,可以看到Hudi在整個生態(tài)里是做湖存儲,底層可以對接HDFS以及各種云廠商的對象存儲,只要兼容Hadoop協(xié)議接。上游是入湖的變化事件流,對上可以支持各種各樣的數(shù)據引擎,比如presto、Spark以及云上產品;另外可以利用Hudi的增量拉取能力借助Spark、Hive、Flink構建派生表。

整個Hudi體系結構是非常完備的,其定位為增量的處理棧。典型的流式是面向行,對數(shù)據逐行處理,處理非常高效。

但面向行的數(shù)據里沒有辦法做大規(guī)模分析做掃描優(yōu)化,而批處理可能需要每天全量處理一次,效率相對比較低。而Hudi引入增量處理的概念,處理的數(shù)據都是某一時間點之后的,和流處理相似,又比批處理高效很多,并且本身是面向數(shù)據湖中的列存數(shù)據,掃描優(yōu)化非常高效。

而回顧Hudi的發(fā)展歷史。2015年社區(qū)的主席發(fā)表了一篇增量處理的文章,16年在Uber開始投入生產,為所有數(shù)據庫關鍵業(yè)務提供了支撐;2017年,在Uber支撐了100PB的數(shù)據湖,2018年隨著云計算普及,吸引了國內外的使用者;19年Uber把它捐贈到Apache進行孵化;2020年一年左右的時間就成為了頂級項目,采用率增長了超過10倍;2021年Uber最新資料顯示Hudi支持了500PB數(shù)據湖,同時對Hudi做了很多增強,像Spark SQL DML和Flink的集成。最近字節(jié)跳動推薦部門分享的基于Hudi的數(shù)據湖實踐單表超過了400PB,總存儲超過了1EB,日增PB級別。

經過幾年的發(fā)展,國內外采用Hudi的公司非常多,比如公有云的華為云、阿里云、騰訊云以及AWS,都集成了Hudi,阿里云也基于Hudi構建Lakehouse。字節(jié)跳動的整個數(shù)倉體系往湖上遷移也是基于Hudi構建的,后面也會有相應的文章分享他們基于Flink+Hudi的數(shù)據湖的日增PB數(shù)據量的實踐。同時像百度、快手頭部互聯(lián)網大廠都有在使用。同時我們了解銀行、金融行業(yè)也有工商銀行、農業(yè)銀行、百度金融、百信銀行也有落地。游戲領域包括了三七互娛、米哈游、4399,可以看到Hudi在各行各業(yè)都有比較廣泛的應用。

Hudi的定位是一套完整的數(shù)據湖平臺,最上層面向用戶可以寫各種各樣的SQL,Hudi作為平臺提供的各種能力,下面一層是基于SQL以及編程的API,再下一層是Hudi的內核,包括索引、并發(fā)控制、表服務,后面社區(qū)要構建的基于Lake Cache構建緩存,文件格式是使用的開放Parquet、ORC、HFile存儲格式,整個數(shù)據湖可以構建在各種云上。

后面接著介紹Hudi的關鍵設計,這對我們了解Hudi非常有幫助。首先是文件格式,它最底層是基于Fileslice的設計,翻譯過來就是文件片,文件片包含基本文件和增量日志文件?;疚募褪且粋€Parquet或者是ORC文件,增量文件是log文件,對于log文件的寫入Hudi里編碼了一些block,一批Update可以編碼成一個數(shù)據塊,寫到文件里。而基礎文件是可插拔,可以基于Parquet,最新的9.0版本已經支持了ORC。還有基于HFile,HFile可用作元數(shù)據表。

Log文件里保存了一系列各種各樣的數(shù)據塊,它是有點類似于數(shù)據庫的重做日志,每個數(shù)據版本都可以通過重做日志找到。對于基礎文件和Log文件通過壓縮做合并形成新的基礎文件。Hudi提供了同步和異步的兩種方式,這為用戶提供了很靈活的選擇,比如做可以選擇同步Compaction,如果對延遲不敏感,而不需要額外異步起一個作業(yè)做Compaction,或者有些用戶希望保證寫入鏈路的延遲,可以異步做Compaction而不影響主鏈路。

Hudi基于File Slice上有個File Group的概念,F(xiàn)ile Group會包含有不同的File Slice,也File Slice構成了不同的版本,Hudi提供了機制來保留元數(shù)據個數(shù),保證元數(shù)據大小可控。

對于數(shù)據更新寫入,盡量使用append,比如之前寫了一個Log文件,在更新時,會繼續(xù)嘗試往Log文件寫入,對于HDFS這種支持append語義的存儲非常友好,而很多云上對象存儲不支持append語義,即數(shù)據寫進去之后不可更改,只能新寫Log文件。對于每個文件組也就是不同F(xiàn)ileGroup之間是互相隔離的,可以針對不同的文件組做不同的邏輯,用戶可以自定義算法實現(xiàn),非常靈活。

基于Hudi FileGroup的設計可以帶來不少收益。比如基礎文件是100M,后面對基礎文件進行了更新50M數(shù)據,就是4個FileGroup,做Compaction合并開銷是600M,50M只需要和100M合,4個150M開銷就是600M,這是有FileGroup設計。還是有4個100M的文件,也是做了更新,每一次合,比如25M要和400M合并,開銷是1200M,可以看到采用FileGroup的設計,合并開銷減少一半。

還有表格式。表格式的內容是文件在Hudi內是怎么存的。首先定義了表的根路徑,然后寫一些分區(qū),和Hive的文件分區(qū)組織是一樣的。還有對表的Schema定義,表的Schema變更,有一種方式是元數(shù)據記錄在文件里,也有的是借助外部KV存儲元數(shù)據,兩者各有優(yōu)缺點。

Hudi基于Avro格式表示Schema,因此對Schema的Evolution能力完全等同于Avro Schema的Evolution能力,即可以增加字段以及向上兼容的變更,如int變成long是兼容的,但long變成int是不兼容的。

當前現(xiàn)在社區(qū)已經有方案支持Full Schema Evolution,即可以增加一個字段,刪去一個字段,重命名,也就是變更一個字段。

還有一個是Hudi的索引設計。每一條數(shù)據寫入Hudi時,都會維護數(shù)據主鍵到一個文件組ID的映射,這樣在做更新、刪除時可以更快的定位到變更的文件。

右邊的圖里有個訂單表,可以根據日期寫到不同的分區(qū)里。下面就是用戶表,就不需要做分區(qū),因為它的數(shù)據量沒有那么大,變更沒那么頻繁,可以使用非分區(qū)的表。

對于分區(qū)表及變更頻繁的表,在使用Flink寫入時,利用Flink State構建的全局索引效率比較高。整個索引是可插拔的,包括Bloomfilter、 HBase高性能索引。在字節(jié)場景中, Bloomfilter過濾器完全不能滿足日增PB的索引查找,因此他們使用HBase高性能索引,因此用戶可根據自己的業(yè)務形態(tài)靈活選擇不同索引的實現(xiàn)。在有不同類型索引情況下可以以較低代價支持遲到的更新、隨機更新的場景。

另外一個設計是并發(fā)控制。并發(fā)控制是在0.8之后才引入的。Hudi提供樂觀鎖機制來處理并發(fā)寫問題,在提交的時候檢查兩個變更是否沖突,如果沖突就會寫入失敗。對于表服務如Compaction或者是Clustering內部沒有鎖,Hudi內部有一套協(xié)調機制來避免鎖競爭問題。比如做Compaction,可以先在timeline上先打一個點,后面完全可以和寫入鏈路解耦,異步做Compaction。

例如左邊是數(shù)據攝取鏈路,數(shù)據每半個小時攝取一次,右邊是異步刪除作業(yè),也會變更表,并且很有可能和寫入修改沖突,會導致這個鏈路一直失敗,平臺無故的消耗CPU資源,現(xiàn)在社區(qū)針對這種情況也有改進方案,希望盡早檢測并發(fā)寫入的沖突,提前終止,減少資源浪費。

另外一個設計是元數(shù)據表。因為Hudi最開始是基于HDFS構建和設計,沒有太多考慮云上存儲場景,導致在云上FileList非常慢。因此在0.8版本,社區(qū)引入了Metadata Table,Metadata Table本身也是一張Hudi表,它構建成一張Hudi,可以復用Hudi表等各種表服務。Metadata Table表文件里會存分區(qū)下有的所有文件名以及文件大小,每一列的統(tǒng)計信息做查詢優(yōu)化,以及現(xiàn)在社區(qū)正在做的,基于Meta Table表構建全局索引,每條記錄對應每個文件ID都記錄在Meta table,減少處理Upsert時查詢待更新文件的開銷,也是上云必備。

四、Hudi未來規(guī)劃

未來的規(guī)劃,如基于Pulsar、Hudi構建Lakehouse,這是StreamNative CEO提出的Proposal,想基于Hudi去構建Pulsar分層的存儲。在Hudi社區(qū),我們也做了一些工作,想把Hudi內置的工具包DeltaStreamar內置Pulsar Source,現(xiàn)在已經有PR了,希望兩個社區(qū)聯(lián)系可以更緊密。Pular分層存儲內核部分StreamNative有同學正在做。

最近幾天已經發(fā)布了0.9.0重要的優(yōu)化和改進。首先集成了Spark SQL,極大降低了數(shù)據分析人員使用Hudi的門檻。

Flink集成Hudi的方案早在Hudi的0.7.0版本就有了,經過幾個版本的迭代,F(xiàn)link集成Hudi已經非常成熟了,在字節(jié)跳動等大公司已經在生產使用。Blink團隊做的一個CDC的Format集成,直接把Update、Deltete事件直接存到Hudi。還有就是做存量數(shù)據的一次性遷移,增量了批量導入能力,減少了序列化和反序列化的開銷。

另外現(xiàn)在有一些用戶會覺得Hudi存一些元數(shù)據字段,比如_hoodie_commit_time等元信息,這些信息都是從數(shù)據信息里提取的,有部分存儲開銷,現(xiàn)在支持虛擬鍵,元數(shù)據字段不會再存數(shù)據了,它帶來的限制就是不能使用增量ETL,無法獲取Hudi某一個時間點之后的變更數(shù)據。

另外很多小伙伴也在希望Hudi支持ORC格式,Hudi最新版本支持了ORC格式,同時這部分格式的是可插拔的,后續(xù)可以很靈活接入更多的格式。還做了Metadata Table的寫入和查詢優(yōu)化,通過Spark SQL查詢的時候,避免Filelist,直接通過Metadata Table獲取整個文件列表信息。

從更遠來看社區(qū)未來的規(guī)劃包括對于Spark集成升級到Data SourceV2,現(xiàn)在Hudi基于V1,無法用到V2的性能優(yōu)化。還有Catalog集成,可以通過Catalog管理表,可以創(chuàng)建、刪除、更新,表格元數(shù)據的管理通過Spark Catalog集成。

Flink模塊Blink團隊有專職同學負責,后續(xù)會把流式數(shù)據里的Watremark推到Hudi表里。

另外是與Kafka Connect Sink的集成,后續(xù)直接通過Java客戶把Kafka的數(shù)據寫到Hudi。

在內核側的優(yōu)化,包括了基于Metadata Table全局記錄級別索引。還有字節(jié)跳動小伙伴做的寫入支持Bucket,這樣的好處就是做數(shù)據更新的時候,可以通過主鍵找到對應Bucket,只要把對應Bucket的parquet文件的Bloomfilter讀取出來就可以了,減少了查找更新時候的開銷。

還有更智能地Clustering策略,在我們內部也做了這部分工作,更智能的Clustering可以基于之前的負載情況,動態(tài)的開啟Clustering優(yōu)化,另外還包括基于Metadata Table構建二級索引,以及Full Schema Evolution和跨表事務。

現(xiàn)在Hudi社區(qū)發(fā)展得比較快,代碼重構量非常大,但都是為了更好的社區(qū)發(fā)展,從0.7.0到0.9.0版本Flink集成Hudi模塊基本上完全重構了,如果有興趣的同學可以參與到社區(qū),共同建設更好的數(shù)據湖平臺。

責任編輯:梁菲 來源: 阿里云云棲號
相關推薦

2022-06-09 14:19:46

順豐數(shù)據集成Flink

2021-06-04 07:24:14

Flink CDC數(shù)據

2022-10-24 00:26:51

大數(shù)據Hadoop存儲層

2023-02-26 00:12:10

Hadoop數(shù)據湖存儲

2021-09-13 13:46:29

Apache HudiB 站數(shù)據湖

2021-08-31 10:07:16

Flink Hud數(shù)據湖阿里云

2025-02-11 10:13:05

2022-10-17 10:48:50

Hudi大數(shù)據Hadoop

2020-10-30 09:27:25

開源技術 數(shù)據

2023-07-12 12:02:06

WOT大數(shù)據流式數(shù)據湖

2020-03-26 10:05:18

大數(shù)據IT互聯(lián)網

2011-12-07 10:34:29

JavaTomcat

2021-09-13 14:19:03

HudiLakehouse阿里云

2021-02-18 09:54:37

數(shù)據湖框架數(shù)據

2011-12-08 08:55:15

JavaSDK

2012-01-18 11:08:42

Tomcat

2011-12-27 09:25:29

ApacheJava

2012-02-22 09:22:26

ApacheTomcat

2023-12-14 13:01:00

Hudivivo

2011-09-08 13:11:14

框架
點贊
收藏

51CTO技術棧公眾號